Un consorcio internacional acaba de ampliar en 200 millones de letras lo que sabíamos del genoma humano, que incluyen por lo menos 115 nuevos genes que desconocíamos.
En febrero se cumplieron 20 años de la publicación del primer borrador del genoma humano, aparecido simultáneamente en las revistas Nature y Science, que daban cuenta de los resultados del proyecto público y privado, respectivamente. Dos años después, en abril de 2003, con motivo de la celebración del cincuentenario de la publicación de la estructura del ADN, determinada por Watson y Crick, se completó el borrador y se publicó en Nature la versión del genoma que hemos venido usando hasta ahora, con sucesivas actualizaciones, la última de las cuales, está fechada en diciembre de 2013.
Esencialmente, desde entonces, dejando a un lado los genomas propios de cada grupo poblacional que muchos países han ido construyendo para analizar y filtrar mejor sus proyectos de secuenciación masiva, lo cierto es que hemos venido usando un mismo genoma humano como referencia, entendiendo por tal un conjunto de secuencias genéticas de ADN que incluyen las que corresponden a los 22 cromosomas autosómicos (del 1 al 22), los cromosomas sexuales X e Y, y el ADN mitocondrial.
El genoma humano actual de referencia, que se usa para comparar con cualquier otra secuencia de genomas humanos, sean con objetivos diagnósticos o de investigación, es el identificado como GRCh38.p13, y contiene exactamente 3.096.649.726 pares de bases y 20.442 genes codificantes, como puede comprobarse en el portal europeo de genomas ENSEMBL, cifras que solemos simplificar hablando de alrededor de 3.000 millones de pares de bases para el tamaño de nuestro genoma, y de unos 20.000 para el número de genes que tiene la especie humana.
¿Quiere esto decir que tenemos todo el genoma humano resuelto, sin indeterminaciones ni incertidumbres, sin huecos ni agujeros que todavía estén por completar, sin secuencias desconocidas por asignar a algún cromosoma?
Pues me temo que no. Sabemos poco o nada de un 8 % de nuestro genoma, que o bien no logramos secuenciar, o no logramos ensamblar correctamente, o ninguna de las dos cosas. Hay muchas zonas repetitivas, difíciles de secuenciar y ensamblar (como intentar resolver las zonas uniformes de cielo azul de un puzzle, pues todas se parecen y cuesta mucho identificar qué pieza va en cada lugar).
Muchas veces, el número de unidades que las forman está todavía por definir (sabiendo además que el número de repeticiones puede cambiar entre individuos). La secuenciación por el método de Sanger (con lecturas de hasta 800 a 1000 nucleótidos), que fue la que inicialmente se usó para la secuenciación del genoma humano, y la secuenciación masiva a través de millones de pequeños fragmentos de ADN (de 100 a 200 nucleótidos de longitud), que deben ser ensamblados mediante algoritmos bioinformáticos, deja muchos espacios y huecos que quedan por definir, y que, por limitaciones de estas aproximaciones metodológicas ha costado poder resolver, y en algunos casos todavía no se han resuelto.
En este sentido, al consultar el portal de genomas estadounidense NCBI puede comprobarse que el genoma humano actual de referencia contiene más de 183 millones de pares de bases que no hemos podido asignar todavía a ningún cromosoma.
Un consorcio de investigadores acaba de depositar un manuscrito en bioRxiv, pendiente de revisión y publicación en alguna revista científica, en el que informan de la secuenciación del genoma de una línea celular humana casi homocigota (las dos copias de cada gen son idénticas) usando las nuevas tecnologías de secuenciación PacBio y NanoPore, que permiten la obtención de secuencias de ADN mucho más largas, desde unas pocas decenas de miles de nucleótidos (<20,000) con PacBio, hasta más de un millón de nucleótidos, con NanoPore, pero con un porcentaje de error muy alto, hasta del 15 % (aunque una última versión de PacBio HiFi parece anunciar un porcentaje de error del 0,1 %).
Como referencia, la secuenciación por Sanger, la más antigua y la más fiable, tiene un porcentaje de error de alrededor del 0,001 %, mientras que la secuenciación masiva actual (NGS), según los métodos, tiene un error del 0,1-1 %. Por eso todos los diagnósticos genéticos basados en métodos de secuenciación masiva deben confirmarse y validarse mediante la técnica de Sanger antes de ser comunicados a los pacientes.
Este consorcio, denominado Telomere to Telomere (T2T) “de cabo a rabo”, diríamos aquí, formado por numerosos investigadores de hasta treinta instituciones implicadas, ha logrado completar la secuenciación del genoma de las células humanas CHM13, incluidas las regiones centroméricas (centrales) y las subtelómericas (de los extremos) de los brazos cortos de los cromosomas acrocéntricos, que hasta ahora se resistían a los algoritmos de ensamblado.
Esta iniciativa de secuenciación de “un” genoma humano (el de estas células), como indican los autores en el título de su manuscrito (no de “el” genoma humano) ofrece casi 200 millones de pares de bases nuevos, con más de 2.000 supuestos nuevos genes, de los cuales 115 parecen codificar nuevas proteínas.
Las líneas celulares CHM (mola hidatiforme completa, por sus siglas en inglés) derivan de patologías placentarias, una complicación poco frecuente del embarazo que produce gestaciones de pseudoembriones monoparentales, que en origen suelen ser haploides, porque han perdido el genoma de uno de los progenitores (normalmente el masculino) y acaban duplicando el genoma que les queda, lo cual facilita su secuenciación posterior. Si secuenciamos una persona cualquiera, dado que de cada gen tenemos dos copias, una heredada de nuestro padre y otra de nuestra madre, que no tienen por qué ser idénticas, la secuencia resultante será compleja, pues para muchas posiciones del genoma no tendremos una solo letra sino dos diferentes.
Lo primero que hay que destacar es que la secuenciación de este genoma no contiene el cromosoma Y, puesto que las células CHM13 son 46XX. Ya están trabajando en ello e intentarán la secuenciación completa, con técnicas similares, de otras líneas celulares que sí hayan retenido el cromosoma Y.
Los autores proponen que este nuevo genoma humano, más completo que el actual, sea la nueva referencia. Esto puede ser complicado. Primero porque falta el cromosoma Y. Y después porque para que esta propuesta funcione debería ser adoptada solidaria y universalmente por toda la comunidad científica. Algo que creo todavía tardará en ocurrir.
Sin embargo, es cierto que este nuevo genoma humano puede ayudar a interpretar, alinear y anotar muchos fragmentos cortos de ADN derivados de la secuenciación masiva que hasta ahora no encontraban donde encajar en el genoma habitualmente usado de referencia. Y puede que resuelva la existencia de mutaciones en pacientes en los que el aparente análisis de su "genoma completo" no había dado resultados hasta ahora, cuando quizás, su mutación se ocultaba en ese 8 % del cual desconocíamos su existencia.
No hay un genoma humano sino muchos, tantos como personas. Todos compartimos aproximadamente el 99,9 % del ADN, y por lo tanto nos diferenciamos en apenas un 0.1 %, que corresponde a unos tres millones de pares de bases. Tres millones de letras que nos hacen afortunadamente diferentes, entre las cuales pueden aparecer algunos errores que causen alguna enfermedad. Ser capaz de diagnosticar estas mutaciones es esencial para diseñar terapias o anticipar tratamientos que alivien o curen esa enfermedad. Por eso, bienvenida sea esta nueva versión de un genoma humano que puede servir para descubrir mejor esas mutaciones y analizar las diferencias genéticas existentes entre los seres humanos, y su impacto en la salud y la enfermedad.
Lluís Montoliu es investigador científico del Centro Nacional de Biotecnología (CNB-CSIC) y Centro de Investigación Biomédica en Red en Enfermedades Raras (CIBERER-ISCIII). Además, es presidente del Comité de Ética del CSIC.