La universalidad del código genético, sus excepciones y su significado

El código genético es una de las maravillas del mundo natural. Es la idea al principio de todas las ideas. La vida como la conocemos en la Tierra se basa toda en la capacidad del código de transmitir la información necesaria para poner en marcha la maquinaria biológica. 

Aunque estoy familiarizado con el código genético hace más de quince años, fue apenas hace dos años que mi fascinación por el tema cobró mayor fuerza. Fue a mediados de 2018, cuando se publicó el hallazgo de una versión un tanto diferente del código en un hongo, la levadura Ascoidea asiatica. Hasta ese momento, yo creía que el código genético era universal, que todos los seres vivos de la Tierra hablábamos exactamente el mismo idioma molecular. Pero, como lo ilustra el caso de Ascoidea asiatica, hay excepciones. Eso sí, como suele decirse, son excepciones que refinan la regla. En este caso la regla general es la existencia de un código genético estándar que, pocas veces en la historia de la vida, ha variado y ha dado lugar a códigos alternativos. De ahí que siga siendo aceptada la universalidad del código y su implicación más importante: todos los terrícolas descendemos de un único organismo, el último antepasado común universal (LUCA, por sus siglas en inglés). Voy a tratar de explicar más despacio el significado de todo esto. Empecemos por el principio.

Un código es un sistema de reglas que permite convertir información de un tipo a otro.

Así, por ejemplo, el código morse permite traducir señales compuestas de puntos y rayas en letras y números, los cuales a su vez pueden combinarse de diversas formas, dando así lugar a significados que interpretamos de acuerdo a las reglas de los diferentes lenguajes humanos. Otro ejemplo de código es el sistema de notación musical, que permite a un intérprete o grupo de intérpretes la traducción de símbolos escritos en los sonidos que reconocemos como música. Por otro lado, el código binario permite la traducción de una secuencia de ceros y unos en instrucciones que sigue un computador. 

Independientemente del medio que se utilice en cada uno de estos casos, todos los códigos tienen en común la capacidad de transmitir o almacenar información. El código genético no es diferente: es el sistema de reglas que permite almacenar y transmitir la información necesaria para la vida. Esta información se almacena en forma de ADN o ARN y se traduce en el mundo vivo en forma de proteínas.

Las proteínas son responsables de la estructura y los mecanismos de la vida.

Este rol central viene dado por las diversas funciones que pueden cumplir. Las proteínas dan estructura a los tejidos, facilitan reacciones químicas, transportan sustancias, sirven de mensajeros o defensores del organismo. Ejemplos famosos de proteínas son los anticuerpos, la insulina, la lactasa, la hemoglobina, el colágeno, la oxitocina. Todas estas funciones son posibles por la infinidad de formas que pueden adoptar las proteínas. Es la estructura tridimensional de cada proteína lo que le permite encajar en diferentes lugares, unirse con otras proteínas y moléculas, y así ejecutar una función determinada. 

Las proteínas son cadenas de moléculas más simples que se conocen como aminoácidos. Así como una palabra se construye poniendo determinadas letras en un orden específico, la estructura de las proteínas depende de la secuencia en que se combinan veinte aminoácidos específicos que utilizamos los seres vivos. Estas cadenas pueden ser cortas, de menos de unos cincuenta aminoácidos, en cuyo caso se les denomina péptidos; pero hay cadenas de hasta varios miles de aminoácidos. La posibilidad de combinar cualquiera de los veinte aminoácidos, en cualquier orden, y en una cadena tan corta o larga como se quiera, hace posible la construcción de moléculas con diversas características. Se trata de un sistema combinatorio cuya capacidad expresiva bien puede ser ilimitada.

La síntesis de proteínas se da en el interior de todas las células de todos los seres vivos. Esta tarea es llevada a cabo por unas pequeñas máquinas moleculares que se conocen con el nombre de ribosomas. Estos se encargan de enlazar, en el orden correcto, los aminoácidos específicos para la construcción de cada proteína. Es un proceso complejo, que bien daría para un libro completo, pero aquí me interesa llegar a una respuesta sencilla para una cuestión específica: ¿Cómo determina un ribosoma en qué orden debe agregar los aminoácidos a la proteína en formación? Antes de responder a esta pregunta, el lector debe familiarizarse con otras ideas.

Las instrucciones para la construcción de las proteínas se almacenan en el ADN

El ADN es una larga cadena doble de compuestos más simples, llamados nucleótidos. Los nucleótidos se suelen diferenciar por la molécula que les sirve de base, las llamadas bases nitrogenadas. Las cadenas de ADN usan cuatro bases: adenina, guanina, citosina y timina. Por convención, usamos sus iniciales para representar las letras del código genético: A, G, C y T. La estructura de doble cadena es posible gracias a la tendencia de las bases nitrogenadas a unirse en parejas complementarias, así: A-T y C-G. Esta estructura le sirve al ADN para hacer copias de sí mismo durante la división celular, en la que las cadenas se separan y cada una sirve de plantilla para una nueva.

El ADN está confinado al núcleo de la célula, por lo que, para llegar eventualmente a traducirse en proteínas, la información genética debe buscar la manera de salir al citoplasma, donde se encuentran los ribosomas. Esta tarea la cumple el llamado ARN mensajero (ARNm), una molécula capaz de complementarse con el ADN y de leer la información que este guarda. A diferencia del ADN, el ARN está conformado por una sola cadena. Y en lugar de timina, el ARN utiliza otra base nitrogenada que se llama uracilo. Menciono esto porque, cuando una secuencia de ADN se transcribe en forma de ARNm, nos referimos a las cuatro letras del código como A, G, C y U. Como veremos, esta es la versión del código que se traducirá en proteínas.

La estructura del ADN se descubrió en 1953, gracias al trabajo de Rosalind Franklin, Maurice Wilkins, James Watson y Francis Crick; pero tomó alrededor de diez años entender cómo se codificaba la información en la secuencia de bases del ADN. La pregunta era cómo podían combinarse las cuatro letras para codificar veinte aminoácidos. Si se agruparan en parejas, habría 16 (42) combinaciones posibles, lo cual sería insuficiente. Si se agruparan en cuartetos, las posibilidades ascenderían a 256 (44), lo cual sería excesivo. Así, lo más óptimo sería un código en el que una secuencia de tres nucleótidos representara un aminoácido. Esto daría lugar a 64 (43) combinaciones posibles. Esta hipótesis, atribuida originalmente al físico George Gamow, resultó acertada. Las secuencias de tres bases, las palabras del código genético, fueron bautizadas como codones.

El código genético (imagen compartida por Manuel Medina en Flickr).

Hoy sabemos que, de los 64 codones posibles, 61 codifican aminoácidos, mientras que los tres restantes sirven de señales que ordenan la detención del proceso de síntesis proteica, por lo que se les llama codones de terminación (en rojo en la imagen de arriba). Estos son UAA, UAG, y UGA. El codón AUG, que codifica el aminoácido metionina (en verde), cumple también la función de codón de inicio. Puesto que hay más codones que aminoácidos, decimos que el código genético es redundante: un mismo aminoácido puede ser codificado por varios codones; pero ojo, que la situación inversa no ocurre: para cada codón solamente hay un aminoácido. Excepto en el caso de Ascoidea asiatica, una levadura que juega a los dados con el codón CUG. Para entender esto, vamos a hablar del ARN de transferencia (ARNt).

El ARNt es el traductor del código genético.

Esta molécula es el enlace entre la información que porta el ARNm y las proteínas que se sintetizan en el ribosoma de acuerdo a dicha información. Veámoslo:

Estructura del ARNt (Autor: Yikrazuul, en Wikimedia Commons).

La imagen grande es la representación de la estructura tridimensional del ARNt. En el recuadro hay un esquema de dos dimensiones que nos permite distinguir las diferentes regiones de la molécula. Cada color es una región diferente. Para la comprensión básica que perseguimos, nos basta con hablar de dos de ellas: el área negra en el polo inferior y el área amarilla en el polo superior. La primera es el llamado anticodón, una secuencia de tres bases nitrogenadas que se complementan con las tres bases de un codón en el ARNm. La segunda es la llamada cola CCA (citosina, citosina, adenina), que se encarga de unirse, con ayuda de una enzima específica, a un aminoácido compatible.

Lo que hace posible la traducción correcta del código genético es el hecho de que hay varios tipos de ARNt, cada uno de los cuales puede cargar un aminoácido específico (en su cola CCA) al mismo tiempo que es capaz de reconocer (a través del anticodón), a un codón específico del ARNm. El proceso de traducción ocurre cuando el ARNm es leído en el ribosoma, gracias a las moléculas de ARNt que van llegando cargadas con sus respectivos aminoácidos y que los liberan, en el orden correcto, cuando su anticodón encuentra el codón complementario en la secuencia del ARNm.

Esta es una simplificación excesiva, grosera. El proceso de traducción es complicado y son muchas las moléculas que intervienen en él; hay toda una maquinaria de la traducción del código genético; pero lo que quiero subrayar aquí es cómo el código, la regla que permite la conversión de un tipo de información a otro, está inscrito en la estructura del ARNt. Así, cuando decimos que el codón AUG codifica la metionina, es porque hay al menos un ARNt compatible con metionina que porta el anticodón (UAC) complementario del codón AUG. Otro ejemplo: la histidina viene codificada por los codones CAU y CAC; es decir que hay al menos dos ARNt capaces de cargar este aminoácido, uno con el anticodón (GUA) complementario de CAU y otro con el anticodón (GUG) complementario de CAC. 

Aquí vemos nuevamente la redundancia del código genético. El ejemplo más extremo de esto es el aminoácido leucina, para el cual existen seis ARNt, cada uno de los cuales porta un anticodón diferente. Como dije antes, aunque varios codones pueden codificar un mismo aminoácido, el código normalmente no permite que un mismo codón codifique dos o más aminoácidos. De ser esto posible, el código sería, ya no redundante, sino ambiguo, y lo escrito en el ADN podría traducirse de varias maneras, llevando a imprecisiones en la construcción de las proteínas y a alteraciones en su función. Sin embargo las leyes de la biología no son absolutas. La historia de la vida, si bien limitada por las leyes de la física y de la química, está abierta a accidentes y excepciones de toda clase. 

El código genético no es del todo universal.

En el código genético estándar, el codón CUG es uno de los seis que codifican la leucina. Sin embargo hay otras versiones del código, utilizadas por ciertas levaduras, en las que CUG codifica la serina. Y aún hay otras en que codifica la alanina. Este código alternativo se describió por primera vez en 1989 en la especie Candida cylindracea. Ya a principios de los ochenta se habían descrito otras excepciones al código genético universal, con los reportes de algunos microorganismos que usaban codones de terminación para codificar aminoácidos. Lo curioso es que estos datos, según mi dudosa experiencia, no son muy conocidos. Al menos yo fui ignorante de ellos por muchos años.

El descubrimiento más notable de un código genético alternativo fue llevado a cabo hace dos años por la doctora Stefanie Mühlhausen y su equipo de colaboradores. Ellos encontraron que la levadura Ascoidea asiatica, al sintetizar sus proteínas, a veces traduce el codón CUG como leucina y otras veces como serina. La proporción con la que se traduce uno u otro es de alrededor del 50%. La explicación que proponen es que esta especie de hongo tiene dos moléculas de ARNt que portan el anticodón (GAC) complementario del codón CUG. Uno de estos ARNt es capaz de cargar la leucina y el otro la serina. Esto es excepcional porque, en los códigos alternativos descritos en otras especies, se sigue cumpliendo la regla de que un codón es igual a un aminoácido. El de Ascoidea asiatica es el primer caso conocido de ambigüedad, en el que un codón puede tener dos significados distintos.

Ilustración tomada del artículo de Mühlhausen y colaboradores en Current Biology: Codificación estocástica de CUG en Ascoidea asiatica a través de ARNt competitivos.

Ahora, estas excepciones, por lo escasas que son, subrayan la estabilidad del código genético a lo largo y ancho del árbol de la vida. Las levaduras que hacen usos diversos del codón CUG probablemente tienen un antepasado común, el cual sufrió una mutación que lo llevó a perder el ARNt que traducía CUG en leucina. Se trata de un cambio en la manera de leer un solo codón entre los 64 posibles. Antes de este accidente, el código genético de las levaduras no tenía nada de especial. Lo mismo aplica a los demás códigos alternativos: son escasos y corresponden a cambios mínimos; pero el código genético de base es el mismo. Por eso insistimos en la universalidad del código, por eso decimos que el origen de este lenguaje molecular se puede rastrear hasta el último antepasado común universal (LUCA), pues sería una coincidencia milagrosa que una misma versión básica del código genético hubiera evolucionado de manera independiente en los diferentes reinos de la vida.

La universalidad del código genético es evidencia de parentesco entre todos los terrícolas.

Estudiando las estructuras que hacen parte de la maquinaria de traducción, de las moléculas que hacen posible el código genético, podemos informarnos sobre ese momento antiquísimo en la historia de nuestro planeta, cuando LUCA nadaba en una sopa de compuestos orgánicos. Fue gracias al estudio del ARN ribosomal (otro tipo de ARN que hace parte de la estructura de los ribosomas), que Carl Woese determinó, en los años setenta, que había un tercer dominio de seres vivos: las arqueas. Esto permitió reconstruir el árbol de la vida que, hasta ese momento, se dibujaba con dos troncos principales: Eukaryota y Prokaryota. A partir del trabajo de Woese, hablamos de tres dominios de la vida en la Tierra: Bacteria, Archaea y Eukarya.

Árbol filogénetico de la vida, según Carl Woese y colaboradores. (Wikimedia Commons).

Desde entonces sabemos que los eucariotas estamos más cercanamente emparentados con las arqueas que con las bacterias. Pero aún con las bacterias compartimos un origen común. No podemos decir que este antepasado común sea el origen de la vida, pues las estructuras que hacen posible el código genético son demasiado complicadas. Antes de que el código adquiriera su forma más o menos definitiva en LUCA, tuvo que haber versiones más simples de transmisión de información genética, y aún más atrás, alguna molécula replicadora lo suficientemente simple como para formarse espontáneamente en la Tierra primitiva.

Es difícil especular mucho más sobre los antecesores y contemporáneos de LUCA: al fin y al cabo fueron eliminados por la selección natural. Hasta qué punto esto fue un accidente y hasta qué punto nuestro código genético ofrece alguna ventaja especial, no lo sabemos. De pronto mañana, cuando encontremos alguna forma de vida extraterrestre, podremos acercarnos a una respuesta. Hasta ahora, solo conocemos una forma de vida. En nuestro planeta hay un hilo continuo de información que lleva, desde usted y yo, desde todos los organismos vivos hoy, hasta un organismo que vivió hace alrededor de tres mil millones de años. Este hilo, que narra la historia de la vida en la Tierra, está escrito en las letras del código genético.

Lecturas adicionales:

  • Benjamin Pierce. Genetics, A Conceptual Approach. Sixth Edition. (2017). En español: Genética. Un enfoque conceptual.
  • Lynn E. H. Trainor. The Triplet Genetic Code: Key To Living Organisms. (2001).
  • David Quammen. The Tangled Tree: A Radical New History of Life. (2018). En español: El árbol enmarañado. Una nueva y radical historia de la vida.
  • Siddartha Mukherjee. The Gene: An Intimate Story. (2017). En español: El gen. Una historia personal.
  • Kawaguchi, Y., Honda, H., Taniguchi-Morimura, J. et al. The codon CUG is read as serine in an asporogenic yeast Candida cylindracea. Nature 341, 164–166 (1989). https://doi.org/10.1038/341164a0
  • Mühlhausen S, Schmitt HD, Pan KT, Plessmann U, Urlaub H, Hurst LD, Kollmar M. Endogenous Stochastic Decoding of the CUG Codon by Competing Ser- and Leu-tRNAs in Ascoidea asiatica. Curr Biol. 2018 Jul 9;28(13):2046-2057.e5. doi: 10.1016/j.cub.2018.04.085. Epub 2018 Jun 18. PMID: 29910077; PMCID: PMC6041473
  • Página web de la doctora Stefanie Mühlhausen: https://stefaniemuehlhausen.de/
  • Video en el que la doctora Mühlhausen resume su artículo: https://www.youtube.com/watch?v=YVc79iTyXPE

La imagen de la portada es una ilustración de la estructura de doble hélice del ADN. La tomé de Wikimedia Commons.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

Crea tu sitio web con WordPress.com
Empieza ahora
A %d blogueros les gusta esto: