Notación de ácidos nucleicos

Notación universal que utiliza los caracteres romanos A, C, G y T para llamar a los cuatro nucleótidos del ADN.

La notación de ácidos nucleicos actualmente en uso fue formalizada por primera vez por la Unión Internacional de Química Pura y Aplicada (IUPAC) en 1970. ^[1] Esta notación universalmente aceptada utiliza los caracteres romanos G, C, A y T para representar los cuatro nucleótidos que se encuentran comúnmente en los ácidos desoxirribonucleicos (ADN).

Dada la rápida expansión del papel de la secuenciación, síntesis y análisis genéticos en biología, algunos investigadores han desarrollado notaciones alternativas para respaldar aún más el análisis y la manipulación de datos genéticos. Estas notaciones generalmente aprovechan el tamaño, la forma y la simetría para lograr estos objetivos.

Notación IUPAC

Símbolos de base degenerada de la IUPAC ^[2]
Descripción	Símbolo	Bases representadas					Bases complementarias
Descripción	Símbolo	No.	A	do	GRAMO	yo	Bases complementarias
Adenina	A	1	A				yo
Citosina	do			do			GRAMO
Guanina	GRAMO				GRAMO		do
Timina	yo					yo	A
Uracilo	tú					tú	A
Débil	Yo	2	A			yo	Yo
Fuerte	S			do	GRAMO		S
Aminado	METRO		A	do			K
Cetona	K				GRAMO	yo	METRO
Purina	R		A		GRAMO		Y
Pirimidina	Y			do		yo	R
No es un	B	3		do	GRAMO	yo	V
No C	D		A		GRAMO	yo	yo
No G	yo		A	do		yo	D
No T ^[a]	V		A	do	GRAMO		B
Cualquier base	norte	4	A	do	GRAMO	yo	norte
Brecha	-	0					-
^ No U para ARN

Los símbolos de bases degeneradas en bioquímica son una representación IUPAC ^[2]^[3] de una posición en una secuencia de ADN que puede tener múltiples alternativas posibles. No deben confundirse con bases no canónicas porque cada secuencia particular tendrá de hecho una de las bases regulares. Se utilizan para codificar la secuencia de consenso de una población de secuencias alineadas y se utilizan, por ejemplo, en análisis filogenéticos para resumir en una sola secuencia múltiple o para búsquedas BLAST , aunque los símbolos degenerados IUPAC están enmascarados (ya que no están codificados).

En el sistema IUPAC, comúnmente utilizado, las nucleobases se representan con las primeras letras de sus nombres químicos: guanina, citosina, adenina y timina. ^[1] Esta abreviatura también incluye once caracteres de "ambigüedad" asociados con cada combinación posible de las cuatro bases del ADN. ^[4] Los caracteres de ambigüedad se diseñaron para codificar variaciones posicionales con el fin de informar errores de secuenciación del ADN , secuencias de consenso o polimorfismos de un solo nucleótido . La notación IUPAC, incluidos los caracteres de ambigüedad y las mnemotecnias sugeridas, se muestra en la Tabla 1.

A pesar de su amplia y casi universal aceptación, el sistema IUPAC tiene una serie de limitaciones, que se derivan de su dependencia del alfabeto romano. La escasa legibilidad de los caracteres romanos en mayúsculas, que se utilizan generalmente al mostrar datos genéticos, puede ser la principal de estas limitaciones. El valor de las proyecciones externas para distinguir letras ha sido bien documentado. ^[5] Sin embargo, estas proyecciones están ausentes en las letras mayúsculas, que en algunos casos solo se distinguen por sutiles pistas internas. Tomemos como ejemplo la C y la G mayúsculas utilizadas para representar la citosina y la guanina. Estos caracteres generalmente comprenden la mitad de los caracteres de una secuencia genética, pero se diferencian por una pequeña marca interna (dependiendo del tipo de letra). Sin embargo, estos caracteres romanos están disponibles en el conjunto de caracteres ASCII más comúnmente utilizado en las comunicaciones textuales, lo que refuerza la ubicuidad de este sistema.

Otra deficiencia de la notación IUPAC surge del hecho de que sus once caracteres de ambigüedad se han seleccionado de los caracteres restantes del alfabeto romano. Los autores de la notación se esforzaron por seleccionar caracteres de ambigüedad con mnemotecnia lógica. Por ejemplo, se utiliza S para representar la posibilidad de encontrar citosina o guanina en loci genéticos, los cuales forman fuertes interacciones de unión entre cadenas. Por el contrario, las interacciones más débiles de timina y adenina se representan con una W. Sin embargo, no se dispone de mnemotecnias convenientes para los otros caracteres de ambigüedad que se muestran en la Tabla 1. Esto ha hecho que los caracteres de ambigüedad sean difíciles de usar y puede explicar su aplicación limitada.

Nomenclatura de los ácidos nucleicos

Las posiciones de los carbonos en el azúcar ribosa que forma la estructura principal de la cadena de ácidos nucleicos están numeradas y se utilizan para indicar la dirección de los ácidos nucleicos (5'->3' versus 3'->5'). Esto se conoce como direccionalidad . ^[3]

Notaciones alternativas visualmente mejoradas

Los problemas de legibilidad asociados con los datos genéticos codificados por la IUPAC han llevado a los biólogos a considerar estrategias alternativas para la visualización de datos genéticos. Estos enfoques creativos para visualizar secuencias de ADN generalmente se han basado en el uso de símbolos distribuidos espacialmente y/o formas visualmente distintas para codificar secuencias extensas de ácidos nucleicos. Se han intentado notaciones alternativas para las secuencias de nucleótidos, sin embargo, la aceptación general ha sido baja. A continuación se resumen varios de estos enfoques.

Proyección de pentagrama

En 1986, Cowin et al. describieron un nuevo método para visualizar secuencias de ADN conocido como proyección de pentagrama. ^[6] Su estrategia consistía en codificar nucleótidos como círculos en series de barras horizontales similares a las notas de un pentagrama musical. Como se ilustra en la Figura 1, cada espacio en el pentagrama de cinco líneas correspondía a una de las cuatro bases de ADN. La distribución espacial de los círculos hizo que fuera mucho más fácil distinguir bases individuales y comparar secuencias genéticas que los datos codificados por la IUPAC.

El orden de las bases (de arriba a abajo, G, A, T, C) se elige de manera que la cadena complementaria se pueda leer girando la proyección hacia abajo.

Símbolos geométricos

Zimmerman et al. adoptaron un enfoque diferente para visualizar los datos genéticos. ^[7] En lugar de basarse en círculos distribuidos espacialmente para resaltar las características genéticas, explotaron cuatro símbolos geométricamente diversos que se encuentran en una fuente de computadora estándar para distinguir las cuatro bases. Los autores desarrollaron una macro simple de WordPerfect para traducir los caracteres IUPAC en símbolos visualmente más distintivos.

Horizonte de ADN

Con la creciente disponibilidad de editores de fuentes, Jarvius y Landegren idearon un nuevo conjunto de símbolos genéticos, conocido como la fuente DNA Skyline, que utiliza bloques cada vez más altos para representar las diferentes bases de ADN. ^[8] Si bien recuerda a la proyección de pentagrama distribuida espacialmente de Cowin et al ., la fuente DNA Skyline es fácil de descargar y permite la traducción hacia y desde la notación IUPAC simplemente cambiando la fuente en la mayoría de las aplicaciones de procesamiento de texto estándar.

Notaciones ambigráficas

Los ambigramas (símbolos que transmiten un significado diferente cuando se observan en una orientación diferente) se han diseñado para reflejar las simetrías estructurales que se encuentran en la doble hélice del ADN. ^[9] Al asignar caracteres ambigráficos a bases complementarias (es decir, guanina: b, citosina: q, adenina: n y timina: u), es posible complementar secuencias de ADN simplemente rotando el texto 180 grados. ^[10] Una notación de ácido nucleico ambigráfica también facilita la identificación de palíndromos genéticos, como sitios de restricción de endonucleasas, como secciones de texto que se pueden rotar 180 grados sin cambiar la secuencia.

Un ejemplo de una notación de ácidos nucleicos ambigráfica es AmbiScript, una notación de ácidos nucleicos diseñada racionalmente que combina muchas de las características visuales y funcionales de sus predecesoras. ^[11] Su notación también utiliza caracteres desplazados espacialmente para facilitar la revisión visual y el análisis de los datos genéticos. AmbiScript también fue diseñado para indicar posiciones ambiguas de nucleótidos mediante símbolos compuestos. Esta estrategia tenía como objetivo ofrecer una solución más intuitiva al uso de caracteres de ambigüedad propuestos por primera vez por la IUPAC. ^[4] Al igual que con las fuentes DNA Skyline de Jarvius y Landegren, las fuentes AmbiScript se pueden descargar y aplicar a los datos de secuencias codificados por la IUPAC.

Emparejamiento de bases de triple hélice

Los pares de bases de Watson y Crick se indican con un "•", un "-" o un "." (ejemplo: A•T o poly(rC)•2poly(rC)).

Los pares de bases de triple hélice de Hoogsteen se indican con un "*" o un ":" (ejemplo: C•G*G+, o T•A*T, o C•G*G, o T•A*A).

Véase también

Referencias

^ ab Comisión de Nomenclatura Bioquímica de la IUPAC-IUB (1970). "Abreviaturas y símbolos para ácidos nucleicos, polinucleótidos y sus constituyentes". Bioquímica . 9 (20): 4022–4027. doi :10.1021/bi00822a023.
^ ab Comité de Nomenclatura de la Unión Internacional de Bioquímica (NC-IUB) (1984). "Nomenclatura para bases incompletamente especificadas en secuencias de ácidos nucleicos". Investigación de ácidos nucleicos . 13 (9): 3021–3030. doi :10.1093/nar/13.9.3021. PMC 341218 . PMID 2582368.
^ ab Cornish-Bowden A (mayo de 1985). "Nomenclatura para bases especificadas de forma incompleta en secuencias de ácidos nucleicos: recomendaciones 1984". Nucleic Acids Research . 13 (9): 3021–30. doi :10.1093/nar/13.9.3021. PMC 341218 . PMID 2582368.
^ ab Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1986). "Nomenclatura para bases especificadas de forma incompleta en secuencias de ácidos nucleicos. Recomendaciones 1984". Proc. Natl. Sci. USA . 83 (1): 4–8. Bibcode :1986PNAS...83....4O. doi : 10.1073/pnas.83.1.4 . PMC 322779 . PMID 2417239.
^ Tinker, MA 1963. Legibilidad de la impresión. Prensa de la Universidad Estatal de Iowa, Ames IA.
^ Cowin, JE; Jellis, CH; Rickwood, D. (1986). "Un nuevo método de representación de secuencias de ADN que combina la facilidad de análisis visual con la legibilidad por máquina". Nucleic Acids Research . 14 (1): 509–15. doi :10.1093/nar/14.1.509. PMC 339435 . PMID 3003680.
^ Zimmerman, PA; Spell, ML; Rawls, J.; Unnasch, TR (1991). "Transformación de datos de secuencias de ADN en símbolos geométricos". BioTechniques . 11 (1): 50–52. PMID 1954017.
^ Jarvius, J.; Landegren, U. (2006). "DNA Skyline: fuentes para facilitar la inspección visual de secuencias de ácidos nucleicos". BioTechniques . 40 (6): 740. doi : 10.2144/000112180 . PMID 16774117.
^ Hofstadter, Douglas R. (1985). Temas metamágicos: cuestionando la esencia de la mente y los patrones . Nueva York: Basic Books. ISBN 978-0465045662.
^ Rozak, DA (2006). "Las ventajas prácticas y pedagógicas de una notación ambigráfica de ácidos nucleicos". Nucleósidos, nucleótidos y ácidos nucleicos . 25 (7): 807–813. doi :10.1080/15257770600726109. PMID 16898419. S2CID 23600737.
^ Rozak, David A.; Rozak, Anthony J. (2008). "Simplicidad, función y legibilidad en una notación ambigráfica mejorada de ácidos nucleicos". BioTechniques . 44 (6): 811–813. doi : 10.2144/000112727 . PMID 18476835.

[not-3] No U para ARN

[iupac1-1] Comisión de Nomenclatura Bioquímica de la IUPAC-IUB (1970). "Abreviaturas y símbolos para ácidos nucleicos, polinucleótidos y sus constituyentes". Bioquímica . 9 (20): 4022–4027. doi :10.1021/bi00822a023.

[iupac-2] Comité de Nomenclatura de la Unión Internacional de Bioquímica (NC-IUB) (1984). "Nomenclatura para bases incompletamente especificadas en secuencias de ácidos nucleicos". Investigación de ácidos nucleicos . 13 (9): 3021–3030. doi :10.1093/nar/13.9.3021. PMC 341218 . PMID 2582368.

[:0-4] Cornish-Bowden A (mayo de 1985). "Nomenclatura para bases especificadas de forma incompleta en secuencias de ácidos nucleicos: recomendaciones 1984". Nucleic Acids Research . 13 (9): 3021–30. doi :10.1093/nar/13.9.3021. PMC 341218 . PMID 2582368.

[iupac2-5] Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1986). "Nomenclatura para bases especificadas de forma incompleta en secuencias de ácidos nucleicos. Recomendaciones 1984". Proc. Natl. Sci. USA . 83 (1): 4–8. Bibcode :1986PNAS...83....4O. doi : 10.1073/pnas.83.1.4 . PMC 322779 . PMID 2417239.

[tinker-6] Tinker, MA 1963. Legibilidad de la impresión. Prensa de la Universidad Estatal de Iowa, Ames IA.

[cowin-7] Cowin, JE; Jellis, CH; Rickwood, D. (1986). "Un nuevo método de representación de secuencias de ADN que combina la facilidad de análisis visual con la legibilidad por máquina". Nucleic Acids Research . 14 (1): 509–15. doi :10.1093/nar/14.1.509. PMC 339435 . PMID 3003680.

[zimmerman-8] Zimmerman, PA; Spell, ML; Rawls, J.; Unnasch, TR (1991). "Transformación de datos de secuencias de ADN en símbolos geométricos". BioTechniques . 11 (1): 50–52. PMID 1954017.

[jarvius-9] Jarvius, J.; Landegren, U. (2006). "DNA Skyline: fuentes para facilitar la inspección visual de secuencias de ácidos nucleicos". BioTechniques . 40 (6): 740. doi : 10.2144/000112180 . PMID 16774117.

[hofstadter2-10] Hofstadter, Douglas R. (1985). Temas metamágicos: cuestionando la esencia de la mente y los patrones . Nueva York: Basic Books. ISBN 978-0465045662.

[rozak12-11] Rozak, DA (2006). "Las ventajas prácticas y pedagógicas de una notación ambigráfica de ácidos nucleicos". Nucleósidos, nucleótidos y ácidos nucleicos . 25 (7): 807–813. doi :10.1080/15257770600726109. PMID 16898419. S2CID 23600737.

[rozak22-12] Rozak, David A.; Rozak, Anthony J. (2008). "Simplicidad, función y legibilidad en una notación ambigráfica mejorada de ácidos nucleicos". BioTechniques . 44 (6): 811–813. doi : 10.2144/000112727 . PMID 18476835.