Contig

Conjunto de segmentos de ADN superpuestos que juntos representan una región de consenso de ADN

Un contig (de contiguo ) es un conjunto de segmentos de ADN superpuestos que juntos representan una región de consenso de ADN . ^[1] En proyectos de secuenciación de abajo hacia arriba , un contig se refiere a datos de secuencia superpuestos ( lecturas ); ^[2] en proyectos de secuenciación de arriba hacia abajo , contig se refiere a los clones superpuestos que forman un mapa físico del genoma que se utiliza para guiar la secuenciación y el ensamblaje . ^[3] Por lo tanto, los contig pueden referirse tanto a secuencias de ADN superpuestas como a segmentos físicos superpuestos (fragmentos) contenidos en clones según el contexto.

Definición original de contig

En 1980, Staden ^[4] escribió: Para que sea más fácil hablar de nuestros datos obtenidos mediante el método shotgun de secuenciación, hemos inventado la palabra "contig". Un contig es un conjunto de lecturas de gel que están relacionadas entre sí por la superposición de sus secuencias. Todas las lecturas de gel pertenecen a un solo contig, y cada contig contiene al menos una lectura de gel. Las lecturas de gel en un contig se pueden sumar para formar una secuencia de consenso contigua y la longitud de esta secuencia es la longitud del contig.

Contigs de secuencia

Un contig de secuencia es una secuencia continua (no contigua) resultante del reensamblaje de los pequeños fragmentos de ADN generados por estrategias de secuenciación ascendente . Este significado de contig es coherente con la definición original de Rodger Staden (1979). ^[5] La estrategia de secuenciación ascendente de ADN implica cortar el ADN genómico en muchos fragmentos pequeños ("inferior"), secuenciar estos fragmentos, volver a ensamblarlos en contigs y, finalmente, todo el genoma ("arriba"). Debido a que la tecnología actual permite la secuenciación directa de solo fragmentos de ADN relativamente cortos (300-1000 nucleótidos), el ADN genómico debe fragmentarse en piezas pequeñas antes de la secuenciación. ^[6] En los proyectos de secuenciación ascendente, el ADN amplificado se corta aleatoriamente en fragmentos del tamaño adecuado para la secuenciación. Las lecturas de secuencia posteriores, que son los datos que contienen las secuencias de los fragmentos pequeños, se colocan en una base de datos. Luego, el software de ensamblaje ^[6] busca en esta base de datos pares de lecturas superpuestas. El ensamblaje de las lecturas de dicho par (que incluye, por supuesto, solo una copia de la secuencia idéntica) produce una lectura contigua más larga (contig) de ADN secuenciado. Al repetir este proceso muchas veces, primero con los pares cortos iniciales de lecturas, pero luego utilizando pares cada vez más largos que son el resultado del ensamblaje previo, se puede determinar la secuencia de ADN de un cromosoma completo.

En la actualidad, es común utilizar la tecnología de secuenciación de extremos emparejados , en la que se secuencian ambos extremos de fragmentos de ADN más largos de tamaño uniforme . En este caso, un contig sigue haciendo referencia a cualquier tramo contiguo de datos de secuencia creado por la superposición de lecturas. Debido a que los fragmentos tienen una longitud conocida, se conoce la distancia entre las dos lecturas de los extremos de cada fragmento. ^[7] Esto proporciona información adicional sobre la orientación de los contigs construidos a partir de estas lecturas y permite su ensamblaje en andamiajes en un proceso llamado andamiaje .

Los andamios consisten en contigs superpuestos separados por espacios de longitud conocida. Las nuevas restricciones impuestas a la orientación de los contigs permiten la colocación de secuencias altamente repetidas en el genoma. Si una lectura final tiene una secuencia repetitiva, siempre que su par de pareja esté ubicado dentro de un contig, se conoce su ubicación. ^[7] Los espacios restantes entre los contigs en los andamios se pueden secuenciar mediante una variedad de métodos, incluida la amplificación por PCR seguida de secuenciación (para espacios más pequeños) y los métodos de clonación BAC seguidos de secuenciación para espacios más grandes. ^[2]

Contigs de BAC

El término contig también puede hacer referencia a los clones superpuestos que forman un mapa físico de un cromosoma cuando se utiliza la estrategia de secuenciación descendente o jerárquica^{. [1] En este método de secuenciación, se realiza un}mapa de baja resolución antes de la secuenciación para proporcionar un marco que oriente el ensamblaje posterior de las lecturas de secuencia del genoma. Este mapa identifica las posiciones relativas y la superposición de los clones utilizados para la secuenciación. Los conjuntos de clones superpuestos que forman un tramo contiguo de ADN se denominan contigs; la cantidad mínima de clones que forman un contig que cubre todo el cromosoma comprende la ruta de mosaico que se utiliza para la secuenciación. Una vez que se ha seleccionado una ruta de mosaico, sus BAC componentes se cortan en fragmentos más pequeños y se secuencian. Por lo tanto, los contigs proporcionan el marco para la secuenciación jerárquica. ^[3]

El ensamblaje de un mapa de contigs implica varios pasos. Primero, el ADN se corta en trozos más grandes (50–200 kb), que se clonan en BAC o PAC para formar una biblioteca de BAC . Dado que estos clones deberían cubrir todo el genoma/cromosoma, es teóricamente posible ensamblar un contig de BAC que cubra todo el cromosoma. ^[1] Sin embargo, la realidad no siempre es ideal. A menudo quedan huecos, y un andamiaje (que consta de contigs y huecos) que cubre la región del mapa suele ser el primer resultado. ^[1] Los huecos entre contigs se pueden cerrar mediante varios métodos que se describen a continuación.

Construcción de contigs BAC

Los contigs BAC se construyen alineando regiones BAC de superposición conocida a través de una variedad de métodos. Una estrategia común es usar el mapeo de contenido de sitio etiquetado con secuencia (STS) para detectar sitios de ADN únicos en común entre BAC. El grado de superposición se estima aproximadamente por la cantidad de marcadores STS en común entre dos clones, y más marcadores en común significan una mayor superposición. ^[2] Debido a que esta estrategia proporciona solo una estimación muy aproximada de la superposición, a menudo se utiliza el análisis de fragmentos de digestión de restricción , que proporciona una medición más precisa de la superposición de clones. ^[2] En esta estrategia, los clones se tratan con una o dos enzimas de restricción y los fragmentos resultantes se separan por electroforesis en gel . Si son dos clones, es probable que tengan sitios de restricción en común y, por lo tanto, compartirán varios fragmentos. ^[3] Debido a que se conoce la cantidad de fragmentos en común y la longitud de estos fragmentos (la longitud se juzga por comparación con un estándar de tamaño), el grado de superposición se puede deducir con un alto grado de precisión.

Huecos entre contigs

A menudo quedan huecos después de la construcción inicial del contig BAC. Estos huecos se producen si la biblioteca de cromosomas artificiales bacterianos (BAC) examinada tiene una complejidad baja, lo que significa que no contiene una gran cantidad de STS o sitios de restricción, o si ciertas regiones fueron menos estables en los hospedadores de clonación y, por lo tanto, estaban subrepresentadas en la biblioteca. ^[1] Si quedan huecos entre los contigs después de que se haya realizado el mapeo de puntos de referencia STS y la identificación de huellas de restricción, se puede utilizar la secuenciación de los extremos de los contigs para cerrar estos huecos. Esta estrategia de secuenciación de extremos crea esencialmente un nuevo STS con el que examinar los otros contigs. Alternativamente, la secuencia final de un contig se puede utilizar como un cebador para atravesar el hueco con un cebador . ^[2]

Véase también

Paquete Staden

Referencias

^ abcde Gregory, S. Contig Assembly . Enciclopedia de Ciencias de la Vida, 2005.
^ abcde Gibson, Greg; Muse, Spencer V. (2009). Introducción a la ciencia del genoma (3.ª ed.). Sinauer Associates. pág. 84. ISBN 978-0-878-93236-8.
^ abc Estimado, Mapeo Genómico PH . Enciclopedia de Ciencias de la Vida, 2005. doi :10.1038/npg.els.0005353.
^ Staden, R (1980). "Un nuevo método informático para el almacenamiento y manipulación de datos de lectura de geles de ADN". Nucleic Acids Research . 8 (16): 3673–3694. doi :10.1093/nar/8.16.3673. PMC 324183 . PMID 7433103.
^ Staden R (1979). "Una estrategia de secuenciación de ADN empleando programas informáticos". Nucleic Acids Research . 6 (7): 2601–2610. doi :10.1093/nar/6.7.2601. PMC 327874 . PMID 461197.
^ ab Dunham, I. Secuenciación del genoma . Enciclopedia de ciencias de la vida, 2005.
^ ab Fullwood MJ, Wei C, Liu ET, et al. (2009). "Secuenciación de ADN de última generación de etiquetas de extremos emparejados (PET) para análisis del transcriptoma y del genoma". Genome Research . 19 (4): 521–532. doi :10.1101/gr.074906.107. PMC 3807531 . PMID 19339662.

Enlaces externos

Definición del término y perspectiva histórica
Paquete Staden de ensamblaje de secuencias: definiciones e información de fondo

[contig_assembly-1] Gregory, S. Contig Assembly . Enciclopedia de Ciencias de la Vida, 2005.

[textbook-2] Gibson, Greg; Muse, Spencer V. (2009). Introducción a la ciencia del genoma (3.ª ed.). Sinauer Associates. pág. 84. ISBN 978-0-878-93236-8.

[genome_map-3] Estimado, Mapeo Genómico PH . Enciclopedia de Ciencias de la Vida, 2005. doi :10.1038/npg.els.0005353.

[4] Staden, R (1980). "Un nuevo método informático para el almacenamiento y manipulación de datos de lectura de geles de ADN". Nucleic Acids Research . 8 (16): 3673–3694. doi :10.1093/nar/8.16.3673. PMC 324183 . PMID 7433103.

[5] Staden R (1979). "Una estrategia de secuenciación de ADN empleando programas informáticos". Nucleic Acids Research . 6 (7): 2601–2610. doi :10.1093/nar/6.7.2601. PMC 327874 . PMID 461197.

[genome_sequencing-6] Dunham, I. Secuenciación del genoma . Enciclopedia de ciencias de la vida, 2005.

[pet-7] Fullwood MJ, Wei C, Liu ET, et al. (2009). "Secuenciación de ADN de última generación de etiquetas de extremos emparejados (PET) para análisis del transcriptoma y del genoma". Genome Research . 19 (4): 521–532. doi :10.1101/gr.074906.107. PMC 3807531 . PMID 19339662.