Alineación de secuencias

Proceso en bioinformática que identifica sitios equivalentes dentro de secuencias moleculares

En bioinformática , una alineación de secuencias es una forma de organizar las secuencias de ADN , ARN o proteínas para identificar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. ^[1] Las secuencias alineadas de residuos de nucleótidos o aminoácidos se representan típicamente como filas dentro de una matriz . Se insertan espacios entre los residuos para que los caracteres idénticos o similares se alineen en columnas sucesivas. Las alineaciones de secuencias también se utilizan para secuencias no biológicas, como calcular el costo de la distancia entre cadenas en un lenguaje natural o para mostrar datos financieros.

Interpretación

Si dos secuencias en una alineación comparten un ancestro común, los desajustes pueden interpretarse como mutaciones puntuales y los huecos como indels (es decir, mutaciones de inserción o deleción) introducidas en uno o ambos linajes en el tiempo desde que divergieron uno del otro. En las alineaciones de secuencias de proteínas, el grado de similitud entre los aminoácidos que ocupan una posición particular en la secuencia puede interpretarse como una medida aproximada de cuán conservada está una región particular o un motivo de secuencia entre linajes. La ausencia de sustituciones, o la presencia de solo sustituciones muy conservadoras (es decir, la sustitución de aminoácidos cuyas cadenas laterales tienen propiedades bioquímicas similares) en una región particular de la secuencia, sugiere ^{[3] que esta región tiene importancia estructural o funcional. Aunque las bases}de nucleótidos de ADN y ARN son más similares entre sí que los aminoácidos, la conservación de pares de bases puede indicar un papel funcional o estructural similar.

Métodos de alineación

Las secuencias muy cortas o muy similares se pueden alinear a mano. Sin embargo, la mayoría de los problemas interesantes requieren la alineación de secuencias largas, muy variables o extremadamente numerosas que no se pueden alinear únicamente con el esfuerzo humano. En cambio, el conocimiento humano se aplica en la construcción de algoritmos para producir alineaciones de secuencias de alta calidad y, ocasionalmente, en el ajuste de los resultados finales para reflejar patrones que son difíciles de representar algorítmicamente (especialmente en el caso de secuencias de nucleótidos). Los enfoques computacionales para la alineación de secuencias generalmente se dividen en dos categorías: alineaciones globales y alineaciones locales . Calcular una alineación global es una forma de optimización global que "fuerza" la alineación a abarcar toda la longitud de todas las secuencias de consulta. Por el contrario, las alineaciones locales identifican regiones de similitud dentro de secuencias largas que a menudo son ampliamente divergentes en general. Las alineaciones locales suelen ser preferibles, pero pueden ser más difíciles de calcular debido al desafío adicional de identificar las regiones de similitud. ^[4] Se han aplicado diversos algoritmos computacionales al problema de la alineación de secuencias. Estos incluyen métodos lentos pero formalmente correctos como la programación dinámica . Esto también incluye algoritmos heurísticos eficientes o métodos probabilísticos diseñados para búsquedas en bases de datos a gran escala, que no garantizan encontrar las mejores coincidencias.

Representaciones

Las alineaciones se representan comúnmente tanto gráficamente como en formato de texto. En casi todas las representaciones de alineaciones de secuencias, las secuencias se escriben en filas dispuestas de modo que los residuos alineados aparezcan en columnas sucesivas. En formatos de texto, las columnas alineadas que contienen caracteres idénticos o similares se indican con un sistema de símbolos de conservación. Como en la imagen anterior, se utiliza un asterisco o un símbolo de barra vertical para mostrar la identidad entre dos columnas; otros símbolos menos comunes incluyen dos puntos para sustituciones conservadoras y un punto para sustituciones semiconservativas. Muchos programas de visualización de secuencias también utilizan el color para mostrar información sobre las propiedades de los elementos individuales de la secuencia; en las secuencias de ADN y ARN, esto equivale a asignar a cada nucleótido su propio color. En las alineaciones de proteínas, como la de la imagen anterior, el color se utiliza a menudo para indicar las propiedades de los aminoácidos con el fin de ayudar a juzgar la conservación de una sustitución de aminoácidos determinada. Para múltiples secuencias, la última fila de cada columna suele ser la secuencia de consenso determinada por la alineación; la secuencia de consenso también suele representarse en formato gráfico con un logotipo de secuencia en el que el tamaño de cada letra de nucleótido o aminoácido corresponde a su grado de conservación. ^[5]

Las alineaciones de secuencias se pueden almacenar en una amplia variedad de formatos de archivo basados en texto, muchos de los cuales se desarrollaron originalmente junto con un programa o implementación de alineación específica. La mayoría de las herramientas basadas en la web permiten un número limitado de formatos de entrada y salida, como el formato FASTA y el formato GenBank , y la salida no es fácilmente editable. Hay varios programas de conversión disponibles que proporcionan interfaces gráficas y/o de línea de comandos ^{[ enlace muerto ‍ ]} , como READSEQ y EMBOSS . También hay varios paquetes de programación que proporcionan esta funcionalidad de conversión, como BioPython , BioRuby y BioPerl . Los archivos SAM/BAM utilizan el formato de cadena CIGAR (Compact Idiosyncratic Gapped Alignment Report) para representar una alineación de una secuencia con una referencia codificando una secuencia de eventos (por ejemplo, coincidencia/desajuste, inserciones, eliminaciones). ^[6]

Formato CIGARRO

Ref.: GTCGTAGAATA
Lectura : CACGTAG—TA
CIGAR: 2S5M2D2M donde:
2S = 2 recortes suaves (podrían ser desajustes o una lectura más larga que la secuencia coincidente)
5M = 5 coincidencias o desajustes
2D = 2 deleciones
2M = 2 coincidencias o desajustes

El formato CIGAR original del programa de alineación exonerado no distinguía entre coincidencias o desajustes con el carácter M.

El documento de especificaciones SAMv1 define los códigos CIGAR más nuevos. En la mayoría de los casos, se prefiere utilizar los caracteres "=" y "X" para indicar coincidencias o discordancias en lugar del antiguo carácter "M", que es ambiguo.

Código CIGAR	Número entero BAM	Descripción	Consume consulta	Consume referencia
METRO	0	coincidencia de alineación (puede ser una coincidencia o desajuste de secuencia)	Sí	Sí
I	1	inserción a la referencia	Sí	No
D	2	eliminación de la referencia	No	Sí
norte	3	región omitida de la referencia	No	Sí
S	4	recorte suave (secuencias recortadas presentes en SEQ)	Sí	No
yo	5	Recorte duro (secuencias recortadas NO presentes en SEQ)	No	No
PAG	6	relleno (eliminación silenciosa de la referencia rellenada)	No	No
=	7	coincidencia de secuencia	Sí	Sí
incógnita	8	desajuste de secuencia	Sí	Sí

“Consume consulta” y “consume referencia” indican si la operación CIGAR hace que la alineación avance a lo largo de la secuencia de consulta y la secuencia de referencia respectivamente.
H sólo puede estar presente como primera y/o última operación.
S solo puede tener operaciones H entre ellos y los extremos de la cadena CIGAR.
En el caso de la alineación entre el ARNm y el genoma, una operación N representa un intrón. En otros tipos de alineaciones, la interpretación de N no está definida.
La suma de las longitudes de las operaciones M/I/S/=/X debe ser igual a la longitud de SEQ

Alineaciones globales y locales

Los alineamientos globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias en el conjunto de consulta son similares y de un tamaño aproximadamente igual. (Esto no significa que los alineamientos globales no puedan comenzar y/o terminar en espacios vacíos). Una técnica general de alineamiento global es el algoritmo Needleman-Wunsch , que se basa en programación dinámica. Los alineamientos locales son más útiles para secuencias diferentes que se sospecha que contienen regiones de similitud o motivos de secuencia similares dentro de su contexto de secuencia más grande. El algoritmo Smith-Waterman es un método de alineamiento local general basado en el mismo esquema de programación dinámica pero con opciones adicionales para comenzar y terminar en cualquier lugar. ^[4]

Los métodos híbridos, conocidos como métodos semiglobales o "glocales" (abreviatura de glo bal-lo cal ), buscan la mejor alineación parcial posible de las dos secuencias (en otras palabras, se afirma que una combinación de uno o ambos inicios y uno o ambos finales está alineada). Esto puede ser especialmente útil cuando la parte descendente de una secuencia se superpone con la parte ascendente de la otra secuencia. En este caso, ni la alineación global ni la local son completamente apropiadas: una alineación global intentaría forzar la alineación a extenderse más allá de la región de superposición, mientras que una alineación local podría no cubrir completamente la región de superposición. ^[7] Otro caso en el que la alineación semiglobal es útil es cuando una secuencia es corta (por ejemplo, una secuencia genética) y la otra es muy larga (por ejemplo, una secuencia cromosómica). En ese caso, la secuencia corta debería estar alineada globalmente (totalmente), pero solo se desea una alineación local (parcial) para la secuencia larga.

La rápida expansión de los datos genéticos pone a prueba la velocidad de los algoritmos actuales de alineamiento de secuencias de ADN. Las necesidades esenciales de un método eficiente y preciso para el descubrimiento de variantes de ADN exigen enfoques innovadores para el procesamiento paralelo en tiempo real. Se han sugerido enfoques de computación óptica como alternativas prometedoras a las implementaciones eléctricas actuales, pero su aplicabilidad aún está por probar [1].

Alineación por pares

Los métodos de alineación de secuencias por pares se utilizan para encontrar las alineaciones por partes (locales o globales) que mejor coincidan entre dos secuencias de consulta. Las alineaciones por pares solo se pueden utilizar entre dos secuencias a la vez, pero son eficientes para calcular y se utilizan a menudo para métodos que no requieren una precisión extrema (como buscar en una base de datos secuencias con alta similitud con una consulta). Los tres métodos principales para producir alineaciones por pares son los métodos de matriz de puntos, la programación dinámica y los métodos de palabras; ^[1] sin embargo, las técnicas de alineación de secuencias múltiples también pueden alinear pares de secuencias. Aunque cada método tiene sus fortalezas y debilidades individuales, los tres métodos por pares tienen dificultades con secuencias altamente repetitivas de bajo contenido de información , especialmente cuando el número de repeticiones difiere en las dos secuencias que se alinearán.

Coincidencia única máxima

Una forma de cuantificar la utilidad de una alineación por pares dada es la ' coincidencia única máxima ' (MUM), o la subsecuencia más larga que ocurre en ambas secuencias de consulta. Las secuencias MUM más largas generalmente reflejan una relación más cercana. ^[8] en la alineación de secuencias múltiples de genomas en biología computacional . La identificación de MUM y otros anclajes potenciales es el primer paso en sistemas de alineación más grandes como MUMmer . Los anclajes son las áreas entre dos genomas donde son muy similares. Para entender qué es un MUM, podemos desglosar cada palabra en el acrónimo. Coincidencia implica que la subcadena ocurre en ambas secuencias a alinear. Único significa que la subcadena ocurre solo una vez en cada secuencia. Finalmente, máximo indica que la subcadena no es parte de otra cadena más grande que cumple ambos requisitos anteriores. La idea detrás de esto es que las secuencias largas que coinciden exactamente y ocurren solo una vez en cada genoma son casi con certeza parte de la alineación global.

Más precisamente:

"Dados dos genomas A y B, la subcadena de coincidencia única máxima (MUM) es una subcadena común de A y B de longitud mayor que una longitud mínima especificada d (por defecto d = 20) tal que
es máxima, es decir, no se puede extender en ninguno de los extremos sin incurrir en un desajuste; y
"Es único en ambas secuencias" ^[9]

Métodos de matriz de puntos

Diagrama de puntos de ADN de un factor de transcripción de dedo de zinc humano (ID de GenBank NM_002383), que muestra autosimilitud regional . La diagonal principal representa la alineación de la secuencia consigo misma; las líneas que salen de la diagonal principal representan patrones similares o repetitivos dentro de la secuencia. Este es un ejemplo típico de un diagrama de recurrencia .

El enfoque de matriz de puntos, que produce implícitamente una familia de alineaciones para regiones de secuencia individuales, es cualitativo y conceptualmente simple, aunque requiere mucho tiempo para analizarlo a gran escala. En ausencia de ruido, puede ser fácil identificar visualmente ciertas características de secuencia (como inserciones, eliminaciones, repeticiones o repeticiones invertidas ) a partir de un gráfico de matriz de puntos. Para construir un gráfico de matriz de puntos , las dos secuencias se escriben a lo largo de la fila superior y la columna más a la izquierda de una matriz bidimensional y se coloca un punto en cualquier punto donde coincidan los caracteres en las columnas apropiadas; este es un gráfico de recurrencia típico . Algunas implementaciones varían el tamaño o la intensidad del punto dependiendo del grado de similitud de los dos caracteres, para dar cabida a sustituciones conservadoras. Los gráficos de puntos de secuencias muy relacionadas aparecerán como una sola línea a lo largo de la diagonal principal de la matriz .

Los problemas con los diagramas de puntos como técnica de visualización de información incluyen: ruido, falta de claridad, falta de intuición, dificultad para extraer estadísticas de resumen de coincidencias y posiciones de coincidencias en las dos secuencias. También se desperdicia mucho espacio cuando los datos de coincidencias se duplican inherentemente en la diagonal y la mayor parte del área real del diagrama está ocupada por espacio vacío o ruido y, finalmente, los diagramas de puntos están limitados a dos secuencias. Ninguna de estas limitaciones se aplica a los diagramas de alineación de Miropeats, pero tienen sus propios defectos particulares.

Los diagramas de puntos también se pueden utilizar para evaluar la repetitividad en una sola secuencia. Una secuencia se puede representar gráficamente en relación con sí misma y las regiones que comparten similitudes significativas aparecerán como líneas que se alejan de la diagonal principal. Este efecto se produce cuando una proteína consta de múltiples dominios estructurales similares .

Programación dinámica

La técnica de programación dinámica se puede aplicar para producir alineaciones globales a través del algoritmo Needleman-Wunsch y alineaciones locales a través del algoritmo Smith-Waterman . En el uso típico, las alineaciones de proteínas utilizan una matriz de sustitución para asignar puntuaciones a las coincidencias o desajustes de aminoácidos, y una penalización por brecha para hacer coincidir un aminoácido en una secuencia con un espacio en la otra. Las alineaciones de ADN y ARN pueden utilizar una matriz de puntuación, pero en la práctica a menudo simplemente asignan una puntuación de coincidencia positiva, una puntuación de desajuste negativa y una penalización por brecha negativa. (En la programación dinámica estándar, la puntuación de cada posición de aminoácido es independiente de la identidad de sus vecinos y, por lo tanto, no se tienen en cuenta los efectos de apilamiento de bases . Sin embargo, es posible tener en cuenta dichos efectos modificando el algoritmo). ^{[ cita requerida ]} Una extensión común de los costos de brecha lineales estándar son los costos de brecha afines. Aquí se aplican dos penalizaciones de brecha diferentes para abrir una brecha y para extender una brecha. Normalmente, la primera es mucho mayor que la segunda, por ejemplo, -10 para la apertura de brecha y -2 para la extensión de brecha. Esto da como resultado menos espacios en una alineación y los residuos y los espacios se mantienen juntos, lo que hace que los rasgos sean más representativos de las secuencias biológicas. El algoritmo Gotoh implementa los costos de espacios afines mediante el uso de tres matrices. ^[10]^[11]

La programación dinámica puede ser útil para alinear secuencias de nucleótidos con secuencias de proteínas, una tarea complicada por la necesidad de tener en cuenta las mutaciones por desplazamiento del marco de lectura (normalmente inserciones o deleciones). El método de búsqueda de marco de lectura produce una serie de alineaciones globales o locales por pares entre una secuencia de nucleótidos de consulta y un conjunto de búsqueda de secuencias de proteínas, o viceversa. Su capacidad para evaluar desplazamientos del marco de lectura compensados por un número arbitrario de nucleótidos hace que el método sea útil para secuencias que contienen un gran número de indels, que pueden ser muy difíciles de alinear con métodos heurísticos más eficientes. En la práctica, el método requiere grandes cantidades de potencia informática o un sistema cuya arquitectura esté especializada para la programación dinámica. Las suites BLAST y EMBOSS proporcionan herramientas básicas para crear alineaciones traducidas (aunque algunos de estos enfoques aprovechan los efectos secundarios de las capacidades de búsqueda de secuencias de las herramientas). Hay métodos más generales disponibles en software de código abierto como GeneWise. ^{[ cita requerida ]}

El método de programación dinámica garantiza la búsqueda de una alineación óptima dada una función de puntuación particular; sin embargo, identificar una buena función de puntuación es a menudo una cuestión empírica más que teórica. Aunque la programación dinámica es extensible a más de dos secuencias, es prohibitivamente lenta para grandes cantidades de secuencias o secuencias extremadamente largas. ^{[ cita requerida ]}

Métodos de palabras

Los métodos de palabras, también conocidos como métodos de k -tuplas, son métodos heurísticos que no garantizan la búsqueda de una solución de alineación óptima, pero son significativamente más eficientes que la programación dinámica. Estos métodos son especialmente útiles en búsquedas de bases de datos a gran escala en las que se entiende que una gran proporción de las secuencias candidatas no tendrán esencialmente ninguna coincidencia significativa con la secuencia de consulta. Los métodos de palabras son más conocidos por su implementación en las herramientas de búsqueda de bases de datos FASTA y la familia BLAST . ^[1] Los métodos de palabras identifican una serie de subsecuencias cortas y no superpuestas ("palabras") en la secuencia de consulta que luego se comparan con secuencias de bases de datos candidatas. Las posiciones relativas de la palabra en las dos secuencias que se comparan se restan para obtener un desplazamiento; esto indicará una región de alineación si múltiples palabras distintas producen el mismo desplazamiento. Solo si se detecta esta región, estos métodos aplican criterios de alineación más sensibles; por lo tanto, se eliminan muchas comparaciones innecesarias con secuencias sin similitud apreciable.

En el método FASTA, el usuario define un valor k para utilizar como la longitud de palabra con la que buscar en la base de datos. El método es más lento pero más sensible a valores más bajos de k , que también son preferidos para búsquedas que involucran una secuencia de consulta muy corta. La familia BLAST de métodos de búsqueda proporciona una serie de algoritmos optimizados para tipos particulares de consultas, como la búsqueda de coincidencias de secuencias distantes. BLAST fue desarrollado para proporcionar una alternativa más rápida a FASTA sin sacrificar mucha precisión; al igual que FASTA, BLAST utiliza una búsqueda de palabras de longitud k , pero evalúa solo las coincidencias de palabras más significativas, en lugar de todas las coincidencias de palabras como lo hace FASTA. La mayoría de las implementaciones de BLAST utilizan una longitud de palabra predeterminada fija que está optimizada para la consulta y el tipo de base de datos, y que se cambia solo en circunstancias especiales, como cuando se busca con secuencias de consulta repetitivas o muy cortas. Las implementaciones se pueden encontrar a través de varios portales web, como EMBL FASTA y NCBI BLAST.

Alineación de secuencias múltiples

Alineación de 27 secuencias de proteína hemaglutinina de influenza aviar coloreadas por conservación de residuos (arriba) y propiedades de residuos (abajo)

La alineación de secuencias múltiples es una extensión de la alineación por pares para incorporar más de dos secuencias a la vez. Los métodos de alineación múltiple intentan alinear todas las secuencias en un conjunto de consulta dado. Las alineaciones múltiples se utilizan a menudo para identificar regiones de secuencia conservadas en un grupo de secuencias que se supone que están relacionadas evolutivamente. Dichos motivos de secuencia conservados se pueden utilizar junto con información estructural y mecanicista para localizar los sitios activos catalíticos de las enzimas . Las alineaciones también se utilizan para ayudar a establecer relaciones evolutivas mediante la construcción de árboles filogenéticos . Las alineaciones de secuencias múltiples son computacionalmente difíciles de producir y la mayoría de las formulaciones del problema conducen a problemas de optimización combinatoria NP-completos . ^[12]^[13] Sin embargo, la utilidad de estas alineaciones en bioinformática ha llevado al desarrollo de una variedad de métodos adecuados para alinear tres o más secuencias.

Programación dinámica

La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, debido a que es computacionalmente costosa tanto en tiempo como en memoria , rara vez se utiliza para más de tres o cuatro secuencias en su forma más básica. Este método requiere construir el equivalente n -dimensional de la matriz de secuencia formada a partir de dos secuencias, donde n es el número de secuencias en la consulta. La programación dinámica estándar se utiliza primero en todos los pares de secuencias de consulta y luego se llena el "espacio de alineación" considerando posibles coincidencias o espacios en posiciones intermedias, construyendo finalmente una alineación esencialmente entre cada alineación de dos secuencias. Aunque esta técnica es computacionalmente costosa, su garantía de una solución óptima global es útil en casos en los que solo unas pocas secuencias necesitan ser alineadas con precisión. Un método para reducir las demandas computacionales de la programación dinámica, que se basa en la función objetivo de "suma de pares" , se ha implementado en el paquete de software MSA. ^[14]

Métodos progresivos

Los métodos progresivos, jerárquicos o de árbol generan una alineación de secuencias múltiples alineando primero las secuencias más similares y luego agregando secuencias o grupos menos relacionados sucesivamente a la alineación hasta que todo el conjunto de consulta se haya incorporado a la solución. El árbol inicial que describe la relación de secuencias se basa en comparaciones por pares que pueden incluir métodos de alineación por pares heurísticos similares a FASTA . Los resultados de la alineación progresiva dependen de la elección de las secuencias "más relacionadas" y, por lo tanto, pueden ser sensibles a las imprecisiones en las alineaciones por pares iniciales. La mayoría de los métodos de alineación de secuencias múltiples progresivas ponderan adicionalmente las secuencias en el conjunto de consulta según su relación, lo que reduce la probabilidad de hacer una mala elección de secuencias iniciales y, por lo tanto, mejora la precisión de la alineación.

Se utilizan muchas variaciones de la implementación progresiva de Clustal ^[15]^[16]^[17] para la alineación de secuencias múltiples, la construcción de árboles filogenéticos y como entrada para la predicción de la estructura de proteínas . Una variante más lenta pero más precisa del método progresivo se conoce como T-Coffee . ^[18]

Métodos iterativos

Los métodos iterativos intentan mejorar la fuerte dependencia de la precisión de las alineaciones por pares iniciales, que es el punto débil de los métodos progresivos. Los métodos iterativos optimizan una función objetivo basada en un método de puntuación de alineamiento seleccionado asignando una alineación global inicial y luego realineando los subconjuntos de secuencias. Los subconjuntos realineados se alinean luego para producir la alineación de secuencias múltiples de la siguiente iteración. En ^[19] se revisan varias formas de seleccionar los subgrupos de secuencias y la función objetivo.

Búsqueda de motivos

La búsqueda de motivos, también conocida como análisis de perfiles, construye alineaciones globales de múltiples secuencias que intentan alinear motivos de secuencias conservadas cortas entre las secuencias del conjunto de consulta. Esto se hace generalmente construyendo primero una alineación global de múltiples secuencias general, después de lo cual se aíslan las regiones altamente conservadas y se utilizan para construir un conjunto de matrices de perfiles. La matriz de perfiles para cada región conservada se organiza como una matriz de puntuación, pero sus recuentos de frecuencia para cada aminoácido o nucleótido en cada posición se derivan de la distribución de caracteres de la región conservada en lugar de una distribución empírica más general. Las matrices de perfiles se utilizan luego para buscar otras secuencias en busca de ocurrencias del motivo que caracterizan. En los casos en que el conjunto de datos original contenía una pequeña cantidad de secuencias, o solo secuencias altamente relacionadas, se agregan pseudoconteos para normalizar las distribuciones de caracteres representadas en el motivo.

Técnicas inspiradas en la informática

También se han aplicado al problema de alineación de secuencias múltiples una variedad de algoritmos de optimización generales que se utilizan comúnmente en informática. Se han utilizado modelos ocultos de Markov para producir puntuaciones de probabilidad para una familia de posibles alineaciones de secuencias múltiples para un conjunto de consultas determinado; aunque los primeros métodos basados en HMM produjeron un rendimiento decepcionante, las aplicaciones posteriores los han encontrado especialmente eficaces para detectar secuencias relacionadas de forma remota porque son menos susceptibles al ruido creado por sustituciones conservadoras o semiconservativas. ^{[20] También se han utilizado} algoritmos genéticos y recocido simulado para optimizar las puntuaciones de alineación de secuencias múltiples a juzgar por una función de puntuación como el método de suma de pares. Se pueden encontrar detalles más completos y paquetes de software en el artículo principal alineación de secuencias múltiples .

La transformada de Burrows-Wheeler se ha aplicado con éxito a la alineación rápida de lecturas cortas en herramientas populares como Bowtie y BWA. Consulte FM-index .

Alineación estructural

Los alineamientos estructurales, que suelen ser específicos de las secuencias de proteínas y, a veces, de ARN, utilizan información sobre la estructura secundaria y terciaria de la proteína o la molécula de ARN para ayudar a alinear las secuencias. Estos métodos se pueden utilizar para dos o más secuencias y, por lo general, producen alineamientos locales; sin embargo, debido a que dependen de la disponibilidad de información estructural, solo se pueden utilizar para secuencias cuyas estructuras correspondientes se conocen (generalmente mediante cristalografía de rayos X o espectroscopia de RMN ). Debido a que tanto la estructura de la proteína como la del ARN se conservan más evolutivamente que la de la secuencia, ^[21] los alineamientos estructurales pueden ser más confiables entre secuencias que están muy distantemente relacionadas y que han divergido tan ampliamente que la comparación de secuencias no puede detectar de manera confiable su similitud.

Los alineamientos estructurales se utilizan como el "patrón oro" en la evaluación de alineamientos para la predicción de la estructura de proteínas basada en la homología ^[22] porque alinean explícitamente regiones de la secuencia de proteínas que son estructuralmente similares en lugar de depender exclusivamente de la información de la secuencia. Sin embargo, es evidente que los alineamientos estructurales no se pueden utilizar en la predicción de la estructura porque al menos una secuencia en el conjunto de consulta es el objetivo que se va a modelar, para el cual no se conoce la estructura. Se ha demostrado que, dada la alineación estructural entre un objetivo y una secuencia de plantilla, se pueden producir modelos altamente precisos de la secuencia de proteína objetivo; un obstáculo importante en la predicción de la estructura basada en la homología es la producción de alineamientos estructuralmente precisos dada solo la información de la secuencia. ^[22]

Dalí

El método DALI, o alineamiento de matriz de distancia , es un método basado en fragmentos para construir alineamientos estructurales basados en patrones de similitud de contacto entre hexapéptidos sucesivos en las secuencias de consulta. ^[23] Puede generar alineamientos por pares o múltiples e identificar los vecinos estructurales de una secuencia de consulta en el Protein Data Bank (PDB). Se ha utilizado para construir la base de datos de alineamiento estructural FSSP (Clasificación de pliegues basada en el alineamiento estructura-estructura de proteínas o familias de proteínas estructuralmente similares). Se puede acceder a un servidor web DALI en DALI y el FSSP se encuentra en The Dali Database.

APSS

SSAP (programa de alineación de estructura secuencial) es un método de alineación estructural basado en programación dinámica que utiliza vectores átomo a átomo en el espacio de estructura como puntos de comparación. Se ha ampliado desde su descripción original para incluir alineaciones múltiples y por pares ^[24], y se ha utilizado en la construcción de la base de datos jerárquica de clasificación de plegamientos de proteínas CATH (clase, arquitectura, topología, homología). ^[25] Se puede acceder a la base de datos CATH en CATH Protein Structure Classification.

Extensión combinatoria

El método de extensión combinatoria de alineación estructural genera una alineación estructural por pares utilizando geometría local para alinear fragmentos cortos de las dos proteínas que se están analizando y luego ensambla estos fragmentos en una alineación más grande. ^[26] Con base en medidas como la distancia cuadrática media de la raíz del cuerpo rígido , las distancias de los residuos, la estructura secundaria local y las características ambientales circundantes como la hidrofobicidad de los vecinos de los residuos , se generan alineaciones locales llamadas "pares de fragmentos alineados" y se utilizan para construir una matriz de similitud que representa todas las alineaciones estructurales posibles dentro de criterios de corte predefinidos. Luego se traza una ruta desde un estado de la estructura de la proteína al otro a través de la matriz extendiendo la alineación creciente un fragmento a la vez. La ruta óptima de este tipo define la alineación de extensión combinatoria. Un servidor basado en la web que implementa el método y proporciona una base de datos de alineaciones por pares de estructuras en el Banco de Datos de Proteínas se encuentra en el sitio web de Extensión Combinatoria.

Análisis filogenético

La filogenética y el alineamiento de secuencias son campos estrechamente relacionados debido a la necesidad compartida de evaluar la relación de secuencias. ^[27] El campo de la filogenética hace un uso extensivo de los alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos , que se utilizan para clasificar las relaciones evolutivas entre genes homólogos representados en los genomas de especies divergentes. El grado en que las secuencias en un conjunto de consulta difieren está cualitativamente relacionado con la distancia evolutiva de las secuencias entre sí. En términos generales, una alta identidad de secuencia sugiere que las secuencias en cuestión tienen un ancestro común más reciente comparativamente joven , mientras que una baja identidad sugiere que la divergencia es más antigua. Esta aproximación, que refleja la hipótesis del " reloj molecular " de que se puede utilizar una tasa aproximadamente constante de cambio evolutivo para extrapolar el tiempo transcurrido desde que dos genes divergieron por primera vez (es decir, el tiempo de coalescencia ), supone que los efectos de la mutación y la selección son constantes en todos los linajes de secuencias. Por lo tanto, no tiene en cuenta las posibles diferencias entre organismos o especies en las tasas de reparación del ADN o la posible conservación funcional de regiones específicas en una secuencia. (En el caso de las secuencias de nucleótidos, la hipótesis del reloj molecular en su forma más básica también descarta la diferencia en las tasas de aceptación entre las mutaciones silenciosas que no alteran el significado de un codón dado y otras mutaciones que dan como resultado la incorporación de un aminoácido diferente a la proteína). Los métodos estadísticamente más precisos permiten que varíe la tasa evolutiva en cada rama del árbol filogenético, lo que produce mejores estimaciones de los tiempos de coalescencia de los genes.

Las técnicas de alineamiento múltiple progresivo producen un árbol filogenético por necesidad porque incorporan secuencias en el alineamiento creciente en orden de parentesco. Otras técnicas que ensamblan alineamientos de secuencias múltiples y árboles filogenéticos puntúan y ordenan los árboles primero y calculan un alineamiento de secuencias múltiples a partir del árbol con la puntuación más alta. Los métodos de construcción de árboles filogenéticos que se utilizan comúnmente son principalmente heurísticos porque el problema de seleccionar el árbol óptimo, al igual que el problema de seleccionar el alineamiento de secuencias múltiples óptimo, es NP-hard . ^[28]

Evaluación de la significación

Los alineamientos de secuencias son útiles en bioinformática para identificar similitudes entre secuencias, producir árboles filogenéticos y desarrollar modelos de homología de estructuras proteínicas. Sin embargo, la relevancia biológica de los alineamientos de secuencias no siempre está clara. A menudo se supone que los alineamientos reflejan un grado de cambio evolutivo entre secuencias que descienden de un ancestro común; sin embargo, es formalmente posible que pueda producirse una evolución convergente para producir una similitud aparente entre proteínas que no están relacionadas evolutivamente pero que realizan funciones similares y tienen estructuras similares.

En las búsquedas en bases de datos como BLAST, los métodos estadísticos pueden determinar la probabilidad de que una alineación particular entre secuencias o regiones de secuencias surja por casualidad dado el tamaño y la composición de la base de datos que se está buscando. Estos valores pueden variar significativamente según el espacio de búsqueda. En particular, la probabilidad de encontrar una alineación dada por casualidad aumenta si la base de datos consta solo de secuencias del mismo organismo que la secuencia consultada. Las secuencias repetitivas en la base de datos o la consulta también pueden distorsionar tanto los resultados de la búsqueda como la evaluación de la significación estadística; BLAST filtra automáticamente dichas secuencias repetitivas en la consulta para evitar coincidencias aparentes que son artefactos estadísticos.

Existen en la literatura métodos de estimación de significación estadística para alineaciones de secuencias con espacios vacíos. ^[27]^[29]^[30^{] [31]}^[32]^[33]^[34]^[35]

Evaluación de la credibilidad

La significación estadística indica la probabilidad de que una alineación de una calidad dada pueda surgir por casualidad, pero no indica en qué medida una alineación dada es superior a las alineaciones alternativas de las mismas secuencias. Las medidas de credibilidad de la alineación indican en qué medida las alineaciones con mejor puntuación para un par de secuencias dado son sustancialmente similares. En la literatura se encuentran disponibles métodos de estimación de la credibilidad de la alineación para alineaciones de secuencias con espacios vacíos. ^[36]

Funciones de puntuación

La elección de una función de puntuación que refleje observaciones biológicas o estadísticas sobre secuencias conocidas es importante para producir buenos alineamientos. Las secuencias de proteínas se alinean frecuentemente utilizando matrices de sustitución que reflejan las probabilidades de sustituciones de caracteres dadas. Una serie de matrices llamadas matrices PAM (matrices de mutación de aceptación puntual, definidas originalmente por Margaret Dayhoff y a veces denominadas "matrices de Dayhoff") codifican explícitamente aproximaciones evolutivas con respecto a las tasas y probabilidades de mutaciones de aminoácidos particulares. Otra serie común de matrices de puntuación, conocida como BLOSUM (matriz de sustitución de bloques), codifica probabilidades de sustitución derivadas empíricamente. Las variantes de ambos tipos de matrices se utilizan para detectar secuencias con diferentes niveles de divergencia, lo que permite a los usuarios de BLAST o FASTA restringir las búsquedas a coincidencias más estrechamente relacionadas o expandirlas para detectar secuencias más divergentes. Las penalizaciones por brecha tienen en cuenta la introducción de una brecha (en el modelo evolutivo, una mutación de inserción o deleción) tanto en secuencias de nucleótidos como de proteínas y, por lo tanto, los valores de penalización deben ser proporcionales a la tasa esperada de tales mutaciones. Por lo tanto, la calidad de las alineaciones producidas depende de la calidad de la función de puntuación.

Puede resultar muy útil e instructivo probar la misma alineación varias veces con diferentes opciones para la matriz de puntuación y/o valores de penalización por brecha y comparar los resultados. Las regiones donde la solución es débil o no única a menudo se pueden identificar observando qué regiones de la alineación son resistentes a las variaciones en los parámetros de alineación.

Otros usos biológicos

El ARN secuenciado, como las etiquetas de secuencia expresadas y los ARNm de longitud completa, se pueden alinear con un genoma secuenciado para encontrar dónde hay genes y obtener información sobre el empalme alternativo ^[37] y la edición de ARN . ^[38] La alineación de secuencias también es una parte del ensamblaje del genoma , donde las secuencias se alinean para encontrar superposiciones de modo que se puedan formar contigs (largos tramos de secuencia). ^[39] Otro uso es el análisis de SNP , donde las secuencias de diferentes individuos se alinean para encontrar pares de bases individuales que a menudo son diferentes en una población. ^[40]

Usos no biológicos

Los métodos utilizados para la alineación de secuencias biológicas también han encontrado aplicaciones en otros campos, más notablemente en el procesamiento del lenguaje natural y en las ciencias sociales , donde el algoritmo Needleman-Wunsch generalmente se conoce como coincidencia óptima . ^[41] Las técnicas que generan el conjunto de elementos de los cuales se seleccionarán las palabras en algoritmos de generación de lenguaje natural han tomado prestadas múltiples técnicas de alineación de secuencias de la bioinformática para producir versiones lingüísticas de pruebas matemáticas generadas por computadora . ^[42] En el campo de la lingüística histórica y comparada , la alineación de secuencias se ha utilizado para automatizar parcialmente el método comparativo mediante el cual los lingüistas tradicionalmente reconstruyen los idiomas. ^[43] La investigación empresarial y de marketing también ha aplicado múltiples técnicas de alineación de secuencias para analizar series de compras a lo largo del tiempo. ^[44]

Software

Una lista más completa del software disponible categorizado por algoritmo y tipo de alineación está disponible en software de alineación de secuencias , pero las herramientas de software comunes utilizadas para tareas generales de alineación de secuencias incluyen ClustalW2 ^[45] y T-coffee ^[46] para la alineación, y BLAST ^[47] y FASTA3x ^[48] para la búsqueda en bases de datos. También están disponibles herramientas comerciales como DNASTAR Lasergene, Geneious y PatternHunter . Las herramientas anotadas como que realizan alineación de secuencias se enumeran en el registro bio.tools.

Los algoritmos y el software de alineamiento se pueden comparar directamente entre sí utilizando un conjunto estandarizado de alineamientos de secuencias múltiples de referencia de referencia conocido como BAliBASE. ^[49] El conjunto de datos consta de alineamientos estructurales, que se pueden considerar un estándar con el que se comparan los métodos puramente basados en secuencias. El rendimiento relativo de muchos métodos de alineamiento comunes en problemas de alineamiento encontrados con frecuencia se ha tabulado y los resultados seleccionados se han publicado en línea en BAliBASE. ^[50]^[51] Se puede calcular una lista completa de puntajes de BAliBASE para muchas (actualmente 12) herramientas de alineamiento diferentes dentro del banco de trabajo de proteínas STRAP. ^[52]

Véase también

Referencias

^ abc Mount DM. (2004). Bioinformática: análisis de secuencias y genomas (2.ª ed.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 978-0-87969-608-5.
^ "Preguntas frecuentes sobre Clustal #Símbolos". Clustal . Archivado desde el original el 24 de octubre de 2016 . Consultado el 8 de diciembre de 2014 .
^ Ng PC; Henikoff S (mayo de 2001). "Predicción de sustituciones deletéreas de aminoácidos". Genome Res . 11 (5): 863–74. doi :10.1101/gr.176601. PMC 311071 . PMID 11337480.
^ ab Polyanovsky, VO; Roytberg, MA; Tumanyan, VG (2011). "Análisis comparativo de la calidad de un algoritmo global y un algoritmo local para el alineamiento de dos secuencias". Algoritmos para biología molecular . 6 (1): 25. doi : 10.1186/1748-7188-6-25 . PMC 3223492 . PMID 22032267. S2CID 2658261.
^ Schneider TD; Stephens RM (1990). "Logotipos de secuencias: una nueva forma de mostrar secuencias de consenso". Nucleic Acids Res . 18 (20): 6097–6100. doi :10.1093/nar/18.20.6097. PMC 332411 . PMID 2172928.
^ "Especificación de formato de mapa/alineación de secuencia" (PDF) .
^ Brudno M; Malde S; Poliakov A; Do CB; Couronne O; Dubchak I; Batzoglou S (2003). "Alineamiento glocal: búsqueda de reordenamientos durante el alineamiento". Bioinformática . 19. Suppl 1 (90001): i54–62. doi : 10.1093/bioinformatics/btg1005 . PMID 12855437.
^ Delcher, AL; Kasif, S.; Fleishmann, RD; Peterson, J.; White, O.; Salzberg, SL (1999). "Alineación de genomas completos". Investigación de ácidos nucleicos . 27 (11): 2369–2376. doi : 10.1093/nar/30.11.2478 . PMC 148804 . PMID 10325427.
^ Wing-Kin, Sung (2010). Algoritmos en bioinformática: una introducción práctica (primera edición). Boca Raton: Chapman & Hall/CRC Press. ISBN 978-1420070330.
^ Gotoh, Osamu (15 de diciembre de 1982). "Un algoritmo mejorado para la correspondencia de secuencias biológicas". Revista de Biología Molecular . 162 (3): 705–708. doi :10.1016/0022-2836(82)90398-9. ISSN 0022-2836.
^ Gotoh, Osamu (1 de enero de 1999). "Alineamiento de secuencias múltiples: algoritmos y aplicaciones". Avances en biofísica . 36 : 159–206. doi :10.1016/S0065-227X(99)80007-0. ISSN 0065-227X.
^ Wang L; Jiang T. (1994). "Sobre la complejidad del alineamiento de secuencias múltiples". J Comput Biol . 1 (4): 337–48. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID 8790475.
^ Elias, Isaac (2006). "Resolviendo la intransigencia del alineamiento múltiple". J Comput Biol . 13 (7): 1323–1339. CiteSeerX 10.1.1.6.256 . doi :10.1089/cmb.2006.13.1323. PMID 17037961.
^ Lipman DJ; Altschul SF; Kececioglu JD (1989). "Una herramienta para el alineamiento de secuencias múltiples". Proc Natl Acad Sci USA . 86 (12): 4412–5. Bibcode :1989PNAS...86.4412L. doi : 10.1073/pnas.86.12.4412 . PMC 287279 . PMID 2734293.
^ Higgins DG , Sharp PM (1988). "CLUSTAL: un paquete para realizar alineamiento de secuencias múltiples en una microcomputadora". Gene . 73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.
^ Thompson JD; Higgins DG ; Gibson TJ. (1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de secuencias múltiples mediante ponderación de secuencias, penalizaciones por espacios específicos de posición y elección de la matriz de ponderación". Nucleic Acids Res . 22 (22): 4673–80. doi :10.1093/nar/22.22.4673. PMC 308517. PMID 7984417 .
^ Chenna R; Sugawara H; Koike T; Lopez R; Gibson TJ; Higgins DG; Thompson JD. (2003). "Alineamiento de secuencias múltiples con la serie de programas Clustal". Nucleic Acids Res . 31 (13): 3497–500. doi :10.1093/nar/gkg500. PMC 168907 . PMID 12824352.
^ Notredame C; Higgins DG ; Heringa J. (2000). "T-Coffee: Un nuevo método para el alineamiento rápido y preciso de múltiples secuencias". J Mol Biol . 302 (1): 205–17. doi :10.1006/jmbi.2000.4042. PMID 10964570. S2CID 10189971.
^ Hirosawa M; Totoki Y; Hoshida M; Ishikawa M. (1995). "Estudio exhaustivo de algoritmos iterativos de alineamiento de secuencias múltiples". Comput Appl Biosci . 11 (1): 13–8. doi :10.1093/bioinformatics/11.1.13. PMID 7796270.
^ Karplus K; Barrett C; Hughey R. (1998). "Modelos ocultos de Markov para detectar homologías de proteínas remotas". Bioinformática . 14 (10): 846–856. CiteSeerX 10.1.1.57.2762 . doi : 10.1093/bioinformatics/14.10.846 . PMID 9927713.
^ Chothia C; Lesk AM. (abril de 1986). "La relación entre la divergencia de la secuencia y la estructura en las proteínas". EMBO J . 5 (4): 823–6. doi :10.1002/j.1460-2075.1986.tb04288.x. PMC 1166865 . PMID 3709526.
^ ab Zhang Y; Skolnick J. (2005). "El problema de predicción de la estructura de proteínas podría resolverse utilizando la biblioteca PDB actual". Proc Natl Acad Sci USA . 102 (4): 1029–34. Bibcode :2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID 15653774.
^ Holm L; Sander C (1996). "Mapping the protein universe" (Mapeo del universo proteínico). Science . 273 (5275): 595–603. Bibcode :1996Sci...273..595H. doi :10.1126/science.273.5275.595. PMID 8662544. S2CID 7509134.
^ Taylor WR; Flores TP; Orengo CA. (1994). "Alineamiento de estructuras de proteínas múltiples". Protein Sci . 3 (10): 1858–70. doi :10.1002/pro.5560031025. PMC 2142613 . PMID 7849601.
^ Orengo CA; Michie AD; Jones S; Jones DT; Swindells MB; Thornton JM (1997). "CATH: una clasificación jerárquica de las estructuras de los dominios proteicos". Structure . 5 (8): 1093–108. doi : 10.1016/S0969-2126(97)00260-8 . PMID 9309224.
^ Shindyalov IN; Bourne PE. (1998). "Alineación de la estructura de proteínas mediante extensión combinatoria incremental (CE) de la ruta óptima". Protein Eng . 11 (9): 739–47. doi : 10.1093/protein/11.9.739 . PMID 9796821.
^ ab Ortet P; Bastien O (2010). "¿De dónde proviene la forma de la distribución de la puntuación de alineación?". Evolutionary Bioinformatics . 6 : 159–187. doi :10.4137/EBO.S5875. PMC 3023300 . PMID 21258650.
^ Felsenstein J. (2004). Inferir filogenias . Asociados de Sinauer: Sunderland, MA. ISBN 978-0-87893-177-4.
^ Altschul SF; Gish W (1996). "Estadísticas de alineamiento local". Métodos informáticos para el análisis de secuencias macromoleculares . Métodos en enzimología. Vol. 266. págs. 460–480. doi :10.1016/S0076-6879(96)66029-7. ISBN 9780121821678. Número de identificación personal 8743700. {{cite book}}: |journal=ignorado ( ayuda )
^ Hartmann AK (2002). "Muestreo de eventos raros: estadísticas de alineamientos de secuencias locales". Phys. Rev. E . 65 (5): 056102. arXiv : cond-mat/0108201 . Código Bibliográfico :2002PhRvE..65e6102H. doi :10.1103/PhysRevE.65.056102. PMID 12059642. S2CID 193085.
^ Newberg LA (2008). "Importancia de los alineamientos de secuencias con huecos". J Comput Biol . 15 (9): 1187–1194. doi :10.1089/cmb.2008.0125. PMC 2737730 . PMID 18973434.
^ Eddy SR; Rost, Burkhard (2008). Rost, Burkhard (ed.). "Un modelo probabilístico de alineamiento de secuencias locales que simplifica la estimación de la significación estadística". PLOS Comput Biol . 4 (5): e1000069. Bibcode :2008PLSCB...4E0069E. doi : 10.1371/journal.pcbi.1000069 . PMC 2396288 . PMID 18516236. S2CID 15640896.
^ Bastien O; Aude JC; Roy S; Marechal E (2004). "Fundamentos de alineaciones automáticas masivas por pares de secuencias de proteínas: significación teórica de las estadísticas del valor Z". Bioinformática . 20 (4): 534–537. CiteSeerX 10.1.1.602.6979 . doi : 10.1093/bioinformatics/btg440 . PMID 14990449.
^ Agrawal A; Huang X (2011). "Significación estadística por pares de la alineación de secuencias locales utilizando matrices de sustitución específicas de secuencia y de posición". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 8 (1): 194–205. doi :10.1109/TCBB.2009.69. PMID 21071807. S2CID 6559731.
^ Agrawal A; Brendel VP; Huang X (2008). "Significación estadística por pares y determinación empírica de penalizaciones efectivas por apertura de brechas para la alineación de secuencias locales de proteínas". Revista internacional de biología computacional y diseño de fármacos . 1 (4): 347–367. doi :10.1504/IJCBDD.2008.022207. PMID 20063463. Archivado desde el original el 28 de enero de 2013.
^ Newberg LA; Lawrence CE (2009). "Cálculo exacto de distribuciones en números enteros, con aplicación a la alineación de secuencias". J Comput Biol . 16 (1): 1–18. doi :10.1089/cmb.2008.0137. PMC 2858568 . PMID 19119992.
^ Kim N; Lee C (2008). "Detección bioinformática de empalmes alternativos". Bioinformática . Métodos en biología molecular. Vol. 452. págs. 179–97. doi :10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. Número de identificación personal 18566765.
^ Li JB, Levanon EY, Yoon JK, et al. (mayo de 2009). "Identificación de sitios de edición de ARN humano en todo el genoma mediante captura y secuenciación paralela de ADN". Science . 324 (5931): 1210–3. Bibcode :2009Sci...324.1210L. doi :10.1126/science.1170995. PMID 19478186. S2CID 31148824.
^ Blazewicz J, Bryja M, Figlerowicz M, et al. (junio de 2009). "Ensamblaje del genoma completo a partir de la secuenciación 454 mediante el concepto de gráfico de ADN modificado". Comput Biol Chem . 33 (3): 224–30. doi :10.1016/j.compbiolchem.2009.04.005. PMID 19477687.
^ Duran C; Appleby N; Vardy M; Imelfort M; Edwards D; Batley J (mayo de 2009). "Descubrimiento de polimorfismo de un solo nucleótido en cebada utilizando autoSNPdb". Plant Biotechnol. J . 7 (4): 326–33. doi : 10.1111/j.1467-7652.2009.00407.x . PMID 19386041.
^ Abbott A.; Tsay A. (2000). "Análisis de secuencias y métodos de emparejamiento óptimo en sociología, revisión y prospectiva". Métodos sociológicos e investigación . 29 (1): 3–33. doi :10.1177/0049124100029001001. S2CID 121097811.
^ Barzilay R; Lee L. (2002). "Bootstrapping lexical choice via multiple-sequence adjustment" (PDF) . Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural - EMNLP '02 . Vol. 10. págs. 164–171. arXiv : cs/0205065 . Bibcode :2002cs........5065B. doi :10.3115/1118693.1118715. S2CID 7521453.
^ Kondrak, Grzegorz (2002). "Algoritmos para la reconstrucción del lenguaje" (PDF) . Universidad de Toronto, Ontario. Archivado desde el original (PDF) el 17 de diciembre de 2008. Consultado el 21 de enero de 2007 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Prinzie A.; D. Van den Poel (2006). "Incorporación de información secuencial en modelos de clasificación tradicionales mediante el uso de un SAM sensible a elementos y posiciones" . Decision Support Systems . 42 (2): 508–526. doi :10.1016/j.dss.2005.02.004.Véase también el artículo de Prinzie y Van den Poel Prinzie, A; Vandenpoel, D (2007). "Predicción de secuencias de adquisición de electrodomésticos: Markov/Markov para análisis de discriminación y supervivencia para modelar información secuencial en modelos NPTB" . Decision Support Systems . 44 (1): 28–45. doi :10.1016/j.dss.2007.02.008.
^ EMBL-EBI. «ClustalW2 < Multiple Sequence Alignment < EMBL-EBI». www.EBI.ac.uk. Consultado el 12 de junio de 2017 .
^ Café T
^ "BLAST: herramienta básica de búsqueda de alineaciones locales". blast.ncbi.nlm.NIH.gov . Consultado el 12 de junio de 2017 .
^ "Servidor UVA FASTA". fasta.bioch.Virginia.edu . Consultado el 12 de junio de 2017 .
^ Thompson JD; Plewniak F; Poch O (1999). "BAliBASE: una base de datos de alineamiento de referencia para la evaluación de múltiples programas de alineamiento". Bioinformática . 15 (1): 87–8. doi : 10.1093/bioinformatics/15.1.87 . PMID 10068696.
^ BAliBASE
^ Thompson JD; Plewniak F; Poch O. (1999). "Una comparación exhaustiva de múltiples programas de alineamiento de secuencias". Nucleic Acids Res . 27 (13): 2682–90. doi :10.1093/nar/27.13.2682. PMC 148477 . PMID 10373585.
^ "Alineación de secuencias múltiples: Correa". 3d-alignment.eu . Consultado el 12 de junio de 2017 .

Enlaces externos

Escuche este artículo ( 39 minutos )

Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 5 de junio de 2012 y no refleja ediciones posteriores. ( 05-06-2012 )

Medios relacionados con Alineación de secuencias en Wikimedia Commons

[mount-1] Mount DM. (2004). Bioinformática: análisis de secuencias y genomas (2.ª ed.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 978-0-87969-608-5.

[2] "Preguntas frecuentes sobre Clustal #Símbolos". Clustal . Archivado desde el original el 24 de octubre de 2016 . Consultado el 8 de diciembre de 2014 .

[predict-3] Ng PC; Henikoff S (mayo de 2001). "Predicción de sustituciones deletéreas de aminoácidos". Genome Res . 11 (5): 863–74. doi :10.1101/gr.176601. PMC 311071 . PMID 11337480.

[Polyanovsky2011-4] Polyanovsky, VO; Roytberg, MA; Tumanyan, VG (2011). "Análisis comparativo de la calidad de un algoritmo global y un algoritmo local para el alineamiento de dos secuencias". Algoritmos para biología molecular . 6 (1): 25. doi : 10.1186/1748-7188-6-25 . PMC 3223492 . PMID 22032267. S2CID 2658261.

[Schneider-5] Schneider TD; Stephens RM (1990). "Logotipos de secuencias: una nueva forma de mostrar secuencias de consenso". Nucleic Acids Res . 18 (20): 6097–6100. doi :10.1093/nar/18.20.6097. PMC 332411 . PMID 2172928.

[6] "Especificación de formato de mapa/alineación de secuencia" (PDF) .

[brudno-7] Brudno M; Malde S; Poliakov A; Do CB; Couronne O; Dubchak I; Batzoglou S (2003). "Alineamiento glocal: búsqueda de reordenamientos durante el alineamiento". Bioinformática . 19. Suppl 1 (90001): i54–62. doi : 10.1093/bioinformatics/btg1005 . PMID 12855437.

[Alignment_of_whole_genomes-8] Delcher, AL; Kasif, S.; Fleishmann, RD; Peterson, J.; White, O.; Salzberg, SL (1999). "Alineación de genomas completos". Investigación de ácidos nucleicos . 27 (11): 2369–2376. doi : 10.1093/nar/30.11.2478 . PMC 148804 . PMID 10325427.

[Algorithms_in_Bioinformatics-9] Wing-Kin, Sung (2010). Algoritmos en bioinformática: una introducción práctica (primera edición). Boca Raton: Chapman & Hall/CRC Press. ISBN 978-1420070330.

[10] Gotoh, Osamu (15 de diciembre de 1982). "Un algoritmo mejorado para la correspondencia de secuencias biológicas". Revista de Biología Molecular . 162 (3): 705–708. doi :10.1016/0022-2836(82)90398-9. ISSN 0022-2836.

[11] Gotoh, Osamu (1 de enero de 1999). "Alineamiento de secuencias múltiples: algoritmos y aplicaciones". Avances en biofísica . 36 : 159–206. doi :10.1016/S0065-227X(99)80007-0. ISSN 0065-227X.

[wang-12] Wang L; Jiang T. (1994). "Sobre la complejidad del alineamiento de secuencias múltiples". J Comput Biol . 1 (4): 337–48. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID 8790475.

[elias-13] Elias, Isaac (2006). "Resolviendo la intransigencia del alineamiento múltiple". J Comput Biol . 13 (7): 1323–1339. CiteSeerX 10.1.1.6.256 . doi :10.1089/cmb.2006.13.1323. PMID 17037961.

[lipman-14] Lipman DJ; Altschul SF; Kececioglu JD (1989). "Una herramienta para el alineamiento de secuencias múltiples". Proc Natl Acad Sci USA . 86 (12): 4412–5. Bibcode :1989PNAS...86.4412L. doi : 10.1073/pnas.86.12.4412 . PMC 287279 . PMID 2734293.

[higgins-15] Higgins DG , Sharp PM (1988). "CLUSTAL: un paquete para realizar alineamiento de secuencias múltiples en una microcomputadora". Gene . 73 (1): 237–44. doi :10.1016/0378-1119(88)90330-7. PMID 3243435.

[thompson-16] Thompson JD; Higgins DG ; Gibson TJ. (1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de secuencias múltiples mediante ponderación de secuencias, penalizaciones por espacios específicos de posición y elección de la matriz de ponderación". Nucleic Acids Res . 22 (22): 4673–80. doi :10.1093/nar/22.22.4673. PMC 308517. PMID 7984417 .

[chenna-17] Chenna R; Sugawara H; Koike T; Lopez R; Gibson TJ; Higgins DG; Thompson JD. (2003). "Alineamiento de secuencias múltiples con la serie de programas Clustal". Nucleic Acids Res . 31 (13): 3497–500. doi :10.1093/nar/gkg500. PMC 168907 . PMID 12824352.

[notredame-18] Notredame C; Higgins DG ; Heringa J. (2000). "T-Coffee: Un nuevo método para el alineamiento rápido y preciso de múltiples secuencias". J Mol Biol . 302 (1): 205–17. doi :10.1006/jmbi.2000.4042. PMID 10964570. S2CID 10189971.

[hirosawa-19] Hirosawa M; Totoki Y; Hoshida M; Ishikawa M. (1995). "Estudio exhaustivo de algoritmos iterativos de alineamiento de secuencias múltiples". Comput Appl Biosci . 11 (1): 13–8. doi :10.1093/bioinformatics/11.1.13. PMID 7796270.

[karplus-20] Karplus K; Barrett C; Hughey R. (1998). "Modelos ocultos de Markov para detectar homologías de proteínas remotas". Bioinformática . 14 (10): 846–856. CiteSeerX 10.1.1.57.2762 . doi : 10.1093/bioinformatics/14.10.846 . PMID 9927713.

[chothia-21] Chothia C; Lesk AM. (abril de 1986). "La relación entre la divergencia de la secuencia y la estructura en las proteínas". EMBO J . 5 (4): 823–6. doi :10.1002/j.1460-2075.1986.tb04288.x. PMC 1166865 . PMID 3709526.

[skolnick-22] Zhang Y; Skolnick J. (2005). "El problema de predicción de la estructura de proteínas podría resolverse utilizando la biblioteca PDB actual". Proc Natl Acad Sci USA . 102 (4): 1029–34. Bibcode :2005PNAS..102.1029Z. doi : 10.1073/pnas.0407152101 . PMC 545829 . PMID 15653774.

[holm-23] Holm L; Sander C (1996). "Mapping the protein universe" (Mapeo del universo proteínico). Science . 273 (5275): 595–603. Bibcode :1996Sci...273..595H. doi :10.1126/science.273.5275.595. PMID 8662544. S2CID 7509134.

[taylor-24] Taylor WR; Flores TP; Orengo CA. (1994). "Alineamiento de estructuras de proteínas múltiples". Protein Sci . 3 (10): 1858–70. doi :10.1002/pro.5560031025. PMC 2142613 . PMID 7849601.

[orengo-25] Orengo CA; Michie AD; Jones S; Jones DT; Swindells MB; Thornton JM (1997). "CATH: una clasificación jerárquica de las estructuras de los dominios proteicos". Structure . 5 (8): 1093–108. doi : 10.1016/S0969-2126(97)00260-8 . PMID 9309224.

[shindyalov-26] Shindyalov IN; Bourne PE. (1998). "Alineación de la estructura de proteínas mediante extensión combinatoria incremental (CE) de la ruta óptima". Protein Eng . 11 (9): 739–47. doi : 10.1093/protein/11.9.739 . PMID 9796821.

[ortet-27] Ortet P; Bastien O (2010). "¿De dónde proviene la forma de la distribución de la puntuación de alineación?". Evolutionary Bioinformatics . 6 : 159–187. doi :10.4137/EBO.S5875. PMC 3023300 . PMID 21258650.

[felsenstein-28] Felsenstein J. (2004). Inferir filogenias . Asociados de Sinauer: Sunderland, MA. ISBN 978-0-87893-177-4.

[altschul-29] Altschul SF; Gish W (1996). "Estadísticas de alineamiento local". Métodos informáticos para el análisis de secuencias macromoleculares . Métodos en enzimología. Vol. 266. págs. 460–480. doi :10.1016/S0076-6879(96)66029-7. ISBN 9780121821678. Número de identificación personal 8743700. {{cite book}}: |journal=ignorado ( ayuda )

[hartmann-30] Hartmann AK (2002). "Muestreo de eventos raros: estadísticas de alineamientos de secuencias locales". Phys. Rev. E . 65 (5): 056102. arXiv : cond-mat/0108201 . Código Bibliográfico :2002PhRvE..65e6102H. doi :10.1103/PhysRevE.65.056102. PMID 12059642. S2CID 193085.

[newberg-31] Newberg LA (2008). "Importancia de los alineamientos de secuencias con huecos". J Comput Biol . 15 (9): 1187–1194. doi :10.1089/cmb.2008.0125. PMC 2737730 . PMID 18973434.

[eddy-32] Eddy SR; Rost, Burkhard (2008). Rost, Burkhard (ed.). "Un modelo probabilístico de alineamiento de secuencias locales que simplifica la estimación de la significación estadística". PLOS Comput Biol . 4 (5): e1000069. Bibcode :2008PLSCB...4E0069E. doi : 10.1371/journal.pcbi.1000069 . PMC 2396288 . PMID 18516236. S2CID 15640896.

[bastien-33] Bastien O; Aude JC; Roy S; Marechal E (2004). "Fundamentos de alineaciones automáticas masivas por pares de secuencias de proteínas: significación teórica de las estadísticas del valor Z". Bioinformática . 20 (4): 534–537. CiteSeerX 10.1.1.602.6979 . doi : 10.1093/bioinformatics/btg440 . PMID 14990449.

[agrawal11-34] Agrawal A; Huang X (2011). "Significación estadística por pares de la alineación de secuencias locales utilizando matrices de sustitución específicas de secuencia y de posición". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 8 (1): 194–205. doi :10.1109/TCBB.2009.69. PMID 21071807. S2CID 6559731.

[agrawal08-35] Agrawal A; Brendel VP; Huang X (2008). "Significación estadística por pares y determinación empírica de penalizaciones efectivas por apertura de brechas para la alineación de secuencias locales de proteínas". Revista internacional de biología computacional y diseño de fármacos . 1 (4): 347–367. doi :10.1504/IJCBDD.2008.022207. PMID 20063463. Archivado desde el original el 28 de enero de 2013.

[NewbergLawrence2009-36] Newberg LA; Lawrence CE (2009). "Cálculo exacto de distribuciones en números enteros, con aplicación a la alineación de secuencias". J Comput Biol . 16 (1): 1–18. doi :10.1089/cmb.2008.0137. PMC 2858568 . PMID 19119992.

[37] Kim N; Lee C (2008). "Detección bioinformática de empalmes alternativos". Bioinformática . Métodos en biología molecular. Vol. 452. págs. 179–97. doi :10.1007/978-1-60327-159-2_9. ISBN 978-1-58829-707-5. Número de identificación personal 18566765.

[38] Li JB, Levanon EY, Yoon JK, et al. (mayo de 2009). "Identificación de sitios de edición de ARN humano en todo el genoma mediante captura y secuenciación paralela de ADN". Science . 324 (5931): 1210–3. Bibcode :2009Sci...324.1210L. doi :10.1126/science.1170995. PMID 19478186. S2CID 31148824.

[39] Blazewicz J, Bryja M, Figlerowicz M, et al. (junio de 2009). "Ensamblaje del genoma completo a partir de la secuenciación 454 mediante el concepto de gráfico de ADN modificado". Comput Biol Chem . 33 (3): 224–30. doi :10.1016/j.compbiolchem.2009.04.005. PMID 19477687.

[40] Duran C; Appleby N; Vardy M; Imelfort M; Edwards D; Batley J (mayo de 2009). "Descubrimiento de polimorfismo de un solo nucleótido en cebada utilizando autoSNPdb". Plant Biotechnol. J . 7 (4): 326–33. doi : 10.1111/j.1467-7652.2009.00407.x . PMID 19386041.

[41] Abbott A.; Tsay A. (2000). "Análisis de secuencias y métodos de emparejamiento óptimo en sociología, revisión y prospectiva". Métodos sociológicos e investigación . 29 (1): 3–33. doi :10.1177/0049124100029001001. S2CID 121097811.

[Barzilay-42] Barzilay R; Lee L. (2002). "Bootstrapping lexical choice via multiple-sequence adjustment" (PDF) . Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural - EMNLP '02 . Vol. 10. págs. 164–171. arXiv : cs/0205065 . Bibcode :2002cs........5065B. doi :10.3115/1118693.1118715. S2CID 7521453.

[43] Kondrak, Grzegorz (2002). "Algoritmos para la reconstrucción del lenguaje" (PDF) . Universidad de Toronto, Ontario. Archivado desde el original (PDF) el 17 de diciembre de 2008. Consultado el 21 de enero de 2007 . {{cite journal}}: Requiere citar revista |journal=( ayuda )

[prinzie-44] Prinzie A.; D. Van den Poel (2006). "Incorporación de información secuencial en modelos de clasificación tradicionales mediante el uso de un SAM sensible a elementos y posiciones" . Decision Support Systems . 42 (2): 508–526. doi :10.1016/j.dss.2005.02.004.Véase también el artículo de Prinzie y Van den Poel Prinzie, A; Vandenpoel, D (2007). "Predicción de secuencias de adquisición de electrodomésticos: Markov/Markov para análisis de discriminación y supervivencia para modelar información secuencial en modelos NPTB" . Decision Support Systems . 44 (1): 28–45. doi :10.1016/j.dss.2007.02.008.

[45] EMBL-EBI. «ClustalW2 < Multiple Sequence Alignment < EMBL-EBI». www.EBI.ac.uk. Consultado el 12 de junio de 2017 .

[46] Café T

[47] "BLAST: herramienta básica de búsqueda de alineaciones locales". blast.ncbi.nlm.NIH.gov . Consultado el 12 de junio de 2017 .

[48] "Servidor UVA FASTA". fasta.bioch.Virginia.edu . Consultado el 12 de junio de 2017 .

[thompson2-49] Thompson JD; Plewniak F; Poch O (1999). "BAliBASE: una base de datos de alineamiento de referencia para la evaluación de múltiples programas de alineamiento". Bioinformática . 15 (1): 87–8. doi : 10.1093/bioinformatics/15.1.87 . PMID 10068696.

[50] BAliBASE

[thompson3-51] Thompson JD; Plewniak F; Poch O. (1999). "Una comparación exhaustiva de múltiples programas de alineamiento de secuencias". Nucleic Acids Res . 27 (13): 2682–90. doi :10.1093/nar/27.13.2682. PMC 148477 . PMID 10373585.

[52] "Alineación de secuencias múltiples: Correa". 3d-alignment.eu . Consultado el 12 de junio de 2017 .