Alineación de secuencias múltiples

Alineación de más de dos secuencias moleculares
Primeras 90 posiciones de un alineamiento de secuencias múltiples de proteínas de instancias de la proteína ribosomal ácida P0 (L10E) de varios organismos. Generado con Clustal X.

El alineamiento de secuencias múltiples ( MSA ) es el proceso o el resultado del alineamiento de secuencias de tres o más secuencias biológicas , generalmente proteínas , ADN o ARN . Estos alineamientos se utilizan para inferir relaciones evolutivas a través del análisis filogenético y pueden resaltar características homólogas entre secuencias. Los alineamientos resaltan eventos de mutación como mutaciones puntuales (cambios de un solo aminoácido o nucleótido ), mutaciones de inserción y mutaciones de deleción , y los alineamientos se utilizan para evaluar la conservación de secuencias e inferir la presencia y actividad de dominios de proteínas , estructuras terciarias , estructuras secundarias y aminoácidos o nucleótidos individuales.

Los alineamientos de secuencias múltiples requieren metodologías más sofisticadas que los alineamientos por pares , ya que son más complejos desde el punto de vista computacional . La mayoría de los programas de alineamiento de secuencias múltiples utilizan métodos heurísticos en lugar de optimización global porque identificar el alineamiento óptimo entre más de unas pocas secuencias de longitud moderada es prohibitivamente costoso desde el punto de vista computacional. Sin embargo, los métodos heurísticos generalmente no pueden garantizar soluciones de alta calidad y se ha demostrado que no logran generar soluciones casi óptimas en casos de prueba de referencia. [1] [2] [3]

Planteamiento del problema

Secuencias dadas , similares a la forma siguiente: metro {\estilo de visualización m} S i Estilo de visualización S_{i}} i = 1 , , metro {\displaystyle i=1,\cpuntos ,m}

S := { S 1 = ( S 11 , S 12 , , S 1 norte 1 ) S 2 = ( S 21 , S 22 , , S 2 norte 2 ) S metro = ( S metro 1 , S metro 2 , , S metro norte metro ) {\displaystyle S:={\begin{cases}S_{1}=(S_{11},S_{12},\ldots ,S_{1n_{1}})\\S_{2}=(S_{21},S_{22},\cdots ,S_{2n_{2}})\\\,\,\,\,\,\,\,\,\,\,\vdots \\S_{m}=(S_{m1},S_{m2},\ldots ,S_{mn_{m}})\end{cases}}}

Se realiza una alineación de secuencias múltiples de este conjunto de secuencias insertando cualquier cantidad de espacios necesarios en cada una de las secuencias de hasta que las secuencias modificadas, , todas cumplan con la longitud y ningún valor en las secuencias de de la misma columna consista únicamente en espacios. La forma matemática de una alineación de secuencias múltiples del conjunto de secuencias anterior se muestra a continuación: S {\estilo de visualización S} S i Estilo de visualización S_{i}} S {\estilo de visualización S} S i " Estilo de visualización S'_{i}} yo máximo { norte i i = 1 , , metro } {\displaystyle L\geq \max\{n_{i}\mid i=1,\ldots ,m\}} S {\estilo de visualización S}

S " := { S 1 " = ( S 11 " , S 12 " , , S 1 yo " ) S 2 " = ( S 21 " , S 22 " , , S 2 yo " ) S metro " = ( S metro 1 " , S metro 2 " , , S metro yo " ) {\displaystyle S':={\begin{cases}S'_{1}=(S'_{11},S'_{12},\ldots ,S'_{1L})\\S'_{2}=(S'_{21},S'_{22},\ldots ,S'_{2L})\\\,\,\,\,\,\,\,\,\,\,\,\vdots \\S'_{m}=(S'_{m1},S'_{m2},\ldots ,S'_{mL})\end{cases}}}

Para regresar desde cada secuencia particular a , elimine todos los espacios. S i " Estilo de visualización S'_{i}} S i Estilo de visualización S_{i}}

Enfoque gráfico

Un enfoque general al calcular alineaciones de secuencias múltiples es utilizar gráficos para identificar todas las alineaciones diferentes. Al buscar alineaciones mediante gráficos, se crea una alineación completa en un gráfico ponderado que contiene un conjunto de vértices y un conjunto de aristas. Cada una de las aristas del gráfico tiene un peso basado en una determinada heurística que ayuda a puntuar cada alineación o subconjunto del gráfico original.

Seguimiento de alineaciones

Al determinar las alineaciones más adecuadas para cada MSA, generalmente se genera una traza . Una traza es un conjunto de vértices realizados , o correspondientes y alineados, que tiene un peso específico basado en los bordes que se seleccionan entre los vértices correspondientes. Al elegir trazas para un conjunto de secuencias, es necesario elegir una traza con un peso máximo para obtener la mejor alineación de las secuencias.

Métodos de alineación

Existen varios métodos de alineación que se utilizan en múltiples secuencias para maximizar las puntuaciones y la exactitud de las alineaciones. Cada uno de ellos suele basarse en una determinada heurística con una perspectiva del proceso evolutivo. La mayoría intenta replicar la evolución para obtener la alineación más realista posible para predecir mejor las relaciones entre secuencias.

Programación dinámica

Un método directo para producir un MSA utiliza la técnica de programación dinámica para identificar la solución de alineación óptima a nivel global. Para las proteínas, este método generalmente implica dos conjuntos de parámetros: una penalización por espacio y una matriz de sustitución que asigna puntajes o probabilidades a la alineación de cada par posible de aminoácidos en función de la similitud de las propiedades químicas de los aminoácidos y la probabilidad evolutiva de la mutación. Para las secuencias de nucleótidos, se utiliza una penalización por espacio similar, pero es típica una matriz de sustitución mucho más simple, en la que solo se consideran las coincidencias y los desajustes idénticos. Los puntajes en la matriz de sustitución pueden ser todos positivos o una mezcla de positivos y negativos en el caso de una alineación global, pero deben ser tanto positivos como negativos, en el caso de una alineación local. [4]

Para n secuencias individuales, el método ingenuo requiere construir el equivalente n -dimensional de la matriz formada en el alineamiento de secuencia por pares estándar . El espacio de búsqueda aumenta exponencialmente con el aumento de n y también depende en gran medida de la longitud de la secuencia. Expresado con la notación O grande comúnmente utilizada para medir la complejidad computacional , un MSA ingenuo toma O(Longitud Nseqs ) tiempo para producirse. Se ha demostrado que encontrar el óptimo global para n secuencias de esta manera es un problema NP-completo . [5] [6] [7] En 1989, basado en el algoritmo de Carrillo-Lipman, [8] Altschul introdujo un método práctico que utiliza alineaciones por pares para restringir el espacio de búsqueda n-dimensional. [9] En este enfoque, se realizan alineaciones de programación dinámica por pares en cada par de secuencias en el conjunto de consulta, y solo se busca el espacio cerca de la intersección n-dimensional de estas alineaciones para la alineación n-direccional. El programa MSA optimiza la suma de todos los pares de caracteres en cada posición de la alineación (la llamada suma de la puntuación de pares) y se ha implementado en un programa de software para construir alineaciones de secuencias múltiples. [10] En 2019, Hosseininasab y van Hoeve demostraron que mediante el uso de diagramas de decisión, MSA puede modelarse en complejidad de espacio polinomial. [3]

Construcción de alineación progresiva

El método más utilizado para alineaciones de secuencias múltiples utiliza una búsqueda heurística conocida como técnica progresiva (también conocida como método jerárquico o de árbol) desarrollada por Da-Fei Feng y Doolittle en 1987. [11] La alineación progresiva construye un MSA final combinando alineaciones por pares comenzando con el par más similar y progresando hasta el más distantemente relacionado. Todos los métodos de alineación progresiva requieren dos etapas: una primera etapa en la que las relaciones entre las secuencias se representan como un árbol filogenético , llamado árbol guía , y un segundo paso en el que se construye el MSA agregando las secuencias secuencialmente al MSA creciente de acuerdo con el árbol guía. El árbol guía inicial se determina mediante un método de agrupamiento eficiente como la unión de vecinos o el método de grupo de pares no ponderados con media aritmética ( UPGMA ), y puede usar distancias basadas en el número de subsecuencias idénticas de dos letras (como en FASTA en lugar de una alineación de programación dinámica). [12]

No se garantiza que los alineamientos progresivos sean globalmente óptimos. El problema principal es que cuando se cometen errores en cualquier etapa del crecimiento del MSA, estos errores se propagan hasta el resultado final. El rendimiento también es particularmente malo cuando todas las secuencias del conjunto están relacionadas de manera bastante distante. La mayoría de los métodos progresivos modernos modifican su función de puntuación con una función de ponderación secundaria que asigna factores de escala a los miembros individuales del conjunto de consulta de manera no lineal en función de su distancia filogenética con respecto a sus vecinos más cercanos. Esto corrige la selección no aleatoria de las secuencias entregadas al programa de alineamiento. [12]

Los métodos de alineamiento progresivo son lo suficientemente eficientes para implementarse a gran escala para muchas secuencias (de cientos a miles). Un método de alineamiento progresivo popular ha sido la familia Clustal . [13] [14] Clustal W se usa ampliamente para la construcción de árboles filogenéticos, a pesar de las advertencias explícitas del autor de que no se deben usar alineaciones sin editar en dichos estudios y como entrada para la predicción de la estructura de proteínas mediante modelado de homología. El Instituto Europeo de Bioinformática (EMBL-EBI) anunció que CLustalW2 expirará en agosto de 2015. Recomiendan Clustal Omega, que funciona en base a árboles guía sembrados y técnicas de perfil-perfil HMM para alineamientos de proteínas. Una herramienta alternativa para alineamientos progresivos de ADN es el alineamiento múltiple utilizando la transformada rápida de Fourier ( MAFFT ). [15]

Otro método común de alineamiento progresivo llamado T-Coffee [16] es más lento que Clustal y sus derivados, pero generalmente produce alineamientos más precisos para conjuntos de secuencias distantes. T-Coffee calcula alineamientos por pares combinando el alineamiento directo del par con alineamientos indirectos que alinean cada secuencia del par con una tercera secuencia. Utiliza el resultado de Clustal, así como otro programa de alineamiento local LALIGN, que encuentra múltiples regiones de alineamiento local entre dos secuencias. El alineamiento resultante y el árbol filogenético se utilizan como guía para producir factores de ponderación nuevos y más precisos.

Debido a que los métodos progresivos son heurísticas que no tienen garantía de convergencia hacia un óptimo global, la calidad de la alineación puede ser difícil de evaluar y su verdadero significado biológico puede ser obscuro. En el programa PSAlign se ha implementado un método semi-progresivo que mejora la calidad de la alineación y no utiliza una heurística con pérdida mientras se ejecuta en tiempo polinomial . [17]

Métodos iterativos

Un conjunto de métodos para producir MSAs mientras se reducen los errores inherentes a los métodos progresivos se clasifican como "iterativos" porque funcionan de manera similar a los métodos progresivos pero realinean repetidamente las secuencias iniciales y agregan nuevas secuencias al MSA creciente. Una razón por la que los métodos progresivos dependen tanto de una alineación inicial de alta calidad es el hecho de que estas alineaciones siempre se incorporan al resultado final, es decir, una vez que una secuencia se ha alineado en el MSA, su alineación no se considera más. Esta aproximación mejora la eficiencia a costa de la precisión. Por el contrario, los métodos iterativos pueden volver a alineaciones por pares calculadas previamente o sub-MSAs que incorporan subconjuntos de la secuencia de consulta como un medio para optimizar una función objetivo general , como encontrar una puntuación de alineación de alta calidad. [12]

Se han implementado y puesto a disposición en paquetes de software una variedad de métodos de iteración sutilmente diferentes; las revisiones y comparaciones han sido útiles pero generalmente se abstienen de elegir una técnica "mejor". [18] El paquete de software PRRN/PRRP utiliza un algoritmo de escalada de colinas para optimizar su puntaje de alineación de MSA [19] y corrige iterativamente tanto los pesos de alineación como las regiones localmente divergentes o "con brechas" del MSA en crecimiento. [12] PRRP funciona mejor cuando refina una alineación construida previamente con un método más rápido. [12]

Otro programa iterativo, DIALIGN, adopta un enfoque inusual al centrarse estrictamente en las alineaciones locales entre subsegmentos o motivos de secuencia sin introducir una penalización por espacio. [20] La alineación de motivos individuales se logra entonces con una representación matricial similar a un gráfico de matriz de puntos en una alineación por pares. Un método alternativo que utiliza alineaciones locales rápidas como puntos de anclaje o semillas para un procedimiento de alineación global más lento se implementa en la suite CHAOS/DIALIGN. [20]

Un tercer método popular basado en iteraciones llamado MUSCLE (alineación de secuencias múltiples por expectativa logarítmica) mejora los métodos progresivos con una medida de distancia más precisa para evaluar la relación de dos secuencias. [21] La medida de distancia se actualiza entre las etapas de iteración (aunque, en su forma original, MUSCLE contenía solo 2-3 iteraciones dependiendo de si el refinamiento estaba habilitado).

Métodos de consenso

Los métodos de consenso intentan encontrar la alineación óptima de múltiples secuencias dadas múltiples alineaciones diferentes del mismo conjunto de secuencias. Hay dos métodos de consenso comúnmente utilizados, M-COFFEE y MergeAlign. [22] M-COFFEE utiliza alineaciones de secuencias múltiples generadas por siete métodos diferentes para generar alineaciones de consenso. MergeAlign es capaz de generar alineaciones de consenso a partir de cualquier número de alineaciones de entrada generadas utilizando diferentes modelos de evolución de secuencias o diferentes métodos de alineación de secuencias múltiples. La opción predeterminada para MergeAlign es inferir una alineación de consenso utilizando alineaciones generadas utilizando 91 modelos diferentes de evolución de secuencias de proteínas.

Modelos ocultos de Markov

Un modelo oculto de Markov (HMM) de perfil que modela una alineación de secuencias múltiples

Un modelo oculto de Markov (HMM) es un modelo probabilístico que puede asignar probabilidades a todas las combinaciones posibles de brechas, coincidencias y desajustes, para determinar el MSA más probable o el conjunto de MSA posibles. Los HMM pueden producir un único resultado con la puntuación más alta, pero también pueden generar una familia de posibles alineaciones que luego se pueden evaluar para determinar su importancia biológica. Los HMM pueden producir alineaciones tanto globales como locales. Aunque los métodos basados ​​en HMM se han desarrollado hace relativamente poco tiempo, ofrecen mejoras significativas en la velocidad computacional, especialmente para secuencias que contienen regiones superpuestas. [12]

Los métodos típicos basados ​​en HMM funcionan representando un MSA como una forma de gráfico acíclico dirigido conocido como gráfico de orden parcial, que consiste en una serie de nodos que representan posibles entradas en las columnas de un MSA. En esta representación, una columna que se conserva absolutamente (es decir, que todas las secuencias en el MSA comparten un carácter particular en una posición particular) se codifica como un solo nodo con tantas conexiones salientes como caracteres posibles haya en la siguiente columna de la alineación. En términos de un modelo Markov oculto típico, los estados observados son las columnas de alineación individuales y los estados "ocultos" representan la supuesta secuencia ancestral de la que se supone que descienden las secuencias en el conjunto de consulta. Una variante de búsqueda eficiente del método de programación dinámica, denominada algoritmo de Viterbi , se utiliza generalmente para alinear sucesivamente el MSA creciente con la siguiente secuencia en el conjunto de consulta para producir un nuevo MSA. [23] Esto es distinto de los métodos de alineación progresiva porque la alineación de secuencias anteriores se actualiza en cada nueva adición de secuencia. Sin embargo, al igual que los métodos progresivos, esta técnica puede verse influenciada por el orden en el que las secuencias del conjunto de consulta se integran en la alineación, especialmente cuando las secuencias están distantemente relacionadas. [12]

Existen varios programas de software disponibles en los que se han implementado variantes de métodos basados ​​en HMM y que se destacan por su escalabilidad y eficiencia, aunque usar correctamente un método HMM es más complejo que usar métodos progresivos más comunes. El más simple es Partial-Order Alignment (POA), [24] y un método similar más general se implementa en el paquete de software Sequence Alignment and Modeling System (SAM). [25] y HMMER . [26] SAM se ha utilizado como una fuente de alineaciones para la predicción de la estructura de proteínas para participar en el experimento de predicción de estructura Critical Assessment of Structure Prediction ( CASP ) y para desarrollar una base de datos de proteínas predichas en la especie de levadura S. cerevisiae . HHsearch [27] es un paquete de software para la detección de secuencias de proteínas relacionadas de forma remota basado en la comparación por pares de HMM. Un servidor que ejecuta HHsearch ( HHpred ) fue el más rápido de los 10 servidores de predicción de estructura automática en las competiciones de predicción de estructura CASP7 y CASP8. [28]

Métodos que tienen en cuenta la filogenia

Alineación de exones no homólogos mediante un método iterativo (a) y mediante un método que tiene en cuenta la filogenia (b)

La mayoría de los métodos de alineamiento de secuencias múltiples intentan minimizar el número de inserciones/deleciones (huecos) y, como consecuencia, producen alineamientos compactos. Esto causa varios problemas si las secuencias a alinear contienen regiones no homólogas , si los huecos son informativos en un análisis de filogenia . Estos problemas son comunes en secuencias recién producidas que están mal anotadas y pueden contener cambios de marco , dominios erróneos o exones empalmados no homólogos . El primer método de este tipo fue desarrollado en 2005 por Löytynoja y Goldman. [29] Los mismos autores lanzaron un paquete de software llamado PRANK en 2008. [30] PRANK mejora los alineamientos cuando hay inserciones. Sin embargo, se ejecuta lentamente en comparación con los métodos progresivos y/o iterativos que se han desarrollado durante varios años.

En 2012, aparecieron dos nuevas herramientas que tienen en cuenta la filogenia. Una se llama PAGAN y fue desarrollada por el mismo equipo que PRANK. [31] La otra es ProGraphMSA, desarrollada por Szalkowski. [32] Ambos paquetes de software se desarrollaron de forma independiente, pero comparten características comunes, en particular el uso de algoritmos de gráficos para mejorar el reconocimiento de regiones no homólogas y una mejora en el código que hace que estos programas sean más rápidos que PRANK.

Búsqueda de motivos

Alineación de las siete caspasas de Drosophila coloreadas según los motivos identificados por MEME. Cuando las posiciones de los motivos y las alineaciones de secuencias se generan de forma independiente, suelen correlacionarse bien, pero no de forma perfecta, como en este ejemplo.

La búsqueda de motivos, también conocida como análisis de perfiles, es un método para localizar motivos de secuencias en MSA globales que es a la vez un medio para producir un mejor MSA y un medio para producir una matriz de puntuación para su uso en la búsqueda de otras secuencias de motivos similares. Se han desarrollado diversos métodos para aislar los motivos, pero todos se basan en la identificación de patrones cortos altamente conservados dentro de la alineación más grande y la construcción de una matriz similar a una matriz de sustitución que refleje la composición de aminoácidos o nucleótidos de cada posición en el motivo putativo. La alineación se puede refinar luego utilizando estas matrices. En el análisis de perfiles estándar, la matriz incluye entradas para cada carácter posible, así como entradas para espacios vacíos. [12] Alternativamente, los algoritmos estadísticos de búsqueda de patrones pueden identificar motivos como precursores de un MSA en lugar de como una derivación. En muchos casos, cuando el conjunto de consulta contiene solo una pequeña cantidad de secuencias o contiene solo secuencias altamente relacionadas, se agregan pseudoconteos para normalizar la distribución reflejada en la matriz de puntuación. En particular, esto corrige las entradas de probabilidad cero en la matriz a valores que son pequeños pero distintos de cero.

El análisis de bloques es un método de búsqueda de motivos que restringe los motivos a regiones sin espacios en la alineación. Los bloques se pueden generar a partir de un MSA o se pueden extraer de secuencias no alineadas utilizando un conjunto precalculado de motivos comunes generados previamente a partir de familias de genes conocidas. [33] La puntuación de bloques generalmente se basa en el espaciado de caracteres de alta frecuencia en lugar del cálculo de una matriz de sustitución explícita.

La comparación de patrones estadísticos se ha implementado utilizando tanto el algoritmo de maximización de expectativas como el muestreador de Gibbs . Una de las herramientas de búsqueda de motivos más comunes, llamada Multiple EM for Motif Elicitation (MEME), utiliza la maximización de expectativas y los métodos ocultos de Markov para generar motivos que luego se utilizan como herramientas de búsqueda por su complemento MAST en el conjunto combinado MEME/MAST. [34] [35]

Alineamiento de secuencias múltiples no codificantes

Las regiones de ADN no codificantes, especialmente los sitios de unión de factores de transcripción (TFBS), se conservan, pero no necesariamente están relacionadas evolutivamente, y pueden haber convergido a partir de ancestros no comunes. Por lo tanto, las suposiciones utilizadas para alinear secuencias de proteínas y regiones codificantes de ADN son inherentemente diferentes de las que se aplican a las secuencias TFBS. Aunque es significativo alinear regiones codificantes de ADN para secuencias homólogas utilizando operadores de mutación, la alineación de secuencias de sitios de unión para el mismo factor de transcripción no puede depender de operaciones de mutación relacionadas con la evolución. De manera similar, el operador evolutivo de mutaciones puntuales se puede utilizar para definir una distancia de edición para secuencias codificantes, pero esto tiene poco significado para las secuencias TFBS porque cualquier variación de secuencia tiene que mantener un cierto nivel de especificidad para que el sitio de unión funcione. Esto se vuelve especialmente importante cuando se intenta alinear secuencias TFBS conocidas para construir modelos supervisados ​​para predecir ubicaciones desconocidas del mismo TFBS. Por lo tanto, los métodos de alineamiento de secuencias múltiples deben ajustar la hipótesis evolutiva subyacente y los operadores utilizados como en el trabajo publicado que incorpora información termodinámica de base vecina [36] para alinear los sitios de unión buscando el alineamiento termodinámico más bajo que conserve la especificidad del sitio de unión.

Mejoramiento

Algoritmos genéticos y recocido simulado

Las técnicas de optimización estándar en informática (ambas inspiradas en procesos físicos, pero que no los reproducen directamente) también se han utilizado en un intento de producir de manera más eficiente MSA de calidad. Una de esas técnicas, los algoritmos genéticos , se ha utilizado para la producción de MSA en un intento de simular ampliamente el proceso evolutivo hipotético que dio lugar a la divergencia en el conjunto de consulta. El método funciona dividiendo una serie de posibles MSA en fragmentos y reorganizando repetidamente esos fragmentos con la introducción de espacios en distintas posiciones. Durante la simulación se optimiza una función objetivo general , más generalmente la función de maximización de "suma de pares" introducida en los métodos MSA basados ​​en programación dinámica. Se ha implementado una técnica para secuencias de proteínas en el programa de software SAGA (Sequence Alignment by Genetic Algorithm) [37] y su equivalente en ARN se llama RAGA. [38]

La técnica de recocido simulado , mediante la cual un MSA existente producido por otro método se refina mediante una serie de reordenamientos diseñados para encontrar mejores regiones del espacio de alineación que la que ya ocupa la alineación de entrada. Al igual que el método del algoritmo genético, el recocido simulado maximiza una función objetivo como la función de suma de pares. El recocido simulado utiliza un "factor de temperatura" metafórico que determina la velocidad a la que se producen los reordenamientos y la probabilidad de cada reordenamiento; el uso típico alterna períodos de altas tasas de reordenamiento con probabilidad relativamente baja (para explorar regiones más distantes del espacio de alineación) con períodos de tasas más bajas y mayores probabilidades para explorar más a fondo los mínimos locales cerca de las regiones recientemente "colonizadas". Este enfoque se ha implementado en el programa MSASA (Multiple Sequence Alignment by Simulated Annealing). [39]

Programación matemática y algoritmos de solución exacta

La programación matemática y, en particular, los modelos de programación entera mixta son otro enfoque para resolver problemas MSA. La ventaja de dichos modelos de optimización es que se pueden utilizar para encontrar la solución MSA óptima de manera más eficiente en comparación con el enfoque DP tradicional. Esto se debe, en parte, a la aplicabilidad de las técnicas de descomposición para programas matemáticos, donde el modelo MSA se descompone en partes más pequeñas y se resuelve iterativamente hasta que se encuentra la solución óptima. Los algoritmos de ejemplo utilizados para resolver modelos de programación entera mixta de MSA incluyen la rama y el precio [40] y la descomposición de Benders [3] . Aunque los enfoques exactos son computacionalmente lentos en comparación con los algoritmos heurísticos para MSA, se garantiza que alcanzarán la solución óptima eventualmente, incluso para problemas de gran tamaño.

Computación cuántica simulada

En enero de 2017, D-Wave Systems anunció que su software de computación cuántica de código abierto qbsolv se había utilizado con éxito para encontrar una solución más rápida al problema MSA. [41]

Visualización de alineación y control de calidad

El uso necesario de heurísticas para el alineamiento múltiple significa que para un conjunto arbitrario de proteínas, siempre hay una buena probabilidad de que un alineamiento contenga errores. Por ejemplo, una evaluación de varios programas de alineamiento líderes utilizando el punto de referencia BAliBase encontró que al menos el 24% de todos los pares de aminoácidos alineados estaban alineados incorrectamente. [2] Estos errores pueden surgir debido a inserciones únicas en una o más regiones de secuencias, o a través de algún proceso evolutivo más complejo que conduce a proteínas que no se alinean fácilmente por secuencia solamente. A medida que aumenta el número de secuencias y su divergencia, se cometerán muchos más errores simplemente debido a la naturaleza heurística de los algoritmos MSA. Los visores de alineamiento de secuencias múltiples permiten revisar visualmente los alineamientos, a menudo inspeccionando la calidad del alineamiento para sitios funcionales anotados en dos o más secuencias. Muchos también permiten editar el alineamiento para corregir estos errores (generalmente menores), con el fin de obtener un alineamiento "curado" óptimo adecuado para su uso en análisis filogenético o modelado comparativo. [42]

Sin embargo, a medida que aumenta el número de secuencias y especialmente en estudios de todo el genoma que involucran muchos MSA, es imposible curar manualmente todas las alineaciones. Además, la curación manual es subjetiva. Y finalmente, incluso el mejor experto no puede alinear con confianza los casos más ambiguos de secuencias altamente divergentes. En tales casos, es una práctica común utilizar procedimientos automáticos para excluir regiones alineadas de manera poco confiable del MSA. Para el propósito de la reconstrucción de la filogenia (ver más abajo) el programa Gblocks se utiliza ampliamente para eliminar bloques de alineación sospechosos de baja calidad, de acuerdo con varios puntos de corte en el número de secuencias con huecos en las columnas de alineación. [43] Sin embargo, estos criterios pueden filtrar excesivamente las regiones con eventos de inserción/eliminación que aún pueden estar alineadas de manera confiable, y estas regiones podrían ser deseables para otros fines, como la detección de selección positiva. Algunos algoritmos de alineación generan puntajes específicos del sitio que permiten la selección de regiones de alta confianza. Un servicio de este tipo fue ofrecido por primera vez por el programa SOAP [44], que prueba la robustez de cada columna a la perturbación en los parámetros del popular programa de alineación CLUSTALW. El programa T-Coffee [45] utiliza una biblioteca de alineaciones en la construcción del MSA final, y su MSA de salida está coloreado de acuerdo con las puntuaciones de confianza que reflejan el acuerdo entre diferentes alineaciones en la biblioteca con respecto a cada residuo alineado. Su extensión, Transitive Consistency Score (TCS), utiliza bibliotecas T-Coffee de alineaciones por pares para evaluar cualquier MSA de terceros. Las proyecciones por pares se pueden producir utilizando métodos rápidos o lentos, lo que permite un equilibrio entre velocidad y precisión. [46] [47] Otro programa de alineación que puede generar un MSA con puntuaciones de confianza es FSA [48] , que utiliza un modelo estadístico que permite el cálculo de la incertidumbre en la alineación. La puntuación HoT (Heads-Or-Tails) se puede utilizar como una medida de la incertidumbre de alineación específica del sitio debido a la existencia de múltiples soluciones coóptimas. [49] El programa GUIDANCE [50] calcula una medida de confianza específica del sitio similar basada en la robustez de la alineación a la incertidumbre en el árbol guía que se utiliza en los programas de alineación progresiva. Un enfoque alternativo, más justificado estadísticamente para evaluar la incertidumbre de la alineación es el uso de modelos evolutivos probabilísticos para la estimación conjunta de la filogenia y la alineación. Un enfoque bayesiano permite el cálculo de probabilidades posteriores de la filogenia y la alineación estimadas, que es una medida de la confianza en estas estimaciones. En este caso, se puede calcular una probabilidad posterior para cada sitio en la alineación. Este enfoque se implementó en el programa BAli-Phy. [51]

Hay programas gratuitos disponibles para la visualización de alineaciones de secuencias múltiples, por ejemplo, Jalview y UGENE .

Uso filogenético

Se pueden utilizar alineaciones de secuencias múltiples para crear un árbol filogenético . [52] Esto es posible por dos razones. La primera es porque los dominios funcionales que se conocen en secuencias anotadas se pueden utilizar para la alineación en secuencias no anotadas. La otra es que se pueden encontrar regiones conservadas que se sabe que son funcionalmente importantes. Esto hace posible que se utilicen alineaciones de secuencias múltiples para analizar y encontrar relaciones evolutivas a través de la homología entre secuencias. Se pueden detectar mutaciones puntuales y eventos de inserción o eliminación (llamados indels).

Los alineamientos de secuencias múltiples también se pueden utilizar para identificar sitios funcionalmente importantes, como sitios de unión, sitios activos o sitios correspondientes a otras funciones clave, mediante la localización de dominios conservados. Al observar alineamientos de secuencias múltiples, es útil considerar diferentes aspectos de las secuencias al comparar secuencias. Estos aspectos incluyen identidad, similitud y homología. Identidad significa que las secuencias tienen residuos idénticos en sus respectivas posiciones. Por otro lado, la similitud tiene que ver con que las secuencias que se comparan tengan residuos similares cuantitativamente. Por ejemplo, en términos de secuencias de nucleótidos, las pirimidinas se consideran similares entre sí, al igual que las purinas. La similitud en última instancia conduce a la homología, en el sentido de que cuanto más similares son las secuencias, más cerca están de ser homólogas. Esta similitud en las secuencias puede luego ayudar a encontrar un ancestro común. [52]

Véase también

Referencias

  1. ^ Thompson JD, Linard B, Lecompte O, Poch O (2011). "Un estudio comparativo exhaustivo de métodos de alineamiento de secuencias múltiples: desafíos actuales y perspectivas futuras". PLOS One . 6 (3): e18093. Bibcode :2011PLoSO...618093T. doi : 10.1371/journal.pone.0018093 . PMC  3069049 . PMID  21483869.
  2. ^ ab Nuin PA, Wang Z, Tillier ER (2006). "La precisión de varios programas de alineamiento de secuencias múltiples para proteínas". BMC Bioinformatics . 7 : 471. doi : 10.1186/1471-2105-7-471 . PMC 1633746 . PMID  17062146. 
  3. ^ abc Hosseininasab A, van Hoeve WJ (2019). "Alineación exacta de secuencias múltiples mediante diagramas de decisión sincronizados". Revista INFORMS sobre informática . doi :10.1287/ijoc.2019.0937. S2CID  109937203.
  4. ^ "Ayuda con las matrices utilizadas en herramientas de comparación de secuencias". Instituto Europeo de Bioinformática. Archivado desde el original el 11 de marzo de 2010. Consultado el 3 de marzo de 2010 .
  5. ^ Wang L, Jiang T (1994). "Sobre la complejidad del alineamiento de secuencias múltiples". J Comput Biol . 1 (4): 337–348. CiteSeerX 10.1.1.408.894 . doi :10.1089/cmb.1994.1.337. PMID  8790475. 
  6. ^ Just W (2001). "Complejidad computacional de la alineación de secuencias múltiples con puntuación SP". J Comput Biol . 8 (6): 615–23. CiteSeerX 10.1.1.31.6382 . doi :10.1089/106652701753307511. PMID  11747615. 
  7. ^ Elias, Isaac (2006). "Resolviendo la intransigencia del alineamiento múltiple". J Comput Biol . 13 (7): 1323–1339. CiteSeerX 10.1.1.6.256 . doi :10.1089/cmb.2006.13.1323. PMID  17037961. 
  8. ^ Carrillo H, Lipman DJ (1988). "El problema de alineamiento de secuencias múltiples en biología". Revista SIAM de Matemáticas Aplicadas . 48 (5): 1073–1082. doi :10.1137/0148063.
  9. ^ Lipman DJ, Altschul SF, Kececioglu JD (1989). "Una herramienta para el alineamiento de secuencias múltiples". Proc Natl Acad Sci USA . 86 (12): 4412–4415. Bibcode :1989PNAS...86.4412L. doi : 10.1073/pnas.86.12.4412 . PMC 287279 . PMID  2734293. 
  10. ^ "Software de análisis genético". Centro Nacional de Información Biotecnológica . Consultado el 3 de marzo de 2010 .
  11. ^ Feng DF, Doolittle RF (1987). "Alineamiento progresivo de secuencias como requisito previo para corregir árboles filogenéticos". J Mol Evol . 25 (4): 351–360. Bibcode :1987JMolE..25..351F. doi :10.1007/BF02603120. PMID  3118049. S2CID  6345432.
  12. ^ abcdefgh Mount DM. (2004). Bioinformática: análisis de secuencias y genomas, 2.ª edición. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  13. ^ Higgins DG , Sharp PM (1988). "CLUSTAL: un paquete para realizar alineamiento de secuencias múltiples en una microcomputadora". Gene . 73 (1): 237–244. doi :10.1016/0378-1119(88)90330-7. PMID  3243435.
  14. ^ Thompson JD, Higgins DG, Gibson TJ (noviembre de 1994). "CLUSTAL W: mejora de la sensibilidad del alineamiento progresivo de múltiples secuencias mediante ponderación de secuencias, penalizaciones por espacios específicos de posición y elección de la matriz de ponderación". Nucleic Acids Res . 22 (22): 4673–80. doi :10.1093/nar/22.22.4673. PMC 308517 . PMID  7984417. 
  15. ^ "EMBL-EBI-ClustalW2-Alineamiento de secuencias múltiples". CLUSTALW2 .
  16. ^ Notredame C, Higgins DG, Heringa J (septiembre de 2000). "T-Coffee: un nuevo método para el alineamiento rápido y preciso de múltiples secuencias". J. Mol. Biol . 302 (1): 205–17. doi :10.1006/jmbi.2000.4042. PMID  10964570. S2CID  10189971.
  17. ^ Sze SH, Lu Y, Yang Q (2006). "Una formulación de alineamiento de secuencias múltiples solucionable en tiempo polinomial". J Comput Biol . 13 (2): 309–319. doi :10.1089/cmb.2006.13.309. PMID  16597242.
  18. ^ Hirosawa M, Totoki Y, Hoshida M, Ishikawa M (1995). "Estudio exhaustivo de algoritmos iterativos de alineamiento de secuencias múltiples". Aplicaciones informáticas en las biociencias . 11 (1): 13–18. doi :10.1093/bioinformatics/11.1.13. PMID  7796270.
  19. ^ Gotoh O (1996). "Mejora significativa de la precisión de alineamientos de secuencias de proteínas múltiples mediante refinamiento iterativo, evaluado en función de alineamientos estructurales". J Mol Biol . 264 (4): 823–38. doi :10.1006/jmbi.1996.0679. PMID  8980688.
  20. ^ ab Brudno M, Chapman M, Göttgens B, Batzoglou S, Morgenstern B (diciembre de 2003). "Alineamiento múltiple rápido y sensible de secuencias genómicas grandes". BMC Bioinformatics . 4 : 66. doi : 10.1186/1471-2105-4-66 . PMC 521198 . PMID  14693042. 
  21. ^ Edgar RC (2004). "MUSCLE: alineamiento de secuencias múltiples con alta precisión y alto rendimiento". Nucleic Acids Research . 32 (5): 1792–97. doi :10.1093/nar/gkh340. PMC 390337 . PMID  15034147. 
  22. ^ Collingridge PW, Kelly S (2012). "MergeAlign: mejora del rendimiento de alineamiento de secuencias múltiples mediante la reconstrucción dinámica de alineamientos de secuencias múltiples de consenso". BMC Bioinformatics . 13 (117): 117. doi : 10.1186/1471-2105-13-117 . PMC 3413523 . PMID  22646090. 
  23. ^ Hughey R, Krogh A (1996). "Modelos ocultos de Markov para análisis de secuencias: extensión y análisis del método básico". CABIOS . 12 (2): 95–107. CiteSeerX 10.1.1.44.3365 . doi :10.1093/bioinformatics/12.2.95. PMID  8744772. 
  24. ^ Grasso C, Lee C (2004). "La combinación de alineamiento de orden parcial y alineamiento progresivo de secuencias múltiples aumenta la velocidad de alineamiento y la escalabilidad para problemas de alineamiento muy grandes". Bioinformática . 20 (10): 1546–56. doi : 10.1093/bioinformatics/bth126 . PMID  14962922.
  25. ^ Hughey R, Krogh A. SAM: Sistema de software de modelado y alineación de secuencias. Informe técnico UCSC-CRL-96-22, Universidad de California, Santa Cruz, CA, septiembre de 1996.
  26. ^ Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Análisis de secuencias biológicas: modelos probabilísticos de proteínas y ácidos nucleicos, Cambridge University Press, 1998.
  27. ^ Söding J (2005). "Detección de homología de proteínas mediante comparación HMM-HMM". Bioinformática . 21 (7): 951–960. CiteSeerX 10.1.1.519.1257 . doi :10.1093/bioinformatics/bti125. PMID  15531603. 
  28. ^ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T (2007). "Predicciones automatizadas de servidor en CASP7". Proteins . 69 (Supl 8): 68–82. doi : 10.1002/prot.21761 . PMID  17894354. S2CID  29879391.
  29. ^ Loytynoja, A. (2005). "Un algoritmo para el alineamiento múltiple progresivo de secuencias con inserciones". Actas de la Academia Nacional de Ciencias . 102 (30): 10557–10562. Bibcode :2005PNAS..10210557L. doi : 10.1073/pnas.0409137102 . PMC 1180752 . PMID  16000407. 
  30. ^ Löytynoja A, Goldman N (junio de 2008). "La colocación de espacios teniendo en cuenta la filogenia previene errores en la alineación de secuencias y el análisis evolutivo". Science . 320 (5883): 1632–5. Bibcode :2008Sci...320.1632L. doi :10.1126/science.1158395. PMID  18566285. S2CID  5211928.
  31. ^ Löytynoja A, Vilella AJ, Goldman N (julio de 2012). "Extensión precisa de alineamientos de secuencias múltiples utilizando un algoritmo gráfico que tiene en cuenta la filogenia". Bioinformática . 28 (13): 1684–91. doi :10.1093/bioinformatics/bts198. PMC 3381962 . PMID  22531217. 
  32. ^ Szalkowski AM (junio de 2012). "Alineamiento rápido y robusto de múltiples secuencias con ubicación de espacios teniendo en cuenta la filogenia". BMC Bioinformatics . 13 : 129. doi : 10.1186/1471-2105-13-129 . PMC 3495709 . PMID  22694311. 
  33. ^ Henikoff S, Henikoff JG (diciembre de 1991). "Ensamblaje automatizado de bloques de proteínas para búsqueda en bases de datos". Nucleic Acids Res . 19 (23): 6565–72. doi :10.1093/nar/19.23.6565. PMC 329220 . PMID  1754394. 
  34. ^ Bailey TL, Elkan C (1994). "Fitting a mixed model by expectation maximization to discover patterns in biopolymers" (PDF) . Actas de la Segunda Conferencia Internacional sobre Sistemas Inteligentes para Biología Molecular . Menlo Park, California: AAAI Press. págs. 28–36.
  35. ^ Bailey TL, Gribskov M (1998). "Combinación de evidencias mediante valores p: aplicación a búsquedas de homología de secuencias". Bioinformática . 14 (1): 48–54. doi : 10.1093/bioinformatics/14.1.48 . PMID  9520501.
  36. ^ Salama RA, Stekel DJ (noviembre de 2013). "Un alineamiento de secuencias múltiples basado en energía no independiente mejora la predicción de los sitios de unión de factores de transcripción". Bioinformática . 29 (21): 2699–704. doi : 10.1093/bioinformatics/btt463 . PMID  23990411.
  37. ^ Notredame C, Higgins DG (abril de 1996). "SAGA: alineación de secuencias por algoritmo genético". Ácidos nucleicos Res . 24 (8): 1515–24. doi :10.1093/nar/24.8.1515. PMC 145823 . PMID  8628686. 
  38. ^ Notredame C, O'Brien EA, Higgins DG (1997). "RAGA: alineación de secuencias de ARN mediante algoritmo genético". Ácidos nucleicos Res . 25 (22): 4570–80. doi : 10.1093/nar/25.22.4570. PMC 147093 . PMID  9358168. 
  39. ^ Kim J, Pramanik S, Chung MJ (1994). "Alineamiento de secuencias múltiples mediante recocido simulado". Aplicaciones informáticas en las biociencias . 10 (4): 419–26. doi :10.1093/bioinformatics/10.4.419. PMID  7804875.
  40. ^ Althaus E, Caprara A, Lenhof HP, Reinert K (2006). "Un algoritmo de ramificación y corte para el alineamiento de secuencias múltiples". Programación matemática . 105 (2–3): 387–425. doi :10.1007/s10107-005-0659-3. S2CID  17715172.
  41. ^ "D-Wave inicia un entorno de software cuántico abierto 11 de enero de 2017". Archivado desde el original el 8 de marzo de 2021 . Consultado el 20 de enero de 2017 .
  42. ^ "Edición y ajuste manual de MSA". Laboratorio Europeo de Biología Molecular. 2007. Archivado desde el original el 24 de septiembre de 2015. Consultado el 7 de marzo de 2010 .
  43. ^ Castresana J (abril de 2000). "Selección de bloques conservados de alineamientos múltiples para su uso en análisis filogenético". Biología molecular y evolución . 17 (4): 540–52. doi : 10.1093/oxfordjournals.molbev.a026334 . PMID  10742046.
  44. ^ Löytynoja A, Milinkovitch MC (junio de 2001). "SOAP, limpieza de alineaciones múltiples a partir de bloques inestables". Bioinformática . 17 (6): 573–4. doi : 10.1093/bioinformatics/17.6.573 . PMID  11395440.
  45. ^ Poirot O, O'Toole E, Notredame C (julio de 2003). "Tcoffee@igs: un servidor web para calcular, evaluar y combinar múltiples alineaciones de secuencias". Nucleic Acids Res . 31 (13): 3503–6. doi :10.1093/nar/gkg522. PMC 168929. PMID  12824354 . 
  46. ^ Chang, JM; Di Tommaso, P; Notredame, C (junio de 2014). "TCS: una nueva medida de fiabilidad de alineamiento de secuencias múltiples para estimar la precisión del alineamiento y mejorar la reconstrucción del árbol filogenético". Biología molecular y evolución . 31 (6): 1625–37. doi : 10.1093/molbev/msu117 . PMID  24694831.
  47. ^ Chang JM, Di Tommaso P, Lefort V, Gascuel O, Notredame C (julio de 2015). "TCS: un servidor web para la evaluación de alineamientos de secuencias múltiples y la reconstrucción filogenética". Nucleic Acids Res . 43 (W1): W3–6. doi :10.1093/nar/gkv310. PMC 4489230 . PMID  25855806. 
  48. ^ Bradley RK, Roberts A, Smoot M, Juvekar S, Do J, Dewey C, Holmes I, Pachter L (mayo de 2009). "Alineamiento estadístico rápido". PLOS Comput. Biol . 5 (5): e1000392. Código Bibliográfico : 2009PLSCB...5E0392B. doi : 10.1371/journal.pcbi.1000392 . PMC 2684580. PMID  19478997 . 
  49. ^ Landan G, Graur D (2008). "Medidas de fiabilidad local a partir de conjuntos de alineaciones de secuencias múltiples coóptimas". Biocomputing 2008. págs. 15-24. doi :10.1142/9789812776136_0003. ISBN . 978-981-277-608-2. Número de identificación personal  18229673. {{cite book}}: |journal=ignorado ( ayuda )
  50. ^ Penn O, Privman E, Landan G, Graur D, Pupko T (agosto de 2010). "Un puntaje de confianza de alineación que captura la robustez para guiar la incertidumbre del árbol". Biología molecular y evolución . 27 (8): 1759–67. doi :10.1093/molbev/msq066. PMC 2908709 . PMID  20207713. 
  51. ^ Redelings BD, Suchard MA (junio de 2005). "Estimación bayesiana conjunta de alineamiento y filogenia". Syst. Biol . 54 (3): 401–18. doi : 10.1080/10635150590947041 . PMID  16012107.
  52. ^ ab Budd, Aidan (10 de febrero de 2009). «Ejercicios y demostraciones de alineamiento de secuencias múltiples». Laboratorio Europeo de Biología Molecular. Archivado desde el original el 5 de marzo de 2012. Consultado el 30 de junio de 2010 .

Artículos de encuesta

  • Duret, L.; S. Abdeddaim (2000). "Alineamiento múltiple para análisis filogenéticos o funcionales estructurales de secuencias homólogas". En D. Higgins y W. Taylor (ed.). Estructura de secuencias bioinformáticas y bancos de datos . Oxford: Oxford University Press.
  • Notredame, C. (2002). "Progresos recientes en el alineamiento de secuencias múltiples: un estudio". Farmacogenómica . 3 (1): 131–144. doi :10.1517/14622416.3.1.131. PMID  11966409.
  • Thompson, JD; Plewniak, F.; Poch, O. (1999). "Una comparación exhaustiva de programas de alineamiento de secuencias múltiples". Nucleic Acids Research . 27 (13): 12682–2690. doi :10.1093/nar/27.13.2682. PMC  148477 . PMID  10373585.
  • Wallace, IM; Blackshields, G.; Higgins, DG (2005). "Alineamientos de secuencias múltiples". Curr Opin Struct Biol . 15 (3): 261–266. doi :10.1016/j.sbi.2005.04.002. PMID  15963889.
  • Notredame, C (2007). "Evoluciones recientes de algoritmos de alineamiento de secuencias múltiples". PLOS Computational Biology . 3 (8): e123. Bibcode :2007PLSCB...3..123N. doi : 10.1371/journal.pcbi.0030123 . PMC  1963500 . PMID  17784778.
  • Herramientas de alineación de secuencias ExPASy
  • Página de recursos archivada sobre alineamiento múltiple: de la Escuela Virtual de Ciencias Naturales
  • Herramientas para múltiples alineamientos: de Pôle Bioinformatique Lyonnais
  • Un punto de entrada a servidores y a información agrupados
  • Un punto de entrada a los principales servidores de T-Coffee
  • Un punto de entrada al servidor principal de MergeAlign y a la información
  • Servidores del Instituto Europeo de Bioinformática:
    • ClustalW2 – programa de alineación de secuencias múltiples de propósito general para ADN o proteínas.
    • Músculo: comparación de múltiples secuencias por expectativa logarítmica
    • T-coffee – alineamiento de secuencias múltiples.
    • MAFFT – Alineación múltiple mediante la transformada rápida de Fourier
    • KALIGN: un algoritmo de alineación de secuencias múltiples rápido y preciso.

Apuntes, tutoriales y cursos

  • Conferencias sobre alineamiento de secuencias múltiples – del Instituto Max Planck de Genética Molecular
  • Apuntes y ejercicios prácticos sobre alineamientos de secuencias múltiples en el Laboratorio Europeo de Biología Molecular (EMBL)
  • Apuntes de la clase de bioinformática molecular
  • Apuntes de la clase sobre evolución molecular y bioinformática
Obtenido de "https://es.wikipedia.org/w/index.php?title=Alineación_de_secuencias_múltiples&oldid=1245838134"