MUSCLE (software de alineación)

Comparación de secuencias múltiples por expectativa logarítmica
Autor(es) original(es)	Robert C. Edgar
Desarrollador(es)	unidad 5
Lanzamiento inicial	2004 ; hace 20 años ( 2004 )
Versión estable	3.8.31 / 18 de agosto de 2016 ; hace 8 años ( 18-08-2016 )
Repositorio	github.com/rcedgar/muscle/releases/tag/v5.1 en GitHub
Sistema operativo	Linux , macOS , Windows
Plataforma	IA-32 , x86-64
Disponible en	Inglés
Tipo	Alineación de secuencias múltiples
Licencia	Dominio público
Sitio web	drive5.com/musculo/

Software para alineación de secuencias

MUltiple Sequence Comparison by Log-Expectation ( MUSCLE ) es un software informático para la alineación múltiple de secuencias de proteínas y nucleótidos . Tiene licencia de dominio público . El método fue publicado por Robert C. Edgar en dos artículos en 2004. El primer artículo, publicado en Nucleic Acids Research , presentó el algoritmo de alineación de secuencias. ^[1] El segundo artículo, publicado en BMC Bioinformatics , presentó detalles más técnicos. ^[2]

Algoritmo

El algoritmo MUSCLE se desarrolla en tres etapas: borrador progresivo , mejora progresiva y etapa de refinamiento .

Etapa 1: Borrador progresivo

En esta primera etapa, el algoritmo produce una alineación múltiple, enfatizando la velocidad sobre la precisión. Este paso comienza calculando la distancia k-mer para cada par de secuencias de entrada para crear una matriz de distancia . UPGMA agrupa la matriz de distancia para producir un árbol binario . A partir de este árbol se construye una alineación progresiva, comenzando con la creación de perfiles para cada hoja del árbol. Para cada nodo del árbol, se construye una alineación por pares de los dos perfiles secundarios, creando un nuevo perfil que se asignará a ese nodo. Esto continúa hasta que haya una alineación de secuencia múltiple de todas las secuencias de entrada en la raíz del árbol. ^[1]

Etapa 2: Progresivo mejorado

Esta etapa se centra en obtener un árbol más óptimo calculando la distancia de Kimura para cada par de secuencias de entrada utilizando el alineamiento de secuencias múltiples obtenido en la Etapa uno, y crea una segunda matriz de distancias. UPGMA agrupa esta matriz de distancias para obtener un segundo árbol binario. Se realiza un alineamiento progresivo para obtener un alineamiento de secuencias múltiples como en la Etapa 1, pero se optimiza calculando únicamente los alineamientos en subárboles cuyos órdenes de ramificación han cambiado con respecto al primer árbol binario, lo que da como resultado un alineamiento más preciso. ^[1]

Etapa 3: Refinamiento

En esta etapa final, se elige una arista del segundo árbol y se visitan las aristas a una distancia decreciente desde la raíz. Se elimina la arista elegida, dividiendo el árbol en dos subárboles. Luego se calcula el perfil de la alineación múltiple para cada subárbol. Se produce una nueva alineación de secuencia múltiple al realinear los perfiles de los subárboles. Si se mejora la puntuación SP, se mantiene la nueva alineación; de lo contrario, se descarta. El proceso de eliminar una arista y alinearla se repite hasta la convergencia o hasta que se alcanza un límite definido por el usuario. ^[1]

Complejidad y comparación

En las dos primeras etapas del algoritmo, la complejidad temporal es $O(N 2 L + NL 2)$ , la complejidad espacial es $O(N 2 + NL + L 2)$ . La etapa de refinamiento agrega a la complejidad temporal otro término, $O(N 3 L)$ . ^[1] MUSCLE se utiliza a menudo como reemplazo de Clustal , ya que generalmente (pero no siempre) brinda mejores alineaciones de secuencias, según las opciones elegidas. es significativamente más rápido que Clustal, más aún para alineaciones más grandes. ^[1]^[2]

Diagrama de flujo del algoritmo

Integración

MUSCLE está integrado en el software Lasergene de DNASTAR, Geneious y MacVector y está disponible en Sequencher , MEGA y UGENE como complemento . MUSCLE también está disponible como servicio web a través del Laboratorio Europeo de Biología Molecular (EMBL) y el Instituto Europeo de Bioinformática (EBI). ^[3] A septiembre de 2016, los dos artículos que describen MUSCLE han sido citados más de 19 000 veces en total. ^[4]

Véase también

Referencias

^ abcdef Edgar RC (2004). "MUSCLE: alineamiento de secuencias múltiples con alta precisión y alto rendimiento". Nucleic Acids Research . 32 (5): 1792–97. doi :10.1093/nar/gkh340. PMC 390337 . PMID 15034147.
^ ab Edgar RC (2004). "MUSCLE: un método de alineamiento de secuencias múltiples con complejidad temporal y espacial reducida". BMC Bioinformatics . 5 (1): 113. doi : 10.1186/1471-2105-5-113 . PMC 517706 . PMID 15318951.
^ "MÚSCULO < Alineamiento de secuencias múltiples < EMBL-EBI". Archivado desde el original el 18 de enero de 2015 . Consultado el 1 de septiembre de 2014 .
^ "Robert C. Edgar - Citas de Google Académico". Archivado desde el original el 24 de septiembre de 2016 . Consultado el 1 de septiembre de 2016 .

Enlaces externos

Sitio web oficial
Servidor web MUSCLE (EMBL-EBI)

[Edgar2004a-1] Edgar RC (2004). "MUSCLE: alineamiento de secuencias múltiples con alta precisión y alto rendimiento". Nucleic Acids Research . 32 (5): 1792–97. doi :10.1093/nar/gkh340. PMC 390337 . PMID 15034147.

[Edgar2004b-2] Edgar RC (2004). "MUSCLE: un método de alineamiento de secuencias múltiples con complejidad temporal y espacial reducida". BMC Bioinformatics . 5 (1): 113. doi : 10.1186/1471-2105-5-113 . PMC 517706 . PMID 15318951.

[embl-ebi-3] "MÚSCULO < Alineamiento de secuencias múltiples < EMBL-EBI". Archivado desde el original el 18 de enero de 2015 . Consultado el 1 de septiembre de 2014 .

[citations-4] "Robert C. Edgar - Citas de Google Académico". Archivado desde el original el 24 de septiembre de 2016 . Consultado el 1 de septiembre de 2016 .