Autor(es) original(es) | Robert C. Edgar |
---|---|
Desarrollador(es) | unidad 5 |
Lanzamiento inicial | 2004 ( 2004 ) |
Versión estable | 3.8.31 / 18 de agosto de 2016 ( 18-08-2016 ) |
Repositorio | github.com/rcedgar/muscle/releases/tag/v5.1 en GitHub |
Sistema operativo | Linux , macOS , Windows |
Plataforma | IA-32 , x86-64 |
Disponible en | Inglés |
Tipo | Alineación de secuencias múltiples |
Licencia | Dominio público |
Sitio web | drive5.com/musculo/ |
MUltiple Sequence Comparison by Log-Expectation ( MUSCLE ) es un software informático para la alineación múltiple de secuencias de proteínas y nucleótidos . Tiene licencia de dominio público . El método fue publicado por Robert C. Edgar en dos artículos en 2004. El primer artículo, publicado en Nucleic Acids Research , presentó el algoritmo de alineación de secuencias. [1] El segundo artículo, publicado en BMC Bioinformatics , presentó detalles más técnicos. [2]
El algoritmo MUSCLE se desarrolla en tres etapas: borrador progresivo , mejora progresiva y etapa de refinamiento .
En esta primera etapa, el algoritmo produce una alineación múltiple, enfatizando la velocidad sobre la precisión. Este paso comienza calculando la distancia k-mer para cada par de secuencias de entrada para crear una matriz de distancia . UPGMA agrupa la matriz de distancia para producir un árbol binario . A partir de este árbol se construye una alineación progresiva, comenzando con la creación de perfiles para cada hoja del árbol. Para cada nodo del árbol, se construye una alineación por pares de los dos perfiles secundarios, creando un nuevo perfil que se asignará a ese nodo. Esto continúa hasta que haya una alineación de secuencia múltiple de todas las secuencias de entrada en la raíz del árbol. [1]
Esta etapa se centra en obtener un árbol más óptimo calculando la distancia de Kimura para cada par de secuencias de entrada utilizando el alineamiento de secuencias múltiples obtenido en la Etapa uno, y crea una segunda matriz de distancias. UPGMA agrupa esta matriz de distancias para obtener un segundo árbol binario. Se realiza un alineamiento progresivo para obtener un alineamiento de secuencias múltiples como en la Etapa 1, pero se optimiza calculando únicamente los alineamientos en subárboles cuyos órdenes de ramificación han cambiado con respecto al primer árbol binario, lo que da como resultado un alineamiento más preciso. [1]
En esta etapa final, se elige una arista del segundo árbol y se visitan las aristas a una distancia decreciente desde la raíz. Se elimina la arista elegida, dividiendo el árbol en dos subárboles. Luego se calcula el perfil de la alineación múltiple para cada subárbol. Se produce una nueva alineación de secuencia múltiple al realinear los perfiles de los subárboles. Si se mejora la puntuación SP, se mantiene la nueva alineación; de lo contrario, se descarta. El proceso de eliminar una arista y alinearla se repite hasta la convergencia o hasta que se alcanza un límite definido por el usuario. [1]
En las dos primeras etapas del algoritmo, la complejidad temporal es O( N 2 L + NL 2 ) , la complejidad espacial es O( N 2 + NL + L 2 ) . La etapa de refinamiento agrega a la complejidad temporal otro término, O( N 3 L ) . [1] MUSCLE se utiliza a menudo como reemplazo de Clustal , ya que generalmente (pero no siempre) brinda mejores alineaciones de secuencias, según las opciones elegidas. es significativamente más rápido que Clustal, más aún para alineaciones más grandes. [1] [2]
MUSCLE está integrado en el software Lasergene de DNASTAR, Geneious y MacVector y está disponible en Sequencher , MEGA y UGENE como complemento . MUSCLE también está disponible como servicio web a través del Laboratorio Europeo de Biología Molecular (EMBL) y el Instituto Europeo de Bioinformática (EBI). [3] A septiembre de 2016, los dos artículos que describen MUSCLE han sido citados más de 19 000 veces en total. [4]