Desarrollador(es) | Cédric Notredame, Centro de Regulación Genómica (CRG) - Barcelona |
---|---|
Versión estable | 13.45.0.4846264 / 15 de octubre de 2020 ( 15/10/2020 ) |
Versión preliminar | 13.45.33.7d7e789 / 23 de diciembre de 2020 ( 23 de diciembre de 2020 ) |
Repositorio |
|
Sistema operativo | Unix , Linux , Windows , macOS |
Tipo | Herramienta bioinformática |
Licencia | Licencia pública general (GPL) |
Sitio web | www.tcoffee.org |
T-Coffee ( Tree-based Consistency Objective Function for Alignment Evaluation ) es un software de alineamiento de secuencias múltiples que utiliza un enfoque progresivo. [1] Genera una biblioteca de alineamientos por pares para guiar el alineamiento de secuencias múltiples. También puede combinar alineaciones de secuencias múltiples obtenidas previamente y en las últimas versiones puede utilizar información estructural de archivos Protein Data Bank (PDB) (3D-Coffee). Tiene características avanzadas para evaluar la calidad de los alineamientos y cierta capacidad para identificar la ocurrencia de motivos (Mocca). Produce alineamiento en el formato aln ( Clustal ) por defecto, pero también puede producir formato PIR, MSF y FASTA . Se admiten los formatos de entrada más comunes ( FASTA , Protein Information Resource (PIR)).
El algoritmo T-Coffee consta de dos características principales: la primera es que, al utilizar fuentes de datos heterogéneas, puede proporcionar medios simples y flexibles para generar múltiples alineaciones. T-Coffee puede calcular múltiples alineaciones utilizando una biblioteca que se generó utilizando una mezcla de alineaciones por pares locales y globales. [1]
El segundo es el "método de optimización", que se utiliza para encontrar el alineamiento múltiple que mejor se ajusta a los alineamientos por pares en la biblioteca de entrada utilizando una estrategia progresiva que se puede comparar con la utilizada en Clustal W. El método de optimización tiene la ventaja de ser rápido y robusto. La información en la biblioteca se utiliza para realizar alineamientos progresivos y facilita la tarea de considerar los alineamientos entre todos los pares mientras se lleva a cabo cada paso de los alineamientos múltiples progresivos. [1]
La biblioteca incorpora un conjunto de alineamientos por pares entre todas las secuencias a alinear, no es necesario que los alineamientos sean consistentes. Dentro de la biblioteca se puede encontrar información sobre cada uno de los N(N-1)/2
en donde N es el número de secuencias. Se utilizan dos fuentes de alineamiento para cada par de secuencias, una de ellas clasificada como local y la otra como global. [1]
Las alineaciones globales se construyen utilizando Clustal W en las secuencias, de dos en dos, y se utilizan para obtener una alineación de longitud completa entre cada par de secuencias. Las alineaciones locales son las diez alineaciones locales sin intersección con mayor puntuación obtenidas mediante el programa Lalign del paquete FASTA . [1]
Cada alineación se representa en la biblioteca como una lista de coincidencias de residuos por pares, cada par es una restricción; sin embargo, algunas restricciones son más relevantes que otras. La importancia de cada restricción depende de cuáles tienen más probabilidades de ser correctas. Al calcular las alineaciones múltiples, se da prioridad a los pares de residuos más confiables mediante el uso de un esquema de ponderación. [1]
La combinación eficiente de información de alineación local y global es un factor importante de T-Coffee. Al utilizar las bibliotecas primarias Clustal W y Lalign, se puede lograr con un proceso de adición. Cualquier par duplicado entre ambas bibliotecas se fusiona en una sola entrada con el peso de la suma total de ambos pares. De lo contrario, se crea una nueva entrada para el par. Los pares con un peso de cero no se representarán. [1] Para cada par de residuos alineados en la biblioteca, es posible asignar un peso que pertenece al grado en que esos residuos se alinean de manera consistente. Esto se llama extensión de la biblioteca.
Si bien la salida predeterminada es un formato similar a Clustal, es lo suficientemente diferente de la salida de ClustalW/X como para que muchos programas que admiten el formato Clustal no puedan leerlo; afortunadamente, ClustalX puede importar la salida de T-Coffee, por lo que la solución más simple para este problema suele ser importar la salida de T-Coffee a ClustalX y luego volver a exportarla. Otra posibilidad es solicitar el formato de salida estricto de ClustalW con la opción " -output=clustalw_aln
".
Una característica importante de T-Coffee es su capacidad de combinar diferentes métodos y diferentes tipos de datos. En su última versión, T-Coffee se puede utilizar para combinar secuencias y estructuras de proteínas, secuencias y estructuras de ARN. También puede ejecutar y combinar los resultados de los paquetes de alineamiento de secuencias y estructuras más comunes.
T-Coffee incluye una sofisticada utilidad de reformateo de secuencias llamada seq_reformat. Hay una extensa documentación disponible en línea.
El puntaje de consistencia transitiva (TCS) es una versión extendida del esquema de puntaje T-Coffee. [14] Utiliza bibliotecas T-Coffee de alineaciones por pares para evaluar cualquier MSA de terceros. Las proyecciones por pares se pueden producir utilizando métodos rápidos o lentos, lo que permite un equilibrio entre velocidad y precisión. Se ha demostrado que el TCS conduce a estimaciones significativamente mejores de la precisión estructural y árboles filogenéticos más precisos en comparación con Heads-or-Tails, GUIDANCE, Gblocks y trimAl. [15]
{{cite journal}}
: CS1 maint: varios nombres: lista de autores ( enlace )