T-Café

T-Café
Desarrollador(es)Cédric Notredame, Centro de Regulación Genómica (CRG) - Barcelona
Versión estable
13.45.0.4846264 / 15 de octubre de 2020 ; hace 4 años ( 15/10/2020 )
Versión preliminar
13.45.33.7d7e789 / 23 de diciembre de 2020 ; hace 3 años ( 23 de diciembre de 2020 )
Repositorio
  • github.com/cbcrg/tcoffee
Sistema operativoUnix , Linux , Windows , macOS
TipoHerramienta bioinformática
LicenciaLicencia pública general (GPL)
Sitio webwww.tcoffee.org

T-Coffee ( Tree-based Consistency Objective Function for Alignment Evaluation ) es un software de alineamiento de secuencias múltiples que utiliza un enfoque progresivo. [1] Genera una biblioteca de alineamientos por pares para guiar el alineamiento de secuencias múltiples. También puede combinar alineaciones de secuencias múltiples obtenidas previamente y en las últimas versiones puede utilizar información estructural de archivos Protein Data Bank (PDB) (3D-Coffee). Tiene características avanzadas para evaluar la calidad de los alineamientos y cierta capacidad para identificar la ocurrencia de motivos (Mocca). Produce alineamiento en el formato aln ( Clustal ) por defecto, pero también puede producir formato PIR, MSF y FASTA . Se admiten los formatos de entrada más comunes ( FASTA , Protein Information Resource (PIR)).

Algoritmo

El algoritmo T-Coffee consta de dos características principales: la primera es que, al utilizar fuentes de datos heterogéneas, puede proporcionar medios simples y flexibles para generar múltiples alineaciones. T-Coffee puede calcular múltiples alineaciones utilizando una biblioteca que se generó utilizando una mezcla de alineaciones por pares locales y globales. [1]

El segundo es el "método de optimización", que se utiliza para encontrar el alineamiento múltiple que mejor se ajusta a los alineamientos por pares en la biblioteca de entrada utilizando una estrategia progresiva que se puede comparar con la utilizada en Clustal W. El método de optimización tiene la ventaja de ser rápido y robusto. La información en la biblioteca se utiliza para realizar alineamientos progresivos y facilita la tarea de considerar los alineamientos entre todos los pares mientras se lleva a cabo cada paso de los alineamientos múltiples progresivos. [1]

Generando una biblioteca primaria de alineaciones

La biblioteca incorpora un conjunto de alineamientos por pares entre todas las secuencias a alinear, no es necesario que los alineamientos sean consistentes. Dentro de la biblioteca se puede encontrar información sobre cada uno de los N(N-1)/2en donde N es el número de secuencias. Se utilizan dos fuentes de alineamiento para cada par de secuencias, una de ellas clasificada como local y la otra como global. [1]

Las alineaciones globales se construyen utilizando Clustal W en las secuencias, de dos en dos, y se utilizan para obtener una alineación de longitud completa entre cada par de secuencias. Las alineaciones locales son las diez alineaciones locales sin intersección con mayor puntuación obtenidas mediante el programa Lalign del paquete FASTA . [1]

Cada alineación se representa en la biblioteca como una lista de coincidencias de residuos por pares, cada par es una restricción; sin embargo, algunas restricciones son más relevantes que otras. La importancia de cada restricción depende de cuáles tienen más probabilidades de ser correctas. Al calcular las alineaciones múltiples, se da prioridad a los pares de residuos más confiables mediante el uso de un esquema de ponderación. [1]

Combinación de las bibliotecas

La combinación eficiente de información de alineación local y global es un factor importante de T-Coffee. Al utilizar las bibliotecas primarias Clustal W y Lalign, se puede lograr con un proceso de adición. Cualquier par duplicado entre ambas bibliotecas se fusiona en una sola entrada con el peso de la suma total de ambos pares. De lo contrario, se crea una nueva entrada para el par. Los pares con un peso de cero no se representarán. [1] Para cada par de residuos alineados en la biblioteca, es posible asignar un peso que pertenece al grado en que esos residuos se alinean de manera consistente. Esto se llama extensión de la biblioteca.

Comparaciones con otros programas de alineación

Si bien la salida predeterminada es un formato similar a Clustal, es lo suficientemente diferente de la salida de ClustalW/X como para que muchos programas que admiten el formato Clustal no puedan leerlo; afortunadamente, ClustalX puede importar la salida de T-Coffee, por lo que la solución más simple para este problema suele ser importar la salida de T-Coffee a ClustalX y luego volver a exportarla. Otra posibilidad es solicitar el formato de salida estricto de ClustalW con la opción " -output=clustalw_aln".

Una característica importante de T-Coffee es su capacidad de combinar diferentes métodos y diferentes tipos de datos. En su última versión, T-Coffee se puede utilizar para combinar secuencias y estructuras de proteínas, secuencias y estructuras de ARN. También puede ejecutar y combinar los resultados de los paquetes de alineamiento de secuencias y estructuras más comunes.

T-Coffee incluye una sofisticada utilidad de reformateo de secuencias llamada seq_reformat. Hay una extensa documentación disponible en línea.

Variaciones

  • M-Coffee: un modo especial de T-Coffee que permite combinar la salida de los paquetes de alineamiento de secuencias múltiples más comunes (Muscle, ClustalW, Mafft, ProbCons, etc.). Los alineamientos resultantes son ligeramente mejores que los individuales, pero lo más importante es que el programa indica las regiones de alineamiento en las que concuerdan los distintos paquetes. Las regiones de alta concordancia suelen estar bien alineadas. [2]
  • Expresso y 3D-Coffee: son modos especiales de T-Coffee que permiten combinar secuencias y estructuras en una alineación. Las alineaciones basadas en estructuras se pueden realizar utilizando los alineadores estructurales más comunes, como TMalign, Mustang y sap. [3] [4] [5] [6]
  • R-Coffee: un modo especial de T-Coffee que permite alinear secuencias de ARN mientras se utiliza información de estructura secundaria. [7] [8]
  • PSI-Coffee: alinea proteínas distantemente relacionadas mediante extensión de homología (lenta y precisa) [9] [10]
  • TM-Coffee: alinea proteínas transmembrana mediante extensión de homología [11]
  • Pro-Café: alinea regiones promotoras homólogas [12]
  • Preciso: combina automáticamente los modos más precisos para ADN, ARN y proteínas (experimental). [13]
  • Combinar: combina dos (o más) alineaciones de secuencias múltiples en una. [1] [9]

Evaluación

El puntaje de consistencia transitiva (TCS) es una versión extendida del esquema de puntaje T-Coffee. [14] Utiliza bibliotecas T-Coffee de alineaciones por pares para evaluar cualquier MSA de terceros. Las proyecciones por pares se pueden producir utilizando métodos rápidos o lentos, lo que permite un equilibrio entre velocidad y precisión. Se ha demostrado que el TCS conduce a estimaciones significativamente mejores de la precisión estructural y árboles filogenéticos más precisos en comparación con Heads-or-Tails, GUIDANCE, Gblocks y trimAl. [15]

Véase también

Referencias

  1. ^ abcdefgh Notredame C, Higgins DG , Heringa J (8 de septiembre de 2000). "T-Coffee: un nuevo método para el alineamiento rápido y preciso de múltiples secuencias". J Mol Biol . 302 (1): 205–217. doi :10.1006/jmbi.2000.4042. PMID  10964570. S2CID  10189971.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  2. ^ Wallace, Iain M.; O'Sullivan, Orla; Higgins, Desmond G.; Notredame, Cedric (2006). "M-Coffee: combinación de métodos de alineamiento de secuencias múltiples con T-Coffee". Investigación de ácidos nucleicos . 34 (6): 1692–1699. doi :10.1093/nar/gkl091. ISSN  1362-4962. PMC 1410914 . PMID  16556910. 
  3. ^ Armougom, Fabrice; Moretti, Sébastien; Poirot, Olivier; Audic, Stéphane; Dumas, Pierre; Schaeli, Basile; Keduas, Vladimir; Notredame, Cedric (1 de julio de 2006). "Expresso: incorporación automática de información estructural en alineaciones de secuencias múltiples utilizando 3D-Coffee". Nucleic Acids Research . 34 (número del servidor web): W604–608. doi :10.1093/nar/gkl092. ISSN  1362-4962. PMC 1538866 . PMID  16845081. 
  4. ^ Zhang, Yang; Skolnick, Jeffrey (2005). "TM-align: un algoritmo de alineación de la estructura de proteínas basado en el TM-score". Investigación de ácidos nucleicos . 33 (7): 2302–2309. doi :10.1093/nar/gki524. ISSN  1362-4962. PMC 1084323 . PMID  15849316. 
  5. ^ Konagurthu, Arun S.; Whisstock, James C.; Stuckey, Peter J.; Lesk, Arthur M. (15 de agosto de 2006). "MUSTANG: un algoritmo de alineamiento estructural múltiple". Proteínas . 64 (3): 559–574. doi :10.1002/prot.20921. ISSN  1097-0134. PMID  16736488. S2CID  14074658.
  6. ^ Sun, Zheng; Tian, ​​Weidong (2012). "SAP: un programa de mapeo y análisis de secuencias para la alineación de lecturas de secuencias largas y el descubrimiento preciso de variantes". PLOS ONE . ​​7 (8): e42887. Bibcode :2012PLoSO...742887S. doi : 10.1371/journal.pone.0042887 . ISSN  1932-6203. PMC 3413671 . PMID  22880129. 
  7. ^ Wilm, Andreas; Higgins, Desmond G.; Notredame, Cédric (mayo de 2008). "R-Coffee: un método para el alineamiento múltiple de ARN no codificante". Investigación de ácidos nucleicos . 36 (9): e52. doi :10.1093/nar/gkn174. ISSN  1362-4962. PMC 2396437 . PMID  18420654. 
  8. ^ Moretti, Sébastien; Wilm, Andreas; Higgins, Desmond G.; Xenarios, Ioannis; Notredame, Cédric (1 de julio de 2008). "R-Coffee: un servidor web para alinear con precisión secuencias de ARN no codificantes". Nucleic Acids Research . 36 (número del servidor web): W10–13. doi :10.1093/nar/gkn278. ISSN  1362-4962. PMC 2447777 . PMID  18483080. 
  9. ^ ab Di Tommaso P, Moretti S, Xenarios I, Orobitg M, Montanyola A, Chang JM, Taly JF, Notredame C (julio de 2011). "T-Coffee: un servidor web para la alineación de secuencias múltiples de proteínas y secuencias de ARN utilizando información estructural y extensión de homología". Nucleic Acids Res . 39 (número del servidor web): W13–7. doi :10.1093/nar/gkr245. PMC 3125728. PMID  21558174 . 
  10. ^ Kemena C, Notredame C (1 de octubre de 2009). "Próximos desafíos para los métodos de alineamiento de secuencias múltiples en la era del alto rendimiento". Bioinformática . 25 (19): 2455–65. doi :10.1093/bioinformatics/btp452. PMC 2752613 . PMID  19648142. 
  11. ^ Chang JM, Di Tommaso P, Taly JF, Notredame C (28 de marzo de 2012). "Alineamiento preciso de secuencias múltiples de proteínas transmembrana con PSI-Coffee". BMC Bioinformatics . 13 : S1. doi : 10.1186/1471-2105-13-S4-S1 . PMC 3303701 . PMID  22536955. 
  12. ^ Erb I, González-Vallinas JR, Bussotti G, Blanco E, Eyras E, Notredame C (abril de 2012). "Uso de datos de ChIP-Seq para el diseño de un método de alineación de promotores múltiples". Ácidos nucleicos Res . 40 (7): e52. doi : 10.1093/nar/gkr1292. PMC 3326335 . PMID  22230796. 
  13. ^ "Servidor T-Coffee". tcoffee.crg.eu . Consultado el 26 de diciembre de 2023 .
  14. ^ Chang, JM; Di Tommaso, P; Lefort, V; Gascuel, O; Notredame, C (1 de julio de 2015). "TCS: un servidor web para la evaluación de alineamiento de secuencias múltiples y la reconstrucción filogenética". Nucleic Acids Research . 43 (W1): W3-6. doi :10.1093/nar/gkv310. PMC 4489230 . PMID  25855806. 
  15. ^ Chang, JM; Di Tommaso, P.; Notredame, C. (junio de 2014). "TCS: una nueva medida de fiabilidad de alineamiento de secuencias múltiples para estimar la precisión del alineamiento y mejorar la reconstrucción del árbol filogenético". Biología molecular y evolución . 31 (6): 1625–37. doi : 10.1093/molbev/msu117 . PMID  24694831.
  • Sitio web oficial
  • Servidor alineador T-Coffee
  • Página de descarga de T-Coffee
  • Documentación técnica
  • Tutorial
  • Lista de alineadores de terceros compatibles con T-Coffee
  • Documentos originales de T-coffee
Obtenido de "https://es.wikipedia.org/w/index.php?title=Café-T&oldid=1247770742"