PHILIP

Paquete de inferencia de filogenia
Autor(es) original(es)	José Felsenstein
Desarrollador(es)	Universidad de Washington
Lanzamiento inicial	Octubre de 1980 ; hace 44 años ( 1980-10 )
Versión estable	3.697 / 2 de noviembre de 2014 ; hace 9 años ( 02/11/2014 )
Repositorio	evolución.genetics.washington.edu/phylip/sourcecode.html ;
Escrito en	do
Sistema operativo	Windows , Mac OS X , Linux
Plataforma	x86 , x86-64
Disponible en	Inglés
Tipo	Filogenética
Licencia	=> v3.697: código abierto; =< v3.695: freeware propietario
Sitio web	evolución.genetics.washington.edu/phylip.html

PHYLogeny Inference Package ( PHYLIP ) es un paquete de programas de filogenética computacional libre para inferir árboles evolutivos ( filogenias ). ^[1] Consta de 65 programas portables , es decir, el código fuente está escrito en el lenguaje de programación C. A partir de la versión 3.696, está licenciado como software de código abierto ; las versiones 3.695 y anteriores eran software propietario freeware . Las versiones se producen como código fuente y como ejecutables precompilados para muchos sistemas operativos , incluidos Windows (95, 98, ME, NT, 2000, XP, Vista), Mac OS 8 , Mac OS 9 , OS X , Linux ( Debian , Red Hat ); y FreeBSD desde FreeBSD.org. ^[2] La documentación completa está escrita para todos los programas del paquete y está incluida en el mismo. Los programas del paquete phylip fueron escritos por el profesor Joseph Felsenstein , del Departamento de Ciencias del Genoma y del Departamento de Biología de la Universidad de Washington , Seattle. ^[3]

Los métodos (implementados por cada programa) que están disponibles en el paquete incluyen parsimonia , matriz de distancia y métodos de probabilidad , incluidos árboles de consenso y de arranque. Los tipos de datos que se pueden manejar incluyen secuencias moleculares , frecuencias genéticas, sitios y fragmentos de restricción , matrices de distancia y caracteres discretos. ^[2]

Cada programa se controla a través de un menú, que pregunta a los usuarios qué opciones quieren configurar y les permite iniciar el cálculo. Los datos se leen en el programa desde un archivo de texto, que el usuario puede preparar utilizando cualquier procesador de textos o editor de texto (pero este archivo de texto no puede estar en el formato especial del procesador de textos, sino que debe estar en formato ASCII plano o solo texto ). Algunos programas de análisis de secuencias, como el programa de alineación Clustal W, pueden escribir archivos de datos en el formato PHYLIP. La mayoría de los programas buscan los datos en un archivo llamado infile. Si los programas phylip no encuentran este archivo, le piden al usuario que escriba el nombre del archivo de datos. ^[2]

Formato de archivo

Los programas que componen phylip utilizan varios formatos diferentes, todos ellos relativamente simples. Los programas para el análisis de alineaciones de secuencias de ADN, alineaciones de secuencias de proteínas o caracteres discretos (por ejemplo, datos morfológicos) pueden aceptar esos datos en formato secuencial o intercalado, como se muestra a continuación.

Formato secuencial:

5 42Turquía AAGCTNGGGC ATTTCAGGGT GAGCCCGGGC AATACAGGGT ATSalmo schiAAGCCTTGGC AGTGCAGGGT GAGCCGTGGC CGGGCACGGT ATH. sapiensACCGGTTGGC CGTTCAGGGT ACAGGTTGGC CGTTCAGGGT AAChimpancé AAACCCTTGC CGTTACGCTT AAACCGAGGC CGGGACACTC ATGorila AAACCCTTGC CGGTACGCTT AAACCATTGC CGGTACGCTT AA

Formato intercalado:

5 42Turquía AAGCTNGGGC ATTTCAGGGTSalmo schiAAGCCTTGGC AGTGCAGGGTH. sapiensACCGGTTGGC CGTTCAGGGTChimpancé AAACCCTTGC CGTTACGCTTGorila AAACCCTTGC CGGTACGCTTGAGCCCGGGC AATACAGGGT ENGAGCCGTGGC CGGGCACGGT ENACAGGTTGGC CGTTCAGGGT AAAAACCGAGGC CGGGACACTC ENAAACCATTGC CGGTACGCTT AA

Los números corresponden al número de taxones (diferentes especies en el ejemplo que se muestra arriba) seguido del número de caracteres (nucleótidos alineados o aminoácidos en el caso de secuencias moleculares). Los datos del sitio de restricción también deben incluir el número de enzimas.

Los nombres están limitados a 10 caracteres de forma predeterminada y deben completarse con espacios en blanco para tener esa longitud y seguirse inmediatamente por los datos del carácter utilizando códigos de una letra, aunque el límite de 10 caracteres del nombre se puede cambiar con una pequeña modificación del código (cambiando nmlngthen phylip.h y recompilando). Se permiten todos los caracteres ASCII/ISO imprimibles, excepto los paréntesis (" " (y " )"), los corchetes (" [" y " ]"), los dos puntos (" :"), el punto y coma (" ;") y la coma (" ,"). Los espacios incrustados en la alineación se ignoran.

Muchos programas para análisis filogenéticos, incluidos los programas comúnmente utilizados RAxML ^[4]^[5] e IQ-TREE ^[6] , utilizan el formato phylip o una modificación menor de ese formato llamada formato phylip relajado.

Formato philip relajado (secuencial):

5 42Turquía AAGCTNGGGCATTTCAGGGTGAGCCCGGGCAATACAGGGTATSalmo_schiefermuelleri AAGCCTTGGCAGTGCAGGGTGAGCCGTGGCCGGGCACGGTATH_sapiens ACCGGTTGGCCGTTCAGGGTACAGGTTGGCCGTTCAGGGTAAChimpancé AAACCCTTGCCGTTACGCTTAAACCGAGGCCGGGACACTCATGorila AAACCCTTGCCGGTACGCTTAAACCATTGCCGGTACGCTTAA

La principal diferencia en el formato phylip relajado es la ausencia del límite de 10 caracteres y la eliminación de la necesidad de rellenar los nombres con espacios en blanco para alcanzar esa longitud (aunque rellenar los nombres para que la matriz de caracteres comience en la misma posición puede mejorar la legibilidad para el usuario). Este ejemplo de formato relajado utiliza guiones bajos en lugar de espacios en los nombres y utiliza espacios entre los nombres y los datos de caracteres alineados; suele ser una buena práctica evitar los espacios en blanco dentro de los nombres de taxones y separar los datos de caracteres del nombre al generar archivos. Al igual que los archivos de formato phylip estricto, los archivos de formato phylip relajado pueden estar en formato intercalado e incluir espacios y líneas finales dentro de los datos de secuencia.

Los programas que utilizan datos de distancia, como el neighborprograma que implementa el método de unión de vecinos , también utilizan un formato de matriz de distancia simple que incluye solo el número de taxones, sus nombres y valores numéricos para las distancias:

Matriz de distancia de Phylip:

7Bovino 0,0000 1,6866 1,7198 1,6606 1,5243 1,6043 1,5905Ratón 1,6866 0,0000 1,5232 1,4841 1,4465 1,4389 1,4629Gibón 1,7198 1,5232 0,0000 0,7115 0,5958 0,6179 0,5583Naranja 1,6606 1,4841 0,7115 0,0000 0,4631 0,5061 0,4710Gorila 1,5243 1,4465 0,5958 0,4631 0,0000 0,3484 0,3083Chimpancé 1,6043 1,4389 0,6179 0,5061 0,3484 0,0000 0,2692Humano 1,5905 1,4629 0,5583 0,4710 0,3083 0,2692 0,0000

El número indica la cantidad de taxones y existen las mismas limitaciones para los nombres de los taxones. Nótese que esta matriz es simétrica y la diagonal tiene valores de 0 (ya que la distancia entre un taxón y él mismo es cero por definición).

Los programas que utilizan árboles como entrada aceptan los árboles en formato Newick , un estándar informal acordado en 1986 por los autores de siete paquetes filogenéticos importantes. La salida se escribe en archivos con nombres como outfiley outtree. Los árboles escritos en outtreeestán en formato Newick.

Programas de componentes

Programas listados en PHYLIP ^[7]
Nombre del programa	Descripción
protparos	Estima filogenias de secuencias de péptidos utilizando el método de parsimonia
Pares de ADN	Estima filogenias de secuencias de ADN utilizando el método de parsimonia
Penique de ADN	El método de ramificación y enlace de parsimonia de ADN encuentra todas las filogenias más parsimoniosas para secuencias de ácidos nucleicos mediante búsqueda de ramificación y enlace.
movimiento de ADN	Construcción interactiva de filogenias a partir de secuencias de ácidos nucleicos, con su evaluación por el método de parsimonia del ADN, con compatibilidad y visualización de bases ancestrales reconstruidas
Compilación de ADN	Estima filogenias a partir de datos de secuencias de ácidos nucleicos utilizando el criterio de compatibilidad
ADN	Estima filogenias a partir de secuencias de nucleótidos utilizando el método de máxima verosimilitud
ADN	Método de máxima verosimilitud del ADN con reloj molecular; el uso conjunto de dnaml y dnamlk permite realizar una prueba de relación de verosimilitud para la hipótesis del reloj molecular
baile de graduación	Estima filogenias a partir de secuencias de aminoácidos de proteínas utilizando el método de máxima verosimilitud.
prometida	Método de máxima verosimilitud de secuencia de proteínas con reloj molecular
Resto ml	Estimación de filogenias por máxima verosimilitud utilizando datos de sitios de restricción; no a partir de fragmentos de restricción sino de la presencia o ausencia de sitios individuales
ADN var	Para los datos de secuencias de ácidos nucleicos de cuatro especies, calcula los invariantes filogenéticos de Lake y Cavender , que prueban topologías de árboles alternativas.
dnadista	Método de distancia de ADN que calcula cuatro distancias diferentes entre especies a partir de secuencias de ácidos nucleicos; las distancias pueden luego usarse en los programas de matriz de distancia
protista	Método de distancia de secuencia de proteínas que calcula una medida de distancia para secuencias, utilizando estimaciones de máxima verosimilitud basadas en la matriz PAM de Dayhoff , la aproximación de Kimura de 1983 o un modelo basado en el código genético más una restricción para cambiar a una categoría diferente de aminoácido.
distancia de descanso	Distancias calculadas a partir de datos de sitios de restricción o datos de fragmentos de restricción
arranque de secuencia	Programa de bootstrap-jackknifing; lee un conjunto de datos y emite múltiples conjuntos de datos a partir de él mediante remuestreo de bootstrap
ajuste	Método de matriz de distancia de Fitch-Margoliash ; estima filogenias a partir de datos de matriz de distancia según el modelo de árbol aditivo según el cual se espera que las distancias sean iguales a las sumas de las longitudes de las ramas entre especies
kitsch	Método de matriz de distancia de Fitch-Margoliash con reloj molecular; estima filogenias a partir de datos de matriz de distancia según el modelo ultramétrico , que es el mismo que el modelo de árbol aditivo, excepto que se supone un reloj evolutivo
vecino	Implementación de los métodos neighbor join y UPGMA
control	Caracteres continuos y frecuencias genéticas de máxima verosimilitud; estima filogenias a partir de datos de frecuencia genética por máxima verosimilitud bajo un modelo en el que toda divergencia se debe a la deriva genética en ausencia de nuevas mutaciones; también realiza análisis de máxima verosimilitud de caracteres continuos que evolucionan mediante un modelo de movimiento browniano, asumiendo que los caracteres evolucionan a tasas iguales y de manera no correlacionada; no tiene en cuenta las correlaciones de caracteres
contraste	Lee un árbol de un archivo de árbol y un conjunto de datos con datos de caracteres continuos, y emite los contrastes independientes para esos caracteres, para su uso en cualquier paquete de estadísticas multivariadas.
gendista	Programa de distancia genética que calcula una de tres fórmulas de distancia genética diferentes a partir de datos de frecuencia genética
partes	Método de parsimonia de caracteres discretos multiestado desordenado
mezcla	Estima filogenias mediante algunos métodos de parsimonia para datos de caracteres discretos con dos estados (0, 1); permite utilizar métodos: Wagner, Camin-Sokal o mezclas arbitrarias
centavo	Método mixto de ramificación y acotación que encuentra todas las filogenias más parsimoniosas para datos de caracteres discretos con dos estados, para los criterios de parsimonia de Wagner, Camin-Sokal y mixtos utilizando el método de ramificación y acotación de búsqueda exacta
mover	Construcción interactiva de filogenias a partir de datos de caracteres discretos con dos estados (0, 1); evalúa criterios de parsimonia y compatibilidad para esas filogenias y muestra estados reconstruidos en todo el árbol
porción	Estima filogenias mediante los criterios de parsimonia de Dollo o polimorfismo para datos de caracteres discretos con dos estados (0, 1)
Dolpennio	Encuentra todas o la mayoría de las filogenias parsimoniosas para datos de caracteres discretos con dos estados, para el criterio de parsimonia de Dollo o polimorfismo utilizando el método de ramificación y límite de búsqueda exacta.
mover el dol	Construcción interactiva de filogenias a partir de datos de caracteres discretos con dos estados (0, 1) utilizando los criterios de parsimonia de Dollo o de polimorfismo; evalúa los criterios de parsimonia y compatibilidad para esas filogenias; muestra estados reconstruidos en todo el árbol
camarilla	Encuentra el grupo más grande de caracteres mutuamente compatibles y la filogenia que recomiendan para datos de caracteres discretos con dos estados (0, 1); el grupo más grande (o todos los grupos dentro de un rango de tamaño dado del más grande) se encuentran mediante un método rápido de búsqueda de ramificación y acotación.
factor	Programa de recodificación de caracteres que toma datos multiestado discretos con árboles de estados de caracteres y emite el conjunto de datos correspondiente con dos estados (0, 1)
dibujograma	Programa de dibujo de árboles enraizados que traza filogenias, cladogramas y fenogramas enraizados en una amplia variedad de formatos controlables por el usuario. El programa es interactivo y permite obtener una vista previa del árbol en pantallas gráficas de PC o Macintosh y terminales gráficas Tektronix o Digital.
árbol de dibujo	Programa de dibujo de árboles sin raíz similar a DRAWGRAM, pero que traza filogenias
Consenso	Programa de árbol de consenso que calcula árboles mediante el método del árbol de regla de la mayoría, que también permite encontrar fácilmente el árbol de consenso estricto; no se puede calcular el árbol de consenso de Adams
arbolista	Calcula la distancia diferencial simétrica de Robinson-Foulds entre árboles, lo que permite diferencias en la topología de los árboles.
rediseñar	Programa interactivo de reorganización de árboles que lee un árbol (con longitudes de ramas si es necesario) y permite enraizar nuevamente el árbol, voltear ramas, cambiar los nombres de las especies y las longitudes de las ramas y luego escribir el resultado; se puede usar para convertir entre árboles enraizados y no enraizados.

Referencias

^ Felsenstein, J. (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Journal of Molecular Evolution . 17 (6): 368–376. Bibcode :1981JMolE..17..368F. doi :10.1007/BF01734359. PMID 7288891. S2CID 8024924.
^ abc "Página de información general de PHYLIP" . Consultado el 14 de febrero de 2010 .
^ Joseph Felsenstein (agosto de 2003). Inferir filogenias. Asociados Sinauer. ISBN 0-87893-177-5Archivado desde el original el 22 de octubre de 2011. Consultado el 24 de marzo de 2006 .
^ Stamatakis, Alexandros (1 de mayo de 2014). "RAxML versión 8: una herramienta para el análisis filogenético y el postanálisis de grandes filogenias". Bioinformática . 30 (9): 1312–1313. doi :10.1093/bioinformatics/btu033. ISSN 1460-2059. PMC 3998144 . PMID 24451623.
^ Kozlov, Alexey M; Darriba, Diego; Flouri, Tomáš; Morel, Benoit; Stamatakis, Alexandros (1 de noviembre de 2019). Wren, Jonathan (ed.). "RAxML-NG: una herramienta rápida, escalable y fácil de usar para la inferencia filogenética de máxima verosimilitud". Bioinformática . 35 (21): 4453–4455. doi :10.1093/bioinformatics/btz305. ISSN 1367-4803. PMC 6821337 . PMID 31070718.
^ Minh, Bui Quang; Schmidt, Heiko A; Chernomor, Olga; Schrempf, Dominik; Woodhams, Michael D; von Haeseler, Arndt; Lanfear, Robert (1 de mayo de 2020). Teeling, Emma (ed.). "IQ-TREE 2: Nuevos modelos y métodos eficientes para la inferencia filogenética en la era genómica". Biología molecular y evolución . 37 (5): 1530–1534. doi :10.1093/molbev/msaa015. ISSN 0737-4038. PMC 7182206 . PMID 32011700.
^ "Sitio espejo de la documentación del paquete PHYLIP". Archivado desde el original el 19 de octubre de 2005. Consultado el 24 de marzo de 2006 .

Enlaces externos

Sitio web oficial
Lista de programas de filogenia: una lista extensa de paquetes de filogenia con detalles sobre cada uno. El recuento actual ^[actualizar]es de 366.

[1] Felsenstein, J. (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Journal of Molecular Evolution . 17 (6): 368–376. Bibcode :1981JMolE..17..368F. doi :10.1007/BF01734359. PMID 7288891. S2CID 8024924.

[infop-2] "Página de información general de PHYLIP" . Consultado el 14 de febrero de 2010 .

[joe-3] Joseph Felsenstein (agosto de 2003). Inferir filogenias. Asociados Sinauer. ISBN 0-87893-177-5Archivado desde el original el 22 de octubre de 2011. Consultado el 24 de marzo de 2006 .

[4] Stamatakis, Alexandros (1 de mayo de 2014). "RAxML versión 8: una herramienta para el análisis filogenético y el postanálisis de grandes filogenias". Bioinformática . 30 (9): 1312–1313. doi :10.1093/bioinformatics/btu033. ISSN 1460-2059. PMC 3998144 . PMID 24451623.

[5] Kozlov, Alexey M; Darriba, Diego; Flouri, Tomáš; Morel, Benoit; Stamatakis, Alexandros (1 de noviembre de 2019). Wren, Jonathan (ed.). "RAxML-NG: una herramienta rápida, escalable y fácil de usar para la inferencia filogenética de máxima verosimilitud". Bioinformática . 35 (21): 4453–4455. doi :10.1093/bioinformatics/btz305. ISSN 1367-4803. PMC 6821337 . PMID 31070718.

[6] Minh, Bui Quang; Schmidt, Heiko A; Chernomor, Olga; Schrempf, Dominik; Woodhams, Michael D; von Haeseler, Arndt; Lanfear, Robert (1 de mayo de 2020). Teeling, Emma (ed.). "IQ-TREE 2: Nuevos modelos y métodos eficientes para la inferencia filogenética en la era genómica". Biología molecular y evolución . 37 (5): 1530–1534. doi :10.1093/molbev/msaa015. ISSN 0737-4038. PMC 7182206 . PMID 32011700.

[info2p-7] "Sitio espejo de la documentación del paquete PHYLIP". Archivado desde el original el 19 de octubre de 2005. Consultado el 24 de marzo de 2006 .