Autor(es) original(es) | José Felsenstein |
---|---|
Desarrollador(es) | Universidad de Washington |
Lanzamiento inicial | Octubre de 1980 ( 1980-10 ) |
Versión estable | 3.697 / 2 de noviembre de 2014 ( 02/11/2014 ) |
Repositorio |
|
Escrito en | do |
Sistema operativo | Windows , Mac OS X , Linux |
Plataforma | x86 , x86-64 |
Disponible en | Inglés |
Tipo | Filogenética |
Licencia | => v3.697: código abierto =< v3.695: freeware propietario |
Sitio web | evolución.genetics.washington.edu/phylip.html |
PHYLogeny Inference Package ( PHYLIP ) es un paquete de programas de filogenética computacional libre para inferir árboles evolutivos ( filogenias ). [1] Consta de 65 programas portables , es decir, el código fuente está escrito en el lenguaje de programación C. A partir de la versión 3.696, está licenciado como software de código abierto ; las versiones 3.695 y anteriores eran software propietario freeware . Las versiones se producen como código fuente y como ejecutables precompilados para muchos sistemas operativos , incluidos Windows (95, 98, ME, NT, 2000, XP, Vista), Mac OS 8 , Mac OS 9 , OS X , Linux ( Debian , Red Hat ); y FreeBSD desde FreeBSD.org. [2] La documentación completa está escrita para todos los programas del paquete y está incluida en el mismo. Los programas del paquete phylip fueron escritos por el profesor Joseph Felsenstein , del Departamento de Ciencias del Genoma y del Departamento de Biología de la Universidad de Washington , Seattle. [3]
Los métodos (implementados por cada programa) que están disponibles en el paquete incluyen parsimonia , matriz de distancia y métodos de probabilidad , incluidos árboles de consenso y de arranque. Los tipos de datos que se pueden manejar incluyen secuencias moleculares , frecuencias genéticas, sitios y fragmentos de restricción , matrices de distancia y caracteres discretos. [2]
Cada programa se controla a través de un menú, que pregunta a los usuarios qué opciones quieren configurar y les permite iniciar el cálculo. Los datos se leen en el programa desde un archivo de texto, que el usuario puede preparar utilizando cualquier procesador de textos o editor de texto (pero este archivo de texto no puede estar en el formato especial del procesador de textos, sino que debe estar en formato ASCII plano o solo texto ). Algunos programas de análisis de secuencias, como el programa de alineación Clustal W, pueden escribir archivos de datos en el formato PHYLIP. La mayoría de los programas buscan los datos en un archivo llamado infile
. Si los programas phylip no encuentran este archivo, le piden al usuario que escriba el nombre del archivo de datos. [2]
Los programas que componen phylip utilizan varios formatos diferentes, todos ellos relativamente simples. Los programas para el análisis de alineaciones de secuencias de ADN, alineaciones de secuencias de proteínas o caracteres discretos (por ejemplo, datos morfológicos) pueden aceptar esos datos en formato secuencial o intercalado, como se muestra a continuación.
Formato secuencial:
5 42Turquía AAGCTNGGGC ATTTCAGGGT GAGCCCGGGC AATACAGGGT ATSalmo schiAAGCCTTGGC AGTGCAGGGT GAGCCGTGGC CGGGCACGGT ATH. sapiensACCGGTTGGC CGTTCAGGGT ACAGGTTGGC CGTTCAGGGT AAChimpancé AAACCCTTGC CGTTACGCTT AAACCGAGGC CGGGACACTC ATGorila AAACCCTTGC CGGTACGCTT AAACCATTGC CGGTACGCTT AA
Formato intercalado:
5 42Turquía AAGCTNGGGC ATTTCAGGGTSalmo schiAAGCCTTGGC AGTGCAGGGTH. sapiensACCGGTTGGC CGTTCAGGGTChimpancé AAACCCTTGC CGTTACGCTTGorila AAACCCTTGC CGGTACGCTTGAGCCCGGGC AATACAGGGT ENGAGCCGTGGC CGGGCACGGT ENACAGGTTGGC CGTTCAGGGT AAAAACCGAGGC CGGGACACTC ENAAACCATTGC CGGTACGCTT AA
Los números corresponden al número de taxones (diferentes especies en el ejemplo que se muestra arriba) seguido del número de caracteres (nucleótidos alineados o aminoácidos en el caso de secuencias moleculares). Los datos del sitio de restricción también deben incluir el número de enzimas.
Los nombres están limitados a 10 caracteres de forma predeterminada y deben completarse con espacios en blanco para tener esa longitud y seguirse inmediatamente por los datos del carácter utilizando códigos de una letra, aunque el límite de 10 caracteres del nombre se puede cambiar con una pequeña modificación del código (cambiando nmlngth
en phylip.h y recompilando). Se permiten todos los caracteres ASCII/ISO imprimibles, excepto los paréntesis (" " (
y " )
"), los corchetes (" [
" y " ]
"), los dos puntos (" :
"), el punto y coma (" ;
") y la coma (" ,
"). Los espacios incrustados en la alineación se ignoran.
Muchos programas para análisis filogenéticos, incluidos los programas comúnmente utilizados RAxML [4] [5] e IQ-TREE [6] , utilizan el formato phylip o una modificación menor de ese formato llamada formato phylip relajado.
Formato philip relajado (secuencial):
5 42Turquía AAGCTNGGGCATTTCAGGGTGAGCCCGGGCAATACAGGGTATSalmo_schiefermuelleri AAGCCTTGGCAGTGCAGGGTGAGCCGTGGCCGGGCACGGTATH_sapiens ACCGGTTGGCCGTTCAGGGTACAGGTTGGCCGTTCAGGGTAAChimpancé AAACCCTTGCCGTTACGCTTAAACCGAGGCCGGGACACTCATGorila AAACCCTTGCCGGTACGCTTAAACCATTGCCGGTACGCTTAA
La principal diferencia en el formato phylip relajado es la ausencia del límite de 10 caracteres y la eliminación de la necesidad de rellenar los nombres con espacios en blanco para alcanzar esa longitud (aunque rellenar los nombres para que la matriz de caracteres comience en la misma posición puede mejorar la legibilidad para el usuario). Este ejemplo de formato relajado utiliza guiones bajos en lugar de espacios en los nombres y utiliza espacios entre los nombres y los datos de caracteres alineados; suele ser una buena práctica evitar los espacios en blanco dentro de los nombres de taxones y separar los datos de caracteres del nombre al generar archivos. Al igual que los archivos de formato phylip estricto, los archivos de formato phylip relajado pueden estar en formato intercalado e incluir espacios y líneas finales dentro de los datos de secuencia.
Los programas que utilizan datos de distancia, como el neighbor
programa que implementa el método de unión de vecinos , también utilizan un formato de matriz de distancia simple que incluye solo el número de taxones, sus nombres y valores numéricos para las distancias:
Matriz de distancia de Phylip:
7Bovino 0,0000 1,6866 1,7198 1,6606 1,5243 1,6043 1,5905Ratón 1,6866 0,0000 1,5232 1,4841 1,4465 1,4389 1,4629Gibón 1,7198 1,5232 0,0000 0,7115 0,5958 0,6179 0,5583Naranja 1,6606 1,4841 0,7115 0,0000 0,4631 0,5061 0,4710Gorila 1,5243 1,4465 0,5958 0,4631 0,0000 0,3484 0,3083Chimpancé 1,6043 1,4389 0,6179 0,5061 0,3484 0,0000 0,2692Humano 1,5905 1,4629 0,5583 0,4710 0,3083 0,2692 0,0000
El número indica la cantidad de taxones y existen las mismas limitaciones para los nombres de los taxones. Nótese que esta matriz es simétrica y la diagonal tiene valores de 0 (ya que la distancia entre un taxón y él mismo es cero por definición).
Los programas que utilizan árboles como entrada aceptan los árboles en formato Newick , un estándar informal acordado en 1986 por los autores de siete paquetes filogenéticos importantes. La salida se escribe en archivos con nombres como outfile
y outtree
. Los árboles escritos en outtree
están en formato Newick.
Nombre del programa | Descripción |
---|---|
protparos | Estima filogenias de secuencias de péptidos utilizando el método de parsimonia |
Pares de ADN | Estima filogenias de secuencias de ADN utilizando el método de parsimonia |
Penique de ADN | El método de ramificación y enlace de parsimonia de ADN encuentra todas las filogenias más parsimoniosas para secuencias de ácidos nucleicos mediante búsqueda de ramificación y enlace. |
movimiento de ADN | Construcción interactiva de filogenias a partir de secuencias de ácidos nucleicos, con su evaluación por el método de parsimonia del ADN, con compatibilidad y visualización de bases ancestrales reconstruidas |
Compilación de ADN | Estima filogenias a partir de datos de secuencias de ácidos nucleicos utilizando el criterio de compatibilidad |
ADN | Estima filogenias a partir de secuencias de nucleótidos utilizando el método de máxima verosimilitud |
ADN | Método de máxima verosimilitud del ADN con reloj molecular; el uso conjunto de dnaml y dnamlk permite realizar una prueba de relación de verosimilitud para la hipótesis del reloj molecular |
baile de graduación | Estima filogenias a partir de secuencias de aminoácidos de proteínas utilizando el método de máxima verosimilitud. |
prometida | Método de máxima verosimilitud de secuencia de proteínas con reloj molecular |
Resto ml | Estimación de filogenias por máxima verosimilitud utilizando datos de sitios de restricción; no a partir de fragmentos de restricción sino de la presencia o ausencia de sitios individuales |
ADN var | Para los datos de secuencias de ácidos nucleicos de cuatro especies, calcula los invariantes filogenéticos de Lake y Cavender , que prueban topologías de árboles alternativas. |
dnadista | Método de distancia de ADN que calcula cuatro distancias diferentes entre especies a partir de secuencias de ácidos nucleicos; las distancias pueden luego usarse en los programas de matriz de distancia |
protista | Método de distancia de secuencia de proteínas que calcula una medida de distancia para secuencias, utilizando estimaciones de máxima verosimilitud basadas en la matriz PAM de Dayhoff , la aproximación de Kimura de 1983 o un modelo basado en el código genético más una restricción para cambiar a una categoría diferente de aminoácido. |
distancia de descanso | Distancias calculadas a partir de datos de sitios de restricción o datos de fragmentos de restricción |
arranque de secuencia | Programa de bootstrap-jackknifing; lee un conjunto de datos y emite múltiples conjuntos de datos a partir de él mediante remuestreo de bootstrap |
ajuste | Método de matriz de distancia de Fitch-Margoliash ; estima filogenias a partir de datos de matriz de distancia según el modelo de árbol aditivo según el cual se espera que las distancias sean iguales a las sumas de las longitudes de las ramas entre especies |
kitsch | Método de matriz de distancia de Fitch-Margoliash con reloj molecular; estima filogenias a partir de datos de matriz de distancia según el modelo ultramétrico , que es el mismo que el modelo de árbol aditivo, excepto que se supone un reloj evolutivo |
vecino | Implementación de los métodos neighbor join y UPGMA |
control | Caracteres continuos y frecuencias genéticas de máxima verosimilitud; estima filogenias a partir de datos de frecuencia genética por máxima verosimilitud bajo un modelo en el que toda divergencia se debe a la deriva genética en ausencia de nuevas mutaciones; también realiza análisis de máxima verosimilitud de caracteres continuos que evolucionan mediante un modelo de movimiento browniano, asumiendo que los caracteres evolucionan a tasas iguales y de manera no correlacionada; no tiene en cuenta las correlaciones de caracteres |
contraste | Lee un árbol de un archivo de árbol y un conjunto de datos con datos de caracteres continuos, y emite los contrastes independientes para esos caracteres, para su uso en cualquier paquete de estadísticas multivariadas. |
gendista | Programa de distancia genética que calcula una de tres fórmulas de distancia genética diferentes a partir de datos de frecuencia genética |
partes | Método de parsimonia de caracteres discretos multiestado desordenado |
mezcla | Estima filogenias mediante algunos métodos de parsimonia para datos de caracteres discretos con dos estados (0, 1); permite utilizar métodos: Wagner, Camin-Sokal o mezclas arbitrarias |
centavo | Método mixto de ramificación y acotación que encuentra todas las filogenias más parsimoniosas para datos de caracteres discretos con dos estados, para los criterios de parsimonia de Wagner, Camin-Sokal y mixtos utilizando el método de ramificación y acotación de búsqueda exacta |
mover | Construcción interactiva de filogenias a partir de datos de caracteres discretos con dos estados (0, 1); evalúa criterios de parsimonia y compatibilidad para esas filogenias y muestra estados reconstruidos en todo el árbol |
porción | Estima filogenias mediante los criterios de parsimonia de Dollo o polimorfismo para datos de caracteres discretos con dos estados (0, 1) |
Dolpennio | Encuentra todas o la mayoría de las filogenias parsimoniosas para datos de caracteres discretos con dos estados, para el criterio de parsimonia de Dollo o polimorfismo utilizando el método de ramificación y límite de búsqueda exacta. |
mover el dol | Construcción interactiva de filogenias a partir de datos de caracteres discretos con dos estados (0, 1) utilizando los criterios de parsimonia de Dollo o de polimorfismo; evalúa los criterios de parsimonia y compatibilidad para esas filogenias; muestra estados reconstruidos en todo el árbol |
camarilla | Encuentra el grupo más grande de caracteres mutuamente compatibles y la filogenia que recomiendan para datos de caracteres discretos con dos estados (0, 1); el grupo más grande (o todos los grupos dentro de un rango de tamaño dado del más grande) se encuentran mediante un método rápido de búsqueda de ramificación y acotación. |
factor | Programa de recodificación de caracteres que toma datos multiestado discretos con árboles de estados de caracteres y emite el conjunto de datos correspondiente con dos estados (0, 1) |
dibujograma | Programa de dibujo de árboles enraizados que traza filogenias, cladogramas y fenogramas enraizados en una amplia variedad de formatos controlables por el usuario. El programa es interactivo y permite obtener una vista previa del árbol en pantallas gráficas de PC o Macintosh y terminales gráficas Tektronix o Digital. |
árbol de dibujo | Programa de dibujo de árboles sin raíz similar a DRAWGRAM, pero que traza filogenias |
Consenso | Programa de árbol de consenso que calcula árboles mediante el método del árbol de regla de la mayoría, que también permite encontrar fácilmente el árbol de consenso estricto; no se puede calcular el árbol de consenso de Adams |
arbolista | Calcula la distancia diferencial simétrica de Robinson-Foulds entre árboles, lo que permite diferencias en la topología de los árboles. |
rediseñar | Programa interactivo de reorganización de árboles que lee un árbol (con longitudes de ramas si es necesario) y permite enraizar nuevamente el árbol, voltear ramas, cambiar los nombres de las especies y las longitudes de las ramas y luego escribir el resultado; se puede usar para convertir entre árboles enraizados y no enraizados. |