Formato Newick

Notación para estructuras de datos de árbol
Formato Newick
Extensiones de nombre de archivo.tree
Tipo de medio de Internettext/x-nh
Lanzamiento inicial24 de junio de 1986 (hace 38 años) ( 24 de junio de 1986 )
Tipo de formatoárboles de teoría de grafos
¿ Formato abierto ?

En matemáticas y filogenética , el formato de árbol de Newick (o notación de Newick o formato de árbol de New Hampshire ) es una forma de representar árboles de teoría de grafos con longitudes de aristas usando paréntesis y comas. Fue adoptado por James Archie, William HE Day, Joseph Felsenstein , Wayne Maddison , Christopher Meacham, F. James Rohlf y David Swofford, en dos reuniones en 1986, la segunda de las cuales fue en el restaurante Newick's [1] en Dover , New Hampshire, EE. UU. El formato adoptado es una generalización del formato desarrollado por Meacham en 1984 para los primeros programas de dibujo de árboles en el paquete PHYLIP de Felsenstein . [2]

Ejemplos

El siguiente árbol:

Podría representarse en formato Newick de varias maneras.

(,,(,)); ningún nodo tiene nombre
(A,B,(C,D)); los nodos hoja tienen nombre
(A,B,(C,D)E)F; todos los nodos tienen nombre
(:0.1,:0.2,(:0.3,:0.4):0.5); todos excepto el nodo raíz tienen una distancia al padre
(:0.1,:0.2,(:0.3,:0.4):0.5):0.0; todos tienen una distancia al padre
(A:0.1,B:0.2,(C:0.3,D:0.4):0.5); distancias y nombres de hojas  (populares)
(A:0.1,B:0.2,(C:0.3,D:0.4)E:0.5)F; distancias y todos los nombres
((B:0.2,(C:0.3,D:0.4)E:0.5)F:0.1)A; un árbol enraizado en un nodo de hoja  (raro)

El formato Newick se utiliza normalmente para herramientas como PHYLIP y es una definición mínima de un árbol filogenético .

Árboles enraizados, no enraizados y binarios

Cuando se representa un árbol sin raíz en notación Newick, se elige un nodo arbitrario como su raíz. Ya sea con raíz o sin raíz, normalmente la representación de un árbol tiene su raíz en un nodo interno y es poco frecuente (pero legal) tener una raíz en un nodo de hoja.

Un árbol binario enraizado que tiene su raíz en un nodo interno tiene exactamente dos nodos descendientes inmediatos para cada nodo interno. Un árbol binario sin raíz que tiene su raíz en un nodo interno arbitrario tiene exactamente tres nodos descendientes inmediatos para el nodo raíz, y cada uno de los demás nodos internos tiene exactamente dos nodos descendientes inmediatos. Un árbol binario enraizado a partir de una hoja tiene como máximo un nodo descendiente inmediato para el nodo raíz, y cada nodo interno tiene exactamente dos nodos descendientes inmediatos.

Gramática

Una gramática para analizar el formato Newick (basada aproximadamente en [3] ):

Los nodos gramaticales

Árbol : el formato Newick de entrada completo para un solo árbol Subárbol : un nodo interno (y sus descendientes) o un nodo hoja Hoja : un nodo sin descendientes Interno : un nodo y uno o más descendientes Conjunto de ramas : un conjunto de una o más ramas Rama : una arista de un árbol y su subárbol descendiente. Nombre : el nombre de un nodo Longitud : la longitud de una arista de un árbol.

Las reglas gramaticales

Tenga en cuenta que "|" separa las alternativas.

ÁrbolSubárbol ";" SubárbolHoja | Hoja internaNombre Interno → "(" BranchSet ")" Nombre BranchSetRama | Rama "," BranchSet RamaSubárbol Longitud Nombrevacío | cadena Longitudvacío | ":" número 

Los espacios en blanco (espacios, tabulaciones, retornos de carro y saltos de línea) dentro de un número están prohibidos. Los espacios en blanco dentro de una cadena suelen estar prohibidos. Los espacios en blanco en otros lugares se ignoran. A veces, la cadena Nombre debe tener una longitud fija especificada; de lo contrario, los caracteres de puntuación de la gramática (punto y coma, paréntesis, coma y dos puntos) están prohibidos. La producción ÁrbolSubárbol ";" es en cambio la producción ÁrbolRama ";" en aquellos casos en los que se permite que todo el árbol descienda de la nada; esto también captura la producción reemplazada porque Longitud puede estar vacía .

Tenga en cuenta que cuando un árbol que tiene más de una hoja tiene su raíz en una de sus hojas, una representación que rara vez se ve en la práctica, la hoja raíz se caracteriza como un nodo interno por la gramática anterior. En general, un nodo raíz etiquetado como interno debe interpretarse como realmente interno si y solo si tiene al menos dos Branch es en su BranchSet . Se puede crear una gramática que formalice esta distinción reemplazando la regla de producción de árbol anterior con

ÁrbolRootLeaf ";" | RootInternal ";" RootLeafNombre | "(" Rama ")" Nombre RootInternal → "(" Rama "," ConjuntoDeRama ")" Nombre

La primera producción de RootLeaf es para un árbol con exactamente una hoja. La segunda producción de RootLeaf es para enraizar un árbol a partir de una de sus dos o más hojas.

Notas

  • Una cadena sin comillas no puede contener espacios en blanco, paréntesis, corchetes, comillas simples, dos puntos, punto y coma ni comas. Los caracteres de subrayado en cadenas sin comillas se convierten en espacios en blanco. [3]
  • También es posible poner entre comillas simples una cadena de caracteres. Las comillas simples en la cadena original se representan como dos caracteres de comillas simples consecutivos. [3]
  • Los espacios en blanco pueden aparecer en cualquier lugar excepto dentro de una cadena sin comillas o una longitud.
  • Las nuevas líneas pueden aparecer en cualquier lugar excepto dentro de una cadena o una longitud .
  • Los comentarios se incluyen entre corchetes y pueden aparecer en cualquier lugar donde se permitan nuevas líneas. [3] Los comentarios que comienzan con &son generalmente generados por computadora para obtener datos adicionales. Algunos dialectos permiten comentarios anidados.

Dialectos

Formato X de New Hampshire

El formato New Hampshire X (NHX) es una extensión de Newick que agrega datos de clave-valor (duplicación de genes, etc.) a los nodos de Newick. Esto se hace colocando los datos adicionales entre corchetes en las etiquetas de los nodos. Los corchetes se utilizan porque representan comentarios en el formato de archivo Nexus , por lo que cualquier analizador que no comprenda esta información adicional los ignorará. [4][&&NHX:key=value:...]

Newick ampliado

Si bien la notación Newick estándar se limita a los árboles filogenéticos, se puede utilizar Newick extendido (Perl Bio::PhyloNetwork) para codificar redes filogenéticas explícitas. [5] En una red filogenética , que es una generalización de un árbol filogenético , un nodo representa un evento de divergencia ( cladogénesis ) o un evento de reticulación como hibridación , introgresión , transferencia genética horizontal (lateral) o recombinación . Los nodos que representan un evento de reticulación se duplican, se anotan introduciendo el símbolo # en el formato Newick y se numeran consecutivamente (usando valores enteros que comienzan con 1).

Por ejemplo, si la hoja Y es el producto de la hibridación (x) entre linajes que conducen a C y D en el árbol anterior,

Ejemplo de una red filogenética

F

A

B

mi
do

do

Y

D

F

A

B

mi

do

d

Y

D

Dos árboles en Newick estándar

Se puede expresar esta situación definiendo dos árboles en notación Newick estándar.

(A,B,((C,Y)c,D)e)f; y (A,B,(C,(Y,D)d)e)f; Newick estándar , todos los nodos tienen nombre (los nodos internos en minúsculas, las hojas en mayúsculas) 

o en notación Newick extendida

(A,B,((C,(Y)x#H1)c,(x#H1,D)d)e)f; Newick extendido, todos los nodos tienen nombre; 1 es el entero que identifica al nodo híbrido x

Aquí x#H1hay un nodo híbrido. El programa los unirá para formar un solo nodo cuando se dibujen. Esta es la imagen dibujada por Dendroscope para este ejemplo:Red dibujada por Dendroscope


Las reglas de producción anteriores se modifican de la siguiente manera para etiquetar nodos híbridos (en general, nodos que representan eventos de reticulación): [6]

HojaNombre  Híbrido Híbridovacío | "#" Tipo entero -- La parte #i es un identificador obligatorio para un nodo híbrido Tipovacío | cadena -- tipo de reticulación, p. ej., H = hibridación, LGT = transferencia lateral de genes, R = recombinación. 

En la visualización de eventos LGT, para un nodo reticular dado, un borde entrante se dibuja generalmente como borde "aceptor" y todos los demás bordes entrantes se dibujan como bordes "transferibles". Algunos programas (por ejemplo, Dendroscope y SplitsTree ) permiten etiquetar exactamente una copia del nodo reticular con ##para indicar que corresponde al borde aceptor.

Newick extendido es compatible con versiones anteriores: un nodo híbrido simplemente se interpretaría como unos pocos nodos con nombres extraños para analizadores heredados.

Formato Newick enriquecido

El formato Rich Newick, también conocido como formato Rice Newick, es una extensión adicional de Extended Newick. [7] Agrega soporte para:

  • Filogenias sin raíz. Esto se hace simplemente escribiendo un árbol sin raíz como de costumbre (es decir, eligiendo una raíz arbitraria en un punto de ramificación binario) y anteponiendo [&U]la cadena. [&R], por otro lado, se puede utilizar para forzar un árbol con raíz.
  • Valores y probabilidades de Bootstrap. Esto se hace agregando :[bootstrap]:[prob]campos adicionales después de la longitud; los campos se pueden dejar vacíos siempre que estén presentes los dos puntos. Esto puede ser incompatible con versiones anteriores.

Extensiones ad hoc

Algunos otros programas, como NWX, utilizan comentarios que comienzan con &para codificar información adicional de manera ad hoc: [8]

  • MrBayes y BEAST añaden información adicional como probabilidad, duración en años y desviación estándar de los valores a los nodos. También utilizan [%U].

Visualización

Se han publicado muchas herramientas para visualizar datos de árboles de Newick. Algunos ejemplos específicos incluyen el kit de herramientas ETE ("Environment for Tree Exploration") [9] y T-REX . [10] Los paquetes de software filogenético como SplitsTree y el visualizador de árboles Dendroscope, así como la herramienta de visualización de árboles en línea IcyTree, pueden manejar la notación Newick estándar y extendida, mientras que el software de red filogenética PhyloNet utiliza tanto el formato Newick extendido como el formato Newick rico.

Véase también

Referencias

  1. ^ Página de inicio de Newick's Lobster House
  2. ^ "El formato del árbol Newick".
  3. ^ abcd Olsen, Gary (30 de agosto de 1990). "Interpretación del formato de árbol "Newick's 8:45"".
  4. ^ Zmasek, Christian M. (1999). "El formato X de New Hampshire (NHX)" (PDF) .
  5. ^ Cardona, Gabriel; Rosselló, Francesc; Valiente, Gabriel (2008-03-27). "Un paquete perl y una herramienta de alineamiento para redes filogenéticas". BMC Bioinformatics . 9 : 175. doi : 10.1186/1471-2105-9-175 . ISSN  1471-2105. PMC 2330044 . PMID  18371228. 
  6. ^ Cardona, Gabriel; Rosselló, Francesc; Valiente, Gabriel (2008). "Newick ampliado: es hora de una representación estándar de redes filogenéticas". BMC Bioinformatics . 9 : 532. doi : 10.1186/1471-2105-9-532 . PMC 2621367 . PMID  19077301. 
  7. ^ Barnett, Robert Matthew (16 de febrero de 2012). "Formato Rich Newick". Wiki de la Universidad Rice .
  8. ^ Yu, Guangchuang. "Capítulo 1 Importación de árboles con datos". Integración de datos, manipulación y visualización de árboles filogenéticos .
  9. ^ Huerta-Cepas, Jaime; Serra, François; Bork, Peer (junio de 2016). "ETE 3: Reconstrucción, análisis y visualización de datos filogenómicos". Biología molecular y evolución . 33 (6): 1635–1638. doi :10.1093/molbev/msw046. ISSN  0737-4038. PMC 4868116 . PMID  26921390. 
  10. ^ Boc, Alix; Diallo, Alpha Boubacar; Makarenkov, Vladimir (julio de 2012). "T-REX: un servidor web para inferir, validar y visualizar árboles y redes filogenéticos". Nucleic Acids Research . 40 (número del servidor web): W573–579. doi :10.1093/nar/gks485. ISSN  1362-4962. PMC 3394261 . PMID  22675075. 
  • Filograma de mamíferos euterios de Miyamoto y Goodman Un ejemplo de un filograma grande con su representación en formato Newick.
  • Visualizador de árboles filogenéticos (Newick) (Por Huerta-Cepas et al. 2016)
Obtenido de "https://es.wikipedia.org/w/index.php?title=Formato_Newick&oldid=1215069564"