Algoritmo de poda de árboles de Felsenstein

Técnica en genética estadística

En genética estadística , el algoritmo de poda de árboles de Felsenstein (o algoritmo de pelado de árboles de Felsenstein ), atribuido a Joseph Felsenstein , es un algoritmo para calcular de manera eficiente la probabilidad de un árbol evolutivo a partir de datos de secuencias de ácidos nucleicos . [1] [2]

El algoritmo se utiliza a menudo como una subrutina en la búsqueda de una estimación de máxima verosimilitud para un árbol evolutivo. Además, se puede utilizar en una prueba de hipótesis para determinar si las tasas evolutivas son constantes (mediante pruebas de razón de verosimilitud ). También se puede utilizar para proporcionar estimaciones de error para los parámetros que describen un árbol evolutivo.

Detalles

Un ejemplo simple de árbol filogenético elaborado a partir de datos arbitrarios D

La probabilidad de un árbol es, por definición, la probabilidad de observar determinados datos ( por ejemplo, una alineación de secuencias de nucleótidos, es decir, una sucesión de sitios de ADN ) dado el árbol. A menudo se escribe: . yo {\estilo de visualización T} D {\estilo de visualización D} D {\estilo de visualización D} norte {\estilo de visualización n} s {\estilo de visualización s} PAG ( D | yo ) {\estilo de visualización P(D|T)}

A continuación se muestra un ejemplo de un árbol evolutivo con datos de secuencia arbitrarios : D {\estilo de visualización D}


Este es un valor clave y a menudo es bastante complicado de calcular. Para facilitar los cálculos, Felsenstein y sus colegas utilizaron varios supuestos que todavía se utilizan ampliamente en la actualidad. El supuesto principal es que las mutaciones entre los sitios de ADN son independientes entre sí. Esto permite calcular la probabilidad como un simple producto de probabilidades. Ahora puede dividir los datos entre varios para cada sitio de nucleótido dentro de . La probabilidad global del árbol será el producto de las probabilidades de cada sitio: D {\estilo de visualización D} D s {\displaystyle D_{s}} s {\estilo de visualización s} D {\estilo de visualización D}

El mismo árbol pero formado a partir de D1, que consiste en los primeros sitios de ADN de D

PAG ( D | yo ) = s = 1 norte PAG ( D s | yo ) {\displaystyle P(D|T)=\prod _{s=1}^{n}{P(D_{s}|T)}}

Si reutilizo el ejemplo anterior, el árbol sería: D 1 Estilo de visualización D_{1}


El segundo supuesto se refiere a los modelos de evolución de secuencias de ADN . El cálculo de la probabilidad necesita las frecuencias de nucleótidos así como las probabilidades de transición (cuando ocurre una mutación, probabilidad de pasar de un nucleótido a otro). El modelo más simple es el modelo de Jukes-Cantor , que supone frecuencias de nucleótidos iguales y probabilidades de transición iguales de a ( y ) e ídem para las otras bases. Aquí está la tasa de mutación global del modelo. ( π A = π GRAMO = π do = π yo = 1 4 ) {\displaystyle \left(\pi _{A}=\pi _{G}=\pi _{C}=\pi _{T}={1 \sobre 4}\right)} incógnita {\estilo de visualización X} Y {\estilo de visualización Y} pag A yo = pag A do = pag A GRAMO = 1 4 ( 1 mi micras yo ) {\displaystyle p_{A\rightarrow T}=p_{A\rightarrow C}=p_{A\rightarrow G}={\frac {1}{4}}(1-e^{-\mu l})} pag A A = mi micras yo + 1 4 ( 1 mi micras yo ) {\displaystyle p_{A\rightarrow A}=e^{-\mu l}+{\frac {1}{4}}(1-e^{-\mu l})} micras {\estilo de visualización \mu}

Felsenstein propuso descomponer aún más los cálculos utilizando "probabilidades parciales" en el cálculo de . Así es como funciona. PAG ( D s | yo ) {\displaystyle P(D_{s}|T)}

Supongamos que estamos en un nodo del árbol . tiene dos nodos hijos y y, para cada base de ADN presente en , podemos definir una probabilidad parcial como: a {\estilo de visualización k} yo {\estilo de visualización T} a {\estilo de visualización k} i {\estilo de visualización i} yo {\estilo de visualización j} incógnita = { A , yo , do , GRAMO } {\displaystyle X=\{A,T,C,G\}} a {\estilo de visualización k} el a ( incógnita ) Estilo de visualización w_ {k}(X)}

el a ( incógnita ) = ( Y pag incógnita Y el i ( Y ) ) ( O pag incógnita O el yo ( O ) ) {\displaystyle w_{k}(X)=(\sum _{Y}p_{X\rightarrow Y}\centerdot w_{i}(Y))\centerdot (\sum _{Z}p_{X\rightarrow Z }\centerdot w_{j}(Z))}

donde y también son bases de ADN. es la probabilidad de transición de nucleótido a nucleótido (ídem para ). es la probabilidad parcial del nodo hijo , evaluada en el nucleótido (ídem para ). Y {\estilo de visualización Y} O {\estilo de visualización Z} pag incógnita Y {\displaystyle p_{X\rightarrow Y}} incógnita {\estilo de visualización X} Y {\estilo de visualización Y} pag incógnita O {\displaystyle p_{X\rightarrow Z}} el i ( Y ) {\displaystyle w_{i}(Y)} i {\estilo de visualización i} Y {\estilo de visualización Y} el yo ( O ) Estilo de visualización w_ {j}(Z)}

Utilizando esta fórmula, hay que empezar desde las puntas del árbol , luego avanzar hacia la raíz y calcular las probabilidades parciales de cada nodo necesario en el camino (4 probabilidades parciales por nodo). Una vez que se ha llegado a la raíz del árbol, la probabilidad del árbol (para este sitio en particular) es entonces la suma de las probabilidades parciales de la raíz multiplicada por la frecuencia de nucleótidos apropiada. yo {\estilo de visualización T}

PAG ( D s | yo ) = incógnita pag incógnita el a ( incógnita ) {\displaystyle P(D_{s}|T)=\sum _{X}p_{X}\centerdot w_{r}(X)}

Después de hacer esto para cada sitio , finalmente se puede obtener la probabilidad del árbol evolutivo global multiplicando cada "subverosimilitud". s {\estilo de visualización s}

Algoritmo

Ejemplo sencillo

Referencias

  1. ^ Felsenstein, J. (1973). "Métodos de máxima verosimilitud y pasos mínimos para estimar árboles evolutivos a partir de datos sobre caracteres discretos". Biología sistemática . 22 (3): 240–249. doi :10.1093/sysbio/22.3.240.
  2. ^ Felsenstein, J. (1981). "Árboles evolutivos a partir de secuencias de ADN: un enfoque de máxima verosimilitud". Journal of Molecular Evolution . 17 (6): 368–376. Bibcode :1981JMolE..17..368F. doi :10.1007/BF01734359. PMID  7288891. S2CID  8024924.
Obtenido de "https://es.wikipedia.org/w/index.php?title=Algoritmo_de_poda_de_árboles_de_Felsenstein&oldid=1249369425"