En genética estadística , el algoritmo de poda de árboles de Felsenstein (o algoritmo de pelado de árboles de Felsenstein ), atribuido a Joseph Felsenstein , es un algoritmo para calcular de manera eficiente la probabilidad de un árbol evolutivo a partir de datos de secuencias de ácidos nucleicos . [1] [2]
El algoritmo se utiliza a menudo como una subrutina en la búsqueda de una estimación de máxima verosimilitud para un árbol evolutivo. Además, se puede utilizar en una prueba de hipótesis para determinar si las tasas evolutivas son constantes (mediante pruebas de razón de verosimilitud ). También se puede utilizar para proporcionar estimaciones de error para los parámetros que describen un árbol evolutivo.
La probabilidad de un árbol es, por definición, la probabilidad de observar determinados datos ( por ejemplo, una alineación de secuencias de nucleótidos, es decir, una sucesión de sitios de ADN ) dado el árbol. A menudo se escribe: .
A continuación se muestra un ejemplo de un árbol evolutivo con datos de secuencia arbitrarios :
Este es un valor clave y a menudo es bastante complicado de calcular. Para facilitar los cálculos, Felsenstein y sus colegas utilizaron varios supuestos que todavía se utilizan ampliamente en la actualidad. El supuesto principal es que las mutaciones entre los sitios de ADN son independientes entre sí. Esto permite calcular la probabilidad como un simple producto de probabilidades. Ahora puede dividir los datos entre varios para cada sitio de nucleótido dentro de . La probabilidad global del árbol será el producto de las probabilidades de cada sitio:
Si reutilizo el ejemplo anterior, el árbol sería:
El segundo supuesto se refiere a los modelos de evolución de secuencias de ADN . El cálculo de la probabilidad necesita las frecuencias de nucleótidos así como las probabilidades de transición (cuando ocurre una mutación, probabilidad de pasar de un nucleótido a otro). El modelo más simple es el modelo de Jukes-Cantor , que supone frecuencias de nucleótidos iguales y probabilidades de transición iguales de a ( y ) e ídem para las otras bases. Aquí está la tasa de mutación global del modelo.
Felsenstein propuso descomponer aún más los cálculos utilizando "probabilidades parciales" en el cálculo de . Así es como funciona.
Supongamos que estamos en un nodo del árbol . tiene dos nodos hijos y y, para cada base de ADN presente en , podemos definir una probabilidad parcial como:
donde y también son bases de ADN. es la probabilidad de transición de nucleótido a nucleótido (ídem para ). es la probabilidad parcial del nodo hijo , evaluada en el nucleótido (ídem para ).
Utilizando esta fórmula, hay que empezar desde las puntas del árbol , luego avanzar hacia la raíz y calcular las probabilidades parciales de cada nodo necesario en el camino (4 probabilidades parciales por nodo). Una vez que se ha llegado a la raíz del árbol, la probabilidad del árbol (para este sitio en particular) es entonces la suma de las probabilidades parciales de la raíz multiplicada por la frecuencia de nucleótidos apropiada.
Después de hacer esto para cada sitio , finalmente se puede obtener la probabilidad del árbol evolutivo global multiplicando cada "subverosimilitud".