Una matriz de ponderación de posición (PWM) , también conocida como matriz de ponderación específica de posición (PSWM) o matriz de puntuación específica de posición (PSSM) , es una representación comúnmente utilizada de motivos (patrones) en secuencias biológicas.
Los PWM a menudo se derivan de un conjunto de secuencias alineadas que se cree que están relacionadas funcionalmente y se han convertido en una parte importante de muchas herramientas de software para el descubrimiento de motivos computacionales.
Esta sección está vacía. Puedes ayudarnos agregándole algo. ( Noviembre 2022 ) |
Un PWM tiene una fila para cada símbolo del alfabeto (4 filas para nucleótidos en secuencias de ADN o 20 filas para aminoácidos en secuencias de proteínas ) y una columna para cada posición en el patrón. En el primer paso para construir un PWM, se crea una matriz de frecuencia de posición (PFM) básica contando las ocurrencias de cada nucleótido en cada posición. A partir de la PFM, ahora se puede crear una matriz de probabilidad de posición (PPM) dividiendo ese recuento anterior de nucleótidos en cada posición por el número de secuencias, normalizando así los valores. Formalmente, dado un conjunto X de N secuencias alineadas de longitud l , se calculan los elementos de la PPM M :
donde i (1,..., N ), j (1,..., l ), k es el conjunto de símbolos del alfabeto e I(a=k) es una función indicadora donde I(a=k) es 1 si a=k y 0 en caso contrario.
Por ejemplo, dadas las siguientes secuencias de ADN:
GAGGTAAAC |
El PFM correspondiente es:
Por lo tanto, el PPM resultante es: [1]
Tanto los PPM como los PWM suponen independencia estadística entre las posiciones del patrón, ya que las probabilidades de cada posición se calculan independientemente de las demás posiciones. De la definición anterior se deduce que la suma de los valores de una posición particular (es decir, la suma de todos los símbolos) es 1. Por lo tanto, cada columna puede considerarse una distribución multinomial independiente . Esto facilita el cálculo de la probabilidad de una secuencia dada una PPM, al multiplicar las probabilidades relevantes en cada posición. Por ejemplo, la probabilidad de la secuencia S = GAGGTAAAC dada la PPM M anterior puede calcularse:
Los pseudoconteos (o estimadores de Laplace ) se aplican a menudo al calcular PPM si se basan en un conjunto de datos pequeño, para evitar que las entradas de la matriz tengan un valor de 0. [2] Esto es equivalente a multiplicar cada columna del PPM por una distribución de Dirichlet y permite calcular la probabilidad para nuevas secuencias (es decir, secuencias que no formaban parte del conjunto de datos original). En el ejemplo anterior, sin pseudoconteos, cualquier secuencia que no tuviera una G en la cuarta posición o una T en la quinta posición tendría una probabilidad de 0, independientemente de las otras posiciones.
La mayoría de las veces, los elementos de los PWM se calculan como probabilidades logarítmicas. Es decir, los elementos de un PPM se transforman utilizando un modelo de fondo de modo que:
describe cómo se puede calcular un elemento en el PWM (izquierda) , . El modelo de fondo más simple supone que cada letra aparece con la misma frecuencia en el conjunto de datos. Es decir, el valor de para todos los símbolos del alfabeto (0,25 para nucleótidos y 0,05 para aminoácidos). Al aplicar esta transformación al PPM M de arriba (sin pseudoconteos agregados) se obtiene:
Las entradas en la matriz dejan en claro la ventaja de agregar pseudoconteos, especialmente cuando se utilizan conjuntos de datos pequeños para construir M. El modelo de fondo no necesita tener valores iguales para cada símbolo: por ejemplo, al estudiar organismos con un alto contenido de GC , los valores de C y G pueden aumentarse con una disminución correspondiente para los valores de A y T.
Cuando los elementos PWM se calculan utilizando probabilidades logarítmicas, la puntuación de una secuencia se puede calcular sumando (en lugar de multiplicar) los valores relevantes en cada posición en el PWM. La puntuación de la secuencia da una indicación de cuán diferente es la secuencia de una secuencia aleatoria. La puntuación es 0 si la secuencia tiene la misma probabilidad de ser un sitio funcional y de ser un sitio aleatorio. La puntuación es mayor que 0 si es más probable que sea un sitio funcional que un sitio aleatorio, y menor que 0 si es más probable que sea un sitio aleatorio que un sitio funcional. [1] La puntuación de la secuencia también se puede interpretar en un marco físico como la energía de enlace para esa secuencia.
El contenido de información (IC) de un PWM a veces es de interés, ya que dice algo acerca de cuán diferente es un PWM dado de una distribución uniforme .
La autoinformación de observar un símbolo particular en una posición particular del motivo es:
La autoinformación esperada (promedio) de un elemento particular en el PWM es entonces:
Finalmente, el IC del PWM es entonces la suma de la autoinformación esperada de cada elemento:
A menudo, es más útil calcular el contenido de información con las frecuencias de letras de fondo de las secuencias que se están estudiando en lugar de suponer probabilidades iguales de cada letra (por ejemplo, el contenido de GC del ADN de las bacterias termófilas varía de 65,3 a 70,8, [3] por lo que un motivo de ATAT contendría mucha más información que un motivo de CCGG). La ecuación para el contenido de información se convierte así en
donde es la frecuencia de fondo para la letra . Esto corresponde a la divergencia de Kullback–Leibler o entropía relativa. Sin embargo, se ha demostrado que al utilizar PSSM para buscar secuencias genómicas (ver más abajo) esta corrección uniforme puede llevar a una sobreestimación de la importancia de las diferentes bases en un motivo, debido a la distribución desigual de n-meros en genomas reales, lo que lleva a un número significativamente mayor de falsos positivos. [4]
Existen varios algoritmos para buscar coincidencias de PWM en secuencias. Un ejemplo es el algoritmo MATCH [5] que se ha implementado en ModuleMaster. [6] En el software possumsearch se han implementado algoritmos más sofisticados para la búsqueda rápida en bases de datos con PWM/PSSM de nucleótidos y aminoácidos. [7]
El modelo PWM/PSSM básico no puede manejar inserciones y eliminaciones. Un PSSM con probabilidades adicionales de inserción y eliminación en cada posición puede interpretarse como un modelo oculto de Markov . Este es el enfoque utilizado por Pfam . [8] [9]