En la predicción de la estructura de proteínas , los potenciales estadísticos o potenciales basados en el conocimiento son funciones de puntuación derivadas de un análisis de estructuras de proteínas conocidas en el Banco de Datos de Proteínas (PDB).
El método original para obtener tales potenciales es la aproximación cuasiquímica , debido a Miyazawa y Jernigan. [2] Posteriormente fue seguido por el potencial de fuerza media (PMF estadístico [Nota 1] ), desarrollado por Sippl. [3] Aunque los valores obtenidos a menudo se consideran como aproximaciones de la energía libre —por lo que se denominan pseudoenergías— esta interpretación física es incorrecta. [4] [5] No obstante, se aplican con éxito en muchos casos, porque frecuentemente se correlacionan con diferencias reales de energía libre de Gibbs . [6]
Las posibles características a las que se puede asignar una pseudoenergía incluyen:
La aplicación clásica, sin embargo, se basa en contactos o distancias de aminoácidos por pares , produciendo así potenciales interatómicos estadísticos . Para los contactos de aminoácidos por pares, se formula un potencial estadístico como una matriz de interacción que asigna un peso o valor de energía a cada par posible de aminoácidos estándar . La energía de un modelo estructural particular es entonces la energía combinada de todos los contactos por pares (definidos como dos aminoácidos dentro de una cierta distancia entre sí) en la estructura. Las energías se determinan utilizando estadísticas sobre los contactos de aminoácidos en una base de datos de estructuras de proteínas conocidas (obtenidas del PDB ).
Muchos libros de texto presentan los PMF estadísticos propuestos por Sippl [3] como una simple consecuencia de la distribución de Boltzmann , aplicada a distancias por pares entre aminoácidos. Esto es incorrecto, pero es un comienzo útil para introducir la construcción del potencial en la práctica. La distribución de Boltzmann aplicada a un par específico de aminoácidos, viene dada por:
donde es la distancia, es la constante de Boltzmann , es la temperatura y es la función de partición , con
La cantidad es la energía libre asignada al sistema por pares. Una simple reorganización da como resultado la fórmula inversa de Boltzmann , que expresa la energía libre como una función de :
Para construir un PMF, se introduce un llamado estado de referencia con una función de distribución y partición correspondiente , y se calcula la siguiente diferencia de energía libre:
El estado de referencia suele ser el resultado de un sistema hipotético en el que no existen interacciones específicas entre los aminoácidos. El segundo término que implica y puede ignorarse, ya que es una constante.
En la práctica, se estima a partir de la base de datos de estructuras proteínicas conocidas, mientras que normalmente resulta de cálculos o simulaciones. Por ejemplo, podría ser la probabilidad condicional de encontrar los átomos de una valina y una serina a una distancia dada entre sí, lo que da lugar a la diferencia de energía libre . La diferencia de energía libre total de una proteína, , se afirma entonces que es la suma de todas las energías libres por pares:
donde la suma se aplica a todos los pares de aminoácidos (con ) y es su distancia correspondiente. En muchos estudios no depende de la secuencia de aminoácidos . [7]
Intuitivamente, resulta claro que un valor bajo de indica que el conjunto de distancias en una estructura es más probable en proteínas que en el estado de referencia. Sin embargo, el significado físico de estos PMF estadísticos ha sido ampliamente discutido desde su introducción. [4] [5] [8] [9] Los principales problemas son:
En respuesta a la cuestión relativa a la validez física, la primera justificación de las FMP estadísticas fue intentada por Sippl. [10] Se basó en una analogía con la física estadística de los líquidos. Para los líquidos, el potencial de fuerza media está relacionado con la función de distribución radial , que viene dada por: [11]
donde y son las probabilidades respectivas de encontrar dos partículas a distancia una de otra en el líquido y en el estado de referencia. Para los líquidos, el estado de referencia está claramente definido; corresponde al gas ideal, que consiste en partículas que no interactúan. El potencial de dos partículas de fuerza media está relacionado con por:
Según el teorema del trabajo reversible, el potencial de fuerza media de dos partículas es el trabajo reversible necesario para llevar dos partículas en el líquido desde una separación infinita a una distancia entre sí. [11]
Sippl justificó el uso de los PMF estadísticos (unos años después de que los introdujera para su uso en la predicción de la estructura de proteínas) apelando a la analogía con el teorema del trabajo reversible para líquidos. En el caso de los líquidos, se puede medir experimentalmente utilizando la dispersión de rayos X de ángulo pequeño ; en el caso de las proteínas, se obtiene a partir del conjunto de estructuras proteínicas conocidas, como se explicó en la sección anterior. Sin embargo, como escribió Ben-Naim en una publicación sobre el tema: [5]
[...] las cantidades, denominadas "potenciales estadísticos", "potenciales basados en la estructura" o "potenciales de pares de fuerza media", tal como se derivan del banco de datos de proteínas (PDB), no son "potenciales" ni "potenciales de fuerza media", en el sentido ordinario tal como se utiliza en la literatura sobre líquidos y soluciones.
Además, esta analogía no resuelve el problema de cómo especificar un estado de referencia adecuado para las proteínas.
A mediados de la década de 2000, los autores comenzaron a combinar múltiples potenciales estadísticos, derivados de diferentes características estructurales, en puntuaciones compuestas . [12] Para ese propósito, utilizaron técnicas de aprendizaje automático , como máquinas de vectores de soporte (SVM). Las redes neuronales probabilísticas (PNN) también se han aplicado para el entrenamiento de un potencial estadístico dependiente de la distancia y específico de la posición. [13] En 2016, el laboratorio de investigación de inteligencia artificial DeepMind comenzó a aplicar técnicas de aprendizaje profundo al desarrollo de un potencial estadístico dependiente de la torsión y la distancia. [14] El método resultante, llamado AlphaFold , ganó la 13.ª Evaluación crítica de técnicas para la predicción de la estructura de proteínas (CASP) al predecir correctamente la estructura más precisa para 25 de los 43 dominios de modelado libres .
Baker y colaboradores [15] justificaron los PMF estadísticos desde un punto de vista bayesiano y utilizaron estos conocimientos en la construcción de la función de energía de grano grueso ROSETTA . Según el cálculo de probabilidad bayesiano , la probabilidad condicional de una estructura , dada la secuencia de aminoácidos , se puede escribir como:
es proporcional al producto de la probabilidad por la probabilidad anterior . Suponiendo que la probabilidad se puede aproximar como un producto de probabilidades por pares y aplicando el teorema de Bayes , la probabilidad se puede escribir como:
donde el producto se aplica a todos los pares de aminoácidos (con ), y es la distancia entre los aminoácidos y . Obviamente, el negativo del logaritmo de la expresión tiene la misma forma funcional que los PMF estadísticos de distancia por pares clásicos, donde el denominador desempeña el papel del estado de referencia. Esta explicación tiene dos deficiencias: se basa en la suposición infundada de que la probabilidad se puede expresar como un producto de probabilidades por pares, y es puramente cualitativa .
Hamelryck y colaboradores [6] posteriormente dieron una explicación cuantitativa de los potenciales estadísticos, según la cual se aproximan a una forma de razonamiento probabilístico debido a Richard Jeffrey y se denominaron cinemática de probabilidad . Esta variante del pensamiento bayesiano (a veces llamada " condicionamiento de Jeffrey ") permite actualizar una distribución previa basándose en nueva información sobre las probabilidades de los elementos de una partición con el apoyo de la previa. Desde este punto de vista, (i) no es necesario asumir que la base de datos de estructuras de proteínas -utilizada para construir los potenciales- sigue una distribución de Boltzmann, (ii) los potenciales estadísticos se generalizan fácilmente más allá de las diferencias por pares, y (iii) la relación de referencia está determinada por la distribución previa.
Expresiones que se asemejan a los PMF estadísticos resultan naturalmente de la aplicación de la teoría de probabilidad para resolver un problema fundamental que surge en la predicción de la estructura de proteínas: cómo mejorar una distribución de probabilidad imperfecta sobre una primera variable usando una distribución de probabilidad sobre una segunda variable , con . [6] Normalmente, y son variables de grano fino y grueso, respectivamente. Por ejemplo, podría referirse a la estructura local de la proteína, mientras que podría referirse a las distancias por pares entre los aminoácidos. En ese caso, podría ser, por ejemplo, un vector de ángulos diedros que especifica todas las posiciones de los átomos (asumiendo longitudes y ángulos de enlace ideales). Para combinar las dos distribuciones, de modo que la estructura local se distribuya de acuerdo con , mientras que las distancias por pares se distribuyan de acuerdo con , se necesita la siguiente expresión:
donde es la distribución sobre lo que implica . La razón en la expresión corresponde al PMF. Normalmente, se obtiene mediante muestreo (normalmente de una biblioteca de fragmentos) y no se evalúa explícitamente; la razón, que en contraste se evalúa explícitamente, corresponde al PMF de Sippl. Esta explicación es cuantitativa y permite la generalización de los PMF estadísticos desde distancias por pares a variables arbitrarias de grano grueso. También proporciona una definición rigurosa del estado de referencia, que está implícito en . Las aplicaciones convencionales de los PMF estadísticos de distancia por pares suelen carecer de dos características necesarias para que sean completamente rigurosas: el uso de una distribución de probabilidad adecuada sobre distancias por pares en proteínas y el reconocimiento de que el estado de referencia está rigurosamente definido por .
Los potenciales estadísticos se utilizan como funciones de energía en la evaluación de un conjunto de modelos estructurales producidos por modelado de homología o enhebrado de proteínas . Se ha demostrado que muchos potenciales estadísticos parametrizados de forma diferente identifican con éxito la estructura del estado nativo a partir de un conjunto de estructuras señuelo o no nativas. [16] Los potenciales estadísticos no solo se utilizan para la predicción de la estructura de proteínas , sino también para modelar la vía de plegamiento de proteínas . [17] [18]
{{cite journal}}
: CS1 maint: multiple names: authors list (link)