El método GOR (abreviatura de Garnier–Osguthorpe–Robson) es un método basado en la teoría de la información para la predicción de estructuras secundarias en proteínas . [1] Fue desarrollado a fines de la década de 1970, poco después del método más simple de Chou–Fasman . Al igual que Chou–Fasman, el método GOR se basa en parámetros de probabilidad derivados de estudios empíricos de estructuras terciarias de proteínas conocidas resueltas por cristalografía de rayos X. Sin embargo, a diferencia de Chou–Fasman, el método GOR tiene en cuenta no solo las propensiones de aminoácidos individuales a formar estructuras secundarias particulares, sino también la probabilidad condicional del aminoácido a formar una estructura secundaria dado que sus vecinos inmediatos ya han formado esa estructura. Por lo tanto, el método es esencialmente bayesiano en su análisis. [2]
El método GOR analiza secuencias para predecir la estructura secundaria de hélice alfa , lámina beta , giro o espiral aleatoria en cada posición basándose en ventanas de secuencia de 17 aminoácidos. La descripción original del método incluía cuatro matrices de puntuación de tamaño 17×20, donde las columnas corresponden a la puntuación de probabilidades logarítmicas , que refleja la probabilidad de encontrar un aminoácido dado en cada posición en la secuencia de 17 residuos. Las cuatro matrices reflejan las probabilidades de que el noveno aminoácido central esté en una conformación helicoidal, de lámina, de giro o de espiral. En revisiones posteriores del método, se eliminó la matriz de giro debido a la alta variabilidad de las secuencias en las regiones de giro (particularmente en una ventana tan grande). Se consideró que el método requería al menos cuatro residuos contiguos para puntuar como hélices alfa para clasificar la región como helicoidal, y al menos dos residuos contiguos para una lámina beta. [3]
Las matemáticas y el algoritmo del método GOR se basaron en una serie anterior de estudios de Robson y colegas publicados principalmente en el Journal of Molecular Biology y The Biochemical Journal . [4] [5] Este último describe las expansiones de la teoría de la información en términos de medidas de información condicional. El uso de la palabra "simple" en el título del artículo de GOR reflejó el hecho de que los métodos anteriores mencionados proporcionaban pruebas y técnicas algo desalentadoras por ser bastante desconocidos en la ciencia de las proteínas a principios de la década de 1970; incluso los métodos de Bayes eran entonces desconocidos y controvertidos. Una característica importante de estos primeros estudios, que sobrevivieron en el método GOR, fue el tratamiento de los escasos datos de secuencias de proteínas de principios de la década de 1970 mediante medidas de información esperadas. Es decir, expectativas sobre una base bayesiana considerando la distribución de valores de medidas de información plausibles dadas las frecuencias reales (número de observaciones). Las medidas de expectativa resultantes de la integración sobre esta y otras distribuciones similares pueden verse ahora como compuestas de funciones zeta "incompletas" o extendidas, p. ej. z(s, frecuencia observada) − z(s, frecuencia esperada) con función zeta incompleta z(s, n) = 1 + (1/2) s + (1/3) s + (1/4) s + …. +(1/ n ) s . El método GOR utilizó s=1. Además, en el método GOR y los métodos anteriores, la medida para el estado contrario a p. ej. hélice H, es decir ~H, se restó de la de H, y de manera similar para lámina beta, vueltas y bobina o bucle. Por lo tanto, el método puede verse como el empleo de una estimación de función zeta de probabilidades predictivas logarítmicas. También se podría aplicar una constante de decisión ajustable, lo que implica un enfoque de teoría de la decisión; el método GOR permitió la opción de utilizar constantes de decisión para optimizar las predicciones para diferentes clases de proteínas. La medida de información esperada utilizada como base para la expansión de la información era menos importante en el momento de la publicación del método GOR porque los datos de secuencias de proteínas se volvieron más abundantes, al menos para los términos considerados en ese momento. Entonces, para s = 1, la expresión z(s, frecuencia observada) − z(s, frecuencia esperada) se aproxima al logaritmo natural de (frecuencia observada / frecuencia esperada) a medida que aumentan las frecuencias. Sin embargo, esta medida (incluido el uso de otros valores de s) sigue siendo importante en aplicaciones posteriores más generales con datos de alta dimensión, donde los datos para términos más complejos en la expansión de la información son inevitablemente escasos. [6]