Contenido | |
---|---|
Descripción | La base de datos Pfam proporciona alineaciones y modelos de Markov ocultos para dominios de proteínas. |
Tipos de datos capturados | Familias de proteínas |
Organismos | todo |
Contacto | |
Centro de investigación | EBI |
Cita primaria | Número de identificación personal 19920124 |
Acceso | |
Formato de datos | Formato de Estocolmo |
Sitio web | www.ebi.ac.uk/interpro/entry/pfam/#table |
Descargar URL | FTP |
Misceláneas | |
Licencia | Licencia Pública General Reducida de GNU |
Versión | 37.0 |
Entidades que se pueden marcar como favoritas | Sí |
Pfam es una base de datos de familias de proteínas que incluye sus anotaciones y múltiples alineaciones de secuencias generadas utilizando modelos ocultos de Markov . [1] [2] [3] La última versión de Pfam, 37.0, se lanzó en junio de 2024 y contiene 21.979 familias. [4] Actualmente se proporciona a través del sitio web de InterPro .
El objetivo general de la base de datos Pfam es proporcionar una clasificación completa y precisa de las familias y dominios de proteínas. [5] Originalmente, la razón detrás de la creación de la base de datos era tener un método semiautomatizado de conservación de información sobre familias de proteínas conocidas para mejorar la eficiencia de la anotación de genomas. [6] La clasificación Pfam de familias de proteínas ha sido ampliamente adoptada por los biólogos debido a su amplia cobertura de proteínas y convenciones de nomenclatura sensatas. [7]
Lo utilizan los biólogos experimentales que investigan proteínas específicas, los biólogos estructurales para identificar nuevos objetivos para la determinación de la estructura, los biólogos computacionales para organizar secuencias y los biólogos evolutivos que rastrean los orígenes de las proteínas. [8] Los primeros proyectos genómicos, como el humano y el de la mosca, utilizaron Pfam ampliamente para la anotación funcional de datos genómicos. [9] [10] [11]
El sitio web InterPro permite a los usuarios enviar secuencias de proteínas o ADN para buscar coincidencias con familias en la base de datos Pfam. Si se envía ADN, se realiza una traducción de seis marcos y luego se busca cada marco. [12] En lugar de realizar una búsqueda BLAST típica , Pfam utiliza modelos de Markov ocultos de perfil , que dan mayor peso a las coincidencias en sitios conservados , lo que permite una mejor detección de homología remota, lo que los hace más adecuados para anotar genomas de organismos sin parientes cercanos bien anotados. [13]
Pfam también se ha utilizado en la creación de otros recursos como iPfam, que cataloga las interacciones dominio-dominio dentro y entre proteínas, basándose en información de bases de datos de estructura y en el mapeo de los dominios Pfam sobre estas estructuras. [14]
Para cada familia de Pfam se puede:
Las entradas pueden ser de varios tipos: familia, dominio, repetición o motivo. La familia es la clase predeterminada, que simplemente indica que los miembros están relacionados. Los dominios se definen como una unidad estructural autónoma o una unidad de secuencia reutilizable que se puede encontrar en múltiples contextos proteicos. Las repeticiones no suelen ser estables de forma aislada, sino que suelen ser necesarias para formar repeticiones en tándem con el fin de formar un dominio o una estructura extendida. Los motivos suelen ser unidades de secuencia más cortas que se encuentran fuera de los dominios globulares. [9]
Las descripciones de las familias Pfam son administradas por el público en general mediante Wikipedia (ver #Curación de la comunidad).
A partir de la versión 29.0, el 76,1 % de las secuencias de proteínas en UniprotKB coincidían con al menos un dominio Pfam. [15]
Las nuevas familias provienen de una variedad de fuentes, principalmente el PDB y el análisis de proteomas completos para encontrar genes sin coincidencia con Pfam. [16]
Para cada familia, un subconjunto representativo de secuencias se alinea en una alineación de semillas de alta calidad. Las secuencias para la alineación de semillas se toman principalmente de pfamseq (una base de datos no redundante de proteomas de referencia) con algún complemento de UniprotKB . [15] Esta alineación de semillas se utiliza luego para construir un modelo de Markov oculto de perfil utilizando HMMER . Luego, este HMM se busca en bases de datos de secuencias y todos los resultados que alcanzan un umbral de recopilación curado se clasifican como miembros de la familia de proteínas. Luego, la colección de miembros resultante se alinea con el HMM de perfil para generar una alineación completa.
Para cada familia, se asigna un umbral de recopilación seleccionado manualmente que maximiza la cantidad de coincidencias verdaderas con la familia y excluye cualquier coincidencia falsa positiva. Los falsos positivos se estiman observando las superposiciones entre coincidencias de la familia Pfam que no pertenecen al mismo clan. Este umbral se utiliza para evaluar si una coincidencia con un HMM de la familia debe incluirse en la familia de proteínas. En cada actualización de Pfam, se vuelven a evaluar los umbrales de recopilación para evitar superposiciones entre familias nuevas y existentes. [16]
Los dominios de función desconocida (DUF) representan una fracción creciente de la base de datos Pfam. Las familias se denominan así porque se ha descubierto que están conservadas en todas las especies, pero desempeñan un papel desconocido. Cada DUF recién añadido se nombra en el orden en que se agregó. Los nombres de estas entradas se actualizan a medida que se identifican sus funciones. Normalmente, cuando se ha determinado la función de al menos una proteína perteneciente a un DUF, se actualiza la función de todo el DUF y se cambia el nombre de la familia. Algunas familias nombradas siguen siendo dominios de función desconocida, que reciben el nombre de una proteína representativa, por ejemplo, YbbR. Se espera que la cantidad de DUF continúe aumentando a medida que se sigan identificando secuencias conservadas de función desconocida en los datos de secuencias. Se espera que los DUF eventualmente superen en número a las familias de función conocida. [16]
Con el tiempo, tanto la cobertura de secuencias como la de residuos han aumentado y, a medida que las familias han crecido, se han descubierto más relaciones evolutivas, lo que permite la agrupación de familias en clanes. [8] Los clanes se introdujeron por primera vez en la base de datos Pfam en 2005. Son agrupaciones de familias relacionadas que comparten un único origen evolutivo, como lo confirman las comparaciones estructurales, funcionales, de secuencia y HMM. [5] A partir de la versión 29.0, aproximadamente un tercio de las familias de proteínas pertenecían a un clan. [15] Esta porción ha crecido a alrededor de tres cuartas partes en 2019 (versión 32.0). [17]
Para identificar posibles relaciones de clanes, los curadores de Pfam utilizan el Programa de comparación simple de resultados (SCOOP), así como información de la base de datos ECOD . [17] ECOD es una base de datos jerárquica semiautomatizada de familias de proteínas con estructuras conocidas, con familias que se asignan fácilmente a las entradas de Pfam y niveles de homología que generalmente se asignan a clanes de Pfam. [18]
Pfam fue fundada en 1995 por Erik Sonnhammer, Sean Eddy y Richard Durbin como una colección de dominios proteicos de ocurrencia común que podrían usarse para anotar los genes codificadores de proteínas de animales multicelulares. [6] Uno de sus principales objetivos al inicio era ayudar en la anotación del genoma de C. elegans . [6] El proyecto fue impulsado en parte por la afirmación en 'Mil familias para el biólogo molecular' de Cyrus Chothia de que había alrededor de 1500 familias diferentes de proteínas y que la mayoría de las proteínas se incluían en solo 1000 de ellas. [5] [19] En contra de esta afirmación, la base de datos Pfam contiene actualmente 16.306 entradas correspondientes a dominios y familias de proteínas únicos. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido (ver Clanes). [5]
Una de las principales diferencias entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineamiento para las entradas: un alineamiento de semillas más pequeño, controlado manualmente, así como un alineamiento completo creado alineando secuencias con un modelo de Markov oculto de perfil creado a partir del alineamiento de semillas. Este alineamiento de semillas más pequeño era más fácil de actualizar a medida que salían nuevas versiones de bases de datos de secuencias y, por lo tanto, representaba una solución prometedora al dilema de cómo mantener la base de datos actualizada a medida que la secuenciación del genoma se volvía más eficiente y se necesitaba procesar más datos con el tiempo. Una mejora adicional en la velocidad a la que se podía actualizar la base de datos llegó en la versión 24.0, con la introducción de HMMER3, que es aproximadamente 100 veces más rápido que HMMER2 y más sensible. [8]
Debido a que las entradas en Pfam-A no cubren todas las proteínas conocidas, se proporcionó un suplemento generado automáticamente llamado Pfam-B. Pfam-B contenía una gran cantidad de familias pequeñas derivadas de grupos producidos por un algoritmo llamado ADDA. [20] Aunque de menor calidad, las familias Pfam-B podrían ser útiles cuando no se encontraron familias Pfam-A. Pfam-B se suspendió a partir de la versión 28.0, [21] luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupamiento, MMSeqs2. [22]
Pfam se alojaba originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso Pfam se trasladó a EMBL-EBI , lo que permitió alojar el sitio web desde un dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió una mejor centralización de las actualizaciones y la agrupación con otros proyectos Xfam como Rfam , TreeFam , iPfam y otros, al tiempo que se conservaba la resiliencia crítica proporcionada por el alojamiento desde múltiples centros. [23]
Entre 2014 y 2016, Pfam experimentó una reorganización sustancial para reducir aún más el esfuerzo manual involucrado en la curación y permitir actualizaciones más frecuentes. [15] Alrededor de 2022, Pfam se integró en InterPro en el Instituto Europeo de Bioinformática . [24]
La conservación de una base de datos tan grande presentó problemas en términos de mantenerse al día con el volumen de nuevas familias y la información actualizada que se necesitaba agregar. Para acelerar los lanzamientos de la base de datos, los desarrolladores iniciaron una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.
Un paso crítico para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios Pfam a la comunidad de Wikipedia en la versión 26.0. [16] Para las entradas que ya tenían una entrada en Wikipedia, esta se vinculó a la página de Pfam, y para aquellas que no la tenían, se invitó a la comunidad a crear una e informar a los curadores, para que se vinculara. Se anticipa que, si bien la participación de la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas seguirán siendo insuficientemente notables para su inclusión en Wikipedia, en cuyo caso mantendrán su descripción original de Pfam. Algunos artículos de Wikipedia cubren múltiples familias, como el artículo Zinc finger . También se ha implementado un procedimiento automatizado para generar artículos basados en datos de InterPro y Pfam, que llena una página con información y enlaces a bases de datos, así como imágenes disponibles, luego, una vez que un curador ha revisado un artículo, se mueve del Sandbox a Wikipedia propiamente dicha. Para proteger contra el vandalismo de los artículos, los curadores revisan cada revisión de Wikipedia antes de que se muestre en el sitio web de Pfam. Sin embargo, casi todos los casos de vandalismo han sido corregidos por la comunidad antes de que llegaran a los curadores. [16]
Pfam está a cargo de un consorcio internacional de tres grupos. En las versiones anteriores de Pfam, las entradas de las familias solo se podían modificar en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio de contribuir a la curación del sitio. En la versión 26.0, los desarrolladores se trasladaron a un nuevo sistema que permitía a los usuarios registrados en cualquier parte del mundo agregar o modificar familias de Pfam. [16]