Suite HH

Suite HH
Desarrollador(es)	Johannes Söding, Michael Remmert, Andreas Biegert, Andreas Hauser, Markus Meier, Martin Steinegger
Versión estable	3.3.0 / 25 de agosto de 2020 (2020-08-25)
Repositorio	github.com/soedinglab/hh-suite ;
Escrito en	C++
Sistema operativo	Similar a Unix ; paquete Debian disponible
Disponible en	Inglés
Tipo	Herramienta bioinformática
Licencia	Licencia GPL versión 3
Sitio web	https://github.com/soedinglab/hh-suite

HH-suite es un paquete de software de código abierto para la búsqueda sensible de secuencias de proteínas . Contiene programas que pueden buscar secuencias de proteínas similares en bases de datos de secuencias de proteínas. Las búsquedas de secuencias son una herramienta estándar en la biología moderna con la que se puede inferir la función de proteínas desconocidas a partir de las funciones de proteínas con secuencias similares. HHsearch y HHblits son dos programas principales del paquete y el punto de entrada a su función de búsqueda, siendo este último una iteración más rápida. ^[2]^[3] HHpred es un servidor en línea para la predicción de la estructura de proteínas que utiliza información de homología de HH-suite. ^[4]

El HH-suite busca secuencias utilizando modelos ocultos de Markov (HMM). El nombre proviene del hecho de que realiza alineaciones HMM-HMM. Entre los métodos más populares para la comparación de secuencias de proteínas, los programas han sido citados más de 5000 veces en total según Google Scholar . ^[5]

Fondo

Las proteínas son actores centrales en todos los procesos de la vida. Entenderlas es fundamental para entender los procesos moleculares en las células. Esto es particularmente importante para entender el origen de las enfermedades. Pero para una gran fracción de las aproximadamente 20 000 proteínas humanas, las estructuras y funciones siguen siendo desconocidas. Muchas proteínas se han investigado en organismos modelo, como muchas bacterias, levadura de panadería, moscas de la fruta, peces cebra o ratones, para los cuales los experimentos se pueden hacer a menudo más fácilmente que con células humanas. Para predecir la función, estructura u otras propiedades de una proteína para la cual solo se conoce su secuencia de aminoácidos, la secuencia de la proteína se compara con las secuencias de otras proteínas en bases de datos públicas. Si se encuentra una proteína con una secuencia suficientemente similar, es probable que las dos proteínas estén relacionadas evolutivamente ( "homólogas" ). En ese caso, es probable que compartan estructuras y funciones similares. Por lo tanto, si una proteína con una secuencia suficientemente similar y con funciones y/o estructura conocidas se puede encontrar mediante la búsqueda de secuencia, se pueden predecir las funciones, la estructura y la composición de dominios de la proteína desconocida. Estas predicciones facilitan enormemente la determinación de la función o estructura mediante experimentos de validación específicos.

Los biólogos realizan con frecuencia búsquedas de secuencias para inferir la función de una proteína desconocida a partir de su secuencia. Para ello, se compara la secuencia de la proteína con las secuencias de otras proteínas en bases de datos públicas y se deduce su función a partir de las secuencias más similares. A menudo, en dicha búsqueda no se pueden encontrar secuencias con funciones anotadas. En este caso, se requieren métodos más sensibles para identificar proteínas o familias de proteínas más remotamente relacionadas. A partir de estas relaciones, se pueden inferir hipótesis sobre las funciones, la estructura y la composición de dominios de la proteína . HHsearch realiza búsquedas con una secuencia de proteína a través de bases de datos. El servidor HHpred y el paquete de software HH-suite ofrecen muchas bases de datos populares y actualizadas periódicamente, como Protein Data Bank , así como las bases de datos InterPro , Pfam , COG y SCOP .

Algoritmo

Esquema de búsqueda de secuencia iterativa de HHblits

Los métodos modernos y sensibles para la búsqueda de proteínas utilizan perfiles de secuencias. Pueden utilizarse para comparar una secuencia con un perfil o, en casos más avanzados como HH-suite, para hacer coincidir entre perfiles. ^[2]^[6]^[7]^[8] Los perfiles y alineamientos se derivan a su vez de coincidencias, utilizando por ejemplo PSI-BLAST o HHblits. Un perfil de matriz de puntuación específica de posición (PSSM) contiene para cada posición en la secuencia de consulta la puntuación de similitud para los 20 aminoácidos. Los perfiles se derivan de alineaciones de secuencias múltiples (MSA), en las que las proteínas relacionadas se escriben juntas (alineadas), de modo que las frecuencias de aminoácidos en cada posición se pueden interpretar como probabilidades de aminoácidos en nuevas proteínas relacionadas y se pueden utilizar para derivar las "puntuaciones de similitud". Debido a que los perfiles contienen mucha más información que una sola secuencia (por ejemplo, el grado de conservación específico de la posición), los métodos de comparación perfil-perfil son mucho más potentes que los métodos de comparación secuencia-secuencia como BLAST o los métodos de comparación perfil-secuencia como PSI-BLAST. ^[6]

HHpred y HHsearch representan las proteínas de consulta y de base de datos mediante modelos ocultos de Markov (HMM) de perfil, una extensión de los perfiles de secuencia PSSM que también registra las frecuencias de inserción y eliminación de aminoácidos en posiciones específicas. HHsearch busca en una base de datos de HMM con un HMM de consulta. Antes de iniciar la búsqueda en la base de datos real de HMM, HHsearch/HHpred crea una alineación de secuencias múltiples de secuencias relacionadas con la secuencia de consulta/MSA utilizando el programa HHblits. A partir de esta alineación, se calcula un HMM de perfil. Las bases de datos contienen HMM que se calculan previamente de la misma manera utilizando PSI-BLAST. El resultado de HHpred y HHsearch es una lista clasificada de coincidencias de la base de datos (incluidos los valores E y las probabilidades de una relación verdadera) y las alineaciones de secuencias de consulta-base de datos por pares.

HHblits, parte de la suite HH desde 2001, crea alineaciones de secuencias múltiples (MSA) de alta calidad a partir de una única secuencia de consulta o una MSA. Al igual que en PSI-BLAST, funciona de forma iterativa, construyendo repetidamente nuevos perfiles de consulta añadiendo los resultados encontrados en la ronda anterior. Compara con bases de datos HMM preconstruidas derivadas de bases de datos de secuencias de proteínas, cada una de las cuales representa un "grupo" de proteínas relacionadas. En el caso de HHblits, dichas comparaciones se realizan a nivel de perfiles HMM-HMM, lo que otorga una sensibilidad adicional. Su prefiltrado reduce las decenas de millones de HMM con los que se deben comparar a unos pocos miles de ellos, acelerando así el lento proceso de comparación HMM-HMM. ^[3]

La suite HH viene con una serie de HMM de perfil prediseñados que se pueden buscar utilizando HHblits y HHsearch, entre ellos una versión agrupada de la base de datos UniProt , del Protein Data Bank de proteínas con estructuras conocidas, de alineaciones de la familia de proteínas Pfam , de dominios de proteínas estructurales SCOP y muchos más. ^[9]

Aplicaciones

Las aplicaciones de HHpred y HHsearch incluyen la predicción de la estructura de proteínas, la predicción de estructuras complejas, la predicción de funciones, la predicción de dominios, la predicción de límites de dominios y la clasificación evolutiva de proteínas. ^[10]

HHsearch se utiliza a menudo para el modelado de homología , es decir, para construir un modelo de la estructura de una proteína de consulta para la que solo se conoce la secuencia: para ese propósito, se busca en una base de datos de proteínas con estructuras conocidas, como el banco de datos de proteínas, proteínas "plantilla" similares a la proteína de consulta. Si se encuentra dicha proteína plantilla, se puede predecir la estructura de la proteína de interés en función de una alineación de secuencia por pares de la consulta con la secuencia de la proteína plantilla. Por ejemplo, una búsqueda a través de la base de datos PDB de proteínas con estructura 3D resuelta lleva unos minutos. Si se encuentra una coincidencia significativa con una proteína de estructura conocida (una "plantilla") en la base de datos PDB, HHpred permite al usuario construir un modelo de homología utilizando el software MODELLER , comenzando desde la alineación por pares de consulta-plantilla.

Los servidores HHpred han sido clasificados entre los mejores servidores durante CASP 7, 8 y 9, para experimentos de predicción ciega de la estructura de proteínas. En CASP9, HHpredA, B y C ocuparon el primer, segundo y tercer lugar de los 81 servidores de predicción automática de la estructura participantes en el modelado basado en plantillas ^[11] y el sexto, séptimo y octavo lugar en los 147 objetivos, a la vez que eran mucho más rápidos que los 20 mejores servidores. ^[12] En CASP 8, HHpred ocupó el séptimo lugar en todos los objetivos y el segundo en el subconjunto de proteínas de dominio único, a la vez que seguía siendo más de 50 veces más rápido que los servidores mejor clasificados. ^[4]

Contenido

Además de HHsearch y HHblits, la suite HH contiene programas y scripts de Perl para la conversión de formatos, el filtrado de MSA, la generación de HMM de perfil, la adición de predicciones de estructura secundaria a MSA, la extracción de alineaciones de la salida del programa y la generación de bases de datos personalizadas.

hhblits	Busque (de forma iterativa) en una base de datos HHblits con una secuencia de consulta o MSA
búsqueda hh	Busque en una base de datos HHsearch de HMM con una consulta MSA o HMM
hacer	Construir un HMM a partir de un MSA de entrada
filtro hh	Filtrar un MSA por identidad de secuencia máxima, cobertura y otros criterios
hhalignar	Calcular alineaciones por pares, gráficos de puntos, etc. para dos HMM/MSA
reformatear.pl	Reformatear uno o varios MSA
agregass.pl	Agregue la estructura secundaria prevista por Psipred a un archivo MSA o HHM
hhmakemodel.pl	Generar MSA o modelos 3D aproximados a partir de los resultados de HHsearch o HHblits
hhblitsdb.pl	Cree una base de datos HHblits con prefiltrado, MSA/HMM empaquetado y archivos de índice
multihilo.pl	Ejecutar un comando para muchos archivos en paralelo usando múltiples subprocesos
splitfasta.pl	Dividir un archivo FASTA de secuencia múltiple en varios archivos de secuencia única
renumerarpdb.pl	Generar archivo PDB con índices renumerados para que coincidan con los índices de secuencia de entrada

El algoritmo de alineación HMM-HMM de HHblits y HHsearch se aceleró significativamente utilizando instrucciones vectoriales en la versión 3 de HH-suite. ^[13]

Véase también

Referencias

^ Paquete hhsuite de Debian
^ ab Söding J (2005). "Detección de homología de proteínas mediante comparación HMM-HMM". Bioinformática . 21 (7): 951–960. doi : 10.1093/bioinformatics/bti125 . hdl : 11858/00-001M-0000-0017-EC7A-F . PMID 15531603.
^ ab Remmert M, Biegert A, Hauser A, Söding J (2011). "HHblits: búsqueda iterativa ultrarrápida de secuencias de proteínas mediante alineamiento HMM-HMM" (PDF) . Nat. Methods . 9 (2): 173–175. doi :10.1038/NMETH.1818. hdl : 11858/00-001M-0000-0015-8D56-A . PMID 22198341. S2CID 205420247.
^ ab Söding J, Biegert A, Lupas AN (2005). "El servidor interactivo HHpred para la detección de homología de proteínas y predicción de la estructura". Nucleic Acids Research . 33 (número del servidor web): W244–248. doi :10.1093/nar/gki408. PMC 1160169 . PMID 15980461.
^ Citas a HHpred, a HHsearch, a HHblits
^ ab Jaroszewski L, Rychlewski L, Godzik A (2000). "Mejora de la calidad de los alineamientos en zonas de penumbra". Protein Science . 9 (8): 1487–1496. doi :10.1110/ps.9.8.1487. PMC 2144727 . PMID 10975570.
^ Sadreyev RI, Baker D, Grishin NV (2003). "Las comparaciones de perfil a perfil mediante COMPASS predicen homologías intrincadas entre familias de proteínas". Protein Science . 12 (10): 2262–2272. doi :10.1110/ps.03197403. PMC 2366929 . PMID 14500884.
^ Dunbrack RL Jr (2006). "Comparación de secuencias y predicción de la estructura de proteínas". Current Opinion in Structural Biology . 16 (3): 374–384. doi :10.1016/j.sbi.2006.05.006. PMID 16713709.
^ Li, Zhaoyu. «Algunas notas sobre HHSuite». Archivado desde el original el 3 de abril de 2019. Consultado el 3 de abril de 2019 .
^ Guerler A, Govindarajoo B, Zhang Y (2013). "Mapeo de la estructura monomérica en cadena para la predicción de la estructura proteína-proteína". Revista de información y modelado químico . 53 (3): 717–25. doi :10.1021/ci300579r. PMC 4076494 . PMID 23413988.
^ Resultados oficiales de CASP9 para la categoría de modelado basado en plantillas (121 objetivos)
^ Resultados oficiales del CASP9 para los 147 objetivos
^ Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). "HH-suite3 para detección rápida de homología remota y anotación profunda de proteínas". BMC Bioinformatics . 20 (1): 473. doi : 10.1186/s12859-019-3019-7 . PMC 6744700 . PMID 31521110.

Enlaces externos

Soeding Lab en el Instituto Max-Planck de Göttingen: desarrolladores de HH-suite
Descarga de bases de datos y binarios HH-suite precompilados de desarrolladores
HHpred: servidor gratuito en el Instituto Max-Planck de Tubinga
HHblits: servidor gratuito en el Instituto Max-Planck de Tubinga
Sitio web de CASP
Resultados del modelado basado en plantillas CASP9
Paquete debian HH-suite
Paquete HH-suite para Ubuntu
Repositorio de usuarios de Arch Linux de HH-suite

[1] Paquete hhsuite de Debian

[hhsearch-2] Söding J (2005). "Detección de homología de proteínas mediante comparación HMM-HMM". Bioinformática . 21 (7): 951–960. doi : 10.1093/bioinformatics/bti125 . hdl : 11858/00-001M-0000-0017-EC7A-F . PMID 15531603.

[hhblits-3] Remmert M, Biegert A, Hauser A, Söding J (2011). "HHblits: búsqueda iterativa ultrarrápida de secuencias de proteínas mediante alineamiento HMM-HMM" (PDF) . Nat. Methods . 9 (2): 173–175. doi :10.1038/NMETH.1818. hdl : 11858/00-001M-0000-0015-8D56-A . PMID 22198341. S2CID 205420247.

[hhpred-4] Söding J, Biegert A, Lupas AN (2005). "El servidor interactivo HHpred para la detección de homología de proteínas y predicción de la estructura". Nucleic Acids Research . 33 (número del servidor web): W244–248. doi :10.1093/nar/gki408. PMC 1160169 . PMID 15980461.

[5] Citas a HHpred, a HHsearch, a HHblits

[pmid10975570-6] Jaroszewski L, Rychlewski L, Godzik A (2000). "Mejora de la calidad de los alineamientos en zonas de penumbra". Protein Science . 9 (8): 1487–1496. doi :10.1110/ps.9.8.1487. PMC 2144727 . PMID 10975570.

[7] Sadreyev RI, Baker D, Grishin NV (2003). "Las comparaciones de perfil a perfil mediante COMPASS predicen homologías intrincadas entre familias de proteínas". Protein Science . 12 (10): 2262–2272. doi :10.1110/ps.03197403. PMC 2366929 . PMID 14500884.

[8] Dunbrack RL Jr (2006). "Comparación de secuencias y predicción de la estructura de proteínas". Current Opinion in Structural Biology . 16 (3): 374–384. doi :10.1016/j.sbi.2006.05.006. PMID 16713709.

[9] Li, Zhaoyu. «Algunas notas sobre HHSuite». Archivado desde el original el 3 de abril de 2019. Consultado el 3 de abril de 2019 .

[10] Guerler A, Govindarajoo B, Zhang Y (2013). "Mapeo de la estructura monomérica en cadena para la predicción de la estructura proteína-proteína". Revista de información y modelado químico . 53 (3): 717–25. doi :10.1021/ci300579r. PMC 4076494 . PMID 23413988.

[11] Resultados oficiales de CASP9 para la categoría de modelado basado en plantillas (121 objetivos)

[12] Resultados oficiales del CASP9 para los 147 objetivos

[bioRxiv560029-13] Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). "HH-suite3 para detección rápida de homología remota y anotación profunda de proteínas". BMC Bioinformatics . 20 (1): 473. doi : 10.1186/s12859-019-3019-7 . PMC 6744700 . PMID 31521110.