El análisis de enriquecimiento de conjuntos de genes (GSEA) (también llamado análisis de enriquecimiento funcional o análisis de enriquecimiento de vías ) es un método para identificar clases de genes o proteínas que están sobrerrepresentadas en un gran conjunto de genes o proteínas, y pueden tener una asociación con diferentes fenotipos (por ejemplo, diferentes patrones de crecimiento de organismos o enfermedades). El método utiliza enfoques estadísticos para identificar grupos de genes significativamente enriquecidos o empobrecidos. Las tecnologías transcriptómicas y los resultados de la proteómica a menudo identifican miles de genes, que se utilizan para el análisis. [1]
Los investigadores que realizan experimentos de alto rendimiento que generan conjuntos de genes (por ejemplo, genes que se expresan de manera diferente en diferentes condiciones) a menudo desean recuperar un perfil funcional de ese conjunto de genes para comprender mejor los procesos biológicos subyacentes. Esto se puede hacer comparando el conjunto de genes de entrada con cada uno de los contenedores (términos) en la ontología genética ; se puede realizar una prueba estadística para cada contenedor para ver si está enriquecido con los genes de entrada.
Tras la finalización del Proyecto Genoma Humano , el problema de cómo interpretarlo y analizarlo permaneció. Para buscar genes asociados con enfermedades, se utilizaron microarreglos de ADN para medir la cantidad de expresión génica en diferentes células. Se llevaron a cabo microarreglos en miles de genes diferentes y se compararon los resultados de dos categorías de células diferentes, por ejemplo, células normales frente a células cancerosas. Sin embargo, este método de comparación no es lo suficientemente sensible para detectar las diferencias sutiles entre la expresión de genes individuales, porque las enfermedades suelen involucrar grupos enteros de genes. [2] Múltiples genes están vinculados a una única vía biológica, por lo que es el cambio aditivo en la expresión dentro de los conjuntos de genes lo que conduce a la diferencia en la expresión fenotípica. El análisis de enriquecimiento de conjuntos de genes se desarrolló [2] para centrarse en los cambios de expresión en grupos de conjuntos de genes definidos a priori. Al hacerlo, este método resuelve el problema de los pequeños cambios indetectables en la expresión de genes individuales. [3]
El análisis de enriquecimiento de conjuntos de genes utiliza conjuntos de genes a priori que se han agrupado por su participación en la misma vía biológica o por ubicación proximal en un cromosoma. [1] Se puede encontrar una base de datos de estos conjuntos predefinidos en la base de datos de firmas moleculares (MSigDB). [4] [5] En GSEA, los microarrays de ADN, o ahora RNA-Seq , todavía se realizan y comparan entre dos categorías de células, pero en lugar de centrarse en genes individuales en una lista larga, el enfoque se pone en un conjunto de genes. [1] Los investigadores analizan si la mayoría de los genes en el conjunto caen en los extremos de esta lista: la parte superior e inferior de la lista corresponden a las mayores diferencias en la expresión entre los dos tipos de células. Si el conjunto de genes cae en la parte superior (sobreexpresado) o inferior (subexpresado), se cree que está relacionado con las diferencias fenotípicas.
En el método que normalmente se conoce como GSEA estándar, hay tres pasos involucrados en el proceso analítico. [1] [2] Los pasos generales se resumen a continuación:
Esto se puede describir como:
Donde es el rango del gen, la potencia generalmente se establece en 1 (si fuera 0, sería equivalente a la prueba de Kolmogorov-Smirnov).
Cuando se propuso por primera vez el GSEA en 2003, surgieron algunas preocupaciones inmediatas con respecto a su metodología. Estas críticas llevaron al uso de la prueba de Kolmogorov-Smirnov ponderada por correlación , el ES normalizado y el cálculo de la tasa de descubrimiento falso, todos los cuales son los factores que actualmente definen el GSEA estándar. [6] Sin embargo, el GSEA ahora también ha sido criticado por el hecho de que su distribución nula es superflua y demasiado difícil para que valga la pena calcularla, así como por el hecho de que su estadística similar a Kolmogorov-Smirnov no es tan sensible como la original. [6] Como alternativa, se propuso el método conocido como Análisis de Enriquecimiento Más Simple (SEA, por sus siglas en inglés). Este método supone la independencia de los genes y utiliza un enfoque más simple para calcular la prueba t. Sin embargo, se cree que estas suposiciones son de hecho demasiado simplificadoras y no se puede ignorar la correlación genética. [6]
Otra limitación del análisis de enriquecimiento de conjuntos de genes es que los resultados dependen en gran medida del algoritmo que agrupa los genes y del número de grupos que se estén probando. [7] El enriquecimiento espectral de conjuntos de genes (SGSE) es una prueba propuesta y no supervisada. Los fundadores del método afirman que es una mejor manera de encontrar asociaciones entre los conjuntos de genes de MSigDB y los datos de microarrays. Los pasos generales incluyen:
1. Cálculo de la asociación entre componentes principales y conjuntos de genes. [7]
2. Utilizando el método Z ponderado para calcular la asociación entre los conjuntos de genes y la estructura espectral de los datos. [7]
El GSEA utiliza estadísticas complejas, por lo que requiere un programa informático para ejecutar los cálculos. El GSEA se ha convertido en una práctica estándar y existen muchos sitios web y programas descargables que proporcionan los conjuntos de datos y ejecutan el análisis.
Multi-Ontology Enrichment Tool (MOET) es una herramienta de análisis de ontología basada en la web que proporciona funcionalidad para múltiples ontologías, incluidas las entidades Disease, GO, Pathway, Phenotype y Chemical (ChEBI) para múltiples especies, incluidas la rata, el ratón, el ser humano, el bonobo, la ardilla, el perro, el cerdo, la chinchilla, la rata topo desnuda y el vervet (mono verde). [8] Produce un gráfico descargable y una lista de términos estadísticamente sobrerrepresentados en la lista de genes del usuario utilizando una distribución hipergeométrica. MOET también muestra la corrección de Bonferroni y la razón de probabilidades correspondientes en la página de resultados. Es fácil de usar y los resultados se proporcionan con unos pocos clics en segundos; no se requieren instalaciones de software ni habilidades de programación. Además, MOET se actualiza semanalmente, lo que proporciona al usuario los datos más recientes para los análisis.
NASQAR (Nucleic Acid SeQuence Analysis Resource) es una plataforma web de código abierto para el análisis y visualización de datos de secuenciación de alto rendimiento. [9] [10] GSEA se puede ejecutar utilizando el paquete clusterProfiler basado en R. [11] NASQAR actualmente admite el enriquecimiento de GO Term y KEGG Pathway con todos los organismos respaldados por una base de datos Org.Db. [12]
Está disponible la anotación de ontología genética (GO) para 165 especies de plantas y el análisis de enriquecimiento de GO. [13]
La base de datos de firmas moleculares alberga una amplia colección de conjuntos de genes anotados que se pueden utilizar con la mayoría del software GSEA. [14]
El sitio web del Broad Institute está en cooperación con MSigDB y tiene un software GSEA descargable, así como un tutorial general. [15]
WebGestalt [16] es un conjunto de herramientas de análisis de conjuntos de genes basado en la web. Admite tres métodos bien establecidos y complementarios para el análisis de enriquecimiento, incluidos el análisis de sobrerrepresentación (ORA), el análisis de enriquecimiento de conjuntos de genes (GSEA) y el análisis basado en topología de red (NTA). El análisis se puede realizar en 12 organismos y 321.251 categorías funcionales utilizando 354 identificadores de genes de varias bases de datos y plataformas tecnológicas.
Enrichr [17] [18] [19] es una herramienta de análisis de enriquecimiento de conjuntos de genes para conjuntos de genes de mamíferos. Contiene bibliotecas de antecedentes para la regulación de la transcripción, vías e interacciones de proteínas, ontologías que incluyen GO y las ontologías de fenotipo humano y de ratón, firmas de células tratadas con medicamentos, conjuntos de genes asociados con enfermedades humanas y expresión de genes en diferentes células y tejidos. Las bibliotecas de antecedentes provienen de más de 200 recursos y contienen más de 450.000 conjuntos de genes anotados. Se puede acceder a la herramienta a través de API y proporciona diferentes formas de visualizar los resultados. [20]
GeneSCF es una herramienta de enriquecimiento funcional en tiempo real con soporte para múltiples organismos [21] y está diseñada para superar los problemas asociados con el uso de recursos y bases de datos obsoletos. [22] Ventajas de usar GeneSCF: análisis en tiempo real, los usuarios no tienen que depender de herramientas de enriquecimiento para actualizarse, es fácil para los biólogos computacionales integrar GeneSCF con su flujo de trabajo de NGS, admite múltiples organismos, análisis de enriquecimiento para múltiples listas de genes utilizando múltiples bases de datos de origen en una sola ejecución, recuperar o descargar términos/rutas/funciones GO completos con genes asociados como un formato de tabla simple en un archivo de texto sin formato. [23] [24]
DAVID es la base de datos para anotación, visualización y descubrimiento integrado, una herramienta bioinformática que reúne información de la mayoría de las principales fuentes bioinformáticas, con el objetivo de analizar grandes listas de genes de una manera de alto rendimiento . [25] DAVID va más allá del GSEA estándar con funciones adicionales como cambiar entre identificadores de genes y proteínas a escala del genoma, [25] sin embargo, las anotaciones utilizadas por DAVID no se actualizaron desde octubre de 2016 hasta diciembre de 2021, [26] lo que puede tener un impacto considerable en la interpretación práctica de los resultados. [27] Sin embargo, una actualización más reciente se realizó en 2021 [26]
Metascape es un portal de análisis de listas de genes orientado a biólogos. [28] Metascape integra análisis de enriquecimiento de vías, análisis de complejos proteicos y metanálisis de múltiples listas en un flujo de trabajo integrado al que se puede acceder a través de una interfaz de usuario significativamente simplificada. Metascape mantiene la precisión del análisis actualizando sus 40 bases de conocimiento subyacentes mensualmente. Metascape presenta los resultados mediante gráficos fáciles de interpretar, hojas de cálculo y presentaciones de calidad de publicación, y está disponible de forma gratuita. [29]
El consorcio Gene Ontology (GO) también ha desarrollado su propia herramienta de enriquecimiento de términos GO en línea, [30] que permite un análisis de enriquecimiento específico de especies en comparación con la base de datos completa, bases de datos GO de grano grueso o referencias personalizadas. [31]
La herramienta de enriquecimiento de anotaciones de regiones genómicas (GREAT) es un software que aprovecha los dominios reguladores para asociar mejor los términos de ontología génica con los genes. [32] [33] Su propósito principal es identificar vías y procesos que están significativamente asociados con la actividad de regulación de factores. Este método mapea genes con regiones reguladoras a través de una prueba hipergeométrica sobre genes, infiriendo dominios reguladores de genes proximales. Lo hace utilizando la fracción total del genoma asociado con un término de ontología dado como la fracción esperada de regiones de entrada asociadas con el término por casualidad. El enriquecimiento se calcula por todas las regiones reguladoras, y se realizaron varios experimentos para validar GREAT, uno de los cuales fueron análisis de enriquecimiento realizados en 8 conjuntos de datos ChIP-seq . [32]
La herramienta de análisis de enriquecimiento funcional (FunRich) [34] se utiliza principalmente para el enriquecimiento funcional y el análisis de red de datos ómicos . [35]
La herramienta FuncAssociate permite realizar análisis de ontología genética y de enriquecimiento personalizado. [36] Permite ingresar conjuntos ordenados, así como archivos de espacio genético ponderados para el fondo. [37]
Las instancias de InterMine proporcionan automáticamente análisis de enriquecimiento [38] para conjuntos de genes cargados y otras entidades biológicas.
ToppGene es un portal único para el análisis de enriquecimiento de listas de genes y la priorización de genes candidatos basado en anotaciones funcionales y redes de interacciones de proteínas. [39] Desarrollado y mantenido por la División de Informática Biomédica del Centro Médico del Hospital de Niños de Cincinnati .
El análisis cuantitativo de conjuntos para la expresión génica (QuSAGE) es un método computacional para el análisis de enriquecimiento de conjuntos de genes. [40] QuSAGE mejora la potencia al tener en cuenta las correlaciones entre genes y cuantifica la actividad del conjunto de genes con una función de densidad de probabilidad (PDF) completa. A partir de esta PDF, se pueden extraer fácilmente los valores P y los intervalos de confianza . La preservación de la PDF también permite el análisis post-hoc (por ejemplo, comparaciones por pares de la actividad del conjunto de genes) mientras se mantiene la trazabilidad estadística. La aplicabilidad de QuSAGE se ha extendido a estudios longitudinales al agregar funcionalidad para modelos lineales mixtos generales. [41] El NIH/NIAID utilizó QuSAGE para identificar firmas transcripcionales de referencia que se asociaron con las respuestas de la vacunación contra la influenza humana . [42] QuSAGE está disponible como un paquete R/ Bioconductor . [43]
Blast2GO es una plataforma bioinformática para la anotación funcional y el análisis de conjuntos de datos genómicos. [44] Esta herramienta permite realizar análisis de enriquecimiento de conjuntos de genes, [45] entre otras funciones.
g:Profiler es un conjunto de herramientas para encontrar categorías biológicas enriquecidas en listas de genes, conversiones entre identificadores de genes y asignaciones a sus ortólogos. [46] g:Profiler se basa en Ensembl como fuente de datos principal y sigue su ciclo de publicación trimestral mientras actualiza las otras fuentes de datos simultáneamente. g:Profiler admite cerca de 500 especies y cepas, incluidos vertebrados, plantas, hongos, insectos y parásitos.
Los polimorfismos de un solo nucleótido , o SNP, son mutaciones de una sola base que pueden estar asociadas con enfermedades. Un cambio de base tiene el potencial de afectar la proteína que resulta de la expresión de ese gen; sin embargo, también tiene el potencial de no tener ningún efecto en absoluto. Los estudios de asociación de todo el genoma (GWAS) son comparaciones entre genotipos sanos y enfermos para tratar de encontrar SNP que están sobrerrepresentados en los genomas de la enfermedad y podrían estar asociados con esa afección. Antes de GSEA, la precisión de los estudios de asociación de SNP de todo el genoma estaba severamente limitada por un alto número de falsos positivos. [47] La teoría de que los SNP que contribuyen a una enfermedad tienden a agruparse en un conjunto de genes que están todos involucrados en la misma vía biológica, es en lo que se basa el método GSEA-SNP. Esta aplicación de GSEA no solo ayuda en el descubrimiento de SNP asociados a enfermedades, sino que ayuda a iluminar las vías y mecanismos correspondientes de las enfermedades. [47]
Los métodos de enriquecimiento de conjuntos de genes condujeron al descubrimiento de nuevos genes sospechosos y vías biológicas relacionadas con los nacimientos prematuros espontáneos . [48] Las secuencias del exoma de mujeres que habían experimentado SPTB se compararon con las de mujeres del Proyecto 1000 Genomas, utilizando una herramienta que puntuaba las posibles variantes causantes de la enfermedad. Los genes con puntuaciones más altas se ejecutaron a través de diferentes programas para agruparlos en conjuntos de genes basados en vías y grupos de ontología. Este estudio encontró que las variantes se agruparon significativamente en conjuntos relacionados con varias vías, todas sospechosas de SPTB. [48]
El análisis de enriquecimiento de conjuntos de genes se puede utilizar para comprender los cambios que experimentan las células durante la carcinogénesis y la metástasis . En un estudio, se realizaron microarrays en metástasis de carcinoma de células renales , tumores renales primarios y tejido renal normal, y los datos se analizaron utilizando GSEA. [49] Este análisis mostró cambios significativos de expresión en genes involucrados en vías que no se han asociado previamente con la progresión del cáncer renal. A partir de este estudio, GSEA ha proporcionado nuevos objetivos potenciales para la terapia del carcinoma de células renales.
La GSEA se puede utilizar para ayudar a comprender los mecanismos moleculares de trastornos complejos. La esquizofrenia es un trastorno en gran medida hereditario, pero también es muy complejo, y el inicio de la enfermedad involucra a muchos genes que interactúan dentro de múltiples vías, así como la interacción de esos genes con factores ambientales. Por ejemplo, los cambios epigenéticos, como la metilación del ADN , se ven afectados por el medio ambiente, pero también dependen inherentemente del ADN mismo. La metilación del ADN es el cambio epigenético mejor estudiado, y recientemente se analizó utilizando GSEA en relación con los fenotipos intermedios relacionados con la esquizofrenia. [50] Los investigadores clasificaron los genes por su correlación entre los patrones de metilación y cada uno de los fenotipos. Luego utilizaron GSEA para buscar un enriquecimiento de genes que se prevé que sean el objetivo de los microARN en la progresión de la enfermedad. [50]
La GSEA puede ayudar a proporcionar evidencia molecular de la asociación de vías biológicas con enfermedades. Estudios previos han demostrado que los síntomas de depresión a largo plazo están correlacionados con cambios en la respuesta inmune y las vías inflamatorias. [51] Se buscó evidencia genética y molecular para respaldar esto. Los investigadores tomaron muestras de sangre de pacientes con depresión y utilizaron datos de expresión de todo el genoma, junto con GSEA para encontrar diferencias de expresión en conjuntos de genes relacionados con las vías inflamatorias. Este estudio encontró que aquellas personas que calificaron con los síntomas de depresión más severos también tenían diferencias de expresión significativas en esos conjuntos de genes, y este resultado respalda la hipótesis de asociación. [51]