Un SNP de etiqueta es un polimorfismo de un solo nucleótido (SNP) representativo en una región del genoma con un alto desequilibrio de ligamiento que representa un grupo de SNP llamado haplotipo . Es posible identificar la variación genética y la asociación con fenotipos sin genotipar cada SNP en una región cromosómica. Esto reduce el gasto y el tiempo de mapear las áreas del genoma asociadas con la enfermedad, ya que elimina la necesidad de estudiar cada SNP individual. Los SNP de etiqueta son útiles en estudios de asociación de SNP de todo el genoma en los que se genotipifican cientos de miles de SNP en todo el genoma.
Se dice que dos loci están en equilibrio de ligamiento (LE) si su herencia es un evento independiente. Si los alelos en esos loci no se heredan aleatoriamente, entonces decimos que están en desequilibrio de ligamiento (LD) . El LD es causado más comúnmente por el ligamiento físico de genes. Cuando dos genes se heredan en el mismo cromosoma, dependiendo de su distancia y la probabilidad de recombinación entre los loci pueden estar en alto LD. Sin embargo, el LD también puede observarse debido a interacciones funcionales donde incluso genes de diferentes cromosomas pueden conferir conjuntamente un fenotipo seleccionado evolutivamente o pueden afectar la viabilidad de la descendencia potencial.
En las familias, el desequilibrio de ligamiento es más alto debido a la menor cantidad de eventos de recombinación (menos eventos de meiosis). Esto es especialmente cierto entre líneas endogámicas. En las poblaciones, el desequilibrio de ligamiento existe debido a la selección, la proximidad física de los genes que causa bajas tasas de recombinación o debido a un cruce o migración reciente. A nivel de población, los procesos que influyen en el desequilibrio de ligamiento incluyen el ligamiento genético , la selección natural epistática , la tasa de recombinación , la mutación , la deriva genética , el apareamiento aleatorio , el autostop genético y el flujo genético . [2]
Cuando un grupo de SNP se heredan juntos debido a una alta LD, tiende a haber información redundante. La selección de un SNP de etiqueta como representante de estos grupos reduce la cantidad de redundancia al analizar partes del genoma asociadas con rasgos/enfermedades. [3] Las regiones del genoma en alta LD que albergan un conjunto específico de SNP que se heredan juntos también se conocen como haplotipos . Por lo tanto, los SNP de etiqueta son representativos de todos los SNP dentro de un haplotipo.
La selección de SNP de etiqueta depende de los haplotipos presentes en el genoma. La mayoría de las tecnologías de secuenciación proporcionan la información genotípica y no los haplotipos, es decir, proporcionan información sobre las bases específicas que están presentes, pero no proporcionan información fásica (en qué cromosoma específico aparece cada una de las bases). [4] La determinación de haplotipos se puede realizar mediante métodos moleculares (PCR específica de alelo, híbridos de células somáticas). Estos métodos distinguen qué alelo está presente en qué cromosoma separando los cromosomas antes de la genotipificación. Pueden requerir mucho tiempo y ser costosos, por lo que se han desarrollado métodos de inferencia estadística como una opción menos costosa y automatizada. Estos paquetes de software de inferencia estadística utilizan parsimonia, máxima verosimilitud y algoritmos bayesianos para determinar haplotipos. La desventaja de la inferencia estadística es que una proporción de los haplotipos inferidos podría ser errónea. [5]
Cuando se utilizan haplotipos para estudios de asociación de todo el genoma, es importante tener en cuenta la población que se está estudiando. A menudo, diferentes poblaciones tendrán diferentes patrones de LD. Un ejemplo de patrones diferenciadores son las poblaciones de ascendencia africana frente a las poblaciones de ascendencia europea y asiática. Dado que los humanos se originaron en África y se extendieron a Europa y luego a los continentes asiático y americano, las poblaciones africanas son las más diversas genéticamente y tienen regiones más pequeñas de LD, mientras que las poblaciones de ascendencia europea y asiática tienen regiones más grandes de LD debido al efecto fundador . Cuando los patrones de LD difieren en las poblaciones, los SNP pueden disociarse entre sí debido a los cambios en los bloques de haplotipos . Esto significa que los SNP de etiqueta, como representantes de los bloques de haplotipos, son únicos en las poblaciones y las diferencias poblacionales deben tenerse en cuenta al realizar estudios de asociación. [6]
Casi todos los rasgos tienen influencia tanto genética como ambiental. La heredabilidad es la proporción de variación fenotípica que se hereda de nuestros antepasados. Los estudios de asociación se utilizan para determinar la influencia genética en la presentación fenotípica . Aunque se utilizan principalmente para mapear enfermedades en áreas genómicas, también se pueden utilizar para mapear la heredabilidad de cualquier fenotipo como la altura, el color de los ojos, etc.
Los estudios de asociación de todo el genoma (GWAS) utilizan polimorfismos de un solo nucleótido (SNP) para identificar asociaciones genéticas con condiciones clínicas y rasgos fenotípicos. [8] No tienen hipótesis y utilizan un enfoque de genoma completo para investigar rasgos comparando un gran grupo de individuos que expresan un fenotipo con un gran grupo de personas que no lo expresan. El objetivo final de los GWAS es determinar los factores de riesgo genéticos que se pueden utilizar para hacer predicciones sobre quién está en riesgo de padecer una enfermedad, cuáles son los fundamentos biológicos de la susceptibilidad a la enfermedad y crear nuevas estrategias de prevención y tratamiento. [1] El Instituto Nacional de Investigación del Genoma Humano y el Instituto Europeo de Bioinformática publican el Catálogo GWAS , un catálogo de estudios de asociación de todo el genoma publicados que destaca asociaciones estadísticamente significativas entre cientos de SNP con una amplia gama de fenotipos. [9]
Debido a la gran cantidad de posibles variantes de SNP (más de 149 millones a junio de 2015 [10] [11] ), sigue siendo muy costoso secuenciar todos los SNP. Es por eso que los GWAS utilizan matrices personalizables (chips SNP) para genotipar solo un subconjunto de las variantes identificadas como SNP de etiqueta. La mayoría de los GWAS utilizan productos de las dos plataformas de genotipado principales. La plataforma Affymetrix imprime sondas de ADN en un chip de vidrio o silicona que se hibridan con alelos específicos en el ADN de la muestra. La plataforma Illumina utiliza tecnología basada en perlas, con secuencias de ADN más largas y produce una mejor especificidad. [1] Ambas plataformas pueden genotipar más de un millón de SNP de etiqueta utilizando oligos de ADN prefabricados o personalizados .
Los estudios de todo el genoma se basan en la hipótesis de enfermedad común-variante común (CD/CV), que establece que los trastornos comunes están influenciados por la variación genética común. El tamaño del efecto ( penetración ) de las variantes comunes debe ser menor en relación con los encontrados en trastornos raros. Eso significa que el SNP común puede explicar solo una pequeña parte de la varianza debido a factores genéticos y que las enfermedades comunes están influenciadas por múltiples alelos comunes de pequeño tamaño del efecto. Otra hipótesis es que las enfermedades comunes son causadas por variantes raras que están vinculadas sintéticamente a variantes comunes. En ese caso, la señal producida por GWAS es una asociación indirecta (sintética) entre una o más variantes causales raras en desequilibrio de ligamiento. Es importante reconocer que este fenómeno es posible cuando se selecciona un grupo para SNP de etiqueta. Cuando se descubre que una enfermedad está asociada con un haplotipo, algunos SNP en ese haplotipo tendrán una asociación sintética con la enfermedad. Para identificar los SNP causales necesitamos una mayor resolución en la selección de bloques de haplotipos. Dado que las tecnologías de secuenciación del genoma completo están cambiando rápidamente y se están volviendo menos costosas, es probable que reemplacen a las tecnologías de genotipificación actuales, proporcionando la resolución necesaria para identificar variantes causales.
Debido a que la secuenciación del genoma completo de individuos todavía tiene un costo prohibitivo, el Proyecto internacional HapMap fue creado con el objetivo de mapear el genoma humano a agrupaciones de haplotipos (bloques de haplotipos) que puedan describir patrones comunes de variación genética humana. Al mapear el genoma completo a haplotipos, se pueden identificar SNP de etiqueta para representar los bloques de haplotipos examinados por estudios genéticos. Un factor importante a considerar al planificar un estudio genético es la frecuencia y el riesgo que corren alelos específicos. Estos factores pueden variar en diferentes poblaciones, por lo que el proyecto HapMap utilizó una variedad de técnicas de secuenciación para descubrir y catalogar SNP de diferentes conjuntos de poblaciones. Inicialmente, el proyecto secuenció individuos de la población yoruba de origen africano (YRI), residentes de Utah con ascendencia europea occidental (CEU), individuos no relacionados de Tokio, Japón (JPT) e individuos chinos han no relacionados de Beijing, China (CHB). Recientemente, sus conjuntos de datos se han ampliado para incluir otras poblaciones (11 grupos). [1]
La selección de SNP de etiquetas con la máxima información es un problema de NP completo . Sin embargo, se pueden diseñar algoritmos para proporcionar una solución aproximada dentro de un margen de error. [12] Los criterios necesarios para definir cada algoritmo de selección de SNP de etiquetas son los siguientes:
Los métodos para seleccionar características se dividen en dos categorías: métodos de filtro y métodos de envoltura. Los algoritmos de filtro son algoritmos de preprocesamiento generales que no presuponen el uso de un método de clasificación específico. Los algoritmos de envoltura, por el contrario, “envuelven” la selección de características en torno a un clasificador específico y seleccionan un subconjunto de características en función de la precisión del clasificador mediante validación cruzada. [13]
El método de selección de características adecuado para seleccionar SNP de etiqueta debe tener las siguientes características:
Se han propuesto varios algoritmos para seleccionar SNP de etiqueta. El primer enfoque se basó en la medida de bondad de los conjuntos de SNP y buscó subconjuntos de SNP que fueran pequeños pero que alcanzaran un valor alto de la medida definida. Examinar cada subconjunto de SNP para encontrar los buenos es computacionalmente factible solo para conjuntos de datos pequeños.
Otro enfoque utiliza el análisis de componentes principales (PCA) para encontrar subconjuntos de SNP que capturen la mayoría de la varianza de los datos. Se emplea un método de ventanas deslizantes para aplicar repetidamente el PCA a regiones cromosómicas cortas. Esto reduce los datos producidos y tampoco requiere un tiempo de búsqueda exponencial. Sin embargo, no es factible aplicar el método PCA a grandes conjuntos de datos cromosómicos, ya que es computacionalmente complejo. [13]
El método más comúnmente utilizado, el método basado en bloques, explota el principio de desequilibrio de ligamiento observado dentro de los bloques de haplotipos. [12] Se han ideado varios algoritmos para dividir las regiones cromosómicas en bloques de haplotipos que se basan en la diversidad de haplotipos , LD , prueba de cuatro gametos y complejidad de la información y los SNP de etiqueta se seleccionan de todos los SNP que pertenecen a ese bloque. La principal presunción en este algoritmo es que los SNP son bialélicos. [14] El principal inconveniente es que la definición de bloques no siempre es sencilla. Aunque existe una lista de criterios para formar los bloques de haplotipos, no hay consenso sobre los mismos. Además, la selección basada en correlaciones locales de SNP de etiqueta ignora las correlaciones entre bloques. [12]
A diferencia del enfoque basado en bloques, un enfoque sin bloques no depende de la estructura de los bloques. Se sabe que la frecuencia de SNP y las tasas de recombinación varían a lo largo del genoma y algunos estudios han informado distancias de LD mucho más largas que los tamaños de bloque máximos informados. No se desea establecer un límite estricto para el vecindario y el enfoque sin bloques busca SNP de etiqueta a nivel mundial. Hay varios algoritmos para realizar esto. En un algoritmo, los SNP sin etiqueta se representan como funciones booleanas de SNP de etiqueta y se utilizan técnicas de teoría de conjuntos para reducir el espacio de búsqueda. Otro algoritmo busca subconjuntos de marcadores que pueden provenir de bloques no consecutivos. Debido al vecindario de marcadores, el espacio de búsqueda se reduce. [13]
Con el número de individuos genotipados y el número de SNP en las bases de datos en aumento, la selección de SNP de etiqueta toma demasiado tiempo para calcularse. Para mejorar la eficiencia del método de selección de SNP de etiqueta, el algoritmo primero ignora los SNP que son bialélicos y luego comprime la longitud (número de SNP) de la matriz de haplotipos agrupando los sitios de SNP con la misma información. Los sitios de SNP que dividen los haplotipos en el mismo grupo se denominan sitios redundantes. Los sitios de SNP que contienen información distinta dentro de un bloque se denominan sitios no redundantes (NRS). Para comprimir aún más la matriz de haplotipos, el algoritmo necesita encontrar los SNP de etiqueta de manera que se puedan distinguir todos los haplotipos de la matriz. Al utilizar la idea de partición conjunta, se proporciona un algoritmo eficiente de selección de SNP de etiqueta. [14]
Dependiendo de cómo se seleccionan los SNP de etiqueta, se han utilizado diferentes métodos de predicción durante el proceso de validación cruzada. Se empleó el método de aprendizaje automático para predecir el haplotipo excluido. Otro enfoque predijo los alelos de un SNP no etiquetado n a partir de los SNP de etiqueta que tenían el coeficiente de correlación más alto con n. Si se encuentra un solo SNP de etiqueta t altamente correlacionado, los alelos se asignan de manera que sus frecuencias concuerden con las frecuencias de los alelos de t. Cuando varios SNP de etiqueta tienen el mismo coeficiente de correlación (alto) con n, el alelo común de n tiene ventaja. Es fácil ver que en este caso el método de predicción concuerda bien con el método de selección, que utiliza PCA en la matriz de coeficientes de correlación entre SNP. [13]
Existen otras formas de evaluar la precisión de un método de selección de SNP de etiqueta. La precisión se puede evaluar mediante la medida de calidad R2, que es la medida de asociación entre el número real de copias de haplotipos definidos sobre el conjunto completo de SNP y el número previsto de copias de haplotipos donde la predicción se basa en el subconjunto de SNP de etiqueta. Esta medida supone datos diploides e inferencia explícita de haplotipos a partir de genotipos. [13]
Otro método de evaluación de Clayton se basa en una medida de la diversidad de haplotipos. La diversidad se define como el número total de diferencias en todas las comparaciones por pares entre haplotipos. La diferencia entre un par de haplotipos es la suma de las diferencias en todos los SNP. La medida de diversidad de Clayton se puede utilizar para definir qué tan bien un conjunto de SNP de etiqueta diferencia diferentes haplotipos. Esta medida es adecuada solo para bloques de haplotipos con una diversidad de haplotipos limitada y no está claro cómo utilizarla para grandes conjuntos de datos que constan de múltiples bloques de haplotipos. [13]
Algunos trabajos recientes evalúan algoritmos de selección de SNP de etiqueta basándose en qué tan bien se pueden usar los SNP de etiqueta para predecir SNP sin etiqueta. La precisión de la predicción se determina utilizando validación cruzada como leave-one-out o hold-out. En la validación cruzada leave-one-out, para cada secuencia en el conjunto de datos, el algoritmo se ejecuta en el resto del conjunto de datos para seleccionar un conjunto mínimo de SNP de etiqueta. [13]
Tagger es una herramienta web disponible para evaluar y seleccionar SNP de etiqueta a partir de datos genotípicos como el Proyecto Internacional HapMap. Utiliza métodos por pares y enfoques de haplotipos de múltiples marcadores. Los usuarios pueden cargar datos de genotipo de HapMap o formato de pedigrí y se calcularán los patrones de desequilibrio de ligamiento. Las opciones de Tagger permiten al usuario especificar puntos de referencia cromosómicos, que indican regiones de interés en el genoma para seleccionar SNP de etiqueta. Luego, el programa produce una lista de SNP de etiqueta y sus valores de prueba estadísticos, así como un informe de cobertura. Fue desarrollado por Paul de Bakker en los laboratorios de David Altshuler y Mark Daly en el Centro de Investigación Genética Humana del Hospital General de Massachusetts y la Facultad de Medicina de Harvard , en el Instituto Broad . [15]
En los programas gratuitos CLUSTAG y WCLUSTAG se incluyen algoritmos de clusterización y de cobertura de conjuntos para obtener un conjunto de SNP de etiqueta que pueden representar todos los SNP conocidos en una región cromosómica. Los programas están implementados con Java y pueden ejecutarse tanto en la plataforma Windows como en el entorno Unix. Fueron desarrollados por SIO-IONG AO et al. en la Universidad de Hong Kong. [16] [17]