Microarray de ADN

Colección de puntos microscópicos de ADN adheridos a una superficie sólida

Cómo utilizar un microarray para la genotipificación. El vídeo muestra el proceso de extracción de genotipos de una muestra de saliva humana mediante microarrays. La genotipificación es uno de los principales usos de los microarrays de ADN, pero con algunas modificaciones también se pueden utilizar para otros fines, como la medición de la expresión génica y de marcadores epigenéticos.

Un microarray de ADN (también conocido comúnmente como chip de ADN o biochip ) es una colección de puntos microscópicos de ADN adheridos a una superficie sólida. Los científicos utilizan microarrays de ADN para medir los niveles de expresión de un gran número de genes simultáneamente o para genotipar múltiples regiones de un genoma. Cada punto de ADN contiene picomoles (10 −12 moles ) de una secuencia de ADN específica, conocidas como sondas (o reporteros u oligos ). Estas pueden ser una sección corta de un gen u otro elemento de ADN que se utilizan para hibridar una muestra de ADNc o ARNc (también llamado ARN antisentido) (llamada diana ) en condiciones de alta rigurosidad. La hibridación sonda-diana generalmente se detecta y cuantifica mediante la detección de dianas marcadas con fluoróforos , plata o quimioluminiscencia para determinar la abundancia relativa de secuencias de ácidos nucleicos en la diana. Los arrays de ácidos nucleicos originales eran macroarrays de aproximadamente 9 cm × 12 cm y el primer análisis basado en imágenes computarizado se publicó en 1981. [1] Fue inventado por Patrick O. Brown . Un ejemplo de su aplicación es en arrays de SNP para polimorfismos en enfermedades cardiovasculares, cáncer, patógenos y análisis GWAS. También se utiliza para la identificación de variaciones estructurales y la medición de la expresión génica.

Principio

Hibridación del objetivo con la sonda

El principio básico de los microarrays es la hibridación entre dos cadenas de ADN, la propiedad de las secuencias de ácidos nucleicos complementarios de emparejarse específicamente entre sí mediante la formación de enlaces de hidrógeno entre pares de bases de nucleótidos complementarios . Una gran cantidad de pares de bases complementarios en una secuencia de nucleótidos significa un enlace no covalente más estrecho entre las dos cadenas. Después de lavar las secuencias de enlace no específicas, solo las cadenas fuertemente emparejadas permanecerán hibridadas. Las secuencias diana marcadas con fluorescencia que se unen a una secuencia de sonda generan una señal que depende de las condiciones de hibridación (como la temperatura) y del lavado después de la hibridación. La intensidad total de la señal, desde un punto (característica), depende de la cantidad de muestra diana que se une a las sondas presentes en ese punto. Los microarrays utilizan cuantificación relativa en la que la intensidad de una característica se compara con la intensidad de la misma característica en una condición diferente, y la identidad de la característica se conoce por su posición.

Los pasos necesarios en un experimento de microarrays

Usos y tipos

Dos chips Affymetrix. En la parte inferior izquierda se muestra una coincidencia para comparar el tamaño.

Existen muchos tipos de matrices y la distinción más amplia es si están dispuestas espacialmente sobre una superficie o sobre perlas codificadas:

  • El tradicional arreglo en fase sólida es una colección de "puntos" microscópicos ordenados, llamados características, cada uno con miles de sondas idénticas y específicas adheridas a una superficie sólida, como un biochip de vidrio , plástico o silicio (comúnmente conocido como chip genómico , chip de ADN o arreglo genético ). Miles de estas características se pueden colocar en ubicaciones conocidas en un solo microarreglo de ADN.
  • La matriz de perlas alternativa es una colección de perlas microscópicas de poliestireno, cada una con una sonda específica y una proporción de dos o más colorantes, que no interfieren con los colorantes fluorescentes utilizados en la secuencia objetivo.

Los microarrays de ADN se pueden utilizar para detectar ADN (como en la hibridación genómica comparativa ) o detectar ARN (más comúnmente como ADNc después de la transcripción inversa ) que puede o no traducirse en proteínas. El proceso de medir la expresión genética a través del ADNc se denomina análisis de expresión o perfil de expresión .

Las aplicaciones incluyen:

Aplicación o tecnologíaSinopsis
Perfil de expresión genéticaEn un experimento de perfil de expresión génica o de ARNm , se monitorean simultáneamente los niveles de expresión de miles de genes para estudiar los efectos de ciertos tratamientos, enfermedades y etapas de desarrollo en la expresión génica. Por ejemplo, el perfil de expresión génica basado en microarrays se puede utilizar para identificar genes cuya expresión cambia en respuesta a patógenos u otros organismos comparando la expresión génica en células o tejidos infectados con la de células o tejidos no infectados. [2]
Hibridación genómica comparativaEvaluación del contenido del genoma en diferentes células u organismos estrechamente relacionados, como lo describieron originalmente Patrick Brown , Jonathan Pollack, Ash Alizadeh y colegas en Stanford . [3] [4]
Identificación genéticaPequeños microarrays para comprobar la identificación de organismos en alimentos y piensos (como OGM [1]), micoplasmas en cultivos celulares o patógenos para la detección de enfermedades, en su mayoría combinando PCR y tecnología de microarrays.
Inmunoprecipitación de cromatina en chipLas secuencias de ADN unidas a una proteína en particular se pueden aislar mediante inmunoprecipitación de esa proteína ( ChIP ), estos fragmentos se pueden hibridar luego a una micromatriz (como una matriz de mosaico ) que permite la determinación de la ocupación del sitio de unión de la proteína en todo el genoma. Los ejemplos de proteínas para inmunoprecipitar son modificaciones de histonas ( H3K27me3 , H3K4me2, H3K9me3, etc.), proteína del grupo Polycomb (PRC2:Suz12, PRC1:YY1) y proteína del grupo trithorax (Ash1) para estudiar el paisaje epigenético o la ARN polimerasa II para estudiar el paisaje de la transcripción .
Identificación de presaDe manera análoga a ChIP , las regiones genómicas unidas por una proteína de interés se pueden aislar y utilizar para sondear una micromatriz para determinar la ocupación del sitio de unión. A diferencia de ChIP, DamID no requiere anticuerpos, sino que hace uso de la metilación de adenina cerca de los sitios de unión de la proteína para amplificar selectivamente esas regiones, introducidas mediante la expresión de cantidades minúsculas de la proteína de interés fusionada a la ADN bacteriana adenina metiltransferasa .
Detección de SNPIdentificación de polimorfismos de un solo nucleótido entre alelos dentro o entre poblaciones. [5] Varias aplicaciones de microarrays hacen uso de la detección de SNP, incluyendo la genotipificación , el análisis forense , la medición de la predisposición a enfermedades, la identificación de candidatos a fármacos, la evaluación de mutaciones de la línea germinal en individuos o mutaciones somáticas en cánceres, la evaluación de la pérdida de heterocigosidad o el análisis de ligamiento genético .
Detección de empalmes alternativosUn diseño de matriz de unión de exones utiliza sondas específicas para los sitios de empalme esperados o potenciales de los exones predichos para un gen. Tiene una densidad o cobertura intermedia a la de una matriz de expresión génica típica (con 1 a 3 sondas por gen) y una matriz de teselación genómica (con cientos o miles de sondas por gen). Se utiliza para analizar la expresión de formas de empalme alternativas de un gen. Las matrices de exones tienen un diseño diferente, ya que emplean sondas diseñadas para detectar cada exón individual de genes conocidos o predichos, y se pueden utilizar para detectar diferentes isoformas de empalme.
Microarray de genes de fusiónUn microarreglo de genes de fusión puede detectar transcripciones de fusión, por ejemplo, de muestras de cáncer. El principio detrás de esto se basa en los microarreglos de empalme alternativo . La estrategia de diseño de oligonucleótidos permite mediciones combinadas de uniones de transcripciones quiméricas con mediciones exónicas de socios de fusión individuales.
Matriz de mosaicosLas matrices de mosaicos genómicos consisten en sondas superpuestas diseñadas para representar densamente una región genómica de interés, a veces tan grande como un cromosoma humano entero. El propósito es detectar empíricamente la expresión de transcripciones o formas empalmadas alternativamente que pueden no haberse conocido o predicho previamente.
Microarrays de ADN-B de doble cadenaLos microarrays de ADN-B de doble cadena dextrógiro se pueden utilizar para caracterizar nuevos fármacos y productos biológicos que se pueden emplear para unirse a regiones específicas de ADN de doble cadena intacto e inmovilizado. Este enfoque se puede utilizar para inhibir la expresión génica. [6] [7] También permiten la caracterización de su estructura en diferentes condiciones ambientales.
Microarrays de ADN-Z de doble cadenaLos microarreglos de ADN-Z de doble cadena zurdos se pueden utilizar para identificar secuencias cortas de la estructura alternativa del ADN-Z ubicadas dentro de tramos más largos de genes de ADN-B diestros (por ejemplo, mejora transcripcional, recombinación, edición de ARN). [6] [7] Los microarreglos también permiten la caracterización de su estructura en diferentes condiciones ambientales.
Microarrays de ADN multicatenario (microarrays de ADN tríplex y microarrays de ADN cuádruplex)Los microarreglos de ADN y ARN multicatenarios se pueden utilizar para identificar nuevos fármacos que se unan a estas secuencias de ácidos nucleicos multicatenarios. Este enfoque se puede utilizar para descubrir nuevos fármacos y productos biológicos que tengan la capacidad de inhibir la expresión génica. [6] [7] [8] [9] Estos microarreglos también permiten la caracterización de su estructura en diferentes condiciones ambientales.

Los conjuntos especializados adaptados a cultivos específicos se están volviendo cada vez más populares en las aplicaciones de mejoramiento molecular . En el futuro, podrían usarse para seleccionar plántulas en etapas tempranas y así reducir la cantidad de plántulas innecesarias que se prueban en las operaciones de mejoramiento. [10]

Fabricación

Los microarrays se pueden fabricar de diferentes maneras, según la cantidad de sondas que se examinen, los costos, los requisitos de personalización y el tipo de pregunta científica que se formule. Los arreglos de proveedores comerciales pueden tener tan solo 10 sondas o hasta 5 millones o más de sondas de escala micrométrica.

Manchado vs.en el lugarmatrices sintetizadas

Un microarray de ADN impreso por un robot en la Universidad de Delaware

Los microarrays se pueden fabricar utilizando una variedad de tecnologías, incluyendo la impresión con alfileres de punta fina sobre portaobjetos de vidrio, fotolitografía utilizando máscaras prefabricadas, fotolitografía utilizando dispositivos de microespejos dinámicos, impresión por inyección de tinta, [11] [12] o electroquímica en conjuntos de microelectrodos.

En los microarrays de puntos , las sondas son oligonucleótidos , ADNc o pequeños fragmentos de productos de PCR que corresponden a ARNm . Las sondas se sintetizan antes de la deposición en la superficie del array y luego se "colocan" sobre vidrio. Un enfoque común utiliza un array de alfileres o agujas finas controladas por un brazo robótico que se sumerge en pocillos que contienen sondas de ADN y luego deposita cada sonda en ubicaciones designadas en la superficie del array. La "cuadrícula" de sondas resultante representa los perfiles de ácidos nucleicos de las sondas preparadas y está lista para recibir "objetivos" complementarios de ADNc o ARNc derivados de muestras experimentales o clínicas. Esta técnica es utilizada por científicos investigadores de todo el mundo para producir microarrays impresos "internos" en sus propios laboratorios. Estos arrays se pueden personalizar fácilmente para cada experimento, porque los investigadores pueden elegir las sondas y las ubicaciones de impresión en los arrays, sintetizar las sondas en su propio laboratorio (o instalación colaboradora) y colocar los arrays. Luego, pueden generar sus propias muestras etiquetadas para hibridación, hibridar las muestras con la matriz y, finalmente, escanear las matrices con su propio equipo. Esto proporciona una micromatriz de costo relativamente bajo que se puede personalizar para cada estudio y evita los costos de comprar matrices comerciales, a menudo más caras, que pueden representar una gran cantidad de genes que no son de interés para el investigador. Existen publicaciones que indican que las micromatrices de puntos internas pueden no proporcionar el mismo nivel de sensibilidad en comparación con las matrices de oligonucleótidos comerciales, [13] posiblemente debido a los tamaños de lote pequeños y las eficiencias de impresión reducidas en comparación con los fabricantes industriales de matrices de oligonucleótidos.

En los microarrays de oligonucleótidos , las sondas son secuencias cortas diseñadas para coincidir con partes de la secuencia de marcos de lectura abiertos conocidos o previstos . Aunque las sondas de oligonucleótidos se utilizan a menudo en microarrays "punteados", el término "arreglo de oligonucleótidos" se refiere con mayor frecuencia a una técnica específica de fabricación. Los arreglos de oligonucleótidos se producen imprimiendo secuencias de oligonucleótidos cortas diseñadas para representar un solo gen o familia de variantes de empalme de genes mediante la síntesis de esta secuencia directamente sobre la superficie del arreglo en lugar de depositar secuencias intactas. Las secuencias pueden ser más largas (sondas de 60 meros como el diseño de Agilent ) o más cortas (sondas de 25 meros producidas por Affymetrix ) dependiendo del propósito deseado; las sondas más largas son más específicas para genes diana individuales, las sondas más cortas pueden ser punteadas en mayor densidad a lo largo del arreglo y son más baratas de fabricar. Una técnica utilizada para producir matrices de oligonucleótidos incluye la síntesis fotolitográfica (Affymetrix) sobre un sustrato de sílice, donde se utilizan luz y agentes enmascaradores sensibles a la luz para "construir" una secuencia de un nucleótido a la vez en toda la matriz. [14] Cada sonda aplicable se "desenmascara" selectivamente antes de bañar la matriz en una solución de un solo nucleótido, luego se lleva a cabo una reacción de enmascaramiento y se desenmascara el siguiente conjunto de sondas en preparación para una exposición a un nucleótido diferente. Después de muchas repeticiones, las secuencias de cada sonda se construyen por completo. Más recientemente, la síntesis de matrices sin máscara de NimbleGen Systems ha combinado la flexibilidad con un gran número de sondas. [15]

Detección de dos canales frente a detección de un canal

Diagrama de un experimento típico de microarray de dos colores

Los microarrays de dos colores o microarrays de dos canales se hibridan típicamente con ADNc preparado a partir de dos muestras a comparar (por ejemplo, tejido enfermo versus tejido sano) y que están marcados con dos fluoróforos diferentes . [16] Los colorantes fluorescentes que se usan comúnmente para el etiquetado de ADNc incluyen Cy 3, que tiene una longitud de onda de emisión de fluorescencia de 570 nm (que corresponde a la parte verde del espectro de luz), y Cy 5 con una longitud de onda de emisión de fluorescencia de 670 nm (que corresponde a la parte roja del espectro de luz). Las dos muestras de ADNc marcadas con Cy se mezclan e hibridan en un único microarray que luego se escanea en un escáner de microarrays para visualizar la fluorescencia de los dos fluoróforos después de la excitación con un haz láser de una longitud de onda definida. Las intensidades relativas de cada fluoróforo se pueden usar luego en un análisis basado en proporciones para identificar genes regulados al alza y a la baja. [17]

Los microarrays de oligonucleótidos suelen llevar sondas de control diseñadas para hibridarse con los agregados de ARN . El grado de hibridación entre los agregados y las sondas de control se utiliza para normalizar las mediciones de hibridación de las sondas objetivo. Aunque en raras ocasiones se pueden determinar los niveles absolutos de expresión génica en el arreglo de dos colores, las diferencias relativas en la expresión entre diferentes puntos dentro de una muestra y entre muestras es el método preferido de análisis de datos para el sistema de dos colores. Entre los proveedores de dichos microarrays se incluyen Agilent con su plataforma Dual-Mode, Eppendorf con su plataforma DualChip para el etiquetado colorimétrico Silverquant y TeleChem International con Arrayit.

En los microarrays de un solo canal o de un solo color , los arrays proporcionan datos de intensidad para cada sonda o conjunto de sondas que indican un nivel relativo de hibridación con el objetivo marcado. Sin embargo, no indican realmente los niveles de abundancia de un gen, sino más bien la abundancia relativa en comparación con otras muestras o condiciones cuando se procesan en el mismo experimento. Cada molécula de ARN encuentra sesgo específico del protocolo y del lote durante las fases de amplificación, marcado e hibridación del experimento, lo que hace que las comparaciones entre genes para el mismo microarray no sean informativas. La comparación de dos condiciones para el mismo gen requiere dos hibridaciones de un solo colorante independientes. Varios sistemas de un solo canal populares son el "Gene Chip" de Affymetrix, el "Bead Chip" de Illumina, los arrays de un solo canal de Agilent, los arrays "CodeLink" de Applied Microarrays y el "DualChip & Silverquant" de Eppendorf. Una de las ventajas del sistema de un solo colorante es que una muestra aberrante no puede afectar a los datos brutos derivados de otras muestras, porque cada chip de la matriz está expuesto a una sola muestra (a diferencia de un sistema de dos colores en el que una sola muestra de baja calidad puede afectar drásticamente a la precisión general de los datos, incluso si la otra muestra era de alta calidad). Otra ventaja es que los datos se comparan más fácilmente con las matrices de diferentes experimentos, siempre que se hayan tenido en cuenta los efectos de los lotes.

En algunas situaciones, un microarray de un canal puede ser la única opción. Supongamos que es necesario comparar muestras: entonces, la cantidad de experimentos necesarios utilizando los dos arreglos de canales se vuelve rápidamente inviable, a menos que se utilice una muestra como referencia. i {\estilo de visualización i}

Número de muestrasmicroarray de un canalmicroarray de dos canales

Microarray de dos canales (con referencia)

1111
2211
3332
4463
i {\estilo de visualización i} i {\estilo de visualización i} i ( i 1 ) / 2 {\displaystyle i(i-1)/2} i 1 {\estilo de visualización i-1}

Un protocolo típico

Ejemplos de niveles de aplicación de microarrays. Dentro de los organismos, los genes se transcriben y se unen para producir transcripciones de ARNm maduros (rojo). El ARNm se extrae del organismo y se utiliza la transcriptasa inversa para copiar el ARNm en ADNc bicatenario estable (azul). En los microarrays, el ADNc bicatenario se fragmenta y se marca con fluorescencia (naranja). Los fragmentos marcados se unen a una matriz ordenada de oligonucleótidos complementarios, y la medición de la intensidad de la fluorescencia en toda la matriz indica la abundancia de un conjunto predeterminado de secuencias. Estas secuencias se eligen típicamente de forma específica para informar sobre genes de interés dentro del genoma del organismo. [18]

Este es un ejemplo de un experimento de microarray de ADN que incluye detalles de un caso particular para explicar mejor los experimentos de microarray de ADN, al tiempo que enumera modificaciones para ARN u otros experimentos alternativos.

  1. Se cultivan/adquieren las dos muestras que se van a comparar (comparación por pares). En este ejemplo, la muestra tratada ( caso ) y la muestra no tratada ( control ).
  2. El ácido nucleico de interés se purifica: puede ser ARN para el perfil de expresión , ADN para hibridación comparativa o ADN/ARN unido a una proteína particular que se inmunoprecipita ( ChIP-on-chip ) para estudios epigenéticos o de regulación. En este ejemplo, se aísla el ARN total (tanto nuclear como citoplasmático ) mediante extracción con tiocianato de guanidinio-fenol-cloroformo (p. ej., Trizol ), que aísla la mayor parte del ARN (mientras que los métodos de columna tienen un límite de corte de 200 nucleótidos) y, si se realiza correctamente, tiene una mejor pureza.
  3. El ARN purificado se analiza para determinar su calidad (mediante electroforesis capilar ) y cantidad (por ejemplo, utilizando un espectrómetro NanoDrop o NanoPhotometer ). Si el material es de calidad aceptable y hay una cantidad suficiente (por ejemplo, >1 μg , aunque la cantidad requerida varía según la plataforma de microarray), el experimento puede continuar.
  4. El producto marcado se genera mediante transcripción inversa y se amplifica por PCR opcional . El ARN se transcribe de forma inversa con cebadores poliT (que amplifican solo el ARNm ) o cebadores aleatorios (que amplifican todo el ARN, la mayor parte del cual es ARNr ). Los microarrays de miRNA ligan un oligonucleótido al ARN pequeño purificado (aislado con un fraccionador), que luego se transcribe de forma inversa y se amplifica.
    • La etiqueta se añade durante el paso de transcripción inversa o después de la amplificación, si se lleva a cabo. El etiquetado con sentido depende de la micromatriz; por ejemplo, si la etiqueta se añade con la mezcla RT, el ADNc es antisentido y la sonda de la micromatriz es sentido, excepto en el caso de los controles negativos.
    • La etiqueta suele ser fluorescente ; sólo una máquina utiliza radioetiquetas .
    • El marcaje puede ser directo (no se utiliza) o indirecto (requiere una etapa de acoplamiento). Para los arrays de dos canales, la etapa de acoplamiento se produce antes de la hibridación, utilizando aminoalil uridina trifosfato (aminoalil-UTP, o aaUTP) y colorantes amino-reactivos de NHS (como los colorantes de cianina ); para los arrays de un solo canal, la etapa de acoplamiento se produce después de la hibridación, utilizando biotina y estreptavidina marcada . Los nucleótidos modificados (normalmente en una proporción de 1 aaUTP: 4 TTP ( timidina trifosfato )) se añaden enzimáticamente en una proporción baja con respecto a los nucleótidos normales, lo que normalmente da como resultado 1 cada 60 bases. A continuación, el aaDNA se purifica con una columna (utilizando una solución tampón de fosfato, ya que Tris contiene grupos amina). El grupo aminoalilo es un grupo amina en un enlazador largo unido a la nucleobase, que reacciona con un colorante reactivo.
      • Se puede realizar una forma de réplica conocida como inversión de colorante para controlar los artefactos de colorante en experimentos de dos canales; para una inversión de colorante, se utiliza una segunda lámina, con las etiquetas intercambiadas (la muestra que se etiquetó con Cy3 en la primera lámina se etiqueta con Cy5, y viceversa). En este ejemplo, el aminoalil -UTP está presente en la mezcla transcrita de forma inversa.
  5. Luego, las muestras marcadas se mezclan con una solución de hibridación patentada que puede consistir en SDS , SSC , sulfato de dextrano , un agente de bloqueo (como ADN Cot-1 , ADN de esperma de salmón, ADN de timo de ternera, PolyA o PolyT), solución de Denhardt o formamina .
  6. La mezcla se desnaturaliza y se añade a los orificios del microarray. Los orificios se sellan y el microarray se hibrida, ya sea en un horno de hibridación, donde el microarray se mezcla por rotación, o en un mezclador, donde el microarray se mezcla alternando la presión en los orificios.
  7. Después de una hibridación durante la noche, se elimina toda unión no específica (SDS y SSC).
  8. El microarray se seca y se escanea mediante una máquina que utiliza un láser para excitar el tinte y mide los niveles de emisión con un detector.
  9. La imagen se cuadricula con una plantilla y se cuantifica la intensidad de cada característica (compuesta por varios píxeles).
  10. Los datos brutos se normalizan; el método de normalización más simple consiste en restar la intensidad de fondo y la escala de modo que las intensidades totales de las características de los dos canales sean iguales, o utilizar la intensidad de un gen de referencia para calcular el valor t para todas las intensidades. Los métodos más sofisticados incluyen la relación z , la regresión loess y lowess y el RMA (análisis robusto de múltiples chips) para chips Affymetrix ( oligonucleótidos cortos sintetizados in situ , de un solo canal y de silicio ).

Microarrays y bioinformática

Los valores de expresión genética de los experimentos de microarrays se pueden representar como mapas de calor para visualizar el resultado del análisis de datos.

La llegada de experimentos de microarrays económicos creó varios desafíos bioinformáticos específicos: [19] los múltiples niveles de replicación en el diseño experimental (Diseño experimental); la cantidad de plataformas y grupos independientes y el formato de los datos (Estandarización); el tratamiento estadístico de los datos (Análisis de datos); el mapeo de cada sonda a la transcripción de ARNm que mide (Anotación); el gran volumen de datos y la capacidad de compartirlos (Almacenamiento de datos).

Diseño experimental

Debido a la complejidad biológica de la expresión genética, las consideraciones de diseño experimental que se analizan en el artículo sobre perfiles de expresión son de importancia crítica si se quieren extraer conclusiones estadística y biológicamente válidas de los datos.

Hay tres elementos principales a tener en cuenta al diseñar un experimento de microarray. En primer lugar, la replicación de las muestras biológicas es esencial para extraer conclusiones del experimento. En segundo lugar, las réplicas técnicas (por ejemplo, dos muestras de ARN obtenidas de cada unidad experimental) pueden ayudar a cuantificar la precisión. Las réplicas biológicas incluyen extracciones de ARN independientes. Las réplicas técnicas pueden ser dos alícuotas de la misma extracción. En tercer lugar, los puntos de cada clon de ADNc u oligonucleótido están presentes como réplicas (al menos duplicados) en el portaobjetos de microarray, para proporcionar una medida de la precisión técnica en cada hibridación. Es fundamental que se discuta la información sobre la preparación y el manejo de la muestra, para ayudar a identificar las unidades independientes en el experimento y evitar estimaciones infladas de la significación estadística . [20]

Normalización

Los datos de microarrays son difíciles de intercambiar debido a la falta de estandarización en la fabricación de plataformas, protocolos de ensayo y métodos de análisis. Esto presenta un problema de interoperabilidad en bioinformática . Varios proyectos de código abierto de base están tratando de facilitar el intercambio y análisis de datos producidos con chips no propietarios:

Por ejemplo, la lista de verificación "Información mínima sobre un experimento de microarrays" ( MIAME ) ayuda a definir el nivel de detalle que debe existir y está siendo adoptada por muchas revistas como un requisito para la presentación de artículos que incorporan resultados de microarrays. Pero MIAME no describe el formato de la información, por lo que, si bien muchos formatos pueden cumplir con los requisitos de MIAME, a partir de 2007 [actualizar]ningún formato permite la verificación del cumplimiento semántico completo. El "Proyecto de control de calidad de microarrays (MAQC)" está siendo llevado a cabo por la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA) para desarrollar estándares y métricas de control de calidad que eventualmente permitirán el uso de datos de microarrays en el descubrimiento de fármacos, la práctica clínica y la toma de decisiones regulatorias. [21] La Sociedad MGED ha desarrollado estándares para la representación de los resultados de experimentos de expresión genética y las anotaciones relevantes.

Análisis de datos

Científico del Centro Nacional de Investigación Toxicológica revisa datos de microarrays.

Los conjuntos de datos de microarrays suelen ser muy grandes y la precisión analítica se ve influida por una serie de variables. Los desafíos estadísticos incluyen tener en cuenta los efectos del ruido de fondo y la normalización adecuada de los datos. Los métodos de normalización pueden ser adecuados para plataformas específicas y, en el caso de plataformas comerciales, el análisis puede ser exclusivo. [22] Los algoritmos que afectan el análisis estadístico incluyen:

  • Análisis de imágenes: cuadriculado, reconocimiento de puntos de la imagen escaneada (algoritmo de segmentación), eliminación o marcado de características de baja calidad y baja intensidad (llamado marcado ).
  • Procesamiento de datos: sustracción de fondo (basada en fondo global o local), determinación de intensidades puntuales y proporciones de intensidad, visualización de datos (por ejemplo, ver gráfico MA ) y transformación logarítmica de proporciones, normalización global o local de proporciones de intensidad y segmentación en diferentes regiones de número de copias utilizando algoritmos de detección de pasos . [23]
  • Análisis de descubrimiento de clases: este enfoque analítico, a veces llamado clasificación no supervisada o descubrimiento de conocimiento, intenta identificar si los microarreglos (objetos, pacientes, ratones, etc.) o genes se agrupan en grupos. La identificación de grupos de objetos (microarreglos o genes) que existen naturalmente y que se agrupan puede permitir el descubrimiento de nuevos grupos que de otro modo no se sabía que existían anteriormente. Durante el análisis de descubrimiento de conocimiento, se pueden emplear varias técnicas de clasificación no supervisada con datos de microarreglos de ADN para identificar nuevos grupos (clases) de arreglos. [24] Este tipo de enfoque no está impulsado por hipótesis, sino que se basa en el reconocimiento de patrones iterativos o métodos de aprendizaje estadístico para encontrar un número "óptimo" de grupos en los datos. Algunos ejemplos de métodos de análisis no supervisados ​​incluyen mapas autoorganizados, gas neuronal, análisis de grupos de k-medias, [25] análisis de grupos jerárquicos, agrupamiento basado en procesamiento de señales genómicas y análisis de grupos basado en modelos. Para algunos de estos métodos, el usuario también tiene que definir una medida de distancia entre pares de objetos. Aunque el coeficiente de correlación de Pearson se emplea habitualmente, en la literatura se han propuesto y evaluado otras medidas. [26] Los datos de entrada utilizados en los análisis de descubrimiento de clases se basan habitualmente en listas de genes que tienen una alta informatividad (bajo ruido) en función de valores bajos del coeficiente de variación o valores altos de la entropía de Shannon, etc. La determinación del número más probable u óptimo de clústeres obtenidos a partir de un análisis no supervisado se denomina validez de clúster. Algunas métricas de uso común para la validez de clúster son el índice de silueta, el índice de Davies-Bouldin, [27] el índice de Dunn o la estadística de Hubert. Γ {\estilo de visualización \Gamma}
  • Análisis de predicción de clase: este enfoque, llamado clasificación supervisada, establece la base para desarrollar un modelo predictivo en el que se pueden ingresar futuros objetos de prueba desconocidos para predecir la pertenencia a la clase más probable de los objetos de prueba. El análisis supervisado [24] para la predicción de clase implica el uso de técnicas como regresión lineal, k-vecino más cercano, cuantificación de vectores de aprendizaje, análisis de árboles de decisión, bosques aleatorios, Bayes ingenuo, regresión logística, regresión kernel, redes neuronales artificiales, máquinas de vectores de soporte, mezcla de expertos y gas neuronal supervisado. Además, se emplean varios métodos metaheurísticos, como algoritmos genéticos , autoadaptación de matriz de covarianza, optimización de enjambre de partículas y optimización de colonias de hormigas . Los datos de entrada para la predicción de clase generalmente se basan en listas filtradas de genes que son predictivos de clase, determinados mediante pruebas de hipótesis clásicas (próxima sección), índice de diversidad de Gini o ganancia de información (entropía).
  • Análisis estadístico basado en hipótesis: la identificación de cambios estadísticamente significativos en la expresión genética se identifica comúnmente utilizando la prueba t , ANOVA , el método bayesiano [28], los métodos de prueba de Mann-Whitney adaptados a conjuntos de datos de microarrays, que tienen en cuenta comparaciones múltiples [29] o el análisis de conglomerados . [30] Estos métodos evalúan el poder estadístico en función de la variación presente en los datos y el número de réplicas experimentales, y pueden ayudar a minimizar los errores de tipo I y tipo II en los análisis. [31]
  • Reducción dimensional: los analistas a menudo reducen el número de dimensiones (genes) antes del análisis de datos. [24] Esto puede implicar enfoques lineales como el análisis de componentes principales (PCA) o el aprendizaje de variedades no lineal (aprendizaje de métricas de distancia) utilizando PCA kernel, mapas de difusión, mapas propios laplacianos, incrustación lineal local, proyecciones de preservación local y mapeo de Sammon.
  • Métodos basados ​​en redes: métodos estadísticos que tienen en cuenta la estructura subyacente de las redes genéticas y que representan interacciones o dependencias asociativas o causales entre productos genéticos. [32] El análisis ponderado de redes de coexpresión genética se utiliza ampliamente para identificar módulos de coexpresión y genes centrales intramodulares. Los módulos pueden corresponder a tipos de células o vías. Los centros intramodulares altamente conectados representan mejor sus respectivos módulos.

Los datos de microarrays pueden requerir un procesamiento adicional destinado a reducir la dimensionalidad de los datos para facilitar la comprensión y un análisis más centrado. [33] Otros métodos permiten el análisis de datos que consisten en un número bajo de réplicas biológicas o técnicas ; por ejemplo, la prueba de error agrupado local (LPE) agrupa las desviaciones estándar de genes con niveles de expresión similares en un esfuerzo por compensar la replicación insuficiente. [34]

Anotación

La relación entre una sonda y el ARNm que se espera que detecte no es trivial. [35] Algunos ARNm pueden hibridar de forma cruzada con sondas en la matriz que se supone que detectan otro ARNm. Además, los ARNm pueden experimentar un sesgo de amplificación específico de la secuencia o de la molécula. En tercer lugar, las sondas diseñadas para detectar el ARNm de un gen en particular pueden depender de información genómica EST que está incorrectamente asociada con ese gen.

Almacenamiento de datos

Se descubrió que los datos de microarrays eran más útiles en comparación con otros conjuntos de datos similares. El gran volumen de datos, los formatos especializados (como MIAME ) y los esfuerzos de conservación asociados con los conjuntos de datos requieren bases de datos especializadas para almacenar los datos. Se han creado varias soluciones de almacenamiento de datos de código abierto, como InterMine y BioMart , con el propósito específico de integrar diversos conjuntos de datos biológicos y también respaldar el análisis.

Tecnologías alternativas

Los avances en la secuenciación masiva paralela han llevado al desarrollo de la tecnología RNA-Seq , que permite un enfoque shotgun de transcriptoma completo para caracterizar y cuantificar la expresión genética. [36] [37] A diferencia de los microarrays, que necesitan que un genoma y un transcriptoma de referencia estén disponibles antes de que se pueda diseñar el microarray en sí, RNA-Seq también se puede utilizar para nuevos organismos modelo cuyo genoma aún no se ha secuenciado. [37]

Glosario

  • Una matriz o diapositiva es una colección de características dispuestas espacialmente en una cuadrícula bidimensional, organizadas en columnas y filas.
  • Bloque o subconjunto : un grupo de puntos, generalmente creados en una ronda de impresión; varios subconjuntos/bloques forman un conjunto.
  • Caso/control : paradigma de diseño experimental especialmente adecuado para el sistema de matriz de dos colores, en el que una condición elegida como control (como un tejido o estado sano) se compara con una condición alterada (como un tejido o estado enfermo).
  • Canal : la salida de fluorescencia registrada en el escáner para un fluoróforo individual y puede incluso ser ultravioleta.
  • Cambio de colorante o intercambio de colorante o inversión de flúor : etiquetado recíproco de objetivos de ADN con los dos colorantes para tener en cuenta el sesgo del colorante en los experimentos.
  • Escáner : instrumento utilizado para detectar y cuantificar la intensidad de la fluorescencia de puntos en un portaobjetos de microarrays, excitando selectivamente fluoróforos con un láser y midiendo la fluorescencia con un sistema fotomultiplicador de filtro (óptico) .
  • Punto o característica : un área pequeña en una lámina de matriz que contiene picomoles de muestras de ADN específicas.
  • Para otros términos relevantes consulte:

Véase también

Referencias

  1. ^ Taub, Floyd (1983). "Métodos de laboratorio: las hibridaciones comparativas secuenciales analizadas mediante procesamiento de imágenes computarizado pueden identificar y cuantificar ARN regulados". ADN . 2 (4): 309–327. doi :10.1089/dna.1983.2.309. PMID  6198132.
  2. ^ Adomas A; Heller G; Olson A; Osborne J; Karlsson M; Nahalkova J; Van Zyl L; Sederoff R; Stenlid J; Finlay R; Asiegbu FO (2008). "Análisis comparativo de la abundancia de transcripción en Pinus sylvestris después del desafío con un hongo saprotrófico, patógeno o mutualista". Tree Physiol . 28 (6): 885–897. doi :10.1093/treephys/28.6.885. PMID  18381269.
  3. ^ Pollack JR; Perou CM; Alizadeh AA; Eisen MB; Pergamenschikov A; Williams CF; Jeffrey SS; Botstein D; Brown PO (1999). "Análisis de todo el genoma de los cambios en el número de copias de ADN utilizando microarreglos de ADNc". Nat Genet . 23 (1): 41–46. doi :10.1038/12640. PMID  10471496. S2CID  997032.
  4. ^ Moran G; Stokes C; Thewes S; Hube B; Coleman DC; Sullivan D (2004). "La genómica comparativa utilizando microarreglos de ADN de Candida albicans revela ausencia y divergencia de genes asociados a la virulencia en Candida dubliniensis". Microbiología . 150 (Pt 10): 3363–3382. doi : 10.1099/mic.0.27221-0 . hdl : 2262/6097 . PMID  15470115.
  5. ^ Hacia JG; Fan JB; Ryder O; Jin L; Edgemon K; Ghandour G; Mayer RA; Sun B; Hsie L; Robbins CM; Brody LC; Wang D; Lander ES; Lipshutz R; Fodor SP; Collins FS (1999). "Determinación de alelos ancestrales para polimorfismos humanos de un solo nucleótido utilizando matrices de oligonucleótidos de alta densidad". Nat Genet . 22 (2): 164–167. doi :10.1038/9674. PMID  10369258. S2CID  41718227.
  6. ^ abc Gagna, Claude E.; Lambert, W. Clark (1 de mayo de 2009). "Nuevos microarreglos de ADN y ARN transicionales helicoidales, plasmídicos, alternativos y multicatenarios: implicaciones para la terapéutica". Farmacogenómica . 10 (5): 895–914. doi :10.2217/pgs.09.27. ISSN  1744-8042. PMID  19450135.
  7. ^ abc Gagna, Claude E.; Clark Lambert, W. (1 de marzo de 2007). "Biología celular, quimiogenómica y quimioproteómica: aplicación al descubrimiento de fármacos". Opinión de expertos sobre el descubrimiento de fármacos . 2 (3): 381–401. doi :10.1517/17460441.2.3.381. ISSN  1746-0441. PMID  23484648. S2CID  41959328.
  8. ^ Mukherjee, Anirban; Vasquez, Karen M. (1 de agosto de 2011). "Tecnología triplex en estudios de daño del ADN, reparación del ADN y mutagénesis". Biochimie . 93 (8): 1197–1208. doi :10.1016/j.biochi.2011.04.001. ISSN  1638-6183. PMC 3545518 . PMID  21501652. 
  9. ^ Rhodes, Daniela; Lipps, Hans J. (15 de octubre de 2015). "G-quadruplexes and their regulatory roles in biology" (G-cuadrúplex y sus funciones reguladoras en biología). Nucleic Acids Research . 43 (18): 8627–8637. doi :10.1093/nar/gkv862. ISSN  1362-4962. PMC 4605312 . PMID  26350216. 
  10. ^ Rasheed, Awais; Hao, Yuanfeng; Xia, Xianchun; Khan, Awais; Xu, Yunbi; Varshney, Rajeev K.; He, Zhonghu (2017). "Plataformas de genotipado y chips de mejoramiento de cultivos: progreso, desafíos y perspectivas" (PDF) . Molecular Plant . 10 (8). Chin Acad Sci + Chin Soc Plant Bio + Shanghai Inst Bio Sci ( Elsevier ): 1047–1064. doi : 10.1016/j.molp.2017.06.008 . ISSN  1674-2052. PMID  28669791. S2CID  33780984.
  11. ^ J Biochem Biophys Methods. 16 de marzo de 2000;42(3):105–10. Impresión de ADN: utilización de una impresora de inyección de tinta estándar para la transferencia de ácidos nucleicos a soportes sólidos. Goldmann T, Gonzalez JS.
  12. ^ Lausted C; et al. (2004). "POSaM: un sintetizador y microarreglador de oligonucleótidos de inyección de tinta, rápido, flexible y de código abierto". Genome Biology . 5 (8): R58. doi : 10.1186/gb-2004-5-8-r58 . PMC 507883 . PMID  15287980. 
  13. ^ Bammler T, Beyer RP; Consorcio, Miembros de la Investigación Toxicogenómica; Kerr, X; Jing, LX; Lapidus, S; Lasarev, DA; Paules, RS; Li, JL; Phillips, SO (2005). "Estandarización del análisis global de expresión génica entre laboratorios y plataformas". Nat Methods . 2 (5): 351–356. doi :10.1038/nmeth754. PMID  15846362. S2CID  195368323.
  14. ^ Pease AC; Solas D; Sullivan EJ; Cronin MT; Holmes CP; Fodor SP (1994). "Matrices de oligonucleótidos generadas por luz para análisis rápido de secuencias de ADN". PNAS . 91 (11): 5022–5026. Bibcode :1994PNAS...91.5022P. doi : 10.1073/pnas.91.11.5022 . PMC 43922 . PMID  8197176. 
  15. ^ Nuwaysir EF; Huang W; Albert TJ; Singh J; Nuwaysir K; Pitas A; Richmond T; Gorski T; Berg JP; Ballin J; McCormick M; Norton J; Pollock T; Sumwalt T; Butcher L; Porter D; Molla M; Hall C; Blattner F; Sussman MR; Wallace RL; Cerrina F; Green RD (2002). "Análisis de expresión génica utilizando matrices de oligonucleótidos producidas por fotolitografía sin máscara". Genome Res . 12 (11): 1749–1755. doi :10.1101/gr.362402. PMC 187555 . PMID  12421762. 
  16. ^ Shalon D; Smith SJ; Brown PO (1996). "Un sistema de microarray de ADN para analizar muestras de ADN complejas mediante hibridación de sonda fluorescente de dos colores". Genome Res . 6 (7): 639–645. doi : 10.1101/gr.6.7.639 . PMID  8796352.
  17. ^ Tang T; François N; Glatigny A; Agier N; Mucchielli MH; Aggerbeck L; Delacroix H (2007). "La evaluación de la relación de expresión en experimentos de microarrays de dos colores se mejora significativamente al corregir la desalineación de la imagen". Bioinformática . 23 (20): 2686–2691. doi : 10.1093/bioinformatics/btm399 . PMID  17698492.
  18. ^ Shafee, Thomas; Lowe, Rohan (2017). "Estructura de genes eucariotas y procariotas" (PDF) . WikiJournal of Medicine . 4 (1). doi : 10.15347/wjm/2017.002 . ISSN  2002-4436.
  19. ^ Tinker, Anna V.; Boussioutas, Alex; Bowtell, David DL (2006). "Los desafíos de los microarrays de expresión génica para el estudio del cáncer humano". Cancer Cell . 9 (5): 333–339. doi : 10.1016/j.ccr.2006.05.001 . ISSN  1535-6108.
  20. ^ Churchill, GA (2002). "Fundamentals of experimental design for cDNA microarrays" (PDF) . Nature Genetics . suplemento. 32 : 490–5. doi :10.1038/ng1031. PMID  12454643. S2CID  15412245. Archivado desde el original (PDF) el 8 de mayo de 2005 . Consultado el 12 de diciembre de 2013 .
  21. ^ Centro NCTR de Toxicoinformática – Proyecto MAQC
  22. ^ "Prosigna | Algoritmo Prosigna". prosigna.com . Consultado el 22 de junio de 2017 .
  23. ^ Little, MA; Jones, NS (2011). "Métodos generalizados y solucionadores para señales constantes por partes: Parte I" (PDF) . Actas de la Royal Society A . 467 (2135): 3088–3114. doi :10.1098/rspa.2010.0671. PMC 3191861 . PMID  22003312. 
  24. ^ abc Peterson, Leif E. (2013). Análisis de clasificación de microarrays de ADN. John Wiley and Sons. ISBN 978-0-470-17081-6.
  25. ^ De Souto M et al. (2008) Agrupamiento de datos de expresión génica del cáncer: un estudio comparativo, BMC Bioinformatics, 9(497).
  26. ^ Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Ivan G (2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica". BMC Bioinformatics . 15 (Suppl 2): ​​S2. doi : 10.1186/1471-2105-15-S2-S2 . PMC 4072854 . PMID  24564555. 
  27. ^ Bolshakova N, Azuaje F (2003) Técnicas de validación de clústeres para datos de expresión genómica, Procesamiento de señales, Vol. 83, págs. 825–833.
  28. ^ Ben Gal, I.; Shani, A.; Gohr, A.; Grau, J.; Arviv, S.; Shmilovici, A.; Posch, S.; Grosse, I. (2005). "Identificación de sitios de unión de factores de transcripción con redes bayesianas de orden variable". Bioinformática . 21 (11): 2657–2666. doi :10.1093/bioinformatics/bti410. ISSN  1367-4803. PMID  15797905.
  29. ^ Yuk Fai Leung y Duccio Cavalieri, Fundamentos del análisis de datos de microarrays de ADNc. Trends in Genetics Vol.19 No.11 Noviembre de 2003.
  30. ^ Priness I.; Maimon O.; Ben-Gal I. (2007). "Evaluación de la agrupación de la expresión génica mediante la medida de la distancia de información mutua". BMC Bioinformatics . 8 (1): 111. doi : 10.1186/1471-2105-8-111 . PMC 1858704 . PMID  17397530. 
  31. ^ Wei C; Li J; Bumgarner RE (2004). "Tamaño de muestra para detectar genes expresados ​​diferencialmente en experimentos de microarrays". BMC Genomics . 5 : 87. doi : 10.1186/1471-2164-5-87 . PMC 533874 . PMID  15533245. 
  32. ^ Emmert-Streib, F. y Dehmer, M. (2008). Análisis de datos de microarrays: un enfoque basado en redes . Wiley-VCH. ISBN 978-3-527-31822-3.
  33. ^ Wouters L; Gõhlmann HW; Bijnens L; Kass SU; Molenberghs G; Lewi PJ (2003). "Exploración gráfica de datos de expresión génica: un estudio comparativo de tres métodos multivariados". Biometrics . 59 (4): 1131–1139. CiteSeerX 10.1.1.730.3670 . doi :10.1111/j.0006-341X.2003.00130.x. PMID  14969494. S2CID  16248921. 
  34. ^ Jain N; Thatte J; Braciale T; Ley K; O'Connell M; Lee JK (2003). "Prueba de error local agrupado para identificar genes expresados ​​diferencialmente con un pequeño número de microarreglos replicados". Bioinformática . 19 (15): 1945–1951. doi : 10.1093/bioinformatics/btg264 . PMID  14555628.
  35. ^ Barbosa-Morais, NL; Dunning, MJ; Samarajiwa, SA; Darot, JFJ; Ritchie, ME; Lynch, AG; Tavare, S. (18 de noviembre de 2009). "Una secuencia de reanotación para Illumina BeadArrays: mejora de la interpretación de los datos de expresión génica". Nucleic Acids Research . 38 (3): e17. doi :10.1093/nar/gkp942. PMC 2817484 . PMID  19923232. 
  36. ^ Mortazavi, Ali; Brian A Williams; Kenneth McCue; Lorian Schaeffer; Barbara Wold (julio de 2008). "Mapeo y cuantificación de transcriptomas de mamíferos mediante RNA-Seq". Nat Methods . 5 (7): 621–628. doi :10.1038/nmeth.1226. ISSN  1548-7091. PMID  18516045. S2CID  205418589.
  37. ^ ab Wang, Zhong; Mark Gerstein; Michael Snyder (enero de 2009). "RNA-Seq: una herramienta revolucionaria para la transcriptómica". Nat Rev Genet . 10 (1): 57–63. doi :10.1038/nrg2484. ISSN  1471-0056. PMC 2949280 . PMID  19015660. 
  • Animación de microarrays 1Lec.com
  • Introducción a PLoS Biology: análisis de microarrays
  • Resumen de la tecnología de microarrays
  • ArrayMining.net: un servidor web gratuito para el análisis de microarrays en línea
  • Microarray – ¿Cómo funciona?
  • Comentario de PNAS: Descubrimiento de principios de la naturaleza a partir de modelos matemáticos de datos de microarrays de ADN
  • Experimento virtual de microarrays de ADN
Obtenido de "https://es.wikipedia.org/w/index.php?title=Microarray_de_ADN&oldid=1251966112"