Contenido | |
---|---|
Descripción | El navegador del genoma de la UCSC |
Contacto | |
Centro de investigación | Universidad de California Santa Cruz |
Laboratorio | Centro de Ciencias e Ingeniería Biomolecular, Facultad de Ingeniería Baskin |
Cita primaria | Navarro González & al. (2021) [1] |
Acceso | |
Sitio web | genoma.ucsc.edu |
El UCSC Genome Browser es un navegador de genoma en línea y descargable alojado por la Universidad de California, Santa Cruz (UCSC). [2] [3] [4] Es un sitio web interactivo que ofrece acceso a datos de secuencias genómicas de una variedad de especies de vertebrados e invertebrados y organismos modelo importantes , integrado con una gran colección de anotaciones alineadas. El navegador es un visor gráfico optimizado para admitir un rendimiento interactivo rápido y es un conjunto de herramientas de código abierto basado en la web construido sobre una base de datos MySQL para una rápida visualización, examen y consulta de los datos en muchos niveles. La base de datos del navegador de genoma, las herramientas de navegación, los archivos de datos descargables y la documentación se pueden encontrar en el sitio web de bioinformática del genoma de la UCSC.
Inicialmente construido y aún administrado por Jim Kent , entonces estudiante de posgrado, y David Haussler , profesor de Ciencias de la Computación (ahora Ingeniería Biomolecular) en la Universidad de California, Santa Cruz en 2000, el Navegador Genómico de la UCSC comenzó como un recurso para la distribución de los frutos iniciales del Proyecto Genoma Humano . Financiado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano, NHGRI (uno de los Institutos Nacionales de Salud de EE. UU .), el navegador ofrecía una visualización gráfica del primer borrador completo de ensamblaje de cromosomas de la secuencia del genoma humano. Hoy en día, el navegador es utilizado por genetistas, biólogos moleculares y médicos, así como por estudiantes y profesores de evolución para acceder a la información genómica. [5]
En los años transcurridos desde su creación, el navegador UCSC se ha ampliado para incluir secuencias genómicas de todas las especies de vertebrados e invertebrados seleccionados para los que hay secuencias genómicas de alta cobertura disponibles, [6] incluyendo ahora 108 especies . Una alta cobertura es necesaria para permitir la superposición para guiar la construcción de regiones contiguas más grandes. Las secuencias genómicas con menor cobertura se incluyen en pistas de alineamiento múltiple en algunos navegadores, pero la naturaleza fragmentada de estos ensamblajes no los hace adecuados para construir navegadores con todas las funciones. (más abajo se ofrece más información sobre pistas de alineamiento múltiple). Las especies alojadas en navegadores de genoma con todas las funciones se muestran en la tabla. [7]
Además de estas 108 especies y sus ensamblajes, el UCSC Genome Browser también ofrece Assembly Hubs, directorios de datos genómicos accesibles desde la web que se pueden ver en el navegador e incluyen ensamblajes que no están alojados de forma nativa en él. Allí, los usuarios pueden cargar y anotar ensamblajes únicos para los que la UCSC no proporciona una base de datos de anotaciones. Se puede ver una lista completa de especies y sus ensamblajes en el Portal GenArk, incluidos 2589 ensamblajes alojados tanto en la base de datos del UCSC Genome Browser como en Assembly Hubs. Se puede ver un ejemplo en el centro de ensamblajes del Vertebrate Genomes Project.
La gran cantidad de datos sobre sistemas biológicos que se acumula en la literatura hace necesario recopilar y digerir información utilizando las herramientas de la bioinformática . El UCSC Genome Browser presenta una colección diversa de conjuntos de datos de anotación (conocidos como "tracks" y presentados gráficamente), que incluyen alineaciones de ARNm, mapeos de elementos de repetición de ADN, predicciones genéticas, datos de expresión genética, datos de asociación de enfermedades (que representan las relaciones de los genes con las enfermedades) y mapeos de chips genéticos disponibles comercialmente (por ejemplo, Illumina y Agilent ). El paradigma básico de visualización es mostrar la secuencia del genoma en la dimensión horizontal y mostrar representaciones gráficas de las ubicaciones de los ARNm, predicciones genéticas, etc. Los bloques de color a lo largo del eje de coordenadas muestran las ubicaciones de las alineaciones de los diversos tipos de datos. La capacidad de mostrar esta gran variedad de tipos de datos en un solo eje de coordenadas hace que el navegador sea una herramienta útil para la integración vertical de los datos. [8]
Para encontrar un gen específico o una región genómica, el usuario puede escribir el nombre del gen, una secuencia de ADN, un número de acceso para un ARN, el nombre de una banda citológica genómica (por ejemplo, 20p13 para la banda 13 en el brazo corto de chr20) o una posición cromosómica (chr17:38,450,000-38,531,000 para la región alrededor del gen BRCA1 ).
La presentación de los datos en formato gráfico permite al navegador presentar enlaces de acceso a información detallada sobre cualquiera de las anotaciones. La página de detalles genéticos de la pista UCSC Genes proporciona una gran cantidad de enlaces a información más específica sobre el gen en muchos otros recursos de datos, como Online Mendelian Inheritance in Man ( OMIM ) y SwissProt .
Diseñado para la presentación de datos complejos y voluminosos, el navegador UCSC está optimizado para la velocidad. Al prealinear millones de secuencias de ARN de GenBank con cada uno de los 244 conjuntos de genomas (muchas de las 108 especies tienen más de un conjunto), el navegador permite el acceso instantáneo a las alineaciones de cualquier ARN con cualquiera de las especies alojadas.
La yuxtaposición de los distintos tipos de datos permite a los investigadores mostrar exactamente la combinación de datos que responderá a preguntas específicas. Una función de salida en formato pdf/postscript permite exportar una imagen lista para imprimir para su publicación en revistas académicas.
Una característica única y útil que distingue al navegador UCSC de otros navegadores de genomas es la naturaleza continuamente variable de la visualización. Se pueden visualizar secuencias de cualquier tamaño, desde una única base de ADN hasta el cromosoma completo (cromosoma humano 1 = 245 millones de bases, Mb) con pistas de anotaciones completas. Los investigadores pueden visualizar un único gen, un único exón o una banda cromosómica completa, mostrando docenas o cientos de genes y cualquier combinación de las numerosas anotaciones. Una práctica función de arrastrar y hacer zoom permite al usuario elegir cualquier región en la imagen del genoma y ampliarla para que ocupe la pantalla completa.
Los investigadores también pueden utilizar el navegador para visualizar sus propios datos a través de la herramienta Custom Tracks. Esta función permite a los usuarios cargar un archivo con sus propios datos y visualizarlos en el contexto del ensamblaje del genoma de referencia. Los usuarios también pueden utilizar los datos alojados por la UCSC, creando subconjuntos de los datos que elijan con la herramienta Table Browser (como solo los SNP que cambian la secuencia de aminoácidos de una proteína) y visualizar este subconjunto específico de los datos en el navegador como Custom Track.
Cualquier vista del navegador creada por un usuario, incluidas aquellas que contienen pistas personalizadas, se puede compartir con otros usuarios a través de la herramienta Sesiones guardadas.
Debajo de las imágenes que se muestran en el explorador de genomas de la UCSC hay once categorías de pistas adicionales que se pueden seleccionar y visualizar junto con los datos originales. Los investigadores pueden seleccionar las pistas que mejor representen su consulta para permitir que se muestren datos más aplicables según el tipo y la profundidad de la investigación que se esté realizando. Estas categorías son las siguientes:
Categoría | Descripción | Ejemplos de pistas |
---|---|---|
Mapeo y secuenciación | Permite controlar el estilo de secuenciación que se muestra (por ejemplo, coordenadas genómicas, secuencias, espacios vacíos, etc.). También puede mostrar un recorrido basado en porcentajes para indicarle al investigador si un elemento genético en particular es más frecuente en el área especificada. | Posición base. Mapeabilidad, brecha |
Genes y predicciones genéticas | Ofrece programas para predecir genes y las bases de datos de las que se deben mostrar los genes conocidos. Las diferentes pistas permiten al usuario visualizar modelos genéticos , regiones codificantes de proteínas , ARN no codificante , etc. Los usuarios pueden comparar rápidamente su consulta con conjuntos de genes preseleccionados para buscar correlaciones entre conjuntos de genes conocidos. | GENCODE v24, Geneid Genes, Pfam en el gen UCSC |
Fenotipo y literatura | Bases de datos que contienen estilos específicos de datos fenotípicos . Estas pistas están destinadas principalmente a médicos y otros profesionales interesados en trastornos genéticos (por ejemplo, investigadores en genética, estudiantes de ciencias y medicina). Los usuarios pueden visualizar una pista que muestra las posiciones genómicas de las variantes de aminoácidos naturales y artificiales. | Alelos OMIM, superpista de expresión del gen del cáncer |
COVID-19 | Muestra datos de estudios de asociación del genoma completo (GWAS) y experimentos de llamada de variantes para identificar variantes genéticas asociadas con la gravedad y la susceptibilidad a la enfermedad COVID-19 . | COVID GWAS v3, COVID GWAS v4, variantes dañinas raras |
Secuenciación de ARN de una sola célula | Ofrece datos de expresión de ARN a nivel de células individuales ( scRNA-Seq ) de diferentes tejidos humanos (por ejemplo, riñón, colon, corazón, músculo, placenta, células mononucleares de sangre periférica, etc.) | Sangre (PBMC), Atlas de células cardíacas, Wang de colon |
ARNm y EST | Muestra etiquetas de secuencia expresada (EST) y ARN mensajero . Las EST son secuencias de lectura única, normalmente de unas 500 bases de longitud, que suelen representar fragmentos de genes transcritos. Las pistas de ARNm permiten la visualización de datos de alineamiento de ARNm en humanos, así como en otras especies. También hay pistas que permiten la comparación con regiones de EST que muestran signos de empalme cuando se alinean con el genoma. | EST humanos, otros EST, otros ARNm |
Expresión | Ofrece datos genéticos y expresión génica relacionada en áreas de tejido. Esto permite a los usuarios descubrir si un gen o secuencia en particular está vinculado con varios tejidos en todo el cuerpo. Las pistas de expresión también permiten visualizar datos de consenso sobre los tejidos que expresan la región de consulta. | Gen GTEx, Affy U133 |
Regulación | Información relevante para la regulación de la transcripción a partir de diferentes estudios. Los usuarios pueden ajustar las pistas de regulación para agregar un gráfico de visualización al navegador del genoma. Estas visualizaciones permiten obtener más detalles sobre las regiones reguladoras, los sitios de unión de los factores de transcripción , los sitios de unión del ARN, las variantes reguladoras, los haplotipos y otros elementos reguladores . | Ajustes de superpista de regulación ENCODE, ORegAnno |
Genómica comparativa | Muestra datos de conservación de secuencias , incluyendo primates, vertebrados, mamíferos, entre otros. Los alineamientos comparativos dan una visión gráfica de las relaciones evolutivas entre especies. Esto lo convierte en una herramienta útil tanto para el investigador, que puede visualizar regiones de conservación entre un grupo de especies y hacer predicciones sobre elementos funcionales en regiones de ADN desconocidas, como en el aula como una herramienta para ilustrar uno de los argumentos más convincentes para la evolución de las especies. La pista de conservación en el ensamblaje humano muestra claramente que cuanto más se retrocede en el tiempo evolutivo (esta pista incluye 100 especies), menos homología de secuencia permanece, pero las regiones funcionalmente importantes del genoma (por ejemplo, exones y elementos de control, pero no intrones típicamente) se conservan mucho más atrás en el tiempo evolutivo. | Conservación, Cactus 241-way, Cons 30 Primates |
Variación | Compara la secuencia buscada con variaciones conocidas. Por ejemplo, todo el contenido de cada versión de la base de datos dbSNP del NCBI se asigna a genomas humanos, de ratón y de otros tipos. Esto incluye los resultados del Proyecto 1000 Genomas, tan pronto como se publican en dbSNP. Otros tipos de datos de variación incluyen datos de variación del número de copias ( CNV ) y frecuencias alélicas de la población humana del proyecto HapMap . | SNP comunes (150), todos los SNP (146), SNP marcados (144) |
Se repite | Permite realizar un seguimiento de distintos tipos de secuencias repetidas en la consulta. Los usuarios pueden ver rápidamente si su búsqueda específica contiene grandes cantidades de secuencias repetidas de un vistazo y ajustar su búsqueda o visualización del seguimiento en consecuencia. | RepeatMasker, Microsatélite, WM + SDust |
El sitio de la UCSC alberga un conjunto de herramientas de análisis del genoma, incluida una interfaz gráfica de usuario con todas las funciones para extraer información de la base de datos del navegador, una herramienta de alineación de secuencias en formato FASTA BLAT [9] que también es útil para encontrar secuencias de manera simple en la secuencia masiva (genoma humano = 3,23 mil millones de bases [Gb]) de cualquiera de los genomas destacados.
La herramienta LiftOver utiliza alineaciones de todo el genoma para permitir la conversión de secuencias de un conjunto a otro o entre especies. La herramienta Genome Graphs permite a los usuarios ver todos los cromosomas a la vez y mostrar los resultados de los estudios de asociación de todo el genoma (GWAS). El Gene Sorter muestra los genes agrupados por parámetros no vinculados a la ubicación del genoma, como el patrón de expresión en los tejidos.
El código base del navegador UCSC es de código abierto para uso no comercial y muchos grupos de investigación lo replican localmente, lo que permite la visualización privada de datos en el contexto de los datos públicos. El navegador UCSC está replicado en varias ubicaciones en todo el mundo, como se muestra en la tabla.
Sitios espejo oficiales |
---|
Espejo europeo: mantenido por la UCSC en la Universidad de Bielefeld , Alemania |
Espejo asiático: mantenido por la UCSC en RIKEN , Yokohama, Japón |
El código del navegador también se utiliza en instalaciones separadas del UCSC Malaria Genome Browser y del Archaea Browser.