Navegador de genomas de la UCSC

El navegador del genoma de la UCSC
Contenido
Descripción	El navegador del genoma de la UCSC
Contacto
Centro de investigación	Universidad de California Santa Cruz
Laboratorio	Centro de Ciencias e Ingeniería Biomolecular, Facultad de Ingeniería Baskin
Cita primaria	Navarro González & al. (2021)
Acceso
Sitio web	genoma.ucsc.edu

Navegador de genoma en línea y descargable, alojado por la Universidad de California, Santa Cruz

El UCSC Genome Browser es un navegador de genoma en línea y descargable alojado por la Universidad de California, Santa Cruz (UCSC). ^[2]^[3]^[4] Es un sitio web interactivo que ofrece acceso a datos de secuencias genómicas de una variedad de especies de vertebrados e invertebrados y organismos modelo importantes , integrado con una gran colección de anotaciones alineadas. El navegador es un visor gráfico optimizado para admitir un rendimiento interactivo rápido y es un conjunto de herramientas de código abierto basado en la web construido sobre una base de datos MySQL para una rápida visualización, examen y consulta de los datos en muchos niveles. La base de datos del navegador de genoma, las herramientas de navegación, los archivos de datos descargables y la documentación se pueden encontrar en el sitio web de bioinformática del genoma de la UCSC.

Historia

Inicialmente construido y aún administrado por Jim Kent , entonces estudiante de posgrado, y David Haussler , profesor de Ciencias de la Computación (ahora Ingeniería Biomolecular) en la Universidad de California, Santa Cruz en 2000, el Navegador Genómico de la UCSC comenzó como un recurso para la distribución de los frutos iniciales del Proyecto Genoma Humano . Financiado por el Instituto Médico Howard Hughes y el Instituto Nacional de Investigación del Genoma Humano, NHGRI (uno de los Institutos Nacionales de Salud de EE. UU .), el navegador ofrecía una visualización gráfica del primer borrador completo de ensamblaje de cromosomas de la secuencia del genoma humano. Hoy en día, el navegador es utilizado por genetistas, biólogos moleculares y médicos, así como por estudiantes y profesores de evolución para acceder a la información genómica. ^[5]

Genomas

En los años transcurridos desde su creación, el navegador UCSC se ha ampliado para incluir secuencias genómicas de todas las especies de vertebrados e invertebrados seleccionados para los que hay secuencias genómicas de alta cobertura disponibles, ^[6] incluyendo ahora 108 especies . Una alta cobertura es necesaria para permitir la superposición para guiar la construcción de regiones contiguas más grandes. Las secuencias genómicas con menor cobertura se incluyen en pistas de alineamiento múltiple en algunos navegadores, pero la naturaleza fragmentada de estos ensamblajes no los hace adecuados para construir navegadores con todas las funciones. (más abajo se ofrece más información sobre pistas de alineamiento múltiple). Las especies alojadas en navegadores de genoma con todas las funciones se muestran en la tabla. ^[7]

Especies
grandes simios	babuino , bonobo , chimpancé , gibón , gorila , humano , orangután
primates no simios	gálago , mono dorado de nariz chata , mono verde , tití , lémur ratón , mono narigudo , macaco rhesus , mono ardilla , tarsero , musaraña arbórea
mamíferos no primates	alpaca , armadillo , bisonte , kiwi marrón , gato , hámster chino , pangolín chino , vaca , perro , delfín , elefante , hurón , conejillo de indias , foca monje hawaiana , erizo , caballo , rata canguro , murciélago marrón pequeño , lémur volador malayo , manatí , megamurciélago , ballena minke , ratón , rata topo desnuda , zarigüeya , panda , cerdo , pika , ornitorrinco , conejo , rata , daman , oveja , musaraña , perezoso , ardilla , demonio de Tasmania , tenrec , ualabí , rinoceronte blanco
cordados no mamíferos	Rana africana de garras , caimán americano , bacalao del Atlántico , periquito , pollo , celacanto , tiburón elefante , fugu , culebra de liga , águila dorada , lamprea , lagarto , medaka , pinzón terrestre mediano , tilapia del Nilo , tortuga pintada , espinoso , Tetraodon , Nanorana parkeri , pavo , Xenopus tropicalis , pinzón cebra , pez cebra
invertebrados	Anopheles gambiae , Apis mellifera , Caenorhabditis spp (5), liebre de mar de California , Ciona intestinalis , Drosophila spp. (11), Lanzarote , Pristionchus pacificus , ascidia , erizo de mar , levadura
virus	Ébolavirus , coronavirus SARS-CoV-2

Además de estas 108 especies y sus ensamblajes, el UCSC Genome Browser también ofrece Assembly Hubs, directorios de datos genómicos accesibles desde la web que se pueden ver en el navegador e incluyen ensamblajes que no están alojados de forma nativa en él. Allí, los usuarios pueden cargar y anotar ensamblajes únicos para los que la UCSC no proporciona una base de datos de anotaciones. Se puede ver una lista completa de especies y sus ensamblajes en el Portal GenArk, incluidos 2589 ensamblajes alojados tanto en la base de datos del UCSC Genome Browser como en Assembly Hubs. Se puede ver un ejemplo en el centro de ensamblajes del Vertebrate Genomes Project.

Funcionalidad del navegador

La gran cantidad de datos sobre sistemas biológicos que se acumula en la literatura hace necesario recopilar y digerir información utilizando las herramientas de la bioinformática . El UCSC Genome Browser presenta una colección diversa de conjuntos de datos de anotación (conocidos como "tracks" y presentados gráficamente), que incluyen alineaciones de ARNm, mapeos de elementos de repetición de ADN, predicciones genéticas, datos de expresión genética, datos de asociación de enfermedades (que representan las relaciones de los genes con las enfermedades) y mapeos de chips genéticos disponibles comercialmente (por ejemplo, Illumina y Agilent ). El paradigma básico de visualización es mostrar la secuencia del genoma en la dimensión horizontal y mostrar representaciones gráficas de las ubicaciones de los ARNm, predicciones genéticas, etc. Los bloques de color a lo largo del eje de coordenadas muestran las ubicaciones de las alineaciones de los diversos tipos de datos. La capacidad de mostrar esta gran variedad de tipos de datos en un solo eje de coordenadas hace que el navegador sea una herramienta útil para la integración vertical de los datos. ^[8]

Para encontrar un gen específico o una región genómica, el usuario puede escribir el nombre del gen, una secuencia de ADN, un número de acceso para un ARN, el nombre de una banda citológica genómica (por ejemplo, 20p13 para la banda 13 en el brazo corto de chr20) o una posición cromosómica (chr17:38,450,000-38,531,000 para la región alrededor del gen BRCA1 ).

La presentación de los datos en formato gráfico permite al navegador presentar enlaces de acceso a información detallada sobre cualquiera de las anotaciones. La página de detalles genéticos de la pista UCSC Genes proporciona una gran cantidad de enlaces a información más específica sobre el gen en muchos otros recursos de datos, como Online Mendelian Inheritance in Man ( OMIM ) y SwissProt .

Diseñado para la presentación de datos complejos y voluminosos, el navegador UCSC está optimizado para la velocidad. Al prealinear millones de secuencias de ARN de GenBank con cada uno de los 244 conjuntos de genomas (muchas de las 108 especies tienen más de un conjunto), el navegador permite el acceso instantáneo a las alineaciones de cualquier ARN con cualquiera de las especies alojadas.

Productos genéticos múltiples del gen FOXP2 (arriba) y conservación evolutiva mostrada en alineación múltiple (abajo)

La yuxtaposición de los distintos tipos de datos permite a los investigadores mostrar exactamente la combinación de datos que responderá a preguntas específicas. Una función de salida en formato pdf/postscript permite exportar una imagen lista para imprimir para su publicación en revistas académicas.

Una característica única y útil que distingue al navegador UCSC de otros navegadores de genomas es la naturaleza continuamente variable de la visualización. Se pueden visualizar secuencias de cualquier tamaño, desde una única base de ADN hasta el cromosoma completo (cromosoma humano 1 = 245 millones de bases, Mb) con pistas de anotaciones completas. Los investigadores pueden visualizar un único gen, un único exón o una banda cromosómica completa, mostrando docenas o cientos de genes y cualquier combinación de las numerosas anotaciones. Una práctica función de arrastrar y hacer zoom permite al usuario elegir cualquier región en la imagen del genoma y ampliarla para que ocupe la pantalla completa.

Los investigadores también pueden utilizar el navegador para visualizar sus propios datos a través de la herramienta Custom Tracks. Esta función permite a los usuarios cargar un archivo con sus propios datos y visualizarlos en el contexto del ensamblaje del genoma de referencia. Los usuarios también pueden utilizar los datos alojados por la UCSC, creando subconjuntos de los datos que elijan con la herramienta Table Browser (como solo los SNP que cambian la secuencia de aminoácidos de una proteína) y visualizar este subconjunto específico de los datos en el navegador como Custom Track.

Cualquier vista del navegador creada por un usuario, incluidas aquellas que contienen pistas personalizadas, se puede compartir con otros usuarios a través de la herramienta Sesiones guardadas.

Pistas

Debajo de las imágenes que se muestran en el explorador de genomas de la UCSC hay once categorías de pistas adicionales que se pueden seleccionar y visualizar junto con los datos originales. Los investigadores pueden seleccionar las pistas que mejor representen su consulta para permitir que se muestren datos más aplicables según el tipo y la profundidad de la investigación que se esté realizando. Estas categorías son las siguientes:

Categorías
Categoría	Descripción	Ejemplos de pistas
Mapeo y secuenciación	Permite controlar el estilo de secuenciación que se muestra (por ejemplo, coordenadas genómicas, secuencias, espacios vacíos, etc.). También puede mostrar un recorrido basado en porcentajes para indicarle al investigador si un elemento genético en particular es más frecuente en el área especificada.	Posición base. Mapeabilidad, brecha
Genes y predicciones genéticas	Ofrece programas para predecir genes y las bases de datos de las que se deben mostrar los genes conocidos. Las diferentes pistas permiten al usuario visualizar modelos genéticos , regiones codificantes de proteínas , ARN no codificante , etc. Los usuarios pueden comparar rápidamente su consulta con conjuntos de genes preseleccionados para buscar correlaciones entre conjuntos de genes conocidos.	GENCODE v24, Geneid Genes, Pfam en el gen UCSC
Fenotipo y literatura	Bases de datos que contienen estilos específicos de datos fenotípicos . Estas pistas están destinadas principalmente a médicos y otros profesionales interesados en trastornos genéticos (por ejemplo, investigadores en genética, estudiantes de ciencias y medicina). Los usuarios pueden visualizar una pista que muestra las posiciones genómicas de las variantes de aminoácidos naturales y artificiales.	Alelos OMIM, superpista de expresión del gen del cáncer
COVID-19	Muestra datos de estudios de asociación del genoma completo (GWAS) y experimentos de llamada de variantes para identificar variantes genéticas asociadas con la gravedad y la susceptibilidad a la enfermedad COVID-19 .	COVID GWAS v3, COVID GWAS v4, variantes dañinas raras
Secuenciación de ARN de una sola célula	Ofrece datos de expresión de ARN a nivel de células individuales ( scRNA-Seq ) de diferentes tejidos humanos (por ejemplo, riñón, colon, corazón, músculo, placenta, células mononucleares de sangre periférica, etc.)	Sangre (PBMC), Atlas de células cardíacas, Wang de colon
ARNm y EST	Muestra etiquetas de secuencia expresada (EST) y ARN mensajero . Las EST son secuencias de lectura única, normalmente de unas 500 bases de longitud, que suelen representar fragmentos de genes transcritos. Las pistas de ARNm permiten la visualización de datos de alineamiento de ARNm en humanos, así como en otras especies. También hay pistas que permiten la comparación con regiones de EST que muestran signos de empalme cuando se alinean con el genoma.	EST humanos, otros EST, otros ARNm
Expresión	Ofrece datos genéticos y expresión génica relacionada en áreas de tejido. Esto permite a los usuarios descubrir si un gen o secuencia en particular está vinculado con varios tejidos en todo el cuerpo. Las pistas de expresión también permiten visualizar datos de consenso sobre los tejidos que expresan la región de consulta.	Gen GTEx, Affy U133
Regulación	Información relevante para la regulación de la transcripción a partir de diferentes estudios. Los usuarios pueden ajustar las pistas de regulación para agregar un gráfico de visualización al navegador del genoma. Estas visualizaciones permiten obtener más detalles sobre las regiones reguladoras, los sitios de unión de los factores de transcripción , los sitios de unión del ARN, las variantes reguladoras, los haplotipos y otros elementos reguladores .	Ajustes de superpista de regulación ENCODE, ORegAnno
Genómica comparativa	Muestra datos de conservación de secuencias , incluyendo primates, vertebrados, mamíferos, entre otros. Los alineamientos comparativos dan una visión gráfica de las relaciones evolutivas entre especies. Esto lo convierte en una herramienta útil tanto para el investigador, que puede visualizar regiones de conservación entre un grupo de especies y hacer predicciones sobre elementos funcionales en regiones de ADN desconocidas, como en el aula como una herramienta para ilustrar uno de los argumentos más convincentes para la evolución de las especies. La pista de conservación en el ensamblaje humano muestra claramente que cuanto más se retrocede en el tiempo evolutivo (esta pista incluye 100 especies), menos homología de secuencia permanece, pero las regiones funcionalmente importantes del genoma (por ejemplo, exones y elementos de control, pero no intrones típicamente) se conservan mucho más atrás en el tiempo evolutivo.	Conservación, Cactus 241-way, Cons 30 Primates
Variación	Compara la secuencia buscada con variaciones conocidas. Por ejemplo, todo el contenido de cada versión de la base de datos dbSNP del NCBI se asigna a genomas humanos, de ratón y de otros tipos. Esto incluye los resultados del Proyecto 1000 Genomas, tan pronto como se publican en dbSNP. Otros tipos de datos de variación incluyen datos de variación del número de copias ( CNV ) y frecuencias alélicas de la población humana del proyecto HapMap .	SNP comunes (150), todos los SNP (146), SNP marcados (144)
Se repite	Permite realizar un seguimiento de distintos tipos de secuencias repetidas en la consulta. Los usuarios pueden ver rápidamente si su búsqueda específica contiene grandes cantidades de secuencias repetidas de un vistazo y ajustar su búsqueda o visualización del seguimiento en consecuencia.	RepeatMasker, Microsatélite, WM + SDust

Herramientas de análisis

El sitio de la UCSC alberga un conjunto de herramientas de análisis del genoma, incluida una interfaz gráfica de usuario con todas las funciones para extraer información de la base de datos del navegador, una herramienta de alineación de secuencias en formato FASTA BLAT ^[9] que también es útil para encontrar secuencias de manera simple en la secuencia masiva (genoma humano = 3,23 mil millones de bases [Gb]) de cualquiera de los genomas destacados.

La herramienta LiftOver utiliza alineaciones de todo el genoma para permitir la conversión de secuencias de un conjunto a otro o entre especies. La herramienta Genome Graphs permite a los usuarios ver todos los cromosomas a la vez y mostrar los resultados de los estudios de asociación de todo el genoma (GWAS). El Gene Sorter muestra los genes agrupados por parámetros no vinculados a la ubicación del genoma, como el patrón de expresión en los tejidos.

Código abierto / espejos

El código base del navegador UCSC es de código abierto para uso no comercial y muchos grupos de investigación lo replican localmente, lo que permite la visualización privada de datos en el contexto de los datos públicos. El navegador UCSC está replicado en varias ubicaciones en todo el mundo, como se muestra en la tabla.

Sitios espejo oficiales
Espejo europeo: mantenido por la UCSC en la Universidad de Bielefeld , Alemania
Espejo asiático: mantenido por la UCSC en RIKEN , Yokohama, Japón

El código del navegador también se utiliza en instalaciones separadas del UCSC Malaria Genome Browser y del Archaea Browser.

Véase también

Referencias

^ Navarro González, J; Zweig, AS; Speir, ML; Schmelter, D; Rosenbloom, KR; Raney, BJ; Powell, CC; Nassar, LR; Maulding, Dakota del Norte; Lee, CM; Lee, BT; Hinrichs, AS; Fyfe, CA; Fernández, JD; Diekhans, M; Clawson, H; Casper, J; Benet-Pagès, A; Barbero, médico de cabecera; Haussler, D; Kuhn, RM; Haeussler, M; Kent, WJ (8 de enero de 2021). "La base de datos del UCSC Genome Browser: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi : 10.1093/nar/gkaa1070. ISSN 0305-1048. Número de modelo : PMID 33221922.
^ Fujita PA, Rhead B, Zweig AS, Hinrichs AS, Karolchik D, Cline MS, Goldman M, Barber GP, Clawson H, Coelho A, Diekhans M, Dreszer TR, Giardine BM, Harte RA, Hillman-Jackson J, Hsu F, Kirkup V, Kuhn RM, Learned K, Li CH, Meyer LR, Pohl A, Raney BJ, Rosenbloom KR, Smith KE, Haussler D, Kent WJ (enero de 2011). "Base de datos del navegador de genomas de la UCSC: actualización de 2011". Nucleic Acids Res . 39 (número de la base de datos): D876-82. doi :10.1093/nar/gkq963. PMC 3242726. PMID 20959295 .
^ Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D (junio de 2002). "El navegador del genoma humano en la UCSC". Genome Res . 12 (6): 996–1006. doi :10.1101/gr.229102. PMC 186604 . PMID 12045153.
^ Kuhn, RM; Karolchik, D.; Zweig, AS; Wang, T.; Smith, KE; Rosenbloom, KR; Rhead, B.; Raney, BJ; Pohl, A.; Pheasant, M.; Meyer, L. (1 de enero de 2009). "Base de datos del navegador de genoma de la UCSC: actualización de 2009". Nucleic Acids Research . 37 (Base de datos): D755–D761. doi :10.1093/nar/gkn875. ISSN 0305-1048. PMC 2686463 . PMID 18996895.
^ "Historia | Instituto de Genómica". genomics.ucsc.edu . Consultado el 7 de agosto de 2022 .
^ "Alta cobertura" aquí significa una cobertura 6x, o seis veces más secuencia total que el tamaño del genoma.
^ "UCSC Genome Browser: Agradecimientos". genome.ucsc.edu . Consultado el 27 de julio de 2022 .
^ Navarro Gonzalez, Jairo; Zweig, Ann S.; Speir, Matthew L.; Schmelter, Daniel; Rosenbloom, Kate R.; Raney, Brian J.; Powell, Conner C.; Nassar, Luis R.; Maulding, Nathan D.; Lee, Christopher M.; Lee, Brian T. (8 de enero de 2021). "Base de datos del navegador de genoma de la UCSC: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi :10.1093/nar/gkaa1070. ISSN 1362-4962. PMC 7779060 . PMID 33221922.
^ Kent, WJ. (abril de 2002). "BLAT: la herramienta de alineamiento similar a BLAST". Genome Res . 12 (4): 656–64. doi :10.1101/gr.229202. PMC 187518. PMID 11932250 .

Enlaces externos

Sitio web oficial
Capacitación en línea/Tutoriales y guías de usuario
Tutoriales sobre el genoma de la UCSC (videos de YouTube )

[1] Navarro González, J; Zweig, AS; Speir, ML; Schmelter, D; Rosenbloom, KR; Raney, BJ; Powell, CC; Nassar, LR; Maulding, Dakota del Norte; Lee, CM; Lee, BT; Hinrichs, AS; Fyfe, CA; Fernández, JD; Diekhans, M; Clawson, H; Casper, J; Benet-Pagès, A; Barbero, médico de cabecera; Haussler, D; Kuhn, RM; Haeussler, M; Kent, WJ (8 de enero de 2021). "La base de datos del UCSC Genome Browser: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi : 10.1093/nar/gkaa1070. ISSN 0305-1048. Número de modelo : PMID 33221922.

[2] Fujita PA, Rhead B, Zweig AS, Hinrichs AS, Karolchik D, Cline MS, Goldman M, Barber GP, Clawson H, Coelho A, Diekhans M, Dreszer TR, Giardine BM, Harte RA, Hillman-Jackson J, Hsu F, Kirkup V, Kuhn RM, Learned K, Li CH, Meyer LR, Pohl A, Raney BJ, Rosenbloom KR, Smith KE, Haussler D, Kent WJ (enero de 2011). "Base de datos del navegador de genomas de la UCSC: actualización de 2011". Nucleic Acids Res . 39 (número de la base de datos): D876-82. doi :10.1093/nar/gkq963. PMC 3242726. PMID 20959295 .

[3] Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D (junio de 2002). "El navegador del genoma humano en la UCSC". Genome Res . 12 (6): 996–1006. doi :10.1101/gr.229102. PMC 186604 . PMID 12045153.

[4] Kuhn, RM; Karolchik, D.; Zweig, AS; Wang, T.; Smith, KE; Rosenbloom, KR; Rhead, B.; Raney, BJ; Pohl, A.; Pheasant, M.; Meyer, L. (1 de enero de 2009). "Base de datos del navegador de genoma de la UCSC: actualización de 2009". Nucleic Acids Research . 37 (Base de datos): D755–D761. doi :10.1093/nar/gkn875. ISSN 0305-1048. PMC 2686463 . PMID 18996895.

[5] "Historia | Instituto de Genómica". genomics.ucsc.edu . Consultado el 7 de agosto de 2022 .

[6] "Alta cobertura" aquí significa una cobertura 6x, o seis veces más secuencia total que el tamaño del genoma.

[7] "UCSC Genome Browser: Agradecimientos". genome.ucsc.edu . Consultado el 27 de julio de 2022 .

[8] Navarro Gonzalez, Jairo; Zweig, Ann S.; Speir, Matthew L.; Schmelter, Daniel; Rosenbloom, Kate R.; Raney, Brian J.; Powell, Conner C.; Nassar, Luis R.; Maulding, Nathan D.; Lee, Christopher M.; Lee, Brian T. (8 de enero de 2021). "Base de datos del navegador de genoma de la UCSC: actualización de 2021". Investigación de ácidos nucleicos . 49 (D1): D1046–D1057. doi :10.1093/nar/gkaa1070. ISSN 1362-4962. PMC 7779060 . PMID 33221922.

[9] Kent, WJ. (abril de 2002). "BLAT: la herramienta de alineamiento similar a BLAST". Genome Res . 12 (4): 656–64. doi :10.1101/gr.229202. PMC 187518. PMID 11932250 .