Secuencia de referencia

Secuencia de referencia
Contenido
Descripción	base de datos curada y no redundante de secuencias de genomas.
Contacto
Centro de investigación	Centro Nacional de Información Biotecnológica
Cita primaria	Pruitt KD y otros (2005)
Acceso
Sitio web	https://www.ncbi.nlm.nih.gov/RefSeq

Base de datos que contiene secuencias de referencia de genes, proteínas y transcripciones.

La base de datos de secuencias de referencia ( RefSeq ) ^[1] es una colección de acceso abierto , anotada y curada de secuencias de nucleótidos ( ADN , ARN ) y sus productos proteicos disponibles públicamente . RefSeq se introdujo en 2000. ^[2]^[3] Esta base de datos está construida por el Centro Nacional de Información Biotecnológica (NCBI) y, a diferencia de GenBank , proporciona solo un único registro para cada molécula biológica natural (es decir, ADN, ARN o proteína) para los principales organismos que van desde virus hasta bacterias y eucariotas .

Para cada organismo modelo , RefSeq tiene como objetivo proporcionar registros separados y vinculados para el ADN genómico, las transcripciones de genes y las proteínas que surgen de esas transcripciones. RefSeq se limita a los organismos principales para los que hay datos suficientes disponibles (121.461 organismos "nombrados" distintos a julio de 2022), ^[4] mientras que GenBank incluye secuencias para cualquier organismo enviado (aproximadamente 504.000 especies descritas formalmente ). ^[5]

Categorías de RefSeq

La colección RefSeq está compuesta por distintos tipos de datos, con orígenes diferentes, por lo que es necesario establecer categorías e identificadores estándar para almacenar cada tipo de datos. Las categorías más importantes son:

Categorías de acceso y tipos de moléculas de RefSeq
Categoría	Descripción
CAROLINA DEL NORTE	Moléculas genómicas completas
NG	Región genómica incompleta
Nuevo Méjico	ARNm
NR	ARNnc
notario público	Proteína
XM	modelo de ARNm previsto
XR	modelo de ncRNA previsto
XP	Modelo de proteína predicho (secuencias eucariotas)
Trabajo en equipo	Modelo de proteína predicho (secuencias procariotas)

Para obtener más detalles y más categorías, consulte la Tabla 1 en el Capítulo 18 del libro The Reference Sequence (RefSeq) Database.

Proyectos RefSeq

Actualmente, el NCBI está desarrollando varios proyectos para mejorar los servicios RefSeq , a menudo en colaboración con centros de investigación como EMBL-EBI:

Consensus CDS (CCDS): este proyecto tiene como objetivo identificar un conjunto básico de regiones codificantes de proteínas humanas y de ratón y estandarizar conjuntos de genes con niveles altos y consistentes de calidad de anotación genómica. Este proyecto se anunció en 2009 y todavía está en desarrollo.^[6]^[7]

Elementos funcionales de RefSeq (RefSeqFE): se centra en describir elementos funcionales no génicos que son regiones reguladoras de genes como: potenciadores , silenciadores , regiones hipersensibles a la DNasa I , orígenes de replicación del ADN , etc.). El alcance actual de este proyecto está restringido a los genomas humano y de ratón. ^[8]
RefSeqGene: Su objetivo principal es definir secuencias genómicas que se utilizarán como estándares de referencia para genes bien caracterizados. Las secuencias de ARNm , proteínas y cromosomas descritas anteriormente tienen la debilidad de no proporcionar coordenadas genómicas explícitas de las regiones intrónicas y flanqueantes de los genes, así como de mostrar coordenadas extrañamente grandes que cambian con cada nuevo ensamblaje del genoma. El proyecto RefSeqGene está diseñado para eliminar estos errores. ^[9]
Loci específicos: este proyecto registra marcadores moleculares, especialmente loci de ARN ribosómico y codificador de proteínas que se utilizan para análisis filogenéticos y de códigos de barras . El alcance de este proyecto incluye secuencias para organismos Archaea , Bacteria y Fungi , accesibles a través de consultas Entrez y BLAST . También incluye secuencias GenBank para animales , plantas y protistas , accesibles a través de consultas BLAST. ^[10]
Variación de virus (ViV): es un recurso específico de herramientas de análisis y procesamiento de datos de secuencias para la visualización y recuperación de secuencias de varios grupos virales, como el virus de la influenza , el virus del Ébola , el coronavirus MERS o el virus del Zika . Se incluyen periódicamente nuevos virus, herramientas de procesamiento y otras características. ^[11]
RefSeq Select: Este proyecto tiene como objetivo seleccionar conjuntos de datos de transcripciones de RefSeq Select , como los más representativos para cada gen codificador de proteínas, en función de múltiples criterios: uso previo en bases de datos clínicas, expresión de transcripción, conservación evolutiva de la región codificante, etc. Dado que muchos genes están representados por múltiples transcripciones/proteínas RefSeq debido al proceso biológico de empalme alternativo , esta complejidad es problemática para estudios como la genómica comparativa o el intercambio de datos de variantes clínicas. ^[12]
MANE ( Matched A nnotation from the NCBI and EMBL -EBI): Es un proyecto colaborativo entre NCBI y EMBL - EBI cuyo objetivo principal es definir un conjunto de transcripciones y sus proteínas para todos los genes codificadores de proteínas en el genoma humano. Al hacer eso, se reducen las diferencias en la anotación de transcripciones entre los sistemas de anotación RefSeq y Ensembl / GENCODE . Se crea un conjunto de transcripciones MANE Select como un estándar universal útil para informes clínicos y genómica comparativa o evolutiva. También se crea un segundo conjunto MANE Plus Clinical con transcripciones adicionales para informar todas las variantes clínicas Patógenas (P) o Probablemente Patógenas (LP) disponibles en recursos públicos. ^[13] Este proyecto se anunció en 2018 y se espera que finalice en 2022.

Estadística

Según la versión 213 de RefSeq (julio de 2022), la cantidad de especies representadas en la base de datos contando los identificadores taxonómicos distintos es la siguiente: ^[4]


Identificación taxonómica	Especies
Arqueas	1443
Bacteria	69122
Hongos	16869
Invertebrado	5715
Mitocondria	13648
Planta	9177
Plásmido	6073
Plastido	9430
Protozoos	746
Vertebrado ( mamífero )	1509
Viral	11620
Vertebrado (otros)	5237
Otro	4
Completo	121461

Los recuentos de accesiones y pares de bases por tipo de molécula son: ^[4]


Tipo de molécula	Adhesiones	Pares de bases/residuos
Genómica	40.758.769	2.923212393984 × 10¹²^
ARN	45.781.716	1.22253022047 × 10¹¹^
Proteína	234.520.053	9.129062394 × 10¹⁰^

Véase también

Referencias

^ ab Pruitt KD , Tatusova T, Maglott DR (enero de 2005). "Secuencia de referencia del NCBI (RefSeq): una base de datos de secuencias no redundantes y curada de genomas, transcripciones y proteínas". Nucleic Acids Research . 33 (número de la base de datos): D501–D504. doi :10.1093/nar/gki025. PMC 539979. PMID 15608248 .
^ Maglott DR , Katz KS, Sicotte H, Pruitt KD (enero de 2000). "LocusLink y RefSeq del NCBI". Investigación de ácidos nucleicos . 28 (1): 126–128. doi : 10.1093/nar/28.1.126. PMC 102393. PMID 10592200.
^ Pruitt KD, Katz KS, Sicotte H, Maglott DR (enero de 2000). "Presentación de RefSeq y LocusLink: recursos curados sobre el genoma humano en el NCBI". Tendencias en genética . 16 (1): 44–47. doi :10.1016/s0168-9525(99)01882-x. PMID 10637631.
^ Estadísticas de la versión 213 de abc RefSeq (informe). Biblioteca Nacional de Medicina . 11 de julio de 2022. Consultado el 20 de julio de 2022 .
^ Sayers EW, Cavanaugh M, Clark K, Pruitt KD, Schoch CL, Sherry ST, Karsch-Mizrachi I (enero de 2022). "GenBank". Investigación de ácidos nucleicos . 50 (D1): D161–D164. doi : 10.1093/nar/gkab1135 . PMC 8690257 . PMID 34850943.
^ Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, et al. (julio de 2009). "El proyecto de secuencia codificante de consenso (CCDS): identificación de un conjunto de genes codificadores de proteínas común para los genomas humano y de ratón". Genome Research . 19 (7): 1316–1323. doi :10.1101/gr.080531.108. PMC 2704439 . PMID 19498102.
^ Pujar S, O'Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, et al. (enero de 2018). "Base de datos de secuencias codificantes de consenso (CCDS): un conjunto estandarizado de regiones codificantes de proteínas humanas y de ratón respaldado por la curación por expertos". Nucleic Acids Research . 46 (D1): D221–D228. doi :10.1093/nar/gkx1031. PMC 5753299 . PMID 29126148.
^ Farrell CM, Goldfarb T, Rangwala SH, Astashyn A, Ermolaeva OD, Hem V, et al. (enero de 2022). "Elementos funcionales RefSeq como estándares de referencia no génicos ensayados experimentalmente e interacciones funcionales en humanos y ratones". Genome Research . 32 (1): 175–188. doi :10.1101/gr.275819.121. PMC 8744684 . PMID 34876495.
^ Gulley ML, Braziel RM, Halling KC, Hsi ED, Kant JA, Nikiforova MN, et al. (junio de 2007). "Informes de laboratorio clínico en patología molecular". Archivos de patología y medicina de laboratorio . 131 (6): 852–863. doi :10.5858/2007-131-852-CLRIMP. PMID 17550311.
^ "Proyecto NCBI RefSeq Targeted Loci" (en inglés). www.ncbi.nlm.nih.gov . Consultado el 27 de julio de 2022 .
^ Hatcher EL, Zhdanov SA, Bao Y, Blinkova O, Nawrocki EP, Ostapchuck Y, et al. (enero de 2017). "Recurso de variación viral: respuesta mejorada a brotes virales emergentes". Investigación de ácidos nucleicos . 45 (D1): D482–D490. doi :10.1093/nar/gkw1065. PMC 5210549 . PMID 27899678.
^ "Selección de referencia de NCBI" www.ncbi.nlm.nih.gov . Consultado el 27 de julio de 2022 .
^ Morales J, Pujar S, Loveland JE, Astashyn A, Bennett R, Berry A, et al. (abril de 2022). "Un conjunto de transcripciones conjuntas de NCBI y EMBL-EBI para la genómica clínica y la investigación". Nature . 604 (7905): 310–315. Bibcode :2022Natur.604..310M. doi :10.1038/s41586-022-04558-8. PMC 9007741 . PMID 35388217.

Fuentes

Este artículo incorpora material de dominio público del Manual del NCBI. Centro Nacional de Información Biotecnológica .

Enlaces externos

Secuencia de referencia
GenBank, RefSeq, TPA y UniProt: ¿Qué hay en un nombre?

[pmid15608248-1] Pruitt KD , Tatusova T, Maglott DR (enero de 2005). "Secuencia de referencia del NCBI (RefSeq): una base de datos de secuencias no redundantes y curada de genomas, transcripciones y proteínas". Nucleic Acids Research . 33 (número de la base de datos): D501–D504. doi :10.1093/nar/gki025. PMC 539979. PMID 15608248 .

[2] Maglott DR , Katz KS, Sicotte H, Pruitt KD (enero de 2000). "LocusLink y RefSeq del NCBI". Investigación de ácidos nucleicos . 28 (1): 126–128. doi : 10.1093/nar/28.1.126. PMC 102393. PMID 10592200.

[pmid10637631-3] Pruitt KD, Katz KS, Sicotte H, Maglott DR (enero de 2000). "Presentación de RefSeq y LocusLink: recursos curados sobre el genoma humano en el NCBI". Tendencias en genética . 16 (1): 44–47. doi :10.1016/s0168-9525(99)01882-x. PMID 10637631.

[:0-4] Estadísticas de la versión 213 de abc RefSeq (informe). Biblioteca Nacional de Medicina . 11 de julio de 2022. Consultado el 20 de julio de 2022 .

[5] Sayers EW, Cavanaugh M, Clark K, Pruitt KD, Schoch CL, Sherry ST, Karsch-Mizrachi I (enero de 2022). "GenBank". Investigación de ácidos nucleicos . 50 (D1): D161–D164. doi : 10.1093/nar/gkab1135 . PMC 8690257 . PMID 34850943.

[6] Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, et al. (julio de 2009). "El proyecto de secuencia codificante de consenso (CCDS): identificación de un conjunto de genes codificadores de proteínas común para los genomas humano y de ratón". Genome Research . 19 (7): 1316–1323. doi :10.1101/gr.080531.108. PMC 2704439 . PMID 19498102.

[7] Pujar S, O'Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, et al. (enero de 2018). "Base de datos de secuencias codificantes de consenso (CCDS): un conjunto estandarizado de regiones codificantes de proteínas humanas y de ratón respaldado por la curación por expertos". Nucleic Acids Research . 46 (D1): D221–D228. doi :10.1093/nar/gkx1031. PMC 5753299 . PMID 29126148.

[8] Farrell CM, Goldfarb T, Rangwala SH, Astashyn A, Ermolaeva OD, Hem V, et al. (enero de 2022). "Elementos funcionales RefSeq como estándares de referencia no génicos ensayados experimentalmente e interacciones funcionales en humanos y ratones". Genome Research . 32 (1): 175–188. doi :10.1101/gr.275819.121. PMC 8744684 . PMID 34876495.

[9] Gulley ML, Braziel RM, Halling KC, Hsi ED, Kant JA, Nikiforova MN, et al. (junio de 2007). "Informes de laboratorio clínico en patología molecular". Archivos de patología y medicina de laboratorio . 131 (6): 852–863. doi :10.5858/2007-131-852-CLRIMP. PMID 17550311.

[10] "Proyecto NCBI RefSeq Targeted Loci" (en inglés). www.ncbi.nlm.nih.gov . Consultado el 27 de julio de 2022 .

[11] Hatcher EL, Zhdanov SA, Bao Y, Blinkova O, Nawrocki EP, Ostapchuck Y, et al. (enero de 2017). "Recurso de variación viral: respuesta mejorada a brotes virales emergentes". Investigación de ácidos nucleicos . 45 (D1): D482–D490. doi :10.1093/nar/gkw1065. PMC 5210549 . PMID 27899678.

[12] "Selección de referencia de NCBI" www.ncbi.nlm.nih.gov . Consultado el 27 de julio de 2022 .

[13] Morales J, Pujar S, Loveland JE, Astashyn A, Bennett R, Berry A, et al. (abril de 2022). "Un conjunto de transcripciones conjuntas de NCBI y EMBL-EBI para la genómica clínica y la investigación". Nature . 604 (7905): 310–315. Bibcode :2022Natur.604..310M. doi :10.1038/s41586-022-04558-8. PMC 9007741 . PMID 35388217.