Para cada organismo modelo , RefSeq tiene como objetivo proporcionar registros separados y vinculados para el ADN genómico, las transcripciones de genes y las proteínas que surgen de esas transcripciones. RefSeq se limita a los organismos principales para los que hay datos suficientes disponibles (121.461 organismos "nombrados" distintos a julio de 2022), [4] mientras que GenBank incluye secuencias para cualquier organismo enviado (aproximadamente 504.000 especies descritas formalmente ). [5]
Categorías de RefSeq
La colección RefSeq está compuesta por distintos tipos de datos, con orígenes diferentes, por lo que es necesario establecer categorías e identificadores estándar para almacenar cada tipo de datos. Las categorías más importantes son:
Categorías de acceso y tipos de moléculas de RefSeq
Para obtener más detalles y más categorías, consulte la Tabla 1 en el Capítulo 18 del libro The Reference Sequence (RefSeq) Database.
Proyectos RefSeq
Actualmente, el NCBI está desarrollando varios proyectos para mejorar los servicios RefSeq , a menudo en colaboración con centros de investigación como EMBL-EBI:
Consensus CDS (CCDS): este proyecto tiene como objetivo identificar un conjunto básico de regiones codificantes de proteínas humanas y de ratón y estandarizar conjuntos de genes con niveles altos y consistentes de calidad de anotación genómica. Este proyecto se anunció en 2009 y todavía está en desarrollo. [6] [7]
RefSeqGene: Su objetivo principal es definir secuencias genómicas que se utilizarán como estándares de referencia para genes bien caracterizados. Las secuencias de ARNm , proteínas y cromosomas descritas anteriormente tienen la debilidad de no proporcionar coordenadas genómicas explícitas de las regiones intrónicas y flanqueantes de los genes, así como de mostrar coordenadas extrañamente grandes que cambian con cada nuevo ensamblaje del genoma. El proyecto RefSeqGene está diseñado para eliminar estos errores. [9]
Variación de virus (ViV): es un recurso específico de herramientas de análisis y procesamiento de datos de secuencias para la visualización y recuperación de secuencias de varios grupos virales, como el virus de la influenza , el virus del Ébola , el coronavirus MERS o el virus del Zika . Se incluyen periódicamente nuevos virus, herramientas de procesamiento y otras características. [11]
RefSeq Select: Este proyecto tiene como objetivo seleccionar conjuntos de datos de transcripciones de RefSeq Select , como los más representativos para cada gen codificador de proteínas, en función de múltiples criterios: uso previo en bases de datos clínicas, expresión de transcripción, conservación evolutiva de la región codificante, etc. Dado que muchos genes están representados por múltiples transcripciones/proteínas RefSeq debido al proceso biológico de empalme alternativo , esta complejidad es problemática para estudios como la genómica comparativa o el intercambio de datos de variantes clínicas. [12]
MANE ( Matched A nnotation from the NCBI and EMBL -EBI): Es un proyecto colaborativo entre NCBI y EMBL - EBI cuyo objetivo principal es definir un conjunto de transcripciones y sus proteínas para todos los genes codificadores de proteínas en el genoma humano. Al hacer eso, se reducen las diferencias en la anotación de transcripciones entre los sistemas de anotación RefSeq y Ensembl / GENCODE . Se crea un conjunto de transcripciones MANE Select como un estándar universal útil para informes clínicos y genómica comparativa o evolutiva. También se crea un segundo conjunto MANE Plus Clinical con transcripciones adicionales para informar todas las variantes clínicas Patógenas (P) o Probablemente Patógenas (LP) disponibles en recursos públicos. [13] Este proyecto se anunció en 2018 y se espera que finalice en 2022.
Estadística
Según la versión 213 de RefSeq (julio de 2022), la cantidad de especies representadas en la base de datos contando los identificadores taxonómicos distintos es la siguiente: [4]
^ ab Pruitt KD , Tatusova T, Maglott DR (enero de 2005). "Secuencia de referencia del NCBI (RefSeq): una base de datos de secuencias no redundantes y curada de genomas, transcripciones y proteínas". Nucleic Acids Research . 33 (número de la base de datos): D501–D504. doi :10.1093/nar/gki025. PMC 539979. PMID 15608248 .
^ Maglott DR , Katz KS, Sicotte H, Pruitt KD (enero de 2000). "LocusLink y RefSeq del NCBI". Investigación de ácidos nucleicos . 28 (1): 126–128. doi : 10.1093/nar/28.1.126. PMC 102393. PMID 10592200.
^ Pruitt KD, Katz KS, Sicotte H, Maglott DR (enero de 2000). "Presentación de RefSeq y LocusLink: recursos curados sobre el genoma humano en el NCBI". Tendencias en genética . 16 (1): 44–47. doi :10.1016/s0168-9525(99)01882-x. PMID 10637631.
^ Estadísticas de la versión 213 de abc RefSeq (informe). Biblioteca Nacional de Medicina . 11 de julio de 2022. Consultado el 20 de julio de 2022 .
^ Sayers EW, Cavanaugh M, Clark K, Pruitt KD, Schoch CL, Sherry ST, Karsch-Mizrachi I (enero de 2022). "GenBank". Investigación de ácidos nucleicos . 50 (D1): D161–D164. doi : 10.1093/nar/gkab1135 . PMC 8690257 . PMID 34850943.
^ Pruitt KD, Harrow J, Harte RA, Wallin C, Diekhans M, Maglott DR, et al. (julio de 2009). "El proyecto de secuencia codificante de consenso (CCDS): identificación de un conjunto de genes codificadores de proteínas común para los genomas humano y de ratón". Genome Research . 19 (7): 1316–1323. doi :10.1101/gr.080531.108. PMC 2704439 . PMID 19498102.
^ Pujar S, O'Leary NA, Farrell CM, Loveland JE, Mudge JM, Wallin C, et al. (enero de 2018). "Base de datos de secuencias codificantes de consenso (CCDS): un conjunto estandarizado de regiones codificantes de proteínas humanas y de ratón respaldado por la curación por expertos". Nucleic Acids Research . 46 (D1): D221–D228. doi :10.1093/nar/gkx1031. PMC 5753299 . PMID 29126148.
^ Farrell CM, Goldfarb T, Rangwala SH, Astashyn A, Ermolaeva OD, Hem V, et al. (enero de 2022). "Elementos funcionales RefSeq como estándares de referencia no génicos ensayados experimentalmente e interacciones funcionales en humanos y ratones". Genome Research . 32 (1): 175–188. doi :10.1101/gr.275819.121. PMC 8744684 . PMID 34876495.
^ Gulley ML, Braziel RM, Halling KC, Hsi ED, Kant JA, Nikiforova MN, et al. (junio de 2007). "Informes de laboratorio clínico en patología molecular". Archivos de patología y medicina de laboratorio . 131 (6): 852–863. doi :10.5858/2007-131-852-CLRIMP. PMID 17550311.
^ "Proyecto NCBI RefSeq Targeted Loci" (en inglés). www.ncbi.nlm.nih.gov . Consultado el 27 de julio de 2022 .
^ Hatcher EL, Zhdanov SA, Bao Y, Blinkova O, Nawrocki EP, Ostapchuck Y, et al. (enero de 2017). "Recurso de variación viral: respuesta mejorada a brotes virales emergentes". Investigación de ácidos nucleicos . 45 (D1): D482–D490. doi :10.1093/nar/gkw1065. PMC 5210549 . PMID 27899678.
^ "Selección de referencia de NCBI" www.ncbi.nlm.nih.gov . Consultado el 27 de julio de 2022 .
^ Morales J, Pujar S, Loveland JE, Astashyn A, Bennett R, Berry A, et al. (abril de 2022). "Un conjunto de transcripciones conjuntas de NCBI y EMBL-EBI para la genómica clínica y la investigación". Nature . 604 (7905): 310–315. Bibcode :2022Natur.604..310M. doi :10.1038/s41586-022-04558-8. PMC 9007741 . PMID 35388217.