Base de datos de secuencias de ácidos nucleicos digitales
Un genoma de referencia (también conocido como ensamblaje de referencia ) es una base de datos digital de secuencias de ácidos nucleicos , ensamblada por científicos como un ejemplo representativo del conjunto de genes en un organismo individual idealizado de una especie. Como se ensamblan a partir de la secuenciación de ADN de varios donantes individuales, los genomas de referencia no representan con precisión el conjunto de genes de un solo organismo individual. En cambio, una referencia proporciona un mosaico haploide de diferentes secuencias de ADN de cada donante. Por ejemplo, uno de los genomas de referencia humanos más recientes, el ensamblaje GRCh38/hg38 , se deriva de >60 bibliotecas de clones genómicos . [1] Existen genomas de referencia para múltiples especies de virus , bacterias , hongos , plantas y animales . Los genomas de referencia se utilizan típicamente como una guía sobre la cual se construyen nuevos genomas, lo que permite ensamblarlos mucho más rápido y de manera más económica que el Proyecto Genoma Humano inicial . Se puede acceder a los genomas de referencia en línea en varias ubicaciones, utilizando navegadores dedicados como Ensembl o UCSC Genome Browser . [2]
Propiedades de los genomas de referencia
Medidas de longitud
La longitud de un genoma se puede medir de muchas maneras diferentes.
Una forma sencilla de medir la longitud del genoma es contar el número de pares de bases en el conjunto. [3]
El camino dorado es una medida alternativa de longitud que omite regiones redundantes como haplotipos y regiones pseudoautosómicas . [4] [5] Generalmente se construye superponiendo información de secuenciación sobre un mapa físico para combinar información de andamiaje. Es una "mejor estimación" de cómo se verá el genoma y, por lo general, incluye espacios, lo que lo hace más largo que el ensamblaje típico de pares de bases. [6]
Contigs y andamios
El ensamblaje de genomas de referencia requiere que las lecturas se superpongan, creando contigs , que son regiones de ADN contiguas de secuencias de consenso . [7] Si hay huecos entre contigs, estos se pueden llenar mediante andamiaje , ya sea mediante amplificación de contigs con PCR y secuenciación o mediante clonación de cromosomas artificiales bacterianos (BAC) . [8] [7] Llenar estos huecos no siempre es posible, en este caso se crean múltiples andamiajes en un ensamblaje de referencia. [9] Los andamiajes se clasifican en 3 tipos: 1) Colocados, cuyo cromosoma, coordenadas genómicas y orientaciones son conocidos; 2) No localizados, cuando solo se conoce el cromosoma pero no las coordenadas ni la orientación; 3) No colocados, cuyo cromosoma no se conoce. [10]
El número de contigs y scaffolds , así como sus longitudes promedio son parámetros relevantes, entre muchos otros, para una evaluación de calidad de ensamblaje de genoma de referencia ya que proporcionan información sobre la continuidad del mapeo final a partir del genoma original. Cuanto menor sea el número de scaffolds por cromosoma, hasta que un solo scaffold ocupe un cromosoma entero, mayor será la continuidad del ensamblaje del genoma. [11] [12] [13] Otros parámetros relacionados son N50 y L50 . N50 es la longitud de los contigs/scaffolds en los que el 50% del ensamblaje se encuentra en fragmentos de esta longitud o mayores, mientras que L50 es el número de contigs/scaffolds cuya longitud es N50. Cuanto mayor sea el valor de N50, menor será el valor de L50, y viceversa, indicando una alta continuidad en el ensamblaje. [14] [15] [16]
El genoma humano de referencia original se obtuvo de trece voluntarios anónimos de Buffalo, Nueva York . Los donantes fueron reclutados por anuncio en The Buffalo News , el domingo 23 de marzo de 1997. Los primeros diez voluntarios masculinos y diez femeninos fueron invitados a concertar una cita con los asesores genéticos del proyecto y donar sangre de la que se extrajo ADN. Como resultado de cómo se procesaron las muestras de ADN, aproximadamente el 80 por ciento del genoma de referencia provino de ocho personas y un hombre, designado RP11 , representa el 66 por ciento del total. El sistema de grupos sanguíneos ABO difiere entre los humanos, pero el genoma humano de referencia contiene solo un alelo O , aunque los demás están anotados . [17] [18] [19] [20] [21]
El último ensamblaje del genoma de referencia humano, publicado por el Consorcio de Referencia del Genoma , fue GRCh38 en 2017. [25] Se agregaron varios parches para actualizarlo, siendo el último parche GRCh38.p14, publicado el 3 de febrero de 2022. [26] [27] Esta compilación solo tiene 349 huecos en todo el ensamblaje, lo que implica una gran mejora en comparación con la primera versión, que tenía aproximadamente 150.000 huecos. [18] Los huecos se encuentran principalmente en áreas como telómeros , centrómeros y secuencias repetitivas largas , con el hueco más grande a lo largo del brazo largo del cromosoma Y, una región de ~30 Mb de longitud (~52% de la longitud del cromosoma Y). [28] El número de bibliotecas de clones genómicos que contribuyen a la referencia ha aumentado de manera constante a >60 a lo largo de los años, aunque el RP11 individual todavía representa el 70% del genoma de referencia. [1] El análisis genómico de este hombre anónimo sugiere que es de ascendencia afroeuropea. [1] Según el sitio web de GRC, su próxima versión del genoma humano (versión GRCh39) está actualmente "pospuesta indefinidamente". [29]
En 2022, el Consorcio Telómero a Telómero (T2T), [30] un esfuerzo abierto y basado en la comunidad, publicó el primer genoma de referencia completamente ensamblado (versión T2T-CHM13), sin lagunas en el ensamblaje. No contenía un cromosoma Y hasta la versión 2.0. [31] [32] Este ensamblaje permite el examen de la evolución de la secuencia centromérica y pericentromérica. El consorcio empleó métodos rigurosos para ensamblar, limpiar y validar regiones repetidas complejas que son particularmente difíciles de secuenciar. [33] Utilizó una secuenciación de lectura ultralarga (>100 kb) para secuenciar con precisión las duplicaciones segmentarias . [34]
El T2T-CHM13 se ha secuenciado a partir de CHM13hTERT, una línea celular de una mola hidatiforme esencialmente haploide . "CHM" significa "mola hidatiforme completa" y "13" es su número de línea. "hTERT" significa " transcriptasa inversa de la telomerasa humana ". La línea celular ha sido transfectada con el gen TERT, que es responsable de mantener la longitud de los telómeros y, por lo tanto, contribuye a la inmortalidad de la línea celular . [35] Una mola hidatiforme contiene dos copias del mismo genoma parental y, por lo tanto, es esencialmente haploide. Esto elimina la variación alélica y permite una mejor precisión de secuenciación. [34]
Los ensamblajes genómicos recientes son los siguientes: [36]
Nombre de lanzamiento
Fecha de lanzamiento
Versión equivalente de UCSC
GRCh39
Aplazado indefinidamente [29]
-
T2T-CHM13
Enero de 2022
hs1
GRCh38
Diciembre de 2013
hg38
GRCh37
Febrero de 2009
hg19
Versión 36.1 del NCBI
Marzo de 2006
hg18
Versión 35 del NCBI
Mayo de 2004
hg17
Versión 34 del NCBI
Julio de 2003
hg16
Limitaciones
Para gran parte de un genoma, la referencia proporciona una buena aproximación del ADN de cualquier individuo individual. Pero en regiones con alta diversidad alélica , como el complejo mayor de histocompatibilidad en humanos y las principales proteínas urinarias de ratones, el genoma de referencia puede diferir significativamente de otros individuos. [37] [38] [39] Debido al hecho de que el genoma de referencia es una secuencia "única" distinta, lo que le da su utilidad como índice o localizador de características genómicas, existen limitaciones en términos de cuán fielmente representa el genoma humano y su variabilidad . La mayoría de las muestras iniciales utilizadas para la secuenciación del genoma de referencia provenían de personas de ascendencia europea. En 2010, se encontró que, al ensamblar de novo genomas de poblaciones africanas y asiáticas con el genoma de referencia NCBI (versión NCBI36), estos genomas tenían secuencias de ~5Mb que no se alineaban con ninguna región del genoma de referencia. [40]
Proyectos posteriores al Proyecto Genoma Humano buscan abordar una caracterización más profunda y diversa de la variabilidad genética humana, que el genoma de referencia no es capaz de representar. El Proyecto HapMap , activo durante el periodo 2002 -2010, con el propósito de crear un mapa de haplotipos y sus variaciones más comunes entre diferentes poblaciones humanas. Se estudiaron hasta 11 poblaciones de diferente ascendencia, como individuos de la etnia Han de China, Gujaratis de la India, el pueblo Yoruba de Nigeria o japoneses , entre otros. [41] [42] [43] [44] El Proyecto 1000 Genomas , realizado entre 2008 y 2015, con el objetivo de crear una base de datos que incluya más del 95% de las variaciones presentes en el genoma humano y cuyos resultados puedan ser utilizados en estudios de asociación con enfermedades ( GWAS ) como diabetes, enfermedades cardiovasculares o autoinmunes. En este proyecto se estudiaron un total de 26 grupos étnicos, ampliando el alcance del proyecto HapMap a nuevos grupos étnicos como el pueblo mende de Sierra Leona, el pueblo vietnamita o el pueblo bengalí . [45] [46] [47] [48] El Proyecto Pangenoma Humano, que inició su fase inicial en 2019 con la creación del Consorcio de Referencia del Pangenoma Humano, busca crear el mayor mapa de variabilidad genética humana tomando como punto de partida los resultados de estudios previos. [49] [50]
Genoma de referencia del ratón
Los últimos ensamblajes del genoma del ratón son los siguientes: [36]
Nombre de lanzamiento
Fecha de lanzamiento
Versión equivalente de UCSC
GRCm39
Junio de 2020
mm39
GRCm38
Diciembre de 2011
mm10
Versión 37 del NCBI
Julio de 2007
mm9
Versión 36 del NCBI
Febrero de 2006
mm8
Versión 35 del NCBI
Agosto de 2005
mm7
Versión 34 del NCBI
Marzo de 2005
mm6
Otros genomas
Desde que se terminó el Proyecto Genoma Humano, se han iniciado múltiples proyectos internacionales enfocados en ensamblar genomas de referencia para muchos organismos. Los organismos modelo (p. ej., pez cebra ( Danio rerio ), pollo ( Gallus gallus ), Escherichia coli etc.) son de especial interés para la comunidad científica, así como, por ejemplo, las especies en peligro de extinción (p. ej., arowana asiática ( Scleropages formosus ) o el bisonte americano ( Bison bison )). A agosto de 2022, la base de datos del NCBI soporta 71 886 genomas parcial o completamente secuenciados y ensamblados de diferentes especies, como 676 mamíferos , 590 aves y 865 peces . También son destacables las cifras de 1796 genomas de insectos , 3747 hongos , 1025 plantas , 33 724 bacterias , 26 004 virus y 2040 arqueas . [51] Muchas de estas especies tienen datos de anotación asociados con sus genomas de referencia a los que se puede acceder públicamente y visualizar en navegadores de genomas como Ensembl y UCSC Genome Browser . [52] [53]
Algunos ejemplos de estos proyectos internacionales son: el Chimpanzee Genome Project , llevado a cabo entre 2005 y 2013 de forma conjunta por el Broad Institute y el McDonnell Genome Institute de la Washington University en St. Louis , que generó los primeros genomas de referencia para 4 subespecies de Pan troglodytes ; [54] [55] el 100K Pathogen Genome Project , que comenzó en 2012 con el objetivo principal de crear una base de datos de genomas de referencia para 100 000 microorganismos patógenos para su uso en salud pública, detección de brotes, agricultura y medio ambiente; [56] el Earth BioGenome Project , que comenzó en 2018 y tiene como objetivo secuenciar y catalogar los genomas de todos los organismos eucariotas de la Tierra para promover proyectos de conservación de la biodiversidad. Dentro de este proyecto de gran ciencia hay hasta 50 proyectos afiliados de menor escala como el Africa BioGenome Project o el 1000 Fungal Genomes Project. [57] [58] [59]
Referencias
^ abc "¿Cuántos individuos fueron secuenciados para el ensamblaje del genoma de referencia humano?". Consorcio de Referencia Genómica . Consultado el 7 de abril de 2022 .
^ Flicek P, Aken BL, Beal K, Ballester B, Caccamo M, Chen Y, et al. (enero de 2008). "Ensembl 2008". Nucleic Acids Research . 36 (número de la base de datos): D707–D714. doi :10.1093/nar/gkm988. PMC 2238821 . PMID 18000006.
^ "Ayuda - Glosario - Homo sapiens - Navegador de genoma Ensembl 87". www.ensembl.org .
^ "Longitud del camino dorado | VectorBase". www.vectorbase.org . Archivado desde el original el 2020-08-07 . Consultado el 2016-12-12 .
^ "Ayuda - Glosario - Homo sapiens - Navegador de genoma Ensembl 87". www.ensembl.org .
^ "¿Ensamblaje completo frente a longitud del camino áureo en Ensembl? - SEQanswers". seqanswers.com . 31 de julio de 2014 . Consultado el 12 de diciembre de 2016 .
^ ab Gibson, Greg; Muse, Spencer V. (2009). Introducción a la ciencia del genoma (3.ª ed.). Sinauer Associates. pág. 84. ISBN978-0-878-93236-8.
^ "Ayuda - Glosario - Homo_sapiens - Navegador de genomas Ensembl 107". www.ensembl.org . Consultado el 26 de septiembre de 2022 .
^ Luo, Junwei; Wei, Yawei; Lyu, Mengna; Wu, Zhengjiang; Liu, Xiaoyan; Luo, Huimin; Yan, Chaokun (2 de septiembre de 2021). "Una revisión exhaustiva de los métodos de andamiaje en el ensamblaje del genoma". Sesiones informativas en Bioinformática . 22 (5): bbab033. doi : 10.1093/bib/bbab033. ISSN 1477-4054. PMID 33634311.
^ "Cromosomas, estructuras y contigs". www.ensembl.org . Consultado el 26 de septiembre de 2022 .
^ Meader, Stephen; Hillier, LaDeana W.; Locke, Devin; Ponting, Chris P.; Lunter, Gerton (mayo de 2010). "Calidad del ensamblaje del genoma: evaluación y mejora utilizando el modelo de indel neutral". Genome Research . 20 (5): 675–684. doi :10.1101/gr.096966.109. ISSN 1088-9051. PMC 2860169 . PMID 20305016.
^ Rice, Edward S.; Green, Richard E. (15 de febrero de 2019). "Nuevos enfoques para el ensamblaje y el andamiaje del genoma". Revisión anual de biociencias animales . 7 (1): 17–40. doi :10.1146/annurev-animal-020518-115344. ISSN 2165-8102. PMID 30485757. S2CID 54121772.
^ Cao, Minh Duc; Nguyen, Son Hoang; Ganesamoorthy, Devika; Elliott, Alysha G.; Cooper, Matthew A.; Coin, Lachlan JM (20 de febrero de 2017). "Andamiaje y finalización de ensamblajes genómicos en tiempo real con secuenciación de nanoporos". Nature Communications . 8 (1): 14515. Bibcode :2017NatCo...814515C. doi : 10.1038/ncomms14515 . ISSN 2041-1723. PMC 5321748 . PMID 28218240.
^ Mende, Daniel R.; Waller, Alison S.; Sunagawa, Shinichi; Järvelin, Aino I.; Chan, Michelle M.; Arumugam, Manimozhiyan; Raes, Jeroen; Bork, Peer (23 de febrero de 2012). "Evaluación del ensamblaje metagenómico utilizando datos de secuenciación simulada de próxima generación". PLOS ONE . 7 (2): e31386. Bibcode :2012PLoSO...731386M. doi : 10.1371/journal.pone.0031386 . ISSN 1932-6203. PMC 3285633 . PMID 22384016.
^ Alhakami, Hind; Mirebrahim, Hamid; Lonardi, Stefano (18 de mayo de 2017). "Una evaluación comparativa de herramientas de reconciliación del ensamblaje del genoma". Genome Biology . 18 (1): 93. doi : 10.1186/s13059-017-1213-3 . ISSN 1474-7596. PMC 5436433 . PMID 28521789.
^ Castro, Christina J.; Ng, Terry Fei Fan (1 de noviembre de 2017). "U50: una nueva métrica para medir la salida de ensamblaje basada en contigs específicos del objetivo y no superpuestos". Journal of Computational Biology . 24 (11): 1071–1080. doi :10.1089/cmb.2017.0013. PMC 5783553 . PMID 28418726.
^ Scherer S (2008). Una breve guía del genoma humano . CSHL Press. pág. 135. ISBN978-0-87969-791-4.
^ ab "E pluribus unum". Métodos de la naturaleza . 7 (5): 331. Mayo de 2010. doi : 10.1038/nmeth0510-331 . PMID 20440876.
^ Ballouz S, Dobin A, Gillis JA (agosto de 2019). "¿Ha llegado el momento de cambiar el genoma de referencia?". Genome Biology . 20 (1): 159. doi : 10.1186/s13059-019-1774-4 . PMC 6688217 . PMID 31399121.
^ Rosenfeld JA, Mason CE, Smith TM (11 de julio de 2012). "Limitaciones del genoma de referencia humano para la genómica personalizada". PLOS ONE . 7 (7): e40294. Bibcode :2012PLoSO...740294R. doi : 10.1371/journal.pone.0040294 . PMC 3394790 . PMID 22811759.
^ ab Wade N (31 de mayo de 2007). "Se descifra el genoma de un pionero del ADN". New York Times . Consultado el 21 de febrero de 2009 .
^ ab Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, et al. (abril de 2008). "El genoma completo de un individuo mediante secuenciación masiva de ADN en paralelo". Nature . 452 (7189): 872–876. Bibcode :2008Natur.452..872W. doi : 10.1038/nature06884 . PMID 18421352.
^ "Visualizador de datos genómicos - NCBI". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ Schneider VA, Graves-Lindsay T, Howe K, Bouk N, Chen HC, Kitts PA, et al. (mayo de 2017). "La evaluación de los ensamblajes de genomas haploides de novo y GRCh38 demuestra la calidad duradera del ensamblaje de referencia". Genome Research . 27 (5): 849–864. doi :10.1101/gr.213611.116. PMC 5411779 . PMID 28396521.
^ "GRCh38.p14 - hg38 - Genoma - Ensamblaje - NCBI". www.ncbi.nlm.nih.gov . Consultado el 19 de agosto de 2022 .
^ Consorcio de Referencia Genómica (9 de mayo de 2022). "GenomeRef: GRCh38.p14 ya está disponible". Blog de GRC (GenomeRef) . Consultado el 19 de agosto de 2022 .
^ "GRCh38.p14 - hg38 - Genoma - Ensamblaje - NCBI - Informe estadístico" www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ ab "Consorcio de Referencia Genómica". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ "De telómero a telómero". NHGRI . Consultado el 16 de agosto de 2022 .
^ Nurk S, Koren S, Rhie A, Rautiainen M, Bzikadze AV, Mikheenko A, et al. (abril de 2022). "La secuencia completa de un genoma humano". Ciencia . 376 (6588): 44–53. Código Bib : 2022 Ciencia... 376... 44N. doi : 10.1126/ciencia.abj6987. PMC 9186530 . PMID 35357919. S2CID 247854936.
^ "T2T-CHM13v2.0 - Genoma - Ensamblaje - NCBI" www.ncbi.nlm.nih.gov . Consultado el 16 de agosto de 2022 .
^ Altemose, Nicolás; Logsdon, Glennis A.; Bzikadze, Andrey V.; Sidhwani, Pragya; Langley, Sasha A.; Caldas, Gina V.; Hoyt, Savannah J.; Uralsky, Lev; Ryabov, Fedor D.; Muestra, Colin J.; Sauria, Michael EG; Borchers, Mateo; Gershman, Ariel; Mijeenko, Alla; Shepelev, Valery A. (abril de 2022). "Mapas genómicos y epigenéticos completos de centrómeros humanos". Ciencia . 376 (6588): eabl4178. doi : 10.1126/ciencia.abl4178. ISSN 0036-8075. PMC 9233505 . PMID 35357911.
^ ab Church, Deanna M. (abril de 2022). "Una secuencia del genoma humano de próxima generación". Science . 376 (6588): 34–35. Bibcode :2022Sci...376...34C. doi :10.1126/science.abo5367. ISSN 0036-8075. PMID 35357937.
^ Steinberg, Karyn Meltz; Schneider, Valerie A.; Graves-Lindsay, Tina A.; Fulton, Robert S.; Agarwala, Richa; Huddleston, John; Shiryev, Sergey A.; Morgulis, Aleksandr; Surti, Urvashi; Warren, Wesley C.; Church, Deanna M.; Eichler, Evan E.; Wilson, Richard K. (diciembre de 2014). "Ensamblaje de un solo haplotipo del genoma humano a partir de una mola hidatiforme". Genome Research . 24 (12): 2066–2076. doi :10.1101/gr.180893.114. ISSN 1088-9051. PMC 4248323 . PMID 25373144.
^ ab "UCSC Genome Bioinformatics: FAQ" (Bioinformática genómica de la UCSC: preguntas frecuentes). genome.ucsc.edu . Consultado el 18 de agosto de 2016 .
^ MHC Sequencing Consortium (octubre de 1999). "Secuencia completa y mapa genético de un complejo mayor de histocompatibilidad humano. El consorcio de secuenciación MHC". Nature . 401 (6756): 921–923. Bibcode :1999Natur.401..921T. doi :10.1038/44853. PMID 10553908. S2CID 186243515.
^ Logan DW, Marton TF, Stowers L (septiembre de 2008). Vosshall LB (ed.). "Especificidad de especie en las principales proteínas urinarias por evolución paralela". PLOS ONE . 3 (9): e3280. Bibcode :2008PLoSO...3.3280L. doi : 10.1371/journal.pone.0003280 . PMC 2533699 . PMID 18815613.
^ Hurst J, Beynon RJ, Roberts SC, Wyatt TD (octubre de 2007). Lipocalinas urinarias en roedores: ¿existe un modelo genérico? Señales químicas en vertebrados 11. Springer New York. ISBN978-0-387-73944-1.
^ Li R, Li Y, Zheng H, Luo R, Zhu H, Li Q, et al. (enero de 2010). "Construcción del mapa de secuencias del pangenoma humano". Nature Biotechnology . 28 (1): 57–63. doi :10.1038/nbt.1596. PMID 19997067. S2CID 205274447.
^ El Consorcio Internacional HapMap (octubre de 2005). "Un mapa de haplotipos del genoma humano". Nature . 437 (7063): 1299–1320. Bibcode :2005Natur.437.1299T. doi :10.1038/nature04226. PMC 1880871 . PMID 16255080.
^ Frazer KA, Ballinger DG, Cox DR, Hinds DA, Stuve LL, Gibbs RA, et al. (octubre de 2007). "Un mapa de haplotipos humanos de segunda generación de más de 3,1 millones de SNP". Nature . 449 (7164): 851–861. Bibcode :2007Natur.449..851F. doi :10.1038/nature06258. PMC 2689609 . PMID 17943122.
^ Altshuler DM, Gibbs RA, Peltonen L, Altshuler DM, Gibbs RA, Peltonen L, et al. (septiembre de 2010). "Integración de la variación genética común y rara en diversas poblaciones humanas". Nature . 467 (7311): 52–58. Bibcode :2010Natur.467...52T. doi :10.1038/nature09298. PMC 3173859 . PMID 20811451.
^ "Proyecto internacional HapMap". Genome.gov . Consultado el 18 de agosto de 2022 .
^ Abecasis GR, Altshuler D, Auton A, Brooks LD, Durbin RM, Gibbs RA, et al. (octubre de 2010). "Un mapa de la variación del genoma humano a partir de la secuenciación a escala poblacional". Nature . 467 (7319): 1061–1073. Bibcode :2010Natur.467.1061T. doi :10.1038/nature09534. PMC 3042601 . PMID 20981092.
^ Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, et al. (noviembre de 2012). "Un mapa integrado de la variación genética de 1.092 genomas humanos". Nature . 491 (7422): 56–65. Bibcode :2012Natur.491...56T. doi :10.1038/nature11632. PMC 3498066 . PMID 23128226.
^ Auton A, Brooks LD, Durbin RM, Garrison EP, Kang HM, Korbel JO, et al. (octubre de 2015). "Una referencia global para la variación genética humana". Nature . 526 (7571): 68–74. Bibcode :2015Natur.526...68T. doi :10.1038/nature15393. PMC 4750478 . PMID 26432245.
^ Sudmant PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J, et al. (octubre de 2015). "Un mapa integrado de variación estructural en 2504 genomas humanos". Nature . 526 (7571): 75–81. Bibcode :2015Natur.526...75.. doi :10.1038/nature15394. PMC 4617611 . PMID 26432246.
^ Miga KH, Wang T (agosto de 2021). "La necesidad de una secuencia de referencia del pangenoma humano". Revisión anual de genómica y genética humana . 22 (1): 81–102. doi :10.1146/annurev-genom-120120-081921. PMC 8410644 . PMID 33929893.
^ Wang T, Antonacci-Fulton L, Howe K, Lawson HA, Lucas JK, Phillippy AM, et al. (abril de 2022). "El Proyecto Pangenoma Humano: un recurso global para mapear la diversidad genómica". Nature . 604 (7906): 437–446. Bibcode :2022Natur.604..437W. doi :10.1038/s41586-022-04601-8. PMC 9402379 . PMID 35444317. S2CID 248297723.
^ "Lista de genomas - Genoma - NCBI". www.ncbi.nlm.nih.gov . Consultado el 18 de agosto de 2022 .
^ "Lista de especies". uswest.ensembl.org . Archivado desde el original el 2022-08-06 . Consultado el 2022-08-18 .
^ "GenArk: Archivo Genómico de la UCSC". hgdownload.soe.ucsc.edu . Consultado el 18 de agosto de 2022 .
^ "Proyecto Genoma del Chimpancé". BCM-HGSC . 2016-03-04 . Consultado el 2022-08-18 .
^ Prado-Martinez J, Sudmant PH, Kidd JM, Li H, Kelley JL, Lorente-Galdos B, et al. (julio de 2013). "Diversidad genética de los grandes simios e historia de la población". Nature . 499 (7459): 471–475. Bibcode :2013Natur.499..471P. doi :10.1038/nature12228. PMC 3822165 . PMID 23823723.
^ "Proyecto Genoma de 100.000 Patógenos: Genomas para la salud pública y la seguridad alimentaria" . Consultado el 18 de agosto de 2022 .
^ Lewin HA, Robinson GE, Kress WJ, Baker WJ, Coddington J, Crandall KA, et al. (abril de 2018). "Proyecto BioGenoma de la Tierra: secuenciación de la vida para el futuro de la vida". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 115 (17): 4325–4333. Bibcode :2018PNAS..115.4325L. doi : 10.1073/pnas.1720115115 . PMC 5924910 . PMID 29686065.
^ "Proyecto BioGenoma Africano – La genómica al servicio de la conservación y mejora de la diversidad biológica africana" . Consultado el 18 de agosto de 2022 .
^ "Proyecto de los 1000 genomas fúngicos". mycocosm.jgi.doe.gov . Consultado el 18 de agosto de 2022 .