Visor de Ngram de Google Books

Motor de búsqueda en línea

El visor de Ngram de Google Books es un motor de búsqueda en línea que grafica las frecuencias de cualquier conjunto de cadenas de búsqueda utilizando un recuento anual de n -gramas encontrados en fuentes impresas publicadas entre 1500 y 2022 ^[1]^[2]^[3]^[4] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. ^[1]^[2]^[5] También hay algunos corpus especializados en inglés, como inglés americano, inglés británico y ficción inglesa. ^[6]

El programa puede buscar una palabra o una frase, incluyendo errores ortográficos o galimatías. ^[5] Los n -gramas se comparan con el texto dentro del corpus seleccionado y, si se encuentran en 40 o más libros, se muestran como un gráfico. ^[6] El visor de n-gramas de Google Books admite búsquedas de partes del discurso y comodines . ^[6] Se utiliza de forma rutinaria en la investigación. ^[7]^[8]

Historia

En los procesos de desarrollo, Google se asoció con dos investigadores de Harvard , Jean-Baptiste Michel y Erez Lieberman Aiden , y silenciosamente lanzó el programa el 16 de diciembre de 2010. ^[2]^[9] Antes del lanzamiento, era difícil cuantificar la tasa de cambio lingüístico debido a la ausencia de una base de datos que fuera diseñada para este propósito, dijo Steven Pinker , ^[10] un conocido lingüista que fue uno de los coautores del artículo de Science publicado el mismo día. ^[1] El Google Books Ngram Viewer fue desarrollado con la esperanza de abrir una nueva ventana a la investigación cuantitativa en el campo de las humanidades, y la base de datos contenía 500 mil millones de palabras de 5,2 millones de libros disponibles públicamente desde el principio. ^[2]^[3]^[9]

El público al que estaba destinado era académico, pero el visor de Ngram de Google Books hizo posible que cualquier persona con una computadora pudiera ver un gráfico que representa el cambio diacrónico del uso de palabras y frases con facilidad. Lieberman dijo en respuesta al New York Times que los desarrolladores tenían como objetivo proporcionar incluso a los niños la capacidad de explorar las tendencias culturales a lo largo de la historia. ^[9] En el artículo de Science , Lieberman y sus colaboradores llamaron al método de análisis de datos de gran volumen en textos digitalizados " culturomics ". ^[1]^[9]

Uso

Los términos de búsqueda introducidos por el usuario se delimitan con comas, donde cada término separado por comas se busca en la base de datos como un n -grama (por ejemplo, "guardería" es un 2-grama o bigrama). ^[6] El Visor de N-gramas luego devuelve un gráfico de líneas trazado . Tenga en cuenta que debido a las limitaciones en el tamaño de la base de datos de N-gramas, solo se indexan las coincidencias encontradas en al menos 40 libros. ^[6]

Limitaciones

Los conjuntos de datos del Ngram Viewer han sido criticados por su dependencia de un reconocimiento óptico de caracteres (OCR) impreciso y por incluir una gran cantidad de textos incorrectamente fechados y categorizados. ^[11] Debido a estos errores, y debido a que no están controlados por sesgos ^[12] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), se debe tener cuidado al utilizar los corpus para estudiar el lenguaje o probar teorías. ^[13] Además, los conjuntos de datos pueden no reflejar cambios lingüísticos o culturales generales y solo pueden insinuar tal efecto porque no involucran ningún metadato como fecha de publicación, ^{[ dudoso – discutir ]} autor, extensión o género, para evitar posibles infracciones de derechos de autor . ^[14]

Los errores sistémicos como la confusión de s y f en textos anteriores al siglo XIX (debido al uso de ſ , la s larga , que es similar en apariencia a f ) pueden causar sesgo sistémico. ^[13] Aunque el equipo de Google Books afirma que los resultados son confiables desde 1800 en adelante, un OCR deficiente y datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970 en adelante, con partes anteriores del corpus que no muestran resultados en absoluto para términos comunes, y los datos de algunos años contienen más del 50% de ruido. ^[15]^[16]^{[ se necesita una mejor fuente ]}

Se han propuesto directrices para realizar investigaciones con datos de Google Ngram que intentan abordar algunas de las cuestiones analizadas anteriormente. ^[17]

Véase también

Referencias

^ abcd Michael, Jean-Baptiste; Shen, Yuan K.; Aiden, Aviva P.; Veres, Adrian; Gray, Matthew K.; El equipo de Google Books; Pickett, Joseph P.; Hoiberg, Dale ; Clancy, Dan; Norvig, Peter ; Orwant, Jon; Pinker, Steven ; Nowak, Martin A.; Aiden, Erez L. (2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados". Science . 331 (6014): 176–182. doi :10.1126/science.1199644. PMC 3279742 . PMID 21163965.
^ abcd Bosker, Bianca (17 de diciembre de 2010). "La base de datos Ngram de Google rastrea la popularidad de 500 mil millones de palabras". The Huffington Post . Consultado el 31 de mayo de 2012 .
^ por Lance Whitney (17 de diciembre de 2010). "El visor Ngram de Google: una máquina del tiempo para juegos de palabras". Cnet.com. Archivado desde el original el 23 de enero de 2014. Consultado el 31 de mayo de 2012 .
^ @searchliaison (13 de julio de 2020). "El visor de Ngram de Google Books se ha actualizado con datos nuevos hasta 2019" ( Tweet ) . Consultado el 11 de agosto de 2020 a través de Twitter .
^ ab "Google Books Ngram Viewer - Bibliotecas de la Universidad de Buffalo". Lib.Buffalo.edu. 22 de agosto de 2011. Archivado desde el original el 2 de julio de 2013. Consultado el 31 de mayo de 2012 .
^ abcde "Visor de Ngram de Google Books - Información" . Consultado el 1 de junio de 2024 .
^ Greenfield, Patricia M. (2013). "La cambiante psicología de la cultura desde 1800 hasta 2000". Psychological Science . 24 (9): 1722–1731. doi :10.1177/0956797613479387. ISSN 0956-7976. PMID 23925305. S2CID 6123553.
^ Younes, Nadja; Reips, Ulf-Dietrich (2018). "La cambiante psicología de la cultura en los países de habla alemana: un estudio de Google Ngram". Revista Internacional de Psicología . 53 : 53–62. doi :10.1002/ijop.12428. PMID 28474338. S2CID 7440938.
^ abcd "En 500 mil millones de palabras, una nueva ventana a la cultura". The New York Times . 16 de diciembre de 2010 . Consultado el 1 de junio de 2024 .
^ "Steven Pinker – La materia del pensamiento: el lenguaje como ventana a la naturaleza humana". Royal Society of Arts . 2010-02-04 . Consultado el 2024-06-02 – vía YouTube.
^ Nunberg, Geoff (16 de diciembre de 2010). «Investigación en humanidades con el corpus de Google Books». Archivado desde el original el 10 de marzo de 2016. Consultado el 19 de abril de 2015 .
^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística". PLOS One . 10 (10): e0137041. arXiv : 1501.00960 . Código Bibliográfico :2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . PMC 4596490 . PMID 26445406.
^ ab Zhang, Sarah. "Los peligros de usar Google Ngram para estudiar el lenguaje". WIRED . Consultado el 24 de mayo de 2017 .
^ Koplenig, Alexander (2 de septiembre de 2015). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial" . Digital Scholarship in the Humanities . 32 (1). Oxford Academic (publicado el 1 de abril de 2017): 169–188. doi :10.1093/llc/fqv037. ISSN 2055-7671.
^ "Los n-gramas de Google y el chino premoderno". digitalsinology.org . Consultado el 19 de abril de 2015 .
^ "Cuando los n-gramas se estropean". digitalsinology.org . Consultado el 19 de abril de 2015 .
^ Younes, Nadja; Reips, Ulf-Dietrich (22 de marzo de 2019). "Directriz para mejorar la fiabilidad de los estudios de Google Ngram: evidencia de términos religiosos". PLOS One . 14 (3): e0213554. Bibcode :2019PLoSO..1413554Y. doi : 10.1371/journal.pone.0213554 . ISSN 1932-6203. PMC 6430395 . PMID 30901329.

Bibliografía

Lin, Yuri; et al. (julio de 2012). "Anotaciones sintácticas para el corpus Ngram de Google Books" (PDF) . Actas de la 50.ª reunión anual . Documentos de demostración. 2. Jeju, República de Corea: Asociación de Lingüística Computacional: 169–174. 2390499. Documento técnico que presenta la edición 2012 del corpus Ngram de Google Books

Enlaces externos

Sitio web oficial

[Culturomics-1] Michael, Jean-Baptiste; Shen, Yuan K.; Aiden, Aviva P.; Veres, Adrian; Gray, Matthew K.; El equipo de Google Books; Pickett, Joseph P.; Hoiberg, Dale ; Clancy, Dan; Norvig, Peter ; Orwant, Jon; Pinker, Steven ; Nowak, Martin A.; Aiden, Erez L. (2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados". Science . 331 (6014): 176–182. doi :10.1126/science.1199644. PMC 3279742 . PMID 21163965.

[Huf-2] Bosker, Bianca (17 de diciembre de 2010). "La base de datos Ngram de Google rastrea la popularidad de 500 mil millones de palabras". The Huffington Post . Consultado el 31 de mayo de 2012 .

[Cnet-3] r Lance Whitney (17 de diciembre de 2010). "El visor Ngram de Google: una máquina del tiempo para juegos de palabras". Cnet.com. Archivado desde el original el 23 de enero de 2014. Consultado el 31 de mayo de 2012 .

[4] @searchliaison (13 de julio de 2020). "El visor de Ngram de Google Books se ha actualizado con datos nuevos hasta 2019" ( Tweet ) . Consultado el 11 de agosto de 2020 a través de Twitter .

[BufLib-5] "Google Books Ngram Viewer - Bibliotecas de la Universidad de Buffalo". Lib.Buffalo.edu. 22 de agosto de 2011. Archivado desde el original el 2 de julio de 2013. Consultado el 31 de mayo de 2012 .

[GInfo-6] "Visor de Ngram de Google Books - Información" . Consultado el 1 de junio de 2024 .

[7] Greenfield, Patricia M. (2013). "La cambiante psicología de la cultura desde 1800 hasta 2000". Psychological Science . 24 (9): 1722–1731. doi :10.1177/0956797613479387. ISSN 0956-7976. PMID 23925305. S2CID 6123553.

[8] Younes, Nadja; Reips, Ulf-Dietrich (2018). "La cambiante psicología de la cultura en los países de habla alemana: un estudio de Google Ngram". Revista Internacional de Psicología . 53 : 53–62. doi :10.1002/ijop.12428. PMID 28474338. S2CID 7440938.

[NYT-9] "En 500 mil millones de palabras, una nueva ventana a la cultura". The New York Times . 16 de diciembre de 2010 . Consultado el 1 de junio de 2024 .

[10] "Steven Pinker – La materia del pensamiento: el lenguaje como ventana a la naturaleza humana". Royal Society of Arts . 2010-02-04 . Consultado el 2024-06-02 – vía YouTube.

[11] Nunberg, Geoff (16 de diciembre de 2010). «Investigación en humanidades con el corpus de Google Books». Archivado desde el original el 10 de marzo de 2016. Consultado el 19 de abril de 2015 .

[12] Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística". PLOS One . 10 (10): e0137041. arXiv : 1501.00960 . Código Bibliográfico :2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . PMC 4596490 . PMID 26445406.

[WIRED-13] Zhang, Sarah. "Los peligros de usar Google Ngram para estudiar el lenguaje". WIRED . Consultado el 24 de mayo de 2017 .

[14] Koplenig, Alexander (2 de septiembre de 2015). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial" . Digital Scholarship in the Humanities . 32 (1). Oxford Academic (publicado el 1 de abril de 2017): 169–188. doi :10.1093/llc/fqv037. ISSN 2055-7671.

[15] "Los n-gramas de Google y el chino premoderno". digitalsinology.org . Consultado el 19 de abril de 2015 .

[16] "Cuando los n-gramas se estropean". digitalsinology.org . Consultado el 19 de abril de 2015 .

[17] Younes, Nadja; Reips, Ulf-Dietrich (22 de marzo de 2019). "Directriz para mejorar la fiabilidad de los estudios de Google Ngram: evidencia de términos religiosos". PLOS One . 14 (3): e0213554. Bibcode :2019PLoSO..1413554Y. doi : 10.1371/journal.pone.0213554 . ISSN 1932-6203. PMC 6430395 . PMID 30901329.