Rastreo común

Rastreo común
Tipo de asunto	Organización sin fines de lucro 501(c)(3)
Fundado	2007
Sede	San Francisco, California ; Los Ángeles, California , Estados Unidos
Fundador(es)	Gil Elbaz
Personas clave	Peter Norvig , Rich Skrenta , Eva Ho
URL	es:commoncrawl.org
Licencia de contenido	Apache 2.0 (software) [ aclaración necesaria ]

Organización de rastreo y archivo web sin fines de lucro

Common Crawl es una organización sin fines de lucro 501(c)(3) que rastrea la web y proporciona gratuitamente sus archivos y conjuntos de datos al público. ^[1]^[2]El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008. ^[3] Completa rastreos generalmente cada mes. ^[4]

Common Crawl fue fundada por Gil Elbaz . ^[5] Los asesores de la organización sin fines de lucro incluyen a Peter Norvig y Joi Ito . ^[6] Los rastreadores de la organización respetan las políticas de nofollow y robots.txt . El código fuente abierto para procesar el conjunto de datos de Common Crawl está disponible públicamente.

El conjunto de datos Common Crawl incluye material protegido por derechos de autor y se distribuye desde los EE. UU. bajo demandas de uso legítimo . Los investigadores de otros países han utilizado técnicas como la combinación de oraciones o la referencia al conjunto de datos Common Crawl para sortear las leyes de derechos de autor en otras jurisdicciones legales . ^[7]

El inglés es el idioma principal del 46 % de los documentos de la versión de marzo de 2023 del conjunto de datos de Common Crawl. Los siguientes idiomas principales más comunes son el alemán, el ruso, el japonés, el francés, el español y el chino, cada uno con menos del 6 % de los documentos. ^[8]

Historia

Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012. ^[9]

La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de 2012. ^[10] Los archivos de Common Crawl anteriormente solo incluían archivos .arc. ^[10]

En diciembre de 2012, blekko donó al motor de búsqueda Common Crawl los metadatos que blekko había recopilado de los rastreos que realizó entre febrero y octubre de 2012. ^[11] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y, al mismo tiempo, evitar el spam, la pornografía y la influencia del SEO excesivo ". ^[11]

En 2013, Common Crawl comenzó a utilizar el rastreador web Nutch de Apache Software Foundation en lugar de un rastreador personalizado. ^[12] Common Crawl dejó de utilizar archivos .arc y comenzó a utilizar archivos .warc en su rastreo de noviembre de 2013. ^[13]

Se utilizó una versión filtrada de Common Crawl para entrenar el modelo de lenguaje GPT-3 de OpenAI , anunciado en 2020. ^[14]

Cronología de los datos de Common Crawl

Los siguientes datos se han recopilado del blog oficial de Common Crawl ^[15] y de la API de Common Crawl. ^[16]

Fecha de rastreo	Tamaño en TiB	Miles de millones de páginas	Comentarios
Abril de 2024	386	2.7	Crawl realizado del 12 al 24 de abril de 2024
Febrero/marzo de 2024	425	3.16	Crawl realizado del 20 de febrero al 5 de marzo de 2024
Diciembre de 2023	454	3.35	Crawl realizado del 28 de noviembre al 12 de diciembre de 2023
Junio de 2023	390	3.1	Crawl realizado del 27 de mayo al 11 de junio de 2023
Abril de 2023	400	3.1	Crawl realizado del 20 de marzo al 2 de abril de 2023
Febrero de 2023	400	3.15	Crawl realizado del 26 de enero al 9 de febrero de 2023
Diciembre de 2022	420	3.35	Crawl realizado del 26 de noviembre al 10 de diciembre de 2022
Octubre de 2022	380	3.15	Crawl realizado en septiembre y octubre de 2022
Abril 2021	320	3.1
Noviembre 2018	220	2.6
Octubre de 2018	240	3.0
Septiembre de 2018	220	2.8
Agosto de 2018	220	2.65
Julio de 2018	255	3.25
Junio de 2018	235	3.05
Mayo de 2018	215	2,75
Abril 2018	230	3.1
Marzo de 2018	250	3.2
Febrero de 2018	270	3.4
Enero de 2018	270	3.4
Diciembre de 2017	240	2.9
Noviembre 2017	260	3.2
Octubre de 2017	300	3,65
Septiembre de 2017	250	3.01
Agosto de 2017	280	3.28
Julio de 2017	240	2,89
Junio de 2017	260	3.16
Mayo de 2017	250	2,96
Abril 2017	250	2,94
Marzo de 2017	250	3.07
Febrero de 2017	250	3.08
Enero de 2017	250	3.14
Diciembre de 2016	—	2,85
Octubre de 2016	—	3.25
Septiembre de 2016	—	1,72
Agosto de 2016	—	1.61
Julio de 2016	—	1,73
Junio de 2016	—	1.23
Mayo de 2016	—	1.46
Abril de 2016	—	1.33
Febrero de 2016	—	1,73
Noviembre 2015	151	1.82
Septiembre de 2015	106	1.32
Agosto de 2015	149	1.84
Julio de 2015	145	1.81
Junio de 2015	131	1.67
Mayo de 2015	159	2.05
Abril de 2015	168	2.11
Marzo de 2015	124	1.64
Febrero de 2015	145	1.9
Enero de 2015	139	1.82
Diciembre de 2014	160	2.08
Noviembre 2014	135	1,95
Octubre de 2014	254	3.7
Septiembre de 2014	220	2.8
Agosto de 2014	200	2.8
Julio de 2014	266	3.6
Abril 2014	183	2.6
Marzo de 2014	223	2.8	Primer rastreo de Nutch
Invierno 2013	148	2.3	El recorrido se realizó del 4 al 22 de diciembre de 2013
Verano 2013	?	?	El rastreo se realizó desde mayo de 2013 hasta junio de 2013. El primer rastreo de WARC
2012	?	?	El rastreo se realizó desde enero de 2012 hasta junio de 2012. El rastreo final de ARC
2009-2010	?	?	Rastreo realizado desde julio de 2009 hasta septiembre de 2010
2008-2009	?	?	Rastreo realizado desde mayo de 2008 hasta enero de 2009

Premio Norvig Web a la ciencia de datos

En corroboración con SURFsara , Common Crawl patrocina el Norvig Web Data Science Award, una competencia abierta a estudiantes e investigadores en Benelux . ^[17]^[18] El premio lleva el nombre de Peter Norvig , quien también preside el comité de evaluación del premio. ^[17]

Corpus Colosal Limpio Arrastrado

La versión de Google del Common Crawl se llama Colossal Clean Crawled Corpus, o C4 para abreviar. Se construyó para el entrenamiento de la serie de modelos de lenguaje T5 en 2019. ^[19] Existe cierta preocupación por el contenido protegido por derechos de autor en el C4. ^[20]

Referencias

^ Rosanna Xia (5 de febrero de 2012). "El empresario tecnológico Gil Elbaz triunfó en Los Ángeles" Los Angeles Times . Consultado el 31 de julio de 2014 .
^ "Gil Elbaz y Common Crawl". NBC News . 4 de abril de 2013. Consultado el 31 de julio de 2014 .
^ "Así que estás listo para empezar". Common Crawl . Consultado el 9 de junio de 2023 .
^ Lisa Green (8 de enero de 2014). "Ya están disponibles los datos de rastreo del invierno de 2013" . Consultado el 2 de junio de 2018 .
^ "Startups - Gil Elbaz y Nova Spivack de Common Crawl - TWiST #222". Esta semana en startups. 10 de enero de 2012.
^ Tom Simonite (23 de enero de 2013). «Una base de datos gratuita de toda la Web podría dar origen al próximo Google». MIT Technology Review. Archivado desde el original el 26 de junio de 2014. Consultado el 31 de julio de 2014 .
^ Schäfer, Roland (mayo de 2016). "CommonCOW: enormes corpus web a partir de datos de CommonCrawl y un método para distribuirlos libremente bajo leyes restrictivas de derechos de autor de la UE". Actas de la Décima Conferencia Internacional sobre Recursos Lingüísticos y Evaluación (LREC'16) . Portorož, Eslovenia: Asociación Europea de Recursos Lingüísticos (ELRA): 4501.
^ "Estadísticas de los archivos mensuales de Common Crawl por commoncrawl". commoncrawl.github.io . Consultado el 2 de abril de 2023 .
^ Jennifer Zaino (13 de marzo de 2012). «Common Crawl to Add New Data in Amazon Web Services Bucket» (Rastreo común para agregar nuevos datos en el depósito de Amazon Web Services). Web semántica. Archivado desde el original el 1 de julio de 2014. Consultado el 31 de julio de 2014 .
^ ab Jennifer Zaino (16 de julio de 2012). "Actualización del Common Crawl Corpus hace que los datos de rastreo web sean más eficientes y accesibles para que los usuarios los exploren". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .
^ por Jennifer Zaino (18 de diciembre de 2012). "La donación de datos de Blekko es un gran beneficio para Common Crawl". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .
^ Jordan Mendelson (20 de febrero de 2014). "Common Crawl's Move to Nutch". Common Crawl . Consultado el 31 de julio de 2014 .
^ Jordan Mendelson (27 de noviembre de 2013). "¡Nuevos datos de rastreo disponibles!". Common Crawl . Consultado el 31 de julio de 2014 .
^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (1 de junio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". pág. 14. arXiv : 2005.14165 [cs.CL]. La mayoría de nuestros datos se derivan de Common Crawl sin procesar con un filtrado basado únicamente en la calidad.
^ "Blog – Rastreo común".
^ "Información de la colección - Common Crawl".
^ de Lisa Green (15 de noviembre de 2012). "Premio Norvig Web Data Science". Common Crawl . Consultado el 31 de julio de 2014 .
^ "Premio Norvig Web Data Science 2014". Centro tecnológico holandés para las ciencias de la vida. Archivado desde el original el 15 de agosto de 2014. Consultado el 31 de julio de 2014 .
^ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". Revista de investigación en aprendizaje automático . 21 (140): 1–67. ISSN 1533-7928.
^ Hern, Alex (20 de abril de 2023). "Nuevas preocupaciones sobre las fuentes de material de formación para sistemas de IA". The Guardian . ISSN 0261-3077 . Consultado el 21 de abril de 2023 .

Enlaces externos

Rastreo común en California, Estados Unidos
Repositorio de GitHub de Common Crawl con el rastreador, las bibliotecas y el código de ejemplo
Grupo de discusión sobre Common Crawl
Blog de Common Crawl

[latimes-1] Rosanna Xia (5 de febrero de 2012). "El empresario tecnológico Gil Elbaz triunfó en Los Ángeles" Los Angeles Times . Consultado el 31 de julio de 2014 .

[pressheretv-2] "Gil Elbaz y Common Crawl". NBC News . 4 de abril de 2013. Consultado el 31 de julio de 2014 .

[ready-3] "Así que estás listo para empezar". Common Crawl . Consultado el 9 de junio de 2023 .

[theverge-4] Lisa Green (8 de enero de 2014). "Ya están disponibles los datos de rastreo del invierno de 2013" . Consultado el 2 de junio de 2018 .

[twist-5] "Startups - Gil Elbaz y Nova Spivack de Common Crawl - TWiST #222". Esta semana en startups. 10 de enero de 2012.

[technologyreview-6] Tom Simonite (23 de enero de 2013). «Una base de datos gratuita de toda la Web podría dar origen al próximo Google». MIT Technology Review. Archivado desde el original el 26 de junio de 2014. Consultado el 31 de julio de 2014 .

[7] Schäfer, Roland (mayo de 2016). "CommonCOW: enormes corpus web a partir de datos de CommonCrawl y un método para distribuirlos libremente bajo leyes restrictivas de derechos de autor de la UE". Actas de la Décima Conferencia Internacional sobre Recursos Lingüísticos y Evaluación (LREC'16) . Portorož, Eslovenia: Asociación Europea de Recursos Lingüísticos (ELRA): 4501.

[8] "Estadísticas de los archivos mensuales de Common Crawl por commoncrawl". commoncrawl.github.io . Consultado el 2 de abril de 2023 .

[semanticweb_1-9] Jennifer Zaino (13 de marzo de 2012). «Common Crawl to Add New Data in Amazon Web Services Bucket» (Rastreo común para agregar nuevos datos en el depósito de Amazon Web Services). Web semántica. Archivado desde el original el 1 de julio de 2014. Consultado el 31 de julio de 2014 .

[semanticweb_2-10] Jennifer Zaino (16 de julio de 2012). "Actualización del Common Crawl Corpus hace que los datos de rastreo web sean más eficientes y accesibles para que los usuarios los exploren". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .

[semanticweb_3-11] r Jennifer Zaino (18 de diciembre de 2012). "La donación de datos de Blekko es un gran beneficio para Common Crawl". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .

[ccnutch-12] Jordan Mendelson (20 de febrero de 2014). "Common Crawl's Move to Nutch". Common Crawl . Consultado el 31 de julio de 2014 .

[ccnov2013-13] Jordan Mendelson (27 de noviembre de 2013). "¡Nuevos datos de rastreo disponibles!". Common Crawl . Consultado el 31 de julio de 2014 .

[14] Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (1 de junio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". pág. 14. arXiv : 2005.14165 [cs.CL]. La mayoría de nuestros datos se derivan de Common Crawl sin procesar con un filtrado basado únicamente en la calidad.

[15] "Blog – Rastreo común".

[16] "Información de la colección - Common Crawl".

[ccaward-17] Lisa Green (15 de noviembre de 2012). "Premio Norvig Web Data Science". Common Crawl . Consultado el 31 de julio de 2014 .

[dtlsaward-18] "Premio Norvig Web Data Science 2014". Centro tecnológico holandés para las ciencias de la vida. Archivado desde el original el 15 de agosto de 2014. Consultado el 31 de julio de 2014 .

[:0-19] Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". Revista de investigación en aprendizaje automático . 21 (140): 1–67. ISSN 1533-7928.

[20] Hern, Alex (20 de abril de 2023). "Nuevas preocupaciones sobre las fuentes de material de formación para sistemas de IA". The Guardian . ISSN 0261-3077 . Consultado el 21 de abril de 2023 .