Tipo de asunto | Organización sin fines de lucro 501(c)(3) |
---|---|
Fundado | 2007 |
Sede | San Francisco, California ; Los Ángeles, California , Estados Unidos |
Fundador(es) | Gil Elbaz |
Personas clave | Peter Norvig , Rich Skrenta , Eva Ho |
URL | es:commoncrawl.org |
Licencia de contenido | Apache 2.0 (software) [ aclaración necesaria ] |
Common Crawl es una organización sin fines de lucro 501(c)(3) que rastrea la web y proporciona gratuitamente sus archivos y conjuntos de datos al público. [1] [2] El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008. [3] Completa rastreos generalmente cada mes. [4]
Common Crawl fue fundada por Gil Elbaz . [5] Los asesores de la organización sin fines de lucro incluyen a Peter Norvig y Joi Ito . [6] Los rastreadores de la organización respetan las políticas de nofollow y robots.txt . El código fuente abierto para procesar el conjunto de datos de Common Crawl está disponible públicamente.
El conjunto de datos Common Crawl incluye material protegido por derechos de autor y se distribuye desde los EE. UU. bajo demandas de uso legítimo . Los investigadores de otros países han utilizado técnicas como la combinación de oraciones o la referencia al conjunto de datos Common Crawl para sortear las leyes de derechos de autor en otras jurisdicciones legales . [7]
El inglés es el idioma principal del 46 % de los documentos de la versión de marzo de 2023 del conjunto de datos de Common Crawl. Los siguientes idiomas principales más comunes son el alemán, el ruso, el japonés, el francés, el español y el chino, cada uno con menos del 6 % de los documentos. [8]
Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012. [9]
La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de 2012. [10] Los archivos de Common Crawl anteriormente solo incluían archivos .arc. [10]
En diciembre de 2012, blekko donó al motor de búsqueda Common Crawl los metadatos que blekko había recopilado de los rastreos que realizó entre febrero y octubre de 2012. [11] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y, al mismo tiempo, evitar el spam, la pornografía y la influencia del SEO excesivo ". [11]
En 2013, Common Crawl comenzó a utilizar el rastreador web Nutch de Apache Software Foundation en lugar de un rastreador personalizado. [12] Common Crawl dejó de utilizar archivos .arc y comenzó a utilizar archivos .warc en su rastreo de noviembre de 2013. [13]
Se utilizó una versión filtrada de Common Crawl para entrenar el modelo de lenguaje GPT-3 de OpenAI , anunciado en 2020. [14]
Los siguientes datos se han recopilado del blog oficial de Common Crawl [15] y de la API de Common Crawl. [16]
Fecha de rastreo | Tamaño en TiB | Miles de millones de páginas | Comentarios |
---|---|---|---|
Abril de 2024 | 386 | 2.7 | Crawl realizado del 12 al 24 de abril de 2024 |
Febrero/marzo de 2024 | 425 | 3.16 | Crawl realizado del 20 de febrero al 5 de marzo de 2024 |
Diciembre de 2023 | 454 | 3.35 | Crawl realizado del 28 de noviembre al 12 de diciembre de 2023 |
Junio de 2023 | 390 | 3.1 | Crawl realizado del 27 de mayo al 11 de junio de 2023 |
Abril de 2023 | 400 | 3.1 | Crawl realizado del 20 de marzo al 2 de abril de 2023 |
Febrero de 2023 | 400 | 3.15 | Crawl realizado del 26 de enero al 9 de febrero de 2023 |
Diciembre de 2022 | 420 | 3.35 | Crawl realizado del 26 de noviembre al 10 de diciembre de 2022 |
Octubre de 2022 | 380 | 3.15 | Crawl realizado en septiembre y octubre de 2022 |
Abril 2021 | 320 | 3.1 | |
Noviembre 2018 | 220 | 2.6 | |
Octubre de 2018 | 240 | 3.0 | |
Septiembre de 2018 | 220 | 2.8 | |
Agosto de 2018 | 220 | 2.65 | |
Julio de 2018 | 255 | 3.25 | |
Junio de 2018 | 235 | 3.05 | |
Mayo de 2018 | 215 | 2,75 | |
Abril 2018 | 230 | 3.1 | |
Marzo de 2018 | 250 | 3.2 | |
Febrero de 2018 | 270 | 3.4 | |
Enero de 2018 | 270 | 3.4 | |
Diciembre de 2017 | 240 | 2.9 | |
Noviembre 2017 | 260 | 3.2 | |
Octubre de 2017 | 300 | 3,65 | |
Septiembre de 2017 | 250 | 3.01 | |
Agosto de 2017 | 280 | 3.28 | |
Julio de 2017 | 240 | 2,89 | |
Junio de 2017 | 260 | 3.16 | |
Mayo de 2017 | 250 | 2,96 | |
Abril 2017 | 250 | 2,94 | |
Marzo de 2017 | 250 | 3.07 | |
Febrero de 2017 | 250 | 3.08 | |
Enero de 2017 | 250 | 3.14 | |
Diciembre de 2016 | — | 2,85 | |
Octubre de 2016 | — | 3.25 | |
Septiembre de 2016 | — | 1,72 | |
Agosto de 2016 | — | 1.61 | |
Julio de 2016 | — | 1,73 | |
Junio de 2016 | — | 1.23 | |
Mayo de 2016 | — | 1.46 | |
Abril de 2016 | — | 1.33 | |
Febrero de 2016 | — | 1,73 | |
Noviembre 2015 | 151 | 1.82 | |
Septiembre de 2015 | 106 | 1.32 | |
Agosto de 2015 | 149 | 1.84 | |
Julio de 2015 | 145 | 1.81 | |
Junio de 2015 | 131 | 1.67 | |
Mayo de 2015 | 159 | 2.05 | |
Abril de 2015 | 168 | 2.11 | |
Marzo de 2015 | 124 | 1.64 | |
Febrero de 2015 | 145 | 1.9 | |
Enero de 2015 | 139 | 1.82 | |
Diciembre de 2014 | 160 | 2.08 | |
Noviembre 2014 | 135 | 1,95 | |
Octubre de 2014 | 254 | 3.7 | |
Septiembre de 2014 | 220 | 2.8 | |
Agosto de 2014 | 200 | 2.8 | |
Julio de 2014 | 266 | 3.6 | |
Abril 2014 | 183 | 2.6 | |
Marzo de 2014 | 223 | 2.8 | Primer rastreo de Nutch |
Invierno 2013 | 148 | 2.3 | El recorrido se realizó del 4 al 22 de diciembre de 2013 |
Verano 2013 | ? | ? | El rastreo se realizó desde mayo de 2013 hasta junio de 2013. El primer rastreo de WARC |
2012 | ? | ? | El rastreo se realizó desde enero de 2012 hasta junio de 2012. El rastreo final de ARC |
2009-2010 | ? | ? | Rastreo realizado desde julio de 2009 hasta septiembre de 2010 |
2008-2009 | ? | ? | Rastreo realizado desde mayo de 2008 hasta enero de 2009 |
En corroboración con SURFsara , Common Crawl patrocina el Norvig Web Data Science Award, una competencia abierta a estudiantes e investigadores en Benelux . [17] [18] El premio lleva el nombre de Peter Norvig , quien también preside el comité de evaluación del premio. [17]
La versión de Google del Common Crawl se llama Colossal Clean Crawled Corpus, o C4 para abreviar. Se construyó para el entrenamiento de la serie de modelos de lenguaje T5 en 2019. [19] Existe cierta preocupación por el contenido protegido por derechos de autor en el C4. [20]
La mayoría de nuestros datos se derivan de Common Crawl sin procesar con un filtrado basado únicamente en la calidad.