Rastreo común

Organización de rastreo y archivo web sin fines de lucro
Rastreo común
Tipo de asuntoOrganización sin fines de lucro 501(c)(3)
Fundado2007
SedeSan Francisco, California ; Los Ángeles, California , Estados Unidos
Fundador(es)Gil Elbaz
Personas clavePeter Norvig , Rich Skrenta , Eva Ho
URLes:commoncrawl.org
Licencia de contenido
Apache 2.0 (software) [ aclaración necesaria ]

Common Crawl es una organización sin fines de lucro 501(c)(3) que rastrea la web y proporciona gratuitamente sus archivos y conjuntos de datos al público. [1] [2] El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008. [3] Completa rastreos generalmente cada mes. [4]

Common Crawl fue fundada por Gil Elbaz . [5] Los asesores de la organización sin fines de lucro incluyen a Peter Norvig y Joi Ito . [6] Los rastreadores de la organización respetan las políticas de nofollow y robots.txt . El código fuente abierto para procesar el conjunto de datos de Common Crawl está disponible públicamente.

El conjunto de datos Common Crawl incluye material protegido por derechos de autor y se distribuye desde los EE. UU. bajo demandas de uso legítimo . Los investigadores de otros países han utilizado técnicas como la combinación de oraciones o la referencia al conjunto de datos Common Crawl para sortear las leyes de derechos de autor en otras jurisdicciones legales . [7]

El inglés es el idioma principal del 46 % de los documentos de la versión de marzo de 2023 del conjunto de datos de Common Crawl. Los siguientes idiomas principales más comunes son el alemán, el ruso, el japonés, el francés, el español y el chino, cada uno con menos del 6 % de los documentos. [8]

Historia

Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012. [9]

La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de 2012. [10] Los archivos de Common Crawl anteriormente solo incluían archivos .arc. [10]

En diciembre de 2012, blekko donó al motor de búsqueda Common Crawl los metadatos que blekko había recopilado de los rastreos que realizó entre febrero y octubre de 2012. [11] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y, al mismo tiempo, evitar el spam, la pornografía y la influencia del SEO excesivo ". [11]

En 2013, Common Crawl comenzó a utilizar el rastreador web Nutch de Apache Software Foundation en lugar de un rastreador personalizado. [12] Common Crawl dejó de utilizar archivos .arc y comenzó a utilizar archivos .warc en su rastreo de noviembre de 2013. [13]

Se utilizó una versión filtrada de Common Crawl para entrenar el modelo de lenguaje GPT-3 de OpenAI , anunciado en 2020. [14]

Cronología de los datos de Common Crawl

Los siguientes datos se han recopilado del blog oficial de Common Crawl [15] y de la API de Common Crawl. [16]

Fecha de rastreoTamaño en TiBMiles de millones de páginasComentarios
Abril de 20243862.7Crawl realizado del 12 al 24 de abril de 2024
Febrero/marzo de 20244253.16Crawl realizado del 20 de febrero al 5 de marzo de 2024
Diciembre de 20234543.35Crawl realizado del 28 de noviembre al 12 de diciembre de 2023
Junio ​​de 20233903.1Crawl realizado del 27 de mayo al 11 de junio de 2023
Abril de 20234003.1Crawl realizado del 20 de marzo al 2 de abril de 2023
Febrero de 20234003.15Crawl realizado del 26 de enero al 9 de febrero de 2023
Diciembre de 20224203.35Crawl realizado del 26 de noviembre al 10 de diciembre de 2022
Octubre de 20223803.15Crawl realizado en septiembre y octubre de 2022
Abril 20213203.1
Noviembre 20182202.6
Octubre de 20182403.0
Septiembre de 20182202.8
Agosto de 20182202.65
Julio de 20182553.25
Junio ​​de 20182353.05
Mayo de 20182152,75
Abril 20182303.1
Marzo de 20182503.2
Febrero de 20182703.4
Enero de 20182703.4
Diciembre de 20172402.9
Noviembre 20172603.2
Octubre de 20173003,65
Septiembre de 20172503.01
Agosto de 20172803.28
Julio de 20172402,89
Junio ​​de 20172603.16
Mayo de 20172502,96
Abril 20172502,94
Marzo de 20172503.07
Febrero de 20172503.08
Enero de 20172503.14
Diciembre de 20162,85
Octubre de 20163.25
Septiembre de 20161,72
Agosto de 20161.61
Julio de 20161,73
Junio ​​de 20161.23
Mayo de 20161.46
Abril de 20161.33
Febrero de 20161,73
Noviembre 20151511.82
Septiembre de 20151061.32
Agosto de 20151491.84
Julio de 20151451.81
Junio ​​de 20151311.67
Mayo de 20151592.05
Abril de 20151682.11
Marzo de 20151241.64
Febrero de 20151451.9
Enero de 20151391.82
Diciembre de 20141602.08
Noviembre 20141351,95
Octubre de 20142543.7
Septiembre de 20142202.8
Agosto de 20142002.8
Julio de 20142663.6
Abril 20141832.6
Marzo de 20142232.8Primer rastreo de Nutch
Invierno 20131482.3El recorrido se realizó del 4 al 22 de diciembre de 2013
Verano 2013??El rastreo se realizó desde mayo de 2013 hasta junio de 2013. El primer rastreo de WARC
2012??El rastreo se realizó desde enero de 2012 hasta junio de 2012. El rastreo final de ARC
2009-2010??Rastreo realizado desde julio de 2009 hasta septiembre de 2010
2008-2009??Rastreo realizado desde mayo de 2008 hasta enero de 2009

Premio Norvig Web a la ciencia de datos

En corroboración con SURFsara , Common Crawl patrocina el Norvig Web Data Science Award, una competencia abierta a estudiantes e investigadores en Benelux . [17] [18] El premio lleva el nombre de Peter Norvig , quien también preside el comité de evaluación del premio. [17]

Corpus Colosal Limpio Arrastrado

La versión de Google del Common Crawl se llama Colossal Clean Crawled Corpus, o C4 para abreviar. Se construyó para el entrenamiento de la serie de modelos de lenguaje T5 en 2019. [19] Existe cierta preocupación por el contenido protegido por derechos de autor en el C4. [20]

Referencias

  1. ^ Rosanna Xia (5 de febrero de 2012). "El empresario tecnológico Gil Elbaz triunfó en Los Ángeles" Los Angeles Times . Consultado el 31 de julio de 2014 .
  2. ^ "Gil Elbaz y Common Crawl". NBC News . 4 de abril de 2013. Consultado el 31 de julio de 2014 .
  3. ^ "Así que estás listo para empezar". Common Crawl . Consultado el 9 de junio de 2023 .
  4. ^ Lisa Green (8 de enero de 2014). "Ya están disponibles los datos de rastreo del invierno de 2013" . Consultado el 2 de junio de 2018 .
  5. ^ "Startups - Gil Elbaz y Nova Spivack de Common Crawl - TWiST #222". Esta semana en startups. 10 de enero de 2012.
  6. ^ Tom Simonite (23 de enero de 2013). «Una base de datos gratuita de toda la Web podría dar origen al próximo Google». MIT Technology Review. Archivado desde el original el 26 de junio de 2014. Consultado el 31 de julio de 2014 .
  7. ^ Schäfer, Roland (mayo de 2016). "CommonCOW: enormes corpus web a partir de datos de CommonCrawl y un método para distribuirlos libremente bajo leyes restrictivas de derechos de autor de la UE". Actas de la Décima Conferencia Internacional sobre Recursos Lingüísticos y Evaluación (LREC'16) . Portorož, Eslovenia: Asociación Europea de Recursos Lingüísticos (ELRA): 4501.
  8. ^ "Estadísticas de los archivos mensuales de Common Crawl por commoncrawl". commoncrawl.github.io . Consultado el 2 de abril de 2023 .
  9. ^ Jennifer Zaino (13 de marzo de 2012). «Common Crawl to Add New Data in Amazon Web Services Bucket» (Rastreo común para agregar nuevos datos en el depósito de Amazon Web Services). Web semántica. Archivado desde el original el 1 de julio de 2014. Consultado el 31 de julio de 2014 .
  10. ^ ab Jennifer Zaino (16 de julio de 2012). "Actualización del Common Crawl Corpus hace que los datos de rastreo web sean más eficientes y accesibles para que los usuarios los exploren". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .
  11. ^ por Jennifer Zaino (18 de diciembre de 2012). "La donación de datos de Blekko es un gran beneficio para Common Crawl". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .
  12. ^ Jordan Mendelson (20 de febrero de 2014). "Common Crawl's Move to Nutch". Common Crawl . Consultado el 31 de julio de 2014 .
  13. ^ Jordan Mendelson (27 de noviembre de 2013). "¡Nuevos datos de rastreo disponibles!". Common Crawl . Consultado el 31 de julio de 2014 .
  14. ^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (1 de junio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". pág. 14. arXiv : 2005.14165 [cs.CL]. La mayoría de nuestros datos se derivan de Common Crawl sin procesar con un filtrado basado únicamente en la calidad.
  15. ^ "Blog – Rastreo común".
  16. ^ "Información de la colección - Common Crawl".
  17. ^ de Lisa Green (15 de noviembre de 2012). "Premio Norvig Web Data Science". Common Crawl . Consultado el 31 de julio de 2014 .
  18. ^ "Premio Norvig Web Data Science 2014". Centro tecnológico holandés para las ciencias de la vida. Archivado desde el original el 15 de agosto de 2014. Consultado el 31 de julio de 2014 .
  19. ^ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". Revista de investigación en aprendizaje automático . 21 (140): 1–67. ISSN  1533-7928.
  20. ^ Hern, Alex (20 de abril de 2023). "Nuevas preocupaciones sobre las fuentes de material de formación para sistemas de IA". The Guardian . ISSN  0261-3077 . Consultado el 21 de abril de 2023 .
  • Rastreo común en California, Estados Unidos
  • Repositorio de GitHub de Common Crawl con el rastreador, las bibliotecas y el código de ejemplo
  • Grupo de discusión sobre Common Crawl
  • Blog de Common Crawl
Obtenido de "https://es.wikipedia.org/w/index.php?title=Gruñidor_común&oldid=1259054634"