Herencia

Rastreador web diseñado para archivar sitios web
Herencia
Versión estable
3.5.0 [1]  / 29 de octubre de 2024 ; hace 25 días ( 29 de octubre de 2024 )
Repositorio
  • github.com/internetarchive/heritrix3
Escrito enJava
Sistema operativoLinux / Similar a Unix / Windows (no compatible)
TipoRastreador web
LicenciaLicencia Apache
Sitio webgithub.com/internetarchive/heritrix3/wiki

Heritrix es un rastreador web diseñado para el archivado web . Fue escrito por Internet Archive . Está disponible bajo una licencia de software libre y escrito en Java . Se puede acceder a la interfaz principal mediante un navegador web y hay una herramienta de línea de comandos que se puede utilizar opcionalmente para iniciar los rastreos.

Heritrix fue desarrollado conjuntamente por Internet Archive y las bibliotecas nacionales nórdicas según especificaciones escritas a principios de 2003. El primer lanzamiento oficial fue en enero de 2004 y ha sido mejorado continuamente por los empleados de Internet Archive y otras partes interesadas.

Durante muchos años, Heritrix no fue el principal rastreador utilizado para rastrear contenido para la colección web de Internet Archive. [2] El mayor contribuyente a la colección, a partir de 2011, es Alexa Internet . [2] Alexa rastrea la web para sus propios fines, [2] utilizando un rastreador llamado ia_archiver . Luego, Alexa dona el material a Internet Archive. [2] El propio Internet Archive realizó parte de su propio rastreo utilizando Heritrix, pero solo en una escala menor. [2]

A partir de 2008, Internet Archive comenzó a realizar mejoras de rendimiento para realizar su propio rastreo a gran escala, y ahora recopila la mayor parte de su contenido. [3] [ verificación fallida ]

Proyectos que utilizan Heritrix

Varias organizaciones y bibliotecas nacionales utilizan Heritrix, entre ellas: [ cita requerida ]

Archivos de arco

Las versiones anteriores de Heritrix almacenaban de forma predeterminada los recursos web que rastreaba en un archivo Arc. Este formato de archivo no tiene ninguna relación con ARC (formato de archivo) . Este formato ha sido utilizado por Internet Archive desde 1996 para almacenar sus archivos web. Más recientemente, guarda de forma predeterminada en el formato de archivo WARC , que es similar a ARC pero especificado con mayor precisión y más flexible. Heritrix también se puede configurar para almacenar archivos en un formato de directorio similar al rastreador Wget que utiliza la URL para nombrar el directorio y el nombre de archivo de cada recurso.

Un archivo Arc almacena múltiples recursos archivados en un solo archivo para evitar tener que gestionar una gran cantidad de archivos pequeños. El archivo consta de una secuencia de registros URL, cada uno con un encabezado que contiene metadatos sobre cómo se solicitó el recurso, seguido del encabezado HTTP y la respuesta. Los archivos Arc tienen un tamaño que varía entre 100 y 600 MB. [ cita requerida ]

Ejemplo:

filedesc://IA-2006062.arc 0.0.0.0 20060622190110 text/plain 76 1 1 InternetArchive URL Dirección IP Fecha del archivo Tipo de contenido Longitud del archivohttp://foo.edu:80/hello.html 127.10.100.2 19961104142103 text/html 187 HTTP / 1.1  200  OK Fecha :  Jue, 22 Jun 2006 19:01:15 GMT Servidor :  Apache Última modificación :  Sáb, 10 Jun 2006 22:33:11 GMT Longitud del contenido :  30 Tipo de contenido :  text/html<html>¡¡¡Hola Mundo!!!</html>

Herramientas para procesar archivos Arc

Heritrix incluye una herramienta de línea de comandos llamada arcreader que se puede utilizar para extraer el contenido de un archivo Arc. El siguiente comando enumera todas las URL y metadatos almacenados en el archivo Arc en cuestión (en formato CDX):

lector de arcreader IA-2006062.arc

El siguiente comando extrae hello.html del ejemplo anterior asumiendo que el registro comienza en el desplazamiento 140:

arcreader -o 140 -f dump IA-2006062.arc

Otras herramientas:

  • Herramientas de procesamiento de arco
  • WERA (Acceso a archivos web) Archivado el 7 de marzo de 2011 en Wayback Machine

Herramientas de línea de comandos

Heritrix viene con varias herramientas de línea de comandos:

  • htmlextractor : muestra los enlaces que Heritrix extraería para una URL determinada
  • hoppath.pl – recrea la ruta de salto (ruta de enlaces) a la URL especificada a partir de un rastreo completado
  • manifest_bundle.pl : agrupa todos los recursos a los que hace referencia un archivo de manifiesto de rastreo en un archivo tar comprimido o sin comprimir
  • cmdline-jmxclient : habilita el control de línea de comandos de Heritrix
  • arcreader – extrae el contenido de los archivos ARC (ver arriba)

Hay más herramientas disponibles como parte del proyecto warctools de Internet Archive. [6]

Véase también

Referencias

En el momento de esta edición, este artículo utiliza contenido de "Re: Control over the Internet Archive además de simplemente "Disallow /"?" , que está licenciado de manera que permite la reutilización bajo la licencia Creative Commons Attribution-ShareAlike 3.0 Unported , pero no bajo la licencia GFDL . Se deben respetar todos los términos relevantes.

  1. ^ "Versión 3.5.0". 29 de octubre de 2024. Consultado el 22 de noviembre de 2024 .
  2. ^ abcde Kris (6 de septiembre de 2011). "Re: ¿Control sobre Internet Archive además de 'Disallow /'?". Pro Webmasters Stack Exchange . Stack Exchange, Inc . Consultado el 7 de enero de 2013 .
  3. ^ "Wayback Machine: ahora con 240.000.000.000 URL - Blogs de Internet Archive". blog.archive.org . Consultado el 11 de septiembre de 2017 .
  4. ^ "Acerca de - Archivado web (Biblioteca del Congreso)" www.loc.gov . Consultado el 29 de octubre de 2017 .
  5. ^ "Aspectos técnicos del archivo web - Koninklijke Bibliotheek". www.kb.nl. ​Consultado el 11 de septiembre de 2017 .
  6. ^ "warctools". 25 de agosto de 2017. Consultado el 11 de septiembre de 2017 en GitHub.
  1. Burner, M. (1997). "Avanzando hacia la eternidad: creación de un archivo de la World Wide Web". Web Techniques . 2 (5). Archivado desde el original el 1 de enero de 2008.
  2. Mohr, G., Kimpton, M., Stack, M., Ranitovic, I. (2004). "Introducción a Heritrix, un rastreador web de calidad de archivo" (PDF) . Actas del 4º Taller Internacional de Archivado Web (IWAW'04) . Archivado desde el original (PDF) el 2011-06-12 . Consultado el 2007-03-09 .{{cite conference}}: CS1 maint: varios nombres: lista de autores ( enlace )
  3. Sigurðsson, K. (2005). "Incremental crawling with Heritrix" (PDF) . Actas del 5º Taller Internacional de Archivado Web (IWAW'05) . Archivado desde el original (PDF) el 2011-06-12 . Consultado el 2006-06-23 .

Herramientas de Internet Archive:

  • Heritrix - Wiki oficial
  • NutchWAX Archivado el 28 de septiembre de 2011 en Wayback Machine - buscar colecciones de archivos web
  • Wayback (Wayback Machine de código abierto) Archivado el 16 de septiembre de 2011 en Wayback Machine : busque y navegue por colecciones de archivos web utilizando NutchWax

Enlaces a herramientas relacionadas:

  • Formato de archivo Arc
  • Cómo ejecutar Heritrix en Windows
  • WERA (Web ARchive Access) Archivado el 7 de marzo de 2011 en Wayback Machine : busque y navegue por colecciones de archivos web utilizando NutchWAX
Obtenido de "https://es.wikipedia.org/w/index.php?title=Heritrix&oldid=1238508489"