Archivo web australiano

Base de datos abierta en línea de sitios web australianos archivados

El Australian Web Archive ( AWA ) es una base de datos en línea de acceso público de sitios web australianos archivados, alojada por la Biblioteca Nacional de Australia (NLA) en su plataforma Trove , un agregador de bases de datos de bibliotecas en línea. Comprende el archivo PANDORA de la NLA , el Australian Government Web Archive (AGWA) y las colecciones de dominio ".au" de la Biblioteca Nacional de Australia . El acceso se realiza a través de una única interfaz en Trove, que está disponible públicamente. [1] [2] [3] El Australian Web Archive se creó en marzo de 2019, [4] y es uno de los archivos web más grandes del mundo. [5] Su propósito es proporcionar un recurso para historiadores e investigadores, ahora y en el futuro. [5]

Historia de los tres componentes

El servicio PANDORA comenzó a archivar sitios web en octubre de 1996. [6]

En 2005, la NLA comenzó a archivar instantáneas anuales de todo el dominio web australiano ( URL con el sufijo . ".au" [4] ), [7] recopiladas a través de grandes cosechas de rastreo . [8] Más tarde, los primeros sitios web del dominio web .au, que datan de 1996, se obtuvieron del Archivo de Internet . En 2019, este contenido se hizo accesible al público por primera vez a través de Trove. [9]

La infraestructura PANDORA, que funciona bien para un archivo selectivo a pequeña escala, no se adapta a una "recolección masiva" a gran escala de contenido web, por lo que se tuvo que desarrollar un nuevo sistema técnico mediante el cual un servicio de archivo web integrara la entrega de sitios web archivados dentro de una interfaz de sitio web en vivo que entregara los sitios web archivados sin problemas al usuario, lo que es difícil de lograr técnicamente. [10]

AGWA

Los sitios web del Gobierno australiano son registros de la Commonwealth y, por lo tanto, son publicaciones que deben gestionarse de conformidad con la Ley de Archivos de 1983. [ 11]

El Archivo Web del Gobierno Australiano (AGWA) consiste en el archivo masivo de sitios web del Gobierno de la Commonwealth . La NLA comenzó a recopilar regularmente los sitios web en junio de 2011, [12] después de que se hubiera superado un obstáculo significativo con un acuerdo administrativo realizado en mayo de 2010 que permitía a la NLA recopilar, preservar y hacer accesibles los sitios web del gobierno sin tener que solicitar permiso previo para cada sitio web o documento, como era el caso antes de eso. El servicio utiliza el rastreador web Heritrix para la recopilación, archivos WARC para el almacenamiento y Open Wayback para la entrega del servicio. Hay una gran cantidad de publicaciones por parte del gobierno, pero muchos desafíos que superar al intentar preservar el contenido, como su desaparición repentina. En marzo de 2014, el AGWA se hizo accesible al público. [10]

La AGWA cumple con los requisitos de preservación y retención de sitios web como material "retenido como archivos nacionales" (RNA) según la Ley de Archivos ; sin embargo, los videos y archivos de documentos (como PDF o documentos de Word ) no siempre se capturan, por lo que deben gestionarse por separado. [11]

A principios de 2015, la AGWA incluía contenido que databa de 2005, lo que sumaba unos 144 millones de archivos que ocupaban 15 terabytes . Solo incluía sitios web del Gobierno de la Commonwealth recopilados a través de recopilaciones masivas de casi 1000 URL de semillas. La programación de las recopilaciones aún no se había establecido de manera rutinaria, pero se realizaban aproximadamente tres veces al año. [10]

Amalgamación

En 2017, el archivo AGWA y el archivo PANDORA se fusionaron con las otras colecciones de archivos web para formar la colección de archivos web Trove. [9] Después de un mayor desarrollo y la creación del Archivo Web de Australia, los sitios web gubernamentales archivados a través de AGWA y ahora incluidos en AWA aún se pueden buscar por separado utilizando la opción "Búsqueda avanzada". [9]

Descripción de AWA

La NLA describe un archivo web como una "colección de instantáneas de sitios web capturadas mientras están accesibles en la web y luego preservadas en una copia estática". La colección archivada en la AWA es "relevante para la vida y las actividades culturales, sociales, políticas, de investigación y comerciales de Australia y los australianos". Recopila material web mediante el archivo programado de sitios web y publicaciones seleccionados, así como mediante una recopilación ad hoc relacionada con eventos significativos. [9]

En marzo de 2019, cuando comenzó, AWA ya contenía alrededor de 600 terabytes de datos, con 9 mil millones de registros. [5] [13] Contiene más funcionalidad que Wayback Machine , alojada por Internet Archive , lo que permite la búsqueda de texto completo utilizando un motor de búsqueda creado internamente. Los desarrolladores también idearon técnicas para filtrar el "ruido" no deseado. Los datos permanecen en los servidores de la Biblioteca, aunque se prevé un traslado a la nube en el futuro, a medida que crezca el contenido. [5] La usabilidad por parte de una amplia gama de usuarios, y en particular la funcionalidad de búsqueda, fueron los principales focos durante el desarrollo. [9]

El archivo es totalmente consultable gracias a una combinación de técnicas utilizadas por los desarrolladores. Cada equipo creó un algoritmo de búsqueda único y complejo , adaptando una versión del algoritmo de clasificación de páginas de Google (basado en la frecuencia de clics en una página), modificado para generar recursos mejores y de alta calidad. Otras tecnologías incluyen un filtro bayesiano (efectivamente un filtro de spam ), un clasificador Not Safe For Work de Yahoo y aprendizaje automático . [14]

Existe una opción "Limitar al dominio web gov.au" antes de realizar la búsqueda, [15] y los sitios web gubernamentales archivados a través de AGWA aún se pueden buscar por separado utilizando la opción "Búsqueda avanzada". [9] Otras opciones en la Búsqueda avanzada son limitar por período de tiempo de las instantáneas, dominio y tipo de archivo. [16]

Ahora que muchos de los sitios web de la década de 1990 se han perdido, principalmente debido al cambio frecuente de plataformas web, el Archivo Web Australiano es una iniciativa importante que ayudará a salvar las páginas web actuales y futuras, especialmente el contenido australiano. [4] Se seguirá agregando material al Archivo y se recopilará otro material en línea de acuerdo con la Ley de la Biblioteca Nacional de 1960 , las disposiciones de depósito legal de la Ley de Derechos de Autor de 1968 y la política de selección de colecciones digitales de la NLA . [9]

Sitios web de Asia y el Pacífico

Los sitios web de la región Asia Pacífico no están incluidos en la AWA, pero la NLA se asocia con Internet Archive para recopilar y preservar "sitios web seleccionados de Asia y el Pacífico relacionados con eventos específicos o grupos sociopolíticos". [17]

Véase también

Referencias

  1. ^ "Preservación y acceso a recursos documentales en red de Australia". Pandora Archive . Consultado el 30 de abril de 2020 .
  2. ^ "Sitios web archivados". Biblioteca Nacional de Australia . 23 de marzo de 2020 . Consultado el 30 de abril de 2020 .
  3. ^ Koerbin, Paul (11 de febrero de 2015). «The Australian Government Web Archive». Biblioteca Nacional de Australia . Archivado desde el original el 30 de abril de 2020. Consultado el 30 de abril de 2020 .
  4. ^ abc Bruns, Axel (14 de marzo de 2019). «El Archivo Web Australiano es un logro trascendental, pero las cosas se pondrán más difíciles a partir de ahora». The Conversation . Consultado el 30 de abril de 2020 .
  5. ^ abcd Nott, George (11 de marzo de 2019). «La Biblioteca Nacional lanza un archivo 'enorme' de Internet de Australia». Computerworld . Consultado el 6 de mayo de 2020 .
  6. ^ "Historia y logros". PANDORA. 18 de febrero de 2009. Consultado el 6 de mayo de 2020 .
  7. ^ McKenzie, Amelia (12 de marzo de 2019). «Preserving Australia's Web History: The beginning of the Australian Web Archive». Biblioteca Nacional de Australia . Consultado el 6 de mayo de 2020 .
  8. ^ "Sitios web archivados (1996 – ahora)". Trove . Consultado el 6 de mayo de 2020 .
  9. ^ abcdefg "Acerca del Archivo Web Australiano". Centro de ayuda de Trove . Archivado desde el original el 17 de marzo de 2020. Consultado el 8 de mayo de 2020 .
  10. ^ abc Koerbin, Paul (11 de febrero de 2015). «The Australian Government Web Archive: Collecting the government's online documentation heritage goes large scale» (Archivo web del gobierno australiano: la recopilación del patrimonio documental en línea del gobierno se realiza a gran escala). Biblioteca Nacional de Australia . Archivado desde el original el 1 de mayo de 2020. Consultado el 6 de mayo de 2020 .
  11. ^ ab "Archivo de sitios web del Gobierno australiano". Archivos Nacionales de Australia . Consultado el 8 de mayo de 2020 .
  12. ^ "Sitios web archivados". Biblioteca Nacional de Australia . 7 de diciembre de 2018 . Consultado el 6 de mayo de 2020 .
  13. ^ NOTA: La página de ayuda de AWA dice 400 tb, 8 mil millones de registros
  14. ^ "Consulta el archivo web de Australia". Southern Phone . 11 de abril de 2019 . Consultado el 8 de mayo de 2020 .
  15. ^ "Archivo web australiano". Trove . Consultado el 8 de mayo de 2020 .
  16. ^ "Australian Web Archive - Búsqueda avanzada". Trove . Consultado el 8 de mayo de 2020 .
  17. ^ "Sitios web archivados". Biblioteca Nacional de Australia . 23 de marzo de 2020 . Consultado el 8 de mayo de 2020 .
  • Sitio web oficial
Obtenido de "https://es.wikipedia.org/w/index.php?title=Archivo_web_australiano&oldid=1196547652#AGWA"