Enlace podrido

Fenómeno de las URL que tienden a dejar de funcionar
Página no encontrada
Un enlace dañado generalmente conduce a un mensaje de error.

La descomposición de enlaces (también llamada muerte de enlaces , ruptura de enlaces o descomposición de referencias ) es el fenómeno por el cual los hipervínculos tienden con el tiempo a dejar de apuntar a su archivo , página web o servidor de destino original debido a que ese recurso se reubica en una nueva dirección o deja de estar disponible de forma permanente. Un enlace que ya no apunta a su destino, a menudo llamado enlace roto , muerto o huérfano , es una forma específica de puntero colgante .

La tasa de pérdida de enlaces es un tema de estudio e investigación debido a su importancia para la capacidad de Internet de preservar la información. Las estimaciones de esa tasa varían drásticamente entre estudios. Los profesionales de la información han advertido que la pérdida de enlaces podría hacer desaparecer datos de archivo importantes, lo que podría afectar al sistema legal y a la academia.

Comúnmente, los enlaces rotos de sitios web pueden redirigir inmediatamente al usuario a la página de inicio del sitio web, confundiéndolos aún más y haciendo que sea difícil obtener la URL del enlace roto.

Predominio

Varios estudios han examinado la prevalencia de la degradación de enlaces en la World Wide Web , en la literatura académica que utiliza URL para citar contenido web y en bibliotecas digitales .

En un estudio de 2023 sobre los enlaces externos de Million Dollar Homepage , se descubrió que el 27 % de los enlaces dieron como resultado la carga de un sitio sin redirecciones, el 45 % de los enlaces fueron redirigidos y el 28 % devolvió varios mensajes de error. [1]

Un estudio de 2002 sugirió que la pérdida de enlaces dentro de las bibliotecas digitales es considerablemente más lenta que en la web, y encontró que aproximadamente el 3% de los objetos ya no eran accesibles después de un año [2] (lo que equivale a una vida media de casi 23 años).

Un estudio de 2003 concluyó que, en la Web, aproximadamente un enlace de cada 200 se rompía cada semana, [3] lo que sugiere una vida media de 138 semanas. Esta tasa fue confirmada en gran medida por un estudio de 2016-2017 sobre enlaces en el Directorio de Yahoo! (que había dejado de actualizarse en 2014 después de 21 años de desarrollo) que determinó que la vida media de los enlaces del directorio era de dos años. [4]

Un estudio de 2004 mostró que los subconjuntos de enlaces web (como los que apuntan a tipos de archivos específicos o los alojados por instituciones académicas) podrían tener vidas medias drásticamente diferentes. [5] Las URL seleccionadas para publicación parecen tener una mayor longevidad que la URL promedio. Un estudio de 2015 realizado por Weblock analizó más de 180.000 enlaces de referencias en los corpus de texto completo de tres importantes editoriales de acceso abierto y encontró una vida media de aproximadamente 14 años, [6] confirmando en general un estudio de 2005 que encontró que la mitad de las URL citadas en los artículos de la revista D-Lib estaban activas 10 años después de su publicación. [7] Otros estudios han encontrado tasas más altas de pérdida de enlaces en la literatura académica, pero generalmente sugieren una vida media de cuatro años o más. [8] [9] Un estudio de 2013 en BMC Bioinformatics analizó casi 15.000 enlaces en resúmenes del índice de citas Web of Science de Thomson Reuters y descubrió que la vida media de las páginas web era de 9,3 años y solo el 62 % estaban archivados. [10] Un estudio de 2021 sobre enlaces externos en artículos del New York Times publicados entre 1996 y 2019 encontró una vida media de unos 15 años (con una variación significativa entre los temas de contenido), pero señaló que el 13 % de los enlaces funcionales ya no conducen al contenido original, un fenómeno llamado deriva de contenido . [11]

Un estudio de 2013 concluyó que el 49% de los enlaces en las opiniones de la Corte Suprema de Estados Unidos están inactivos. [12]

Un estudio de 2023 que analizó los paneles de control de COVID-19 de los Estados Unidos descubrió que el 23 % de los paneles de control estatales disponibles en febrero de 2021 ya no estaban disponibles en las URL anteriores en abril de 2023. [13]

Pew Research descubrió que, en 2023, el 38% de las páginas de 2013 desaparecieron. Además, en 2023, el 54% de los artículos de Wikipedia en inglés tenían un enlace inactivo en la sección de "referencias" y el 23% de los artículos de noticias tenían un enlace a una URL inactiva. [14]

Causas

La pérdida de enlaces puede deberse a varias causas. Es posible que se elimine una página web de destino. El servidor que aloja la página de destino podría fallar, dejar de funcionar o trasladarse a un nuevo nombre de dominio . Ya en 1999 se observó que, con la cantidad de material que se puede almacenar en un disco duro, "una falla de un solo disco podría ser como la quema de la biblioteca de Alejandría". [15] El registro de un nombre de dominio puede caducar o transferirse a otra parte. Algunas causas harán que el enlace no encuentre ningún destino y devuelva un error como HTTP 404. Otras causas harán que un enlace a un contenido de destino distinto al que pretendía el autor del enlace.

Otras razones para enlaces rotos incluyen:

  • La reestructuración de sitios web que provoca cambios en las URL (por ejemplo, domain.net/pine_treepodrían trasladarse a domain.net/tree/pine)
  • Reubicación de contenido que antes era gratuito detrás de un muro de pago [13]
  • Un cambio en la arquitectura del servidor que hace que un código como PHP funcione de manera diferente.
  • Contenido de página dinámico, como resultados de búsqueda que cambian según el diseño.
  • Eliminación de la página de destino y/o de su contenido.
  • la presencia de información específica del usuario (como un nombre de inicio de sesión) dentro del enlace
  • bloqueo deliberado mediante filtros de contenido o cortafuegos
  • la expiración del registro de un nombre de dominio

Prevención y detección

Las estrategias para prevenir la pérdida de enlaces pueden centrarse en colocar el contenido donde la probabilidad de que persista sea mayor, crear enlaces que tengan menos probabilidades de romperse, tomar medidas para preservar los enlaces existentes o reparar enlaces cuyos objetivos hayan sido reubicados o eliminados. [ cita requerida ]

La creación de URL que no cambien con el tiempo es el método fundamental para evitar la pérdida de enlaces. Tim Berners-Lee y otros pioneros de la web han defendido la planificación preventiva . [16]

Las estrategias relativas a la autoría de enlaces incluyen:

Las estrategias relativas a la protección de los enlaces existentes incluyen:

  • utilizando mecanismos de redirección como HTTP 301 para remitir automáticamente a los navegadores y rastreadores al contenido reubicado. [ cita requerida ]
  • utilizando sistemas de gestión de contenido que pueden actualizar automáticamente los enlaces cuando el contenido dentro del mismo sitio se reubica o reemplazar automáticamente los enlaces con URL canónicas [24]
  • Integración de recursos de búsqueda en páginas HTTP 404 [25]

La detección de enlaces rotos se puede realizar de forma manual o automática. Los métodos automatizados incluyen complementos para sistemas de gestión de contenido , así como comprobadores de enlaces rotos independientes, como Link Sleuth de Xenu . Es posible que la comprobación automática no detecte enlaces que devuelvan un error 404 leve o enlaces que devuelvan una respuesta 200 OK , pero que apunten a contenido que ha cambiado. [26]

Véase también

Referencias

  1. ^ Szymura, Sav (11 de septiembre de 2023). "Link rot: ¿qué es y cómo puedo prevenirlo?". Wolfenden . Consultado el 2 de agosto de 2024 .
  2. ^ Nelson, Michael L.; Allen, B. Danette (2002). "Persistencia y disponibilidad de objetos en bibliotecas digitales". Revista D-Lib . 8 (1). doi : 10.1045/january2002-nelson . Archivado desde el original el 19 de julio de 2020 . Consultado el 24 de septiembre de 2019 .
  3. ^ Fetterly, Dennis; Manasse, Mark; Najork, Marc; Wiener, Janet (2003). «Un estudio a gran escala de la evolución de las páginas web». Actas de la 12.ª conferencia internacional sobre la World Wide Web . Archivado desde el original el 9 de julio de 2011. Consultado el 14 de septiembre de 2010 .
  4. ^ van der Graaf, Hans. «La vida media de un enlace es de dos años». Blog de ZOMDir . Archivado desde el original el 17 de octubre de 2017. Consultado el 31 de enero de 2019 .
  5. ^ ab Koehler, Wallace (2004). "Un estudio longitudinal de páginas web continuado: una consideración de la persistencia de documentos". Investigación de la información . 9 (2). Archivado desde el original el 2017-09-11 . Consultado el 2019-01-31 .
  6. ^ "Informe de bloqueos web de todos los tiempos". Agosto de 2015. Archivado desde el original el 4 de marzo de 2016. Consultado el 12 de enero de 2016 .
  7. ^ ab McCown, Frank; Chan, Sheffan; Nelson, Michael L.; Bollen, Johan (2005). "La disponibilidad y persistencia de referencias web en la revista D-Lib" (PDF) . Actas del 5º Taller internacional sobre archivado web y preservación digital (IWAW'05) . Archivado desde el original (PDF) el 2012-07-17 . Consultado el 2005-10-12 .
  8. ^ Spinellis, Diomidis (2003). "La decadencia y los fracasos de las referencias web". Comunicaciones de la ACM . 46 (1): 71–77. CiteSeerX 10.1.1.12.9599 . doi :10.1145/602421.602422. S2CID  17750450. Archivado desde el original el 23 de julio de 2020 . Consultado el 29 de septiembre de 2007 . 
  9. ^ Steve Lawrence ; David M. Pennock; Gary William Flake ; et al. (marzo de 2001). "Persistencia de las referencias web en la investigación científica". Computer . 34 (3): 26–31. CiteSeerX 10.1.1.97.9695 . doi :10.1109/2.901164. ISSN  0018-9162. Wikidata  Q21012586. 
  10. ^ Hennessey, Jason; Xijin Ge, Steven (2013). "Un estudio interdisciplinario de la descomposición de enlaces y la eficacia de las técnicas de mitigación". BMC Bioinformatics . 14 (Supl 14): S5. doi : 10.1186/1471-2105-14-S14-S5 . PMC 3851533 . PMID  24266891. 
  11. ^ "Lo que la fugacidad de la Web significa para sus hipervínculos". Columbia Journalism Review . Archivado desde el original el 2021-08-02 . Consultado el 2021-08-02 .
  12. ^ Garber, Megan (23 de septiembre de 2013). "El 49% de los vínculos citados en las decisiones de la Corte Suprema están rotos". The Atlantic . Consultado el 10 de enero de 2024 .
  13. ^ ab Adams, Aaron M.; Chen, Xiang; Li, Weidong; Chuanrong, Zhang (27 de julio de 2023). "Normalizar la pandemia: exploración de las cuestiones cartográficas en los paneles de control de COVID-19 de los gobiernos estatales". Journal of Maps . 19 (5): 1–9. doi : 10.1080/17445647.2023.2235385 .
  14. ^ Chapekis, Athena; Bestvater, Samuel; Remy, Emma; Rivero, Gonzalo (17 de mayo de 2024). "Cuando el contenido en línea desaparece". Pew Research Center . Consultado el 19 de mayo de 2024 .
  15. ^ McGranaghan, Matthew (1999). "La Web, la cartografía y la confianza". Perspectivas cartográficas (32): 3–5. doi : 10.14714/CP32.624 .
  16. ^ Berners-Lee, Tim (1998). "Las URL interesantes no cambian". Archivado desde el original el 2 de marzo de 2000. Consultado el 31 de enero de 2019 .
  17. ^ ab Kille, Leighton Walter (8 de noviembre de 2014). «El creciente problema de la «rotura de enlaces» en Internet y las mejores prácticas para los medios y los editores en línea». Journalist's Resource, Harvard Kennedy School. Archivado desde el original el 12 de enero de 2015. Consultado el 16 de enero de 2015 .
  18. ^ Sicilia, Miguel-Angel, et al. "Identificadores persistentes descentralizados: un modelo básico para controladores inmutables Archivado el 10 de mayo de 2023 en Wayback Machine ." Procedia computer science 146 (2019): 123-130.
  19. ^ "Internet Archive: Biblioteca digital de libros, películas, música y Wayback Machine gratuitos". 10 de marzo de 2001. Archivado desde el original el 26 de enero de 1997. Consultado el 7 de octubre de 2013 .
  20. ^ Eysenbach, Gunther; Trudel, Mathieu (2005). "Sigue, sigue, sigue ahí: uso del servicio WebCite para archivar permanentemente las páginas web citadas". Journal of Medical Internet Research . 7 (5): e60. doi : 10.2196/jmir.7.5.e60 . PMC 1550686 . PMID  16403724. 
  21. ^ Zittrain, Jonathan; Albert, Kendra; Lessig, Lawrence (12 de junio de 2014). "Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations" (PDF) . Gestión de la información jurídica . 14 (2): 88–99. doi :10.1017/S1472669614000255. S2CID  232390360. Archivado (PDF) del original el 1 de noviembre de 2020 . Consultado el 10 de junio de 2020 .
  22. ^ "El Centro Berkman de la Universidad de Harvard lanza Amber, una herramienta de "ayuda mutua" para blogueros y propietarios de sitios web para ayudar a mantener la Web disponible | Centro Berkman". cyber.law.harvard.edu . Archivado desde el original el 2016-02-02 . Consultado el 28 de enero de 2016 .
  23. ^ "Arweave - Un ecosistema impulsado por la comunidad". arweave.org . Archivado desde el original el 2023-03-15 . Consultado el 2023-03-15 .
  24. ^ Rønn-Jensen, Jesper (5 de octubre de 2007). "El software elimina los errores de usuario y la putrefacción de enlaces". Justaddwater.dk. Archivado desde el original el 11 de octubre de 2007. Consultado el 5 de octubre de 2007 .
  25. ^ Mueller, John (14 de diciembre de 2007). "Información sobre las últimas funciones de la barra Google". Blog de Google Webmaster Central. Archivado desde el original el 13 de septiembre de 2008. Consultado el 9 de julio de 2008 .
  26. ^ Bar-Yossef, Ziv; Broder, Andrei Z.; Kumar, Ravi; Tomkins, Andrew (2004). "Sic transit gloria telae: hacia una comprensión de la decadencia de la Web". Actas de la 13.ª conferencia internacional sobre la World Wide Web – WWW '04 . págs. 328–337. CiteSeerX 10.1.1.1.9406 . doi :10.1145/988672.988716. ISBN  978-1581138443.

Lectura adicional

  • Markwell, John; Brooks, David W. (2002). "Enlaces rotos: la naturaleza efímera de los hipervínculos educativos de la WWW". Revista de educación científica y tecnología . 11 (2): 105–108. doi :10.1023/A:1014627511641. S2CID  60802264.
  • Gomes, Daniel; Silva, Mário J. (2006). "Modelling Information Persistence on the Web" (PDF) . Actas de la 6ª Conferencia Internacional sobre Ingeniería Web . ICWE'06. Archivado desde el original (PDF) el 2011-07-16 . Consultado el 14 de septiembre de 2010 .
  • Dellavalle, Robert P.; Hester, Eric J.; Heilig, Lauren F.; Drake, Amanda L.; Kuntzman, Jeff W.; Graber, Marla; Schilling, Lisa M. (2003). "Se va, se va, se fue: referencias perdidas en Internet". Science . 302 (5646): 787–788. doi :10.1126/science.1088234. PMID  14593153. S2CID  154604929.
  • Koehler, Wallace (1999). "Análisis de la constancia y permanencia de páginas y sitios web". Revista de la Sociedad Americana de Ciencias de la Información . 50 (2): 162–180. doi :10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B.
  • Sellitto, Carmine (2005). "El impacto de las citas impermanentes en la Web: un estudio de 123 publicaciones de congresos académicos" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología . 56 (7): 695–703. CiteSeerX  10.1.1.473.2732 . doi :10.1002/asi.20159.
  • Cómo preparar sus URI para el futuro
  • Nielsen, Jakob (14 de junio de 1998). "Fighting Linkrot". Archivado desde el original el 23 de diciembre de 2012.
Obtenido de "https://es.wikipedia.org/w/index.php?title=Pudrición_de_enlaces&oldid=1249151235"