Detección y notificación de cambios

La detección y notificación de cambios ( CDN ) es la detección automática de cambios realizados en páginas web y la notificación a los usuarios interesados ​​por correo electrónico u otros medios. [1]

Mientras que los motores de búsqueda están diseñados para encontrar páginas web, los sistemas CDN están diseñados para monitorear los cambios en las páginas web. Antes de la detección y notificación de cambios, era necesario que los usuarios verificaran manualmente los cambios en las páginas web, ya sea volviendo a visitar los sitios web o realizando búsquedas periódicas. La detección y notificación de cambios eficientes y efectivas se ve obstaculizada por el hecho de que la mayoría de los servidores no rastrean con precisión los cambios de contenido a través de los encabezados de servidor web Last-Modified o ETag . En 2019 se publicó un análisis exhaustivo sobre los sistemas CDN.

Historia

En 1996, NetMind desarrolló la primera herramienta de detección y notificación de cambios, conocida como Mind-it, que funcionó durante seis años. Esto generó nuevos servicios como ChangeDetection (1999), ChangeDetect (2002), Google Alerts (2003) y Versionista (2007), que fue utilizado por la campaña presidencial de John McCain en 2008 en la carrera por las elecciones presidenciales de los Estados Unidos de 2008. [ 2] Históricamente, el sondeo de cambios se ha realizado mediante un servidor que enviaba notificaciones por correo electrónico o un programa de escritorio que alertaba de forma audible al usuario sobre un cambio. La alerta de cambios también es posible directamente a dispositivos móviles y a través de notificaciones push , webhooks y devoluciones de llamadas HTTP para la integración de aplicaciones.

Las opciones de monitoreo varían según el servicio o producto y van desde el monitoreo de una sola página web a la vez hasta el monitoreo de sitios web completos. Lo que se monitorea realmente también varía según el servicio o producto, con las posibilidades de monitorear texto, enlaces, documentos, scripts, imágenes o capturas de pantalla.

Con la notable excepción de las solicitudes de patente de Google relacionadas con Google Alerts , la actividad de propiedad intelectual por parte de los proveedores de detección y notificación de cambios es mínima. [3] Ningún proveedor ha aprovechado con éxito los derechos exclusivos para la tecnología de detección y notificación de cambios a través de patentes u otros medios legales. [ cita requerida ] Esto ha resultado en una superposición funcional significativa entre productos y servicios.

Enfoques arquitectónicos

Los servicios de detección y notificación de cambios se pueden clasificar según la arquitectura de software que utilizan. Se pueden distinguir tres enfoques principales:

Basado en servidor

Un servidor sondea el contenido, rastrea los cambios y registra los datos, enviando alertas en forma de notificaciones por correo electrónico, webhooks o RSS . Normalmente, el usuario administra un sitio web asociado con una configuración. Algunos servicios también tienen una aplicación para dispositivos móviles que se conecta a un servidor en la nube y proporciona alertas al dispositivo móvil.

Basado en alojamiento propio

Un enfoque relativamente más nuevo, que se encuentra entre el basado en servidor y el basado en cliente, es el uso de alojamiento propio , donde el software que normalmente se ejecutaría en un servidor separado se ejecuta en su propio hardware localmente, lo que generalmente significa que el software proporciona un servidor web en miniatura con una interfaz de navegador en lugar de una interfaz gráfica de usuario clásica proporcionada por una aplicación.

Basado en el cliente

Una aplicación cliente local con una interfaz gráfica de usuario sondea el contenido, hace un seguimiento de los cambios y registra los datos. Las aplicaciones cliente pueden ser extensiones de navegador, aplicaciones móviles o programas.

Consideraciones

Algunas páginas web cambian con regularidad debido a la inclusión de anuncios o feeds en la página presentada. Esto puede provocar falsos positivos en la detección de cambios, ya que los usuarios suelen estar interesados ​​únicamente en los cambios en el contenido principal. Existen algunas estrategias para mitigar este problema.

  • Crea una métrica de la diferencia entre dos versiones de una página (calculada, por ejemplo, a partir del cambio en el tamaño total, los cambios en el archivo HTML o los cambios en el árbol DOM ) e ignora los cambios por debajo de un umbral determinado. El umbral puede ser establecido por el usuario o puede estimarse automáticamente comparando algunas versiones anteriores de la página.
  • Extracción de contenido. En el caso de sitios populares o sitios que ejecutan software popular, el contenido se puede separar activamente de la basura seleccionando un subárbol del DOM, por ejemplo, utilizando XPath . Otro método típico es el uso de expresiones regulares para extraer solo el texto que le interesa al usuario.

Referencias

  1. ^ Mallawaarachchi, Vijini; Meegahapola, Lakmal; Alwis, Roshan; Heshan, Eranga; Meedeniya, Dulani; Jayarathna, Sampath (14 de mayo de 2020). Detección de cambios y notificación de páginas web: una encuesta. arXiv : 1901.02660 . Código Bib : 2019arXiv190102660M. doi :10.1145/3369876. OCLC  1201518429. S2CID  57759312.
  2. ^ "¡A la Wayback Machine, Sherman!". The Economist . Consultado el 9 de enero de 2019 .
  3. ^ "Él creó Google Alerts. Ahora es un agricultor de almendras". CNN . 4 de abril de 2016 . Consultado el 9 de septiembre de 2016 .
  • Chakravarthy, S.; Hara, SCH (2006). "Automatización de la detección y notificación de cambios en páginas web (artículo invitado)". 17.ª Conferencia internacional sobre aplicaciones de bases de datos y sistemas expertos (DEXA'06) . pág. 465. doi :10.1109/DEXA.2006.34. ISBN 0-7695-2641-1.S2CID6395251  .
  • Shobhna, Bansal; Chadhaury, Manoj (junio de 2013). "Una encuesta sobre el sistema de detección de cambios en páginas web utilizando diferentes enfoques" (PDF) . Revista internacional de informática y computación móvil . 2 (6). IJCSMC: 294–299. ISSN  2320-088X . Consultado el 8 de septiembre de 2016 .
  • changedetection.io github Detección y notificación de cambios en sitios web autoalojados
Obtenido de "https://es.wikipedia.org/w/index.php?title=Detección_y_notificación_de_cambios&oldid=1244629425"