El término contenido duplicado se utiliza en el campo de la optimización de motores de búsqueda para describir el contenido que aparece en más de una página web. El contenido duplicado puede ser una parte sustancial del contenido dentro o entre dominios y puede ser exactamente un duplicado o muy similar. [1] Cuando varias páginas contienen esencialmente el mismo contenido, los motores de búsqueda como Google y Bing pueden penalizar o dejar de mostrar el sitio que copia en cualquier resultado de búsqueda relevante.
El contenido duplicado no malicioso puede incluir variaciones de la misma página, como versiones optimizadas para HTML normal, dispositivos móviles o compatibilidad con impresoras, o elementos de la tienda que se pueden mostrar a través de múltiples URL distintas. [1] Los problemas de contenido duplicado también pueden surgir cuando un sitio es accesible bajo múltiples subdominios, como con o sin "www." o cuando los sitios no manejan correctamente la barra final de las URL. [2] Otra fuente común de contenido duplicado no malicioso es la paginación , en la que el contenido y/o los comentarios correspondientes se dividen en páginas separadas. [3]
El contenido sindicado es una forma popular de contenido duplicado. Si un sitio sindica contenido de otros sitios, generalmente se considera importante asegurarse de que los motores de búsqueda puedan determinar qué versión del contenido es la original para que el original pueda obtener los beneficios de una mayor exposición a través de los resultados de los motores de búsqueda. [1] Las formas de hacer esto incluyen tener una etiqueta rel=canonical en la página sindicada que apunte al original, NoIndexing en la copia sindicada o colocar un enlace en la copia sindicada que lleve al artículo original. Si no se implementa ninguna de estas soluciones, la copia sindicada podría tratarse como el original y obtener los beneficios. [4]
La cantidad de URL posibles que genera el software del lado del servidor también ha dificultado que los rastreadores web eviten recuperar contenido duplicado. Existen infinitas combinaciones de parámetros HTTP GET (basados en URL), de las cuales solo una pequeña selección realmente devolverá contenido único. Por ejemplo, una simple galería de fotos en línea puede ofrecer tres opciones a los usuarios, según se especifique a través de parámetros HTTP GET en la URL. Si existen cuatro formas de ordenar las imágenes, tres opciones de tamaño de miniatura , dos formatos de archivo y una opción para deshabilitar el contenido proporcionado por el usuario, entonces se puede acceder al mismo conjunto de contenido con 48 URL diferentes, todas las cuales pueden estar vinculadas en el sitio. Esta combinación matemática crea un problema para los rastreadores, ya que deben clasificar infinitas combinaciones de cambios de script relativamente menores para recuperar contenido único.
Puede haber contenido similar entre diferentes páginas web en forma de contenido de productos similares. Esto se suele observar en sitios web de comercio electrónico, donde el uso de palabras clave similares para categorías de productos similares conduce a esta forma de contenido duplicado no malicioso. Este suele ser el caso cuando se lanzan nuevas iteraciones y versiones de productos, pero el vendedor o los moderadores del sitio web de comercio electrónico no incluyen las descripciones completas de los productos. [5]
El contenido duplicado malicioso se refiere al contenido que se duplica intencionalmente con el fin de manipular los resultados de búsqueda y obtener más tráfico. Esto se conoce como spam de búsqueda . Hay varias herramientas disponibles para verificar la singularidad del contenido. [6] En ciertos casos, los motores de búsqueda penalizan las clasificaciones de los sitios web y las páginas individuales infractoras en las páginas de resultados del motor de búsqueda (SERP) por contenido duplicado considerado "spam".
La detección de plagio o de similitud de contenido es el proceso de localizar instancias de plagio o infracción de derechos de autor dentro de una obra o documento. El uso generalizado de las computadoras y la llegada de Internet han hecho que sea más fácil plagiar el trabajo de otros. [7] [8]
La detección del plagio se puede llevar a cabo de diversas maneras. La detección humana es la forma más tradicional de identificar el plagio en un trabajo escrito. Esta puede ser una tarea larga y que requiere mucho tiempo para el lector [8] y también puede dar lugar a inconsistencias en la forma en que se identifica el plagio dentro de una organización. [9] El software de comparación de texto (TMS), que también se conoce como "software de detección de plagio" o software "antiplagio", se ha vuelto ampliamente disponible, tanto en forma de productos disponibles comercialmente como de software de código abierto [ ejemplos necesarios ] . El TMS en realidad no detecta el plagio per se, sino que encuentra pasajes específicos de texto en un documento que coinciden con el texto de otro documento.Si se ha copiado el contenido, existen múltiples resoluciones disponibles para ambas partes. [10]
Una redirección HTTP 301 (301 movido permanentemente) es un método para tratar el contenido duplicado y redirigir a los usuarios y a los rastreadores de motores de búsqueda a la única versión pertinente del contenido. [1]