Contenido duplicado

El término contenido duplicado se utiliza en el campo de la optimización de motores de búsqueda para describir el contenido que aparece en más de una página web. El contenido duplicado puede ser una parte sustancial del contenido dentro o entre dominios y puede ser exactamente un duplicado o muy similar. ^[1] Cuando varias páginas contienen esencialmente el mismo contenido, los motores de búsqueda como Google y Bing pueden penalizar o dejar de mostrar el sitio que copia en cualquier resultado de búsqueda relevante.

Tipos

No malicioso

El contenido duplicado no malicioso puede incluir variaciones de la misma página, como versiones optimizadas para HTML normal, dispositivos móviles o compatibilidad con impresoras, o elementos de la tienda que se pueden mostrar a través de múltiples URL distintas. ^[1] Los problemas de contenido duplicado también pueden surgir cuando un sitio es accesible bajo múltiples subdominios, como con o sin "www." o cuando los sitios no manejan correctamente la barra final de las URL. ^[2] Otra fuente común de contenido duplicado no malicioso es la paginación , en la que el contenido y/o los comentarios correspondientes se dividen en páginas separadas. ^[3]

El contenido sindicado es una forma popular de contenido duplicado. Si un sitio sindica contenido de otros sitios, generalmente se considera importante asegurarse de que los motores de búsqueda puedan determinar qué versión del contenido es la original para que el original pueda obtener los beneficios de una mayor exposición a través de los resultados de los motores de búsqueda. ^[1] Las formas de hacer esto incluyen tener una etiqueta rel=canonical en la página sindicada que apunte al original, NoIndexing en la copia sindicada o colocar un enlace en la copia sindicada que lleve al artículo original. Si no se implementa ninguna de estas soluciones, la copia sindicada podría tratarse como el original y obtener los beneficios. ^[4]

La cantidad de URL posibles que genera el software del lado del servidor también ha dificultado que los rastreadores web eviten recuperar contenido duplicado. Existen infinitas combinaciones de parámetros HTTP GET (basados en URL), de las cuales solo una pequeña selección realmente devolverá contenido único. Por ejemplo, una simple galería de fotos en línea puede ofrecer tres opciones a los usuarios, según se especifique a través de parámetros HTTP GET en la URL. Si existen cuatro formas de ordenar las imágenes, tres opciones de tamaño de miniatura , dos formatos de archivo y una opción para deshabilitar el contenido proporcionado por el usuario, entonces se puede acceder al mismo conjunto de contenido con 48 URL diferentes, todas las cuales pueden estar vinculadas en el sitio. Esta combinación matemática crea un problema para los rastreadores, ya que deben clasificar infinitas combinaciones de cambios de script relativamente menores para recuperar contenido único.

Puede haber contenido similar entre diferentes páginas web en forma de contenido de productos similares. Esto se suele observar en sitios web de comercio electrónico, donde el uso de palabras clave similares para categorías de productos similares conduce a esta forma de contenido duplicado no malicioso. Este suele ser el caso cuando se lanzan nuevas iteraciones y versiones de productos, pero el vendedor o los moderadores del sitio web de comercio electrónico no incluyen las descripciones completas de los productos. ^[5]

Malicioso

El contenido duplicado malicioso se refiere al contenido que se duplica intencionalmente con el fin de manipular los resultados de búsqueda y obtener más tráfico. Esto se conoce como spam de búsqueda . Hay varias herramientas disponibles para verificar la singularidad del contenido. ^[6] En ciertos casos, los motores de búsqueda penalizan las clasificaciones de los sitios web y las páginas individuales infractoras en las páginas de resultados del motor de búsqueda (SERP) por contenido duplicado considerado "spam".

Detección de contenido duplicado

La detección de plagio o de similitud de contenido es el proceso de localizar instancias de plagio o infracción de derechos de autor dentro de una obra o documento. El uso generalizado de las computadoras y la llegada de Internet han hecho que sea más fácil plagiar el trabajo de otros. ^[7]^[8]

La detección del plagio se puede llevar a cabo de diversas maneras. La detección humana es la forma más tradicional de identificar el plagio en un trabajo escrito. Esta puede ser una tarea larga y que requiere mucho tiempo para el lector ^[8] y también puede dar lugar a inconsistencias en la forma en que se identifica el plagio dentro de una organización. ^[9] El software de comparación de texto (TMS), que también se conoce como "software de detección de plagio" o software "antiplagio", se ha vuelto ampliamente disponible, tanto en forma de productos disponibles comercialmente como de software de código abierto ^{[ ejemplos necesarios ]} . El TMS en realidad no detecta el plagio per se, sino que encuentra pasajes específicos de texto en un documento que coinciden con el texto de otro documento.

Resoluciones

Si se ha copiado el contenido, existen múltiples resoluciones disponibles para ambas partes. ^[10]

Para eliminar el contenido del sitio del copiador, comuníquese con el propietario del contenido duplicado y solicítele que elimine el contenido copiado.
Contrata a un abogado para que envíe un aviso de eliminación a la fotocopiadora.
Reescriba el contenido para que el contenido del sitio vuelva a ser único.

Una redirección HTTP 301 (301 movido permanentemente) es un método para tratar el contenido duplicado y redirigir a los usuarios y a los rastreadores de motores de búsqueda a la única versión pertinente del contenido. ^[1]

Véase también

Article spinning – Técnica de spam para la optimización de motores de búsqueda
Elemento de enlace canónico : tipo de hipervínculo
Desduplicación de datos : técnica de procesamiento de datos para eliminar copias duplicadas de datos repetidos.
Normalización de URL : proceso mediante el cual se estandarizan las URIPáginas que muestran descripciones breves de los objetivos de redireccionamiento

Referencias

^ abcd "Contenido duplicado". Google Inc. Consultado el 7 de enero de 2016 .
^ "Contenido duplicado - Contenido duplicado" . Consultado el 19 de diciembre de 2011 .
^ "Contenido duplicado: causalidad y significado". Crecimiento empresarial eficaz . Consultado el 15 de mayo de 2017 .
^ Enge, Eric (28 de abril de 2014). "Contenido sindicado: por qué, cuándo y cómo". Search Engine Land . Third Door Media . Consultado el 25 de junio de 2018 .
^ Evitar penalizaciones por parte de Google por contenido duplicado
^ Ahmad, Bilal (20 de mayo de 2011). "6 herramientas gratuitas para comprobar contenido duplicado". TechMaish.com . Consultado el 15 de mayo de 2017 .
^ Culwin, Fintan; Lancaster, Thomas (2001). «Plagio, prevención, disuasión y detección». CiteSeerX 10.1.1.107.178 . Archivado desde el original el 18 de abril de 2021 . Consultado el 11 de noviembre de 2022 – a través de The Higher Education Academy .
^ ab Bretag, T. y Mahmud, S. (2009). Un modelo para determinar el plagio de estudiantes: detección electrónica y juicio académico. Journal of University Teaching & Learning Practice, 6 (1). Recuperado de http://ro.uow.edu.au/jutlp/vol6/iss1/6
^ Macdonald, R., y Carroll, J. (2006). Plagio: un problema complejo que requiere un enfoque institucional holístico. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536
^ "¿Tiene contenido duplicado? Puede arruinar su posicionamiento". OrangeFox.com . OrangeFox . Consultado el 27 de marzo de 2016 .

[Google-1] "Contenido duplicado". Google Inc. Consultado el 7 de enero de 2016 .

[danclarkie.co.uk-2] "Contenido duplicado - Contenido duplicado" . Consultado el 19 de diciembre de 2011 .

[3] "Contenido duplicado: causalidad y significado". Crecimiento empresarial eficaz . Consultado el 15 de mayo de 2017 .

[4] Enge, Eric (28 de abril de 2014). "Contenido sindicado: por qué, cuándo y cómo". Search Engine Land . Third Door Media . Consultado el 25 de junio de 2018 .

[5] Evitar penalizaciones por parte de Google por contenido duplicado

[6] Ahmad, Bilal (20 de mayo de 2011). "6 herramientas gratuitas para comprobar contenido duplicado". TechMaish.com . Consultado el 15 de mayo de 2017 .

[7] Culwin, Fintan; Lancaster, Thomas (2001). «Plagio, prevención, disuasión y detección». CiteSeerX 10.1.1.107.178 . Archivado desde el original el 18 de abril de 2021 . Consultado el 11 de noviembre de 2022 – a través de The Higher Education Academy .

[Content_similarity_detection_:0-8] Bretag, T. y Mahmud, S. (2009). Un modelo para determinar el plagio de estudiantes: detección electrónica y juicio académico. Journal of University Teaching & Learning Practice, 6 (1). Recuperado de http://ro.uow.edu.au/jutlp/vol6/iss1/6

[9] Macdonald, R., y Carroll, J. (2006). Plagio: un problema complejo que requiere un enfoque institucional holístico. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536

[10] "¿Tiene contenido duplicado? Puede arruinar su posicionamiento". OrangeFox.com . OrangeFox . Consultado el 27 de marzo de 2016 .