Este es un ensayo . Contiene los consejos u opiniones de uno o más colaboradores de Wikipedia. Esta página no es un artículo de enciclopedia ni forma parte de las políticas o pautas de Wikipedia , ya que no ha sido revisada exhaustivamente por la comunidad . Algunos ensayos representan normas generalizadas; otros solo representan puntos de vista minoritarios. |
" | Los modelos de lenguaje grandes tienen una confiabilidad, una comprensión y un alcance limitados y, por lo tanto, necesitan supervisión humana. | " |
— Michael Osborne, profesor de aprendizaje automático en la Universidad de Oxford [1] |
Si bien los modelos de lenguaje de gran tamaño (coloquialmente denominados "chatbots de IA" en algunos contextos) pueden ser muy útiles, el texto generado por máquinas (al igual que el texto generado por humanos) puede contener errores o fallas, o ser completamente inútil.
En concreto, pedir a un LLM que "escriba un artículo de Wikipedia" puede hacer que el resultado sea a veces una invención absoluta , con referencias ficticias incluidas . Puede ser tendencioso , difamar a personas vivas o violar derechos de autor . Por lo tanto, todo texto generado por LLM debe ser verificado por editores antes de su uso en artículos.
Los editores que no sean plenamente conscientes de estos riesgos y no puedan superar las limitaciones de estas herramientas no deberían editar con su ayuda. Los LLM no deberían utilizarse para tareas con las que el editor no esté muy familiarizado. Sus resultados deberían examinarse rigurosamente para comprobar que cumplen todas las políticas aplicables. En cualquier caso, los editores deberían evitar publicar en Wikipedia contenido obtenido pidiéndoles a los LLM que escribieran contenido original. Incluso si dicho contenido ha sido editado en gran medida, son preferibles las alternativas que no utilicen contenido generado por máquinas. Como ocurre con todas las ediciones, el editor es totalmente responsable de las ediciones asistidas por el LLM.
Wikipedia no es un campo de pruebas . Se desaconseja enfáticamente el uso de LLM para escribir comentarios en páginas de discusión o resúmenes de ediciones de forma no transparente. Los LLM utilizados para generar o modificar textos deben mencionarse en el resumen de ediciones , incluso si sus términos de servicio no lo exigen.
Los artículos de Wikipedia no deben contener investigaciones originales, es decir, hechos, alegaciones e ideas para los que no existan fuentes confiables publicadas. Esto incluye cualquier análisis o síntesis de material publicado que sirva para llegar o implicar una conclusión no establecida por las fuentes . Para demostrar que no estás agregando una investigación original, debes poder citar fuentes confiables publicadas. Deben estar directamente relacionadas con el tema del artículo y respaldar directamente el material que se presenta. |
Los LLM son programas de compleción de patrones: generan texto mostrando las palabras con mayor probabilidad de aparecer después de las anteriores. Aprenden estos patrones a partir de sus datos de entrenamiento, que incluyen una amplia variedad de contenido de Internet y otros lugares, incluidas obras de ficción, publicaciones en foros de bajo esfuerzo, contenido no estructurado y de baja calidad optimizado para SEO, etc. Debido a esto, los LLM a veces "extraen conclusiones" que, incluso si parecen superficialmente familiares, no están presentes en ninguna fuente única y confiable. También pueden cumplir con indicaciones con premisas absurdas, como "El siguiente es un artículo sobre los beneficios de comer vidrio triturado". Finalmente, los LLM pueden inventar cosas, lo que es un subproducto estadísticamente inevitable de su diseño, llamado " alucinación ". Todo esto es, en términos prácticos, equivalente a una investigación original .
Como los LLM suelen producir afirmaciones precisas y sus resultados suelen sonar plausibles y se dan con un aire de confianza, cada vez que ofrecen un resultado aparentemente útil, las personas pueden tener dificultades para detectar los problemas anteriores. Un usuario promedio que cree que está en posesión de una herramienta útil, que tal vez hizo una comprobación aleatoria de precisión y "no vio ningún problema", está predispuesto a aceptar el resultado tal como se le proporciona; pero es muy probable que haya problemas. Incluso si el 90% del contenido es correcto y el 10% es falso, eso es un gran problema en una enciclopedia. Los resultados de los LLM empeoran cuando se les hacen preguntas que son complicadas, sobre temas oscuros o se les pide que realicen tareas para las que no están capacitados (por ejemplo, tareas que requieren un amplio conocimiento o análisis).
Los lectores deben poder comprobar que la información contenida en los artículos de Wikipedia no es inventada. Esto significa que todo el material debe poder atribuirse a fuentes publicadas y fiables . Además, las citas y cualquier material cuestionado o que pueda ser cuestionado deben estar respaldadas por citas en línea. |
Los LLM no siguen las políticas de Wikipedia sobre verificabilidad y fuentes confiables . A veces, los LLM excluyen citas por completo o citan fuentes que no cumplen con los estándares de confiabilidad de Wikipedia (incluida la cita de Wikipedia como fuente ). En algunos casos, alucinan citas de referencias inexistentes inventando títulos, autores y URL.
El contenido alucinado de LLM, además de ser investigación original como se explicó anteriormente, también rompe la política de verificabilidad, ya que no se puede verificar porque es inventado: no hay referencias que encontrar.
Los artículos no deben tomar partido, sino explicarlo de manera justa y sin sesgos editoriales. Esto se aplica tanto a lo que se dice como a cómo se dice. |
Los LLM pueden producir contenido que parezca neutral en tono, pero no necesariamente en sustancia . Esta preocupación es especialmente fuerte en el caso de las biografías de personas vivas .
Si desea importar texto que haya encontrado en otro lugar o que haya escrito en coautoría con otros (incluidos LLM), solo podrá hacerlo si está disponible en términos que sean compatibles con la licencia CC BY-SA. |
Un LLM puede generar material que viole los derechos de autor . [a] El texto generado puede incluir fragmentos textuales de contenido que no es libre o ser un trabajo derivado . Además, el uso de LLM para resumir contenido protegido por derechos de autor (como artículos de noticias) puede producir paráfrasis excesivamente cercanas .
Aún no se conoce con certeza el estatus de los derechos de autor de los doctorandos que se han formado en material protegido por derechos de autor. Es posible que sus trabajos no sean compatibles con la licencia CC BY-SA y la licencia GNU que se utilizan para los textos publicados en Wikipedia.
Los LLM son herramientas de asistencia y no pueden reemplazar el criterio humano. Se necesita un criterio cuidadoso para determinar si dichas herramientas son adecuadas para un propósito determinado. Se espera que los editores que utilicen LLM se familiaricen con las limitaciones inherentes de un LLM determinado y luego deben superarlas para garantizar que sus ediciones cumplan con las pautas y políticas pertinentes. Con este fin, antes de utilizar un LLM, los editores deben haber adquirido una experiencia sustancial en la realización de la misma tarea o una más avanzada sin la asistencia de un LLM . [b]
Algunos editores son competentes para realizar ediciones sin ayuda, pero realizan ediciones inadecuadas con la ayuda de LLM de forma reiterada a pesar de un esfuerzo sincero por contribuir. Se supone que estos editores carecen de competencia en este sentido específico. Es posible que desconozcan los riesgos y las limitaciones inherentes o que los conozcan pero no sean capaces de superarlos para garantizar el cumplimiento de las políticas. En tal caso, se puede prohibir a un editor que se ayude a sí mismo con dichas herramientas (es decir, se le puede restringir a realizar únicamente ediciones sin ayuda). Este es un tipo específico de prohibición limitada. Alternativamente, o además, se le puede bloquear parcialmente el acceso a un determinado espacio de nombres o espacios de nombres.
Cada edición que incorpore la salida de LLM debe marcarse como asistida por LLM identificando el nombre y, si es posible, la versión de la IA en el resumen de la edición . Esto se aplica a todos los espacios de nombres .
Pegar directamente en la ventana de edición los resultados de los modelos de lenguaje grandes y sin procesar para crear un nuevo artículo o agregar prosa nueva y sustancial a artículos existentes generalmente conduce a malos resultados. Los LLM se pueden utilizar para editar o ampliar el texto existente y generar ideas para artículos nuevos o existentes. Cada cambio a un artículo debe cumplir con todas las políticas y pautas aplicables. Esto significa que el editor debe familiarizarse con el panorama de fuentes para el tema en cuestión y luego evaluar cuidadosamente el texto para determinar su neutralidad en general y su verificabilidad con respecto a las fuentes citadas. Si se generan citas como parte del resultado, deben verificar que las fuentes correspondientes no sean ficticias, sean confiables, relevantes y adecuadas, y verificar la integridad del texto y la fuente .
Si se utiliza un LLM como asesor de redacción, es decir, para pedir esquemas, cómo mejorar párrafos, críticas de textos, etc., los editores deben tener en cuenta que la información que proporciona no es fiable. Si se utiliza un LLM para edición de textos, resúmenes y paráfrasis, los editores deben tener en cuenta que es posible que no detecte correctamente los errores gramaticales, interprete las ambigüedades sintácticas o mantenga intacta la información clave. Es posible pedir al LLM que corrija deficiencias en su propio trabajo, como la información faltante en un resumen o un tono no enciclopédico, por ejemplo, promocional, y si bien estos pueden ser intentos que valen la pena, no se debe confiar en ellos en lugar de las correcciones manuales. Es posible que el trabajo tenga que ser editado en profundidad o descartado. Se requiere la debida diligencia y sentido común al elegir si incorporar las sugerencias y los cambios.
Los resultados sin procesar de LLM tampoco deberían agregarse directamente a los borradores . Los borradores son trabajos en progreso y sus versiones iniciales a menudo no alcanzan el estándar requerido para los artículos, pero permitir que los editores desarrollen el contenido del artículo a partir de una versión inicial sin modificaciones de LLM no es uno de los propósitos del espacio de borradores o del espacio de usuario .
Wikipedia depende de los esfuerzos de voluntarios para revisar el contenido nuevo y comprobar que cumple con nuestras políticas de contenido básicas . Esto suele llevar mucho tiempo. El contrato social informal en Wikipedia es que los editores pondrán un esfuerzo significativo en sus contribuciones, de modo que otros editores no tengan que "limpiar lo que dejan". Los editores deben asegurarse de que sus ediciones asistidas por LLM sean positivas para la enciclopedia y no aumenten la carga de mantenimiento de otros voluntarios.
Los LLM no deben utilizarse para ediciones no autorizadas de tipo bot ( WP:MEATBOT ), ni para nada que se asemeje a una edición de tipo bot. El uso de LLM para facilitar la edición de alta velocidad en el espacio de los artículos tiene una alta probabilidad de no cumplir con los estándares de uso responsable debido a la dificultad de examinar rigurosamente el contenido para comprobar que cumple con todas las políticas aplicables.
Wikipedia no es un campo de pruebas para el desarrollo de LLM, por ejemplo, al realizar experimentos o pruebas en Wikipedia con este único propósito. Las modificaciones a Wikipedia se realizan para hacer avanzar la enciclopedia, no una tecnología. Esto no tiene por objeto prohibir a los editores experimentar de manera responsable con LLM en su espacio de usuario con el propósito de mejorar Wikipedia.
Los editores no deberían utilizar los LLM para escribir comentarios. La comunicación es la base del proceso de toma de decisiones de Wikipedia y se supone que los editores que contribuyen a la Wikipedia en inglés poseen la capacidad de comunicarse de manera eficaz . Para la comunicación es importante tener pensamientos propios y encontrar una forma auténtica de expresarlos. El uso de texto generado por máquina no cumple con este requisito, ya que no es un sustituto del esfuerzo personal y la participación constructiva.
El uso indebido repetido de los LLM constituye un patrón de edición disruptiva y puede dar lugar a un bloqueo o prohibición .
Los trabajos creados por LLM no son § Fuentes confiables . A menos que sus resultados hayan sido publicados por medios confiables con una supervisión rigurosa y se pueda verificar que el editor evaluó su precisión, no deben citarse.
Un editor que identifica contenido originado en LLM que no cumple con nuestras políticas de contenido básico —y decide no eliminarlo directamente (lo que generalmente está bien)— debe editarlo para que cumpla con las políticas o alertar a otros editores sobre el problema. Lo primero que debe verificar es que las obras a las que se hace referencia realmente existan. Luego, todas las afirmaciones fácticas deben verificarse con las fuentes proporcionadas. Debe establecerse la presencia de integridad de la fuente del texto. Todo lo que resulte no cumplir con las políticas debe eliminarse.
Para alertar a otros editores, el editor que responde al problema debe colocarlo en la parte superior del artículo o borrador afectado (solo si ese editor no se siente capaz de resolver rápidamente el problema por sí solo). En las biografías de personas vivas , el contenido originado por LLM que no cumpla con las políticas debe eliminarse de inmediato , sin esperar a que se discuta o a que alguien más resuelva el problema etiquetado.{{AI-generated|date=October 2024}}
Si la eliminación como se describe arriba resultara en la eliminación de todo el contenido del artículo o borrador, entonces se convierte en candidato para eliminación. [c] Si toda la página parece ser objetivamente incorrecta o se basa en fuentes inventadas, la eliminación rápida según WP:G3 (puro vandalismo y engaños flagrantes) puede ser apropiada.
Las siguientes plantillas se pueden utilizar para advertir a los editores en sus páginas de discusión: