Se han empleado varios métodos para evaluar la traducción automática . Este artículo se centra en la evaluación del resultado de la traducción automática , más que en la evaluación del rendimiento o la usabilidad.
Una forma típica que tienen los profanos de evaluar la calidad de la traducción automática es traducir de un idioma de origen a un idioma de destino y volver al idioma de origen con el mismo motor. Aunque intuitivamente esto puede parecer un buen método de evaluación, se ha demostrado que la traducción de ida y vuelta es un "mal predictor de la calidad". [1] La razón por la que es un mal predictor de la calidad es razonablemente intuitiva. Una traducción de ida y vuelta no prueba un sistema, sino dos sistemas: el par de idiomas del motor para traducir al idioma de destino y el par de idiomas que traduce de vuelta desde el idioma de destino.
Consideremos los siguientes ejemplos de traducción de ida y vuelta realizada del inglés al italiano y al portugués de Somers (2005):
Texto original | Seleccione este enlace para ver nuestra página de inicio. |
---|---|
Traducido | Seleccione estas colecciones para guardar nuestra página de inicio. |
Traducido de nuevo | Seleccione este enlace para poder ver nuestra página de inicio. |
Texto original | Tal para cual |
---|---|
Traducido | Melharuco para el tat |
Traducido de nuevo | Tal para cual |
En el primer ejemplo, donde el texto se traduce al italiano y luego al inglés , el texto en inglés está considerablemente distorsionado, pero la traducción al italiano es una traducción útil. En el segundo ejemplo, el texto traducido al inglés es perfecto, pero la traducción al portugués no tiene sentido; el programa pensó que "tit" era una referencia a un pájaro , que en realidad significaba "tat", una palabra que no entendía.
Si bien la traducción de ida y vuelta puede ser útil para generar un "excedente de diversión", [2] la metodología es deficiente para un estudio serio de la calidad de la traducción automática.
Esta sección cubre dos de los estudios de evaluación a gran escala que han tenido un impacto significativo en el campo: el estudio ALPAC 1966 y el estudio ARPA. [3]
Una de las partes constitutivas del informe de ALPAC fue un estudio que comparaba diferentes niveles de traducción humana con el resultado de la traducción automática, utilizando sujetos humanos como jueces. Los jueces humanos fueron entrenados especialmente para ese propósito. El estudio de evaluación comparó un sistema de traducción automática del ruso al inglés con traductores humanos, en dos variables.
Las variables estudiadas fueron la "inteligibilidad" y la "fidelidad". La inteligibilidad era una medida de lo "comprensible" que era la oración, y se medía en una escala de 1 a 9. La fidelidad era una medida de cuánta información retenía la oración traducida en comparación con el original, y se medía en una escala de 0 a 9. Cada punto de la escala estaba asociado con una descripción textual. Por ejemplo, 3 en la escala de inteligibilidad se describía como "Generalmente ininteligible; tiende a leerse como un sinsentido pero, con una cantidad considerable de reflexión y estudio, uno puede al menos plantear la hipótesis de la idea que se pretendía transmitir con la oración". [4]
La inteligibilidad se midió sin referencia al original, mientras que la fidelidad se midió indirectamente. Se presentó la oración traducida y, después de leerla y asimilar el contenido, se presentó la oración original. Se pidió a los jueces que calificaran la oración original en cuanto a su grado de información. Por lo tanto, cuanto más informativa fuera la oración original, menor era la calidad de la traducción.
El estudio demostró que las variables estaban altamente correlacionadas cuando se promediaba el juicio humano por frase. La variación entre evaluadores era pequeña, pero los investigadores recomendaron que se utilizaran al menos tres o cuatro evaluadores. La metodología de evaluación logró separar fácilmente las traducciones realizadas por humanos de las realizadas por máquinas.
El estudio concluyó que "se pueden realizar evaluaciones altamente confiables de la calidad de las traducciones humanas y automáticas". [4]
Como parte del Programa de Tecnologías del Lenguaje Humano, la Agencia de Proyectos de Investigación Avanzada (ARPA) creó una metodología para evaluar los sistemas de traducción automática y continúa realizando evaluaciones basadas en esta metodología. El programa de evaluación se inició en 1991 y continúa hasta el día de hoy. Se pueden encontrar detalles del programa en White et al. (1994) y White (1995).
El programa de evaluación implicó la prueba de varios sistemas basados en diferentes enfoques teóricos: estadísticos, basados en reglas y asistidos por personas. En 1992 se probaron varios métodos para la evaluación de los resultados de estos sistemas y se seleccionaron los métodos adecuados más recientes para su inclusión en los programas de los años siguientes. Los métodos fueron: evaluación de la comprensión, evaluación de la calidad por parte de un panel y evaluación basada en la adecuación y la fluidez.
La evaluación de la comprensión tenía como objetivo comparar directamente los sistemas basándose en los resultados de pruebas de comprensión de opción múltiple, como en Church et al. (1993). Los textos elegidos fueron un conjunto de artículos en inglés sobre el tema de noticias financieras. Estos artículos fueron traducidos por traductores profesionales a una serie de pares de idiomas y luego traducidos nuevamente al inglés utilizando sistemas de traducción automática. Se decidió que esto no era adecuado como método independiente de comparación de sistemas y, por lo tanto, se abandonó debido a problemas con la modificación del significado en el proceso de traducción del inglés.
La idea de la evaluación de calidad por parte de un panel era someter las traducciones a un panel de expertos hablantes nativos de inglés que fueran traductores profesionales y pedirles que las evaluaran. Las evaluaciones se hicieron sobre la base de una métrica, modelada según una métrica estándar del gobierno de los EE. UU. que se utiliza para calificar las traducciones humanas. Esto era bueno desde el punto de vista de que la métrica estaba "motivada externamente", [3] ya que no se desarrolló específicamente para la traducción automática. Sin embargo, la evaluación de calidad por parte del panel era muy difícil de organizar logísticamente, ya que requería tener a varios expertos reunidos en un lugar durante una semana o más y, además, que llegaran a un consenso. Este método también se abandonó.
Junto con una forma modificada de evaluación de la comprensión (rebautizada como evaluación de la informatividad), el método más popular era obtener calificaciones de jueces monolingües para segmentos de un documento. A los jueces se les presentaba un segmento y se les pedía que lo calificaran en función de dos variables: adecuación y fluidez. La adecuación es una calificación de cuánta información se transfiere entre el original y la traducción, y la fluidez es una calificación de cuán bueno es el inglés. Se descubrió que esta técnica cubría las partes relevantes de la evaluación del panel de calidad, al mismo tiempo que era más fácil de implementar, ya que no requería el juicio de expertos.
Los sistemas de medición basados en la adecuación y la fluidez, junto con la informatividad, son ahora la metodología estándar para el programa de evaluación de ARPA. [5]
En el contexto de este artículo, una métrica es una medida. Una métrica que evalúa el resultado de una traducción automática representa la calidad del resultado. La calidad de una traducción es inherentemente subjetiva, no existe un "bien" objetivo o cuantificable. Por lo tanto, cualquier métrica debe asignar puntuaciones de calidad que se correlacionen con el juicio humano de calidad. Es decir, una métrica debe puntuar alto las traducciones que los humanos puntúan alto y dar puntuaciones bajas a aquellas que los humanos dan puntuaciones bajas. El juicio humano es el punto de referencia para evaluar las métricas automáticas, ya que los humanos son los usuarios finales de cualquier resultado de traducción.
La medida de evaluación de las métricas es la correlación con el juicio humano. Esto se hace generalmente en dos niveles: a nivel de la oración, donde se calculan las puntuaciones según la métrica para un conjunto de oraciones traducidas y luego se correlacionan con el juicio humano para las mismas oraciones; y a nivel del corpus, donde se agregan las puntuaciones de las oraciones tanto para los juicios humanos como para los juicios métricos, y luego se correlacionan estas puntuaciones agregadas. Las cifras de correlación a nivel de oración rara vez se informan, aunque Banerjee et al. (2005) sí proporcionan cifras de correlación que muestran que, al menos para su métrica, la correlación a nivel de oración es sustancialmente peor que la correlación a nivel de corpus.
Aunque no se ha informado ampliamente, se ha observado que el género o dominio de un texto tiene un efecto en la correlación obtenida al utilizar métricas. Coughlin (2003) informa que comparar el texto candidato con una única traducción de referencia no afecta negativamente la correlación de las métricas cuando se trabaja con un texto de dominio restringido.
Incluso si una métrica se correlaciona bien con el juicio humano en un estudio sobre un corpus, esta correlación exitosa puede no trasladarse a otro corpus. Un buen desempeño de la métrica, en todos los tipos de texto o dominios, es importante para la reutilización de la métrica. Una métrica que solo funciona para el texto en un dominio específico es útil, pero menos útil que una que funciona en muchos dominios, porque crear una nueva métrica para cada nueva evaluación o dominio es indeseable.
Otro factor importante en la utilidad de una métrica de evaluación es tener una buena correlación, incluso cuando se trabaja con pequeñas cantidades de datos, es decir, oraciones candidatas y traducciones de referencia. Turian et al. (2003) señalan que "cualquier medida de evaluación de traducción automática es menos confiable en traducciones más cortas", y muestran que aumentar la cantidad de datos mejora la confiabilidad de una métrica. Sin embargo, agregan que "... la confiabilidad en textos más cortos, tan cortos como una oración o incluso una frase, es altamente deseable porque una medida de evaluación de traducción automática confiable puede acelerar en gran medida el análisis exploratorio de datos". [6]
Banerjee et al. (2005) destacan cinco atributos que debe poseer una buena métrica automática: correlación, sensibilidad, consistencia, confiabilidad y generalidad. Cualquier buena métrica debe correlacionarse altamente con el juicio humano, debe ser consistente, dando resultados similares al mismo sistema de TA en texto similar. Debe ser sensible a las diferencias entre sistemas de TA y confiable en el sentido de que se debe esperar que los sistemas de TA que puntúan de manera similar tengan un desempeño similar. Finalmente, la métrica debe ser general, es decir, debe funcionar con diferentes dominios de texto , en una amplia gama de escenarios y tareas de TA.
El objetivo de esta subsección es ofrecer una visión general del estado del arte en métricas automáticas para evaluar la traducción automática. [7]
BLEU fue una de las primeras métricas que reportó una alta correlación con los juicios humanos de calidad. La métrica es actualmente una de las más populares en el campo. La idea central detrás de la métrica es que "cuanto más se acerque una traducción automática a una traducción humana profesional, mejor será". [8] La métrica calcula puntuaciones para segmentos individuales, generalmente oraciones, y luego promedia estas puntuaciones en todo el corpus para obtener una puntuación final. Se ha demostrado que se correlaciona altamente con los juicios humanos de calidad a nivel de corpus. [9]
BLEU utiliza una forma modificada de precisión para comparar una traducción candidata con múltiples traducciones de referencia. La métrica modifica la precisión simple, ya que se sabe que los sistemas de traducción automática generan más palabras de las que aparecen en un texto de referencia. Ninguna otra métrica de traducción automática ha superado aún significativamente a BLEU con respecto a la correlación con el juicio humano en pares de idiomas. [10]
La métrica NIST se basa en la métrica BLEU , pero con algunas modificaciones. Mientras que BLEU simplemente calcula la precisión de los n-gramas sumando el mismo peso a cada uno, NIST también calcula qué tan informativo es un n-grama en particular . Es decir, cuando se encuentra un n-grama correcto , cuanto más raro sea ese n-grama, más peso se le da. [11] Por ejemplo, si el bigrama "en el" coincide correctamente, recibe un peso menor que la coincidencia correcta de los "cálculos interesantes" del bigrama, ya que es menos probable que esto ocurra. NIST también difiere de BLEU en su cálculo de la penalización por brevedad, en la medida en que pequeñas variaciones en la longitud de la traducción no afectan tanto la puntuación general.
La tasa de error de palabras (WER) es una métrica basada en la distancia de Levenshtein , donde la distancia de Levenshtein funciona a nivel de caracteres, mientras que el WER funciona a nivel de palabras. Originalmente se utilizaba para medir el rendimiento de los sistemas de reconocimiento de voz , pero también se utiliza en la evaluación de la traducción automática. La métrica se basa en el cálculo de la cantidad de palabras que difieren entre un fragmento de texto traducido por máquina y una traducción de referencia.
Una métrica relacionada es la tasa de error de palabras independiente de la posición (PER), que permite reordenar palabras y secuencias de palabras entre un texto traducido y una traducción de referencia.
La métrica METEOR está diseñada para abordar algunas de las deficiencias inherentes a la métrica BLEU. La métrica se basa en la media armónica ponderada de la precisión y la recuperación de unigramas. La métrica fue diseñada después de la investigación de Lavie (2004) sobre la importancia de la recuperación en las métricas de evaluación. Su investigación mostró que las métricas basadas en la recuperación lograron sistemáticamente una correlación más alta que las basadas solo en la precisión, cf. BLEU y NIST. [12]
METEOR también incluye otras características que no se encuentran en otras métricas, como la coincidencia de sinónimos, donde en lugar de coincidir solo con la forma exacta de la palabra, la métrica también coincide con sinónimos. Por ejemplo, la palabra "good" en la referencia que se traduce como "well" en la traducción cuenta como una coincidencia. La métrica también incluye un lematizador, que lematiza las palabras y coincide con las formas lematizadas. La implementación de la métrica es modular en la medida en que los algoritmos que coinciden con las palabras se implementan como módulos, y se pueden agregar fácilmente nuevos módulos que implementen diferentes estrategias de coincidencia.
Se propuso una nueva métrica de evaluación de traducción automática, LEPOR, como la combinación de muchos factores de evaluación, incluidos los existentes (precisión, recuperación) y los modificados (penalización por longitud de oración y penalización por orden de palabras basado en n-gramas). Los experimentos se probaron en ocho pares de idiomas de ACL-WMT2011, incluidos inglés con otros (español, francés, alemán y checo) y el inverso, y mostraron que LEPOR produjo una correlación a nivel de sistema más alta con los juicios humanos que varias métricas existentes como BLEU, Meteor-1.3, TER, AMBER y MP4IBM1. [13] En el artículo se presenta una versión mejorada de la métrica LEPOR, hLEPOR. [14] hLEPOR utiliza la media armónica para combinar los subfactores de la métrica diseñada. Además, diseñan un conjunto de parámetros para ajustar los pesos de los subfactores según los diferentes pares de idiomas. Los resultados de la tarea compartida de métricas ACL-WMT13 [15] muestran que hLEPOR produce la puntuación de correlación de Pearson más alta con el juicio humano en el par de idiomas inglés-ruso, además de la puntuación media más alta en cinco pares de idiomas (inglés-alemán, francés, español, checo y ruso). Los resultados detallados de la tarea de métricas WMT13 se presentan en el artículo. [16]
Existen algunos trabajos de encuesta de evaluación de traducción automática, [17] [18] [19] donde las personas introdujeron más detalles sobre qué tipos de métodos de evaluación humana usaron y cómo funcionan, como la inteligibilidad, fidelidad, fluidez, adecuación, comprensión e informatividad, etc. Para las evaluaciones automáticas, también hicieron algunas clasificaciones claras como los métodos de similitud léxica, la aplicación de características lingüísticas y los subcampos de estos dos aspectos. Por ejemplo, para la similitud léxica, contiene distancia de edición, precisión, recuperación y orden de palabras; para la característica lingüística, se divide en la característica sintáctica y la característica semántica respectivamente. Algunas de las últimas novedades en materia de evaluación de la traducción manual y automática [20] presentaron las metodologías de evaluación de la calidad de la traducción (TQA) desarrolladas recientemente, como la inteligencia colaborativa que utiliza Amazon Mechanical Turk , las pruebas de significación estadística, la revisión de los criterios tradicionales con estrategias de nuevo diseño, así como las tareas compartidas de estimación de la calidad de la traducción automática (QE) del taller anual sobre traducción automática (WMT) [21] y los modelos correspondientes que no dependen de las traducciones de referencia ofrecidas por humanos.