AZUL

Algoritmo para evaluar la calidad del texto traducido automáticamente

BLEU ( Bilingual Evaluation Understudy ) es un algoritmo para evaluar la calidad de un texto que ha sido traducido automáticamente de un idioma natural a otro. Se considera que la calidad es la correspondencia entre el resultado de una máquina y el de un ser humano: "cuanto más se acerque una traducción automática a una traducción humana profesional, mejor será"; esta es la idea central detrás de BLEU. ^[1] Inventado en IBM en 2001, BLEU fue una de las primeras métricas en afirmar una alta correlación con los juicios humanos de calidad, ^[2]^[3] y sigue siendo una de las métricas automatizadas y económicas más populares.

Las puntuaciones se calculan para segmentos traducidos individuales (generalmente oraciones) comparándolos con un conjunto de traducciones de referencia de buena calidad. Luego, esas puntuaciones se promedian sobre todo el corpus para llegar a una estimación de la calidad general de la traducción. No se tienen en cuenta la inteligibilidad ni la corrección gramatical. ^[4]

El resultado de BLEU es siempre un número entre 0 y 1. Este valor indica la similitud entre el texto candidato y los textos de referencia; los valores más cercanos a 1 representan textos más similares. Pocas traducciones humanas alcanzarán una puntuación de 1, ya que esto indicaría que el candidato es idéntico a una de las traducciones de referencia. Por este motivo, no es necesario alcanzar una puntuación de 1. Dado que hay más oportunidades de coincidencia, agregar traducciones de referencia adicionales aumentará la puntuación de BLEU. ^[5]

Definición matemática

Configuración básica

Un primer intento básico de definir la puntuación BLEU tomaría dos argumentos: una cadena candidata y una lista de cadenas de referencia . La idea es que debería ser cercano a 1 cuando es similar a , y cercano a 0 si no lo es. ${\hat {y}}$ $(y^{(1)},...,y^{(N)})$ $BLEU({\sombrero {y}};y^{(1)},...,y^{(N)})$ ${\hat {y}}$ $y^{(1)},...,y^{(N)}$

Como analogía, la puntuación BLEU es como un profesor de idiomas que intenta calificar la calidad de la traducción de un estudiante comprobando en qué medida se ajusta a las respuestas de referencia . ${\hat {y}}$ $y^{(1)},...,y^{(N)}$

Dado que en el procesamiento del lenguaje natural se debe evaluar un conjunto grande de cadenas candidatas, se debe generalizar el puntaje BLEU al caso en el que se tiene una lista de M cadenas candidatas (llamada un " corpus ") , y para cada cadena candidata , una lista de cadenas candidatas de referencia . $({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ ${\sombrero {y}}^{(i)}$ $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$

Dada cualquier cadena y cualquier entero , definimos el conjunto de sus n-gramas como Nótese que es un conjunto de elementos únicos, no un multiconjunto que permite elementos redundantes, de modo que, por ejemplo, . $y=y_{1}y_{2}\cdots y_{K}$ $n\geq 1$ $G_{n}(y)=\{y_{1}\cdots y_{n},y_{2}\cdots y_{n+1},\cdots ,y_{K-n+1}\cdots y_ {K}\}$ $G_{2}(abab)=\{ab,ba\}$

Dadas dos cadenas cualesquiera , defina el recuento de subcadenas como el número de apariciones de como subcadena de . Por ejemplo, . ${\estilo de visualización s,y}$ $C(s,y)$ ${\estilo de visualización s}$ ${\estilo de visualización y}$ $C(ab,abcbab)=2$

Ahora, arregle un corpus candidato y haga referencia al corpus candidato , donde cada . ${\hat {S}}:=({\hat {y}}^{(1)},\cdots ,{\hat {y}}^{(M)})$ $S=(S_{1},\cdots ,S_{M})$ $S_{i}:=(y^{(i,1)},...,y^{(i,N_{i})})$

Precisión de n-gramas modificada

Defina la función de precisión del n-grama modificado como El n-grama modificado, que parece complicado, es simplemente una generalización directa del caso prototípico: una oración candidata y una oración de referencia. En este caso, es Para llegar a esta expresión, comenzamos con la sumatoria de conteo de n-gramas más obvia: Esta cantidad mide cuántos n-gramas en la oración de referencia son reproducidos por la oración candidata. Tenga en cuenta que contamos las n-subcadenas , no los n-gramas . Por ejemplo, cuando , todas las 2-subcadenas en (ab y ba) aparecen 3 veces cada una, por lo que el conteo es 6, no 2. $p_{n}({\hat {S}};S):={\frac {\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}\min(C(s,{\hat {y}}^{(i)}),\max _{y\in S_{i}}C(s,y))}{\sum _{i=1}^{M}\sum _{s\in G_{n}({\hat {y}}^{(i)})}C(s,{\hat {y}}^{(i)})}}$ $p_{n}(\{{\hat {y}}\};\{y\})={\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ $\sum _{s\in G_{n}({\hat {y}})}C(s,y)={\text{number of n-substrings in }}{\hat {y}}{\text{ that appear in }}y$ ${\hat {y}}=aba,y=abababa,n=2$ ${\hat {y}}$ $y$

En la situación anterior, sin embargo, la cadena candidata es demasiado corta. En lugar de 3 apariciones de contiene solo una, por lo que agregamos una función mínima para corregir eso: Esta suma de conteo no se puede usar para comparar entre oraciones, ya que no está normalizada. Si tanto la referencia como las oraciones candidatas son largas, el conteo podría ser grande, incluso si el candidato es de muy mala calidad. Entonces lo normalizamos La normalización es tal que siempre es un número en , lo que permite comparaciones significativas entre corpus. Es cero si ninguna de las n-subcadenas en candidato está en referencia. Es uno si cada n-grama en el candidato aparece en referencia, al menos tantas veces como en candidato. En particular, si el candidato es una subcadena de la referencia, entonces es uno. $ab$ ${\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}$ ${\frac {\sum _{s\in G_{n}({\hat {y}})}\min(C(s,{\hat {y}}),C(s,y))}{\sum _{s\in G_{n}({\hat {y}})}C(s,{\hat {y}})}}$ $[0,1]$

Penalización por brevedad

La precisión de n-gramas modificada otorga indebidamente una puntuación alta a las cadenas candidatas que son " telegráficas ", es decir, que contienen todos los n-gramas de las cadenas de referencia, pero la menor cantidad de veces posible.

Para castigar las cadenas candidatas que sean demasiado cortas, defina la penalización por brevedad como donde es la parte positiva de . $BP({\hat {S}};S):=e^{-(r/c-1)^{+}}$ $(r/c-1)^{+}=\max(0,r/c-1)$ $r/c-1$

Cuando , la penalización por brevedad , significa que no castigamos a los candidatos largos, y solo castigamos a los candidatos cortos. $r\leq c$ $BP=1$
Cuando , la penalidad por brevedad $r>c$ $BP=e^{1-r/c}$

$c$ es la longitud del corpus candidato, es decir, donde es la longitud de . $c:=\sum _{i=1}^{M}|{\hat {y}}^{(i)}|$ $|y|$ $y$

$r$ es la longitud efectiva del corpus de referencia , es decir, donde , es decir, la oración cuya longitud es lo más cercana posible. $r:=\sum _{i=1}^{M}|y^{(i,j)}|$ $y^{(i,j)}=\arg \min _{y\in S_{i}}||y|-|{\hat {y}}^{(i)}||$ $S_{i}$ $|{\hat {y}}^{(i)}|$

Definición final de BLEU

No existe una única definición de BLEU, sino toda una familia de ellas, parametrizadas por el vector de ponderación . Se trata de una distribución de probabilidad en , es decir, , y . $w:=(w_{1},w_{2},\cdots )$ $\{1,2,3,\cdots \}$ $\sum _{i=1}^{\infty }w_{i}=1$ $\forall i\in \{1,2,3,\cdots \},w_{i}\in [0,1]$

Con una opción de , la puntuación BLEU es En palabras, es una media geométrica ponderada de todas las precisiones de n-gramas modificadas, multiplicada por la penalización por brevedad. Usamos la media geométrica ponderada, en lugar de la media aritmética ponderada, para favorecer fuertemente a los corpus candidatos que son simultáneamente buenos según múltiples precisiones de n-gramas. $w$ $BLEU_{w}({\hat {S}};S):=BP({\hat {S}};S)\cdot \exp \left(\sum _{n=1}^{\infty }w_{n}\ln p_{n}({\hat {S}};S)\right)$

La opción más típica, la recomendada en el artículo original, es . ^[1] $w_{1}=\cdots =w_{4}={\frac {1}{4}}$

Algoritmo

Esto queda ilustrado en el siguiente ejemplo de Papineni et al. (2002):

Ejemplo de un resultado de traducción automática deficiente con alta precisión
Candidato	el	el	el	el	el	el	el
Referencia 1	el	gato	es	en	el	estera
Referencia 2	allá	es	a	gato	en	el	estera

De las siete palabras de la traducción candidata, todas aparecen en las traducciones de referencia. Por lo tanto, al texto candidato se le asigna una precisión de unigramos de:

P={\frac {m}{w_{t}}}={\frac {7}{7}}=1

donde es el número de palabras del candidato que se encuentran en la referencia y es el número total de palabras del candidato. Esta es una puntuación perfecta, a pesar del hecho de que la traducción del candidato anterior conserva poco del contenido de cualquiera de las referencias. $~m$ $~w_{t}$

La modificación que realiza BLEU es bastante sencilla. Para cada palabra de la traducción candidata, el algoritmo toma su recuento total máximo, , en cualquiera de las traducciones de referencia. En el ejemplo anterior, la palabra "the" aparece dos veces en la referencia 1 y una vez en la referencia 2. Por lo tanto , . $~m_{max}$ $~m_{max}=2$

Para la traducción candidata, el recuento de cada palabra se recorta a un máximo de para esa palabra. En este caso, "the" tiene y , por lo tanto, se recorta a 2. Estos recuentos recortados se suman luego para todas las palabras distintas en la traducción candidata. Esta suma luego se divide por el número total de unigramas en la traducción candidata. En el ejemplo anterior, la puntuación de precisión de unigrama modificada sería: $m_{w}$ $m_{max}$ $~m_{w}=7$ $~m_{max}=2$ $~m_{w}$ $~m_{w}$

P={\frac {2}{7}}

En la práctica, sin embargo, el uso de palabras individuales como unidad de comparación no es óptimo. En su lugar, BLEU calcula la misma métrica de precisión modificada utilizando n-gramas . Se encontró que la longitud que tiene la "mayor correlación con los juicios humanos monolingües" ^[6] es cuatro. Se encontró que las puntuaciones de unigramas dan cuenta de la adecuación de la traducción, cuánta información se retiene. Las puntuaciones $de n$ -gramas más largas dan cuenta de la fluidez de la traducción, o en qué medida se lee como "buen inglés".

Comparación de métricas para el candidato "el gato"
Modelo	Conjunto de gramos	Puntaje
Unigrama	"el", "el", "gato"	${\frac {1+1+1}{3}}=1$
Unigrama agrupado	"el"2, "gato"1	${\frac {1+1}{2+1}}={\frac {2}{3}}$
Bigrama	"el el", "el gato"	${\frac {0+1}{2}}={\frac {1}{2}}$

Un ejemplo de traducción candidata para las mismas referencias mencionadas anteriormente podría ser:

El gato

En este ejemplo, la precisión unigramo modificada sería:

P={\frac {1}{2}}+{\frac {1}{2}}={\frac {2}{2}}

como la palabra "the" y la palabra "cat" aparecen una vez cada una en el candidato, y el número total de palabras es dos. La precisión del bigrama modificado sería como el bigrama, "the cat" aparece una vez en el candidato. Se ha señalado que la precisión suele combinarse con la recuperación para superar este problema ^[7] , ya que la recuperación del unigrama de este ejemplo sería o . El problema es que, como hay múltiples traducciones de referencia, una mala traducción podría fácilmente tener una recuperación inflada, como una traducción que constara de todas las palabras en cada una de las referencias. ^[8] $1/1$ $3/6$ $2/7$

Para generar una puntuación para todo el corpus, las puntuaciones de precisión modificadas para los segmentos se combinan utilizando la media geométrica multiplicada por una penalización por brevedad para evitar que los candidatos muy cortos reciban una puntuación demasiado alta. Sea $r$ la longitud total del corpus de referencia y $c$ la longitud total del corpus de traducción. Si , se aplica la penalización por brevedad, definida como . (En el caso de múltiples oraciones de referencia, se toma $r$ como la suma de las longitudes de las oraciones cuyas longitudes son más cercanas a las longitudes de las oraciones candidatas. Sin embargo, en la versión de la métrica utilizada por las evaluaciones del NIST antes de 2009, se había utilizado en su lugar la oración de referencia más corta). $c\leq r$ $e^{(1-r/c)}$

iBLEU es una versión interactiva de BLEU que permite al usuario examinar visualmente las puntuaciones BLEU obtenidas por las traducciones candidatas. También permite comparar dos sistemas diferentes de forma visual e interactiva, lo que resulta útil para el desarrollo de sistemas. ^[9]

Actuación

Se ha informado con frecuencia que BLEU se correlaciona bien con el juicio humano, ^[10]^[11]^[12] y sigue siendo un punto de referencia para la evaluación de cualquier nueva métrica de evaluación. Sin embargo, se han expresado varias críticas. Se ha observado que, aunque en principio es capaz de evaluar traducciones de cualquier idioma, BLEU no puede, en su forma actual, tratar con idiomas que carecen de límites de palabras. ^[13] Diseñado para usarse con varias traducciones de referencia, en la práctica se usa solo con una. ^[2] BLEU depende infamemente de la técnica de tokenización , y las puntuaciones obtenidas con diferentes son incomparables (lo que a menudo se pasa por alto); para mejorar la reproducibilidad y comparabilidad, se diseñó la variante SacreBLEU. ^[2]

Se ha argumentado que si bien BLEU tiene ventajas significativas, no hay garantía de que un aumento en la puntuación BLEU sea un indicador de una mejor calidad de la traducción. ^[14]

Véase también

Notas

^ Papineni, K. y otros (2002)
^ Papineni, K. y otros (2002)
^ Coughlin, D. (2003)
^ Papineni, K. y otros (2002)
^ Papineni, K. y otros (2002)
^ Papineni, K. y otros (2002)
^ Coughlin, D. (2003)
^ Doddington, G. (2002)
^ Denoual, E. y Lepage, Y. (2005)
^ Callison-Burch, C., Osborne, M. y Koehn, P. (2006)
^ Lee, A. y Przybocki, M. (2005)
^ Callison-Burch, C., Osborne, M. y Koehn, P. (2006)
^ Lin, C. y Och, F. (2004)
^ Callison-Burch, C., Osborne, M. y Koehn, P. (2006)
^ Madnani, N. (2011)

Referencias

^ Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing (2001). "BLEU". Actas de la 40.ª Reunión Anual de la Asociación de Lingüística Computacional - ACL '02 . Morristown, NJ, EE. UU.: Asociación de Lingüística Computacional: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756.
^ ab "BLEU: una métrica incomprendida de otra época". 5 de noviembre de 2022.

Bibliografía

Papineni, K.; Roukos, S.; Ward, T.; Zhu, WJ (2002). BLEU: un método para la evaluación automática de la traducción automática (PDF) . ACL-2002: 40.ª reunión anual de la Asociación de Lingüística Computacional. pp. 311–318. CiteSeerX 10.1.1.19.9416 .
Papineni, K., Roukos, S., Ward, T., Henderson, J y Reeder, F. (2002). "Evaluación diagnóstica y completa de traducción automática basada en corpus: resultados iniciales en árabe, chino, francés y español Archivado el 4 de marzo de 2016 en Wayback Machine " en Proceedings of Human Language Technology 2002, San Diego, págs. 132-137
Callison-Burch, C., Osborne, M. y Koehn, P. (2006) "Reevaluación del papel de BLEU en la investigación de la traducción automática Archivado el 4 de diciembre de 2008 en Wayback Machine " en la 11.ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional: EACL 2006, págs. 249-256
Doddington, G. (2002) "Evaluación automática de la calidad de la traducción automática utilizando estadísticas de coocurrencia de n-gramas Archivado el 12 de octubre de 2013 en Wayback Machine " en Actas de la Conferencia de Tecnología del Lenguaje Humano (HLT), San Diego, CA, págs. 128-132
Coughlin, D. (2003) "Correlating Automated and Human Assessments of Machine Translation Quality " Archivado el 6 de septiembre de 2008 en Wayback Machine en MT Summit IX, Nueva Orleans, EE. UU., págs. 23-27
Denoual, E. y Lepage, Y. (2005) "BLEU en caracteres: hacia la evaluación automática de la traducción automática en idiomas sin delimitadores de palabras Archivado el 18 de julio de 2011 en Wayback Machine " en el volumen complementario de las Actas de la Segunda Conferencia Conjunta Internacional sobre Procesamiento del Lenguaje Natural, págs. 81–86
Lee, A. y Przybocki, M. (2005) Resultados oficiales de la evaluación de traducción automática del NIST 2005
Lin, C. y Och, F. (2004) "Evaluación automática de la calidad de la traducción automática utilizando la subsecuencia común más larga y las estadísticas de bigrama salteado Archivado el 5 de julio de 2008 en Wayback Machine " en Actas de la 42.ª Reunión Anual de la Asociación de Lingüística Computacional .
Madnani, N. (2011). "iBLEU: puntuación y depuración interactiva de sistemas de traducción automática estadística" en "Actas de la quinta conferencia internacional IEEE sobre computación semántica (Demos), Palo Alto, CA", págs. 213-214

Enlaces externos

BLEU – Evaluación Bilingüe Clase de estudiante del curso de Traducción Automática del Instituto Tecnológico de Karlsruhe, Coursera

[1] Papineni, Kishore; Roukos, Salim; Ward, Todd; Zhu, Wei-Jing (2001). "BLEU". Actas de la 40.ª Reunión Anual de la Asociación de Lingüística Computacional - ACL '02 . Morristown, NJ, EE. UU.: Asociación de Lingüística Computacional: 311. doi : 10.3115/1073083.1073135 . S2CID 11080756.

[Marie-2] "BLEU: una métrica incomprendida de otra época". 5 de noviembre de 2022.