La tasa de error de palabras ( WER ) es una métrica común del rendimiento de un sistema de reconocimiento de voz o de traducción automática . La métrica WER varía de 0 a 1, donde 0 indica que los fragmentos de texto comparados son exactamente idénticos y 1 indica que son completamente diferentes y no tienen similitudes. De esta manera, un WER de 0,8 significa que hay una tasa de error del 80 % para las oraciones comparadas.
La dificultad general de medir el rendimiento radica en el hecho de que la secuencia de palabras reconocida puede tener una longitud diferente a la secuencia de palabras de referencia (supuestamente la correcta). El WER se deriva de la distancia de Levenshtein , y trabaja a nivel de palabra en lugar de a nivel de fonema . El WER es una herramienta valiosa para comparar diferentes sistemas, así como para evaluar las mejoras dentro de un sistema. Sin embargo, este tipo de medición no proporciona detalles sobre la naturaleza de los errores de traducción y, por lo tanto, se requiere más trabajo para identificar la(s) fuente(s) principal(es) de error y centrar cualquier esfuerzo de investigación.
Este problema se resuelve alineando primero la secuencia de palabras reconocidas con la secuencia de palabras de referencia (habladas) mediante la alineación dinámica de cadenas. El análisis de esta cuestión se realiza a través de una teoría llamada ley de potencia que establece la correlación entre la perplejidad y la tasa de errores de palabras. [1]
La tasa de error de palabras se puede calcular así:
dónde
La intuición detrás de la "eliminación" y la "inserción" es cómo llegar desde la referencia a la hipótesis. Por lo tanto, si tenemos la referencia "Esto es Wikipedia" y la hipótesis "Esta _ Wikipedia", lo llamamos eliminación.
Al informar el rendimiento de un sistema de reconocimiento de voz, a veces se utiliza la precisión de palabras (WAcc) :
Tenga en cuenta que, dado que N es el número de palabras en la referencia, la tasa de error de palabras puede ser mayor que 1,0 y, por lo tanto, la precisión de las palabras puede ser menor que 0,0.
Se cree comúnmente que una tasa de error de palabras más baja muestra una precisión superior en el reconocimiento del habla, en comparación con una tasa de error de palabras más alta. Sin embargo, al menos un estudio ha demostrado que esto puede no ser cierto. En un experimento de Microsoft Research , se demostró que, si se entrenaba a las personas en "que coincidiera con el objetivo de optimización para la comprensión" (Wang, Acero y Chelba, 2003), mostrarían una mayor precisión en la comprensión del lenguaje que otras personas que demostraron una tasa de error de palabras más baja, lo que demuestra que la verdadera comprensión del lenguaje hablado depende de algo más que una alta precisión en el reconocimiento de palabras . [2]
Sin embargo, un problema con el uso de una fórmula genérica como la anterior es que no se tiene en cuenta el efecto que pueden tener los diferentes tipos de error en la probabilidad de un resultado exitoso; por ejemplo, algunos errores pueden ser más perjudiciales que otros y algunos pueden corregirse más fácilmente que otros. Es probable que estos factores sean específicos de la sintaxis que se está probando. Otro problema es que, incluso con la mejor alineación, la fórmula no puede distinguir un error de sustitución de un error combinado de eliminación e inserción.
Hunt (1990) ha propuesto el uso de una medida ponderada de precisión de rendimiento donde los errores de sustitución se ponderan en la unidad, pero los errores de eliminación e inserción se ponderan solo en 0,5, por lo tanto:
Sin embargo, existe cierto debate sobre si la fórmula de Hunt puede utilizarse adecuadamente para evaluar el rendimiento de un único sistema, ya que se desarrolló como un medio para comparar sistemas candidatos que compiten de manera más justa. Se suma una complicación adicional al determinar si una sintaxis determinada permite la corrección de errores y, en caso afirmativo, cuán fácil es ese proceso para el usuario. Por lo tanto, tiene cierto fundamento el argumento de que las métricas de rendimiento deben desarrollarse para adaptarse al sistema particular que se está midiendo.
Sin embargo, independientemente de la métrica que se utilice, uno de los principales problemas teóricos a la hora de evaluar el rendimiento de un sistema es decidir si una palabra ha sido “mal pronunciada”, es decir, si el fallo es del usuario o del reconocedor. Esto puede ser especialmente relevante en un sistema diseñado para trabajar con hablantes no nativos de un idioma determinado o con fuertes acentos regionales.
El ritmo al que se deben pronunciar las palabras durante el proceso de medición también es una fuente de variabilidad entre los sujetos, al igual que la necesidad de que los sujetos descansen o tomen aire. Todos estos factores pueden necesitar algún tipo de control.
En el caso del dictado de texto, se acepta generalmente que una precisión de rendimiento inferior al 95 % no es aceptable, pero esto también puede ser específico de la sintaxis o del dominio, por ejemplo, si hay presión de tiempo sobre los usuarios para completar la tarea, si hay métodos alternativos de finalización, etc.
El término "tasa de error de palabra única" a veces se refiere al porcentaje de reconocimientos incorrectos para cada palabra diferente en el vocabulario del sistema.
La tasa de error de palabra también puede denominarse distancia de edición normalizada de longitud . [3] La distancia de edición normalizada entre X e Y, d ( X, Y ) se define como el mínimo de W( P ) / L ( P ), donde P es una ruta de edición entre X e Y, W ( P ) es la suma de los pesos de las operaciones de edición elementales de P, y L(P) es el número de estas operaciones (longitud de P). [4]