Este artículo tiene varios problemas. Ayúdenos a mejorarlo o a discutir estos problemas en la página de discusión . ( Aprenda cómo y cuándo eliminar estos mensajes )
|
La síntesis de voz china es la aplicación de la síntesis de voz al idioma chino (normalmente chino estándar ). Presenta dificultades adicionales debido a que los caracteres chinos suelen tener pronunciaciones diferentes en diferentes contextos y a la compleja prosodia , que es esencial para transmitir el significado de las palabras, y a veces a la dificultad de obtener un acuerdo entre hablantes nativos sobre cuál es la pronunciación correcta de ciertos fonemas .
Las grabaciones se pueden concatenar en cualquier combinación deseada, pero las uniones suenan forzadas (como es habitual en la síntesis de voz basada en concatenaciones simples ) y esto puede afectar gravemente la prosodia; estos sintetizadores también son inflexibles en términos de velocidad y expresión. Sin embargo, debido a que estos sintetizadores no dependen de un corpus, no hay una degradación notable en el rendimiento cuando se les dan frases más inusuales o extrañas.
Ekho es un sistema de conversión de texto a voz de código abierto que simplemente concatena sílabas muestreadas. [1] Actualmente admite cantonés , mandarín y, experimentalmente, coreano . Algunas de las sílabas del mandarín se han normalizado en tono en Praat . Una versión modificada de estas se utiliza en la "síntesis a partir de parciales" de Gradint. [2]
cjkware.com solía enviar un producto llamado KeyTip Putonghua Reader que funcionaba de manera similar; contenía 120 megabytes de grabaciones de sonido (comprimidas mediante GSM a 40 megabytes en la versión de evaluación), que comprendían 10 000 palabras de diccionario de varias sílabas, además de grabaciones de una sola sílaba en 6 prosodias diferentes (4 tonos, tono neutro y una grabación de tercer tono adicional para usar al final de una frase).
El proyecto de código abierto y ligero eSpeak , que tiene su propio enfoque de síntesis, ha experimentado con mandarín y cantonés. Google Translate utilizó eSpeak desde mayo de 2010 [3] hasta diciembre de 2010. [4]
El producto comercial "Yuet" también es liviano (está pensado para ser adecuado para entornos con recursos limitados como los sistemas integrados ); fue escrito desde cero en ANSI C a partir de 2013. Yuet afirma tener un modelo de procesamiento del lenguaje natural integrado que no requiere un diccionario separado; el habla sintetizada por el motor requiere límites de palabras claros y énfasis en las palabras apropiadas. Es necesario comunicarse con su autor para obtener una copia. [5]
Tanto eSpeak como Yuet pueden sintetizar el habla en cantonés y mandarín a partir del mismo texto de entrada, y pueden generar la romanización correspondiente (para cantonés, Yuet utiliza Yale y eSpeak utiliza Jyutping ; ambos utilizan Pinyin para mandarín). eSpeak no se preocupa por los límites de las palabras cuando estos no cambian la cuestión de qué sílaba se debe pronunciar.
Un enfoque "basado en corpus" puede sonar muy natural en la mayoría de los casos, pero puede cometer errores al tratar frases inusuales si no pueden coincidir con el corpus. [6] El motor del sintetizador suele ser muy grande (cientos o incluso miles de megabytes) debido al tamaño del corpus.
Anhui USTC iFlyTek Co., Ltd (iFlyTek) publicó un documento del W3C en el que adaptaron el Speech Synthesis Markup Language para producir un lenguaje de marcado llamado Chinese Speech Synthesis Markup Language (CSSML) que puede incluir marcado adicional para aclarar la pronunciación de caracteres y añadir algo de información prosódica. [7] iFlyTek no revela la cantidad de datos involucrados, pero se puede ver en los productos comerciales a los que iFlyTek ha licenciado su tecnología; por ejemplo, SpeechPlus de Bider es una descarga de 1,3 Gigabytes, de los cuales 1,2 Gigabytes se utilizan para los datos altamente comprimidos para una sola voz china. El sintetizador de iFlyTek también puede sintetizar texto mixto en chino e inglés con la misma voz (por ejemplo, oraciones en chino que contienen algunas palabras en inglés); afirman que su síntesis en inglés es "promedio".
El corpus de iFlyTek parece depender en gran medida de los caracteres chinos y no es posible sintetizarlos solo a partir del pinyin . A veces es posible, mediante CSSML, agregar pinyin a los caracteres para desambiguar entre múltiples pronunciaciones posibles, pero esto no siempre funciona.
Hay una demostración interactiva en línea para la síntesis de voz de NeoSpeech , [8] que acepta caracteres chinos y también pinyin si están incluidos en su marcado propietario "VTML". [9]
Hasta la versión 9 de Mac OS había sintetizadores de voz chinos disponibles. Esto se eliminó en la versión 10.0 y se restableció en la versión 10.7 (Lion). [10]
La Universidad de Tsinghua adoptó un enfoque basado en corpus en SinoSonic, con datos de voz en dialecto de Harbin que ocupaban 800 megabytes. Se planeó ofrecerlo como descarga, pero el enlace nunca se activó. Actualmente, solo se pueden encontrar referencias al mismo en Internet Archive . [11]
El enfoque de Bell Labs, que se demostró en línea en 1997 pero que posteriormente se eliminó, se describió en una monografía "Multilingual Text-to-Speech Synthesis: The Bell Labs Approach" (Springer, 31 de octubre de 1997, ISBN 978-0-7923-8027-6 ), y la ex empleada responsable del proyecto, Chilin Shih (que posteriormente trabajó en la Universidad de Illinois) puso algunas notas sobre sus métodos en su sitio web. [12]