Síntesis de voz china

La síntesis de voz china es la aplicación de la síntesis de voz al idioma chino (normalmente chino estándar ). Presenta dificultades adicionales debido a que los caracteres chinos suelen tener pronunciaciones diferentes en diferentes contextos y a la compleja prosodia , que es esencial para transmitir el significado de las palabras, y a veces a la dificultad de obtener un acuerdo entre hablantes nativos sobre cuál es la pronunciación correcta de ciertos fonemas .

Concatenación (Ekho y KeyTip)

Las grabaciones se pueden concatenar en cualquier combinación deseada, pero las uniones suenan forzadas (como es habitual en la síntesis de voz basada en concatenaciones simples ) y esto puede afectar gravemente la prosodia; estos sintetizadores también son inflexibles en términos de velocidad y expresión. Sin embargo, debido a que estos sintetizadores no dependen de un corpus, no hay una degradación notable en el rendimiento cuando se les dan frases más inusuales o extrañas.

Ekho es un sistema de conversión de texto a voz de código abierto que simplemente concatena sílabas muestreadas. ^[1] Actualmente admite cantonés , mandarín y, experimentalmente, coreano . Algunas de las sílabas del mandarín se han normalizado en tono en Praat . Una versión modificada de estas se utiliza en la "síntesis a partir de parciales" de Gradint. ^[2]

cjkware.com solía enviar un producto llamado KeyTip Putonghua Reader que funcionaba de manera similar; contenía 120 megabytes de grabaciones de sonido (comprimidas mediante GSM a 40 megabytes en la versión de evaluación), que comprendían 10 000 palabras de diccionario de varias sílabas, además de grabaciones de una sola sílaba en 6 prosodias diferentes (4 tonos, tono neutro y una grabación de tercer tono adicional para usar al final de una frase).

Sintetizadores ligeros (eSpeak y Yuet)

El proyecto de código abierto y ligero eSpeak , que tiene su propio enfoque de síntesis, ha experimentado con mandarín y cantonés. Google Translate utilizó eSpeak desde mayo de 2010 ^[3] hasta diciembre de 2010. ^[4]

El producto comercial "Yuet" también es liviano (está pensado para ser adecuado para entornos con recursos limitados como los sistemas integrados ); fue escrito desde cero en ANSI C a partir de 2013. Yuet afirma tener un modelo de procesamiento del lenguaje natural integrado que no requiere un diccionario separado; el habla sintetizada por el motor requiere límites de palabras claros y énfasis en las palabras apropiadas. Es necesario comunicarse con su autor para obtener una copia. ^[5]

Tanto eSpeak como Yuet pueden sintetizar el habla en cantonés y mandarín a partir del mismo texto de entrada, y pueden generar la romanización correspondiente (para cantonés, Yuet utiliza Yale y eSpeak utiliza Jyutping ; ambos utilizan Pinyin para mandarín). eSpeak no se preocupa por los límites de las palabras cuando estos no cambian la cuestión de qué sílaba se debe pronunciar.

Basado en corpus

Un enfoque "basado en corpus" puede sonar muy natural en la mayoría de los casos, pero puede cometer errores al tratar frases inusuales si no pueden coincidir con el corpus. ^[6] El motor del sintetizador suele ser muy grande (cientos o incluso miles de megabytes) debido al tamaño del corpus.

iFlyTek

Anhui USTC iFlyTek Co., Ltd (iFlyTek) publicó un documento del W3C en el que adaptaron el Speech Synthesis Markup Language para producir un lenguaje de marcado llamado Chinese Speech Synthesis Markup Language (CSSML) que puede incluir marcado adicional para aclarar la pronunciación de caracteres y añadir algo de información prosódica. ^[7] iFlyTek no revela la cantidad de datos involucrados, pero se puede ver en los productos comerciales a los que iFlyTek ha licenciado su tecnología; por ejemplo, SpeechPlus de Bider es una descarga de 1,3 Gigabytes, de los cuales 1,2 Gigabytes se utilizan para los datos altamente comprimidos para una sola voz china. El sintetizador de iFlyTek también puede sintetizar texto mixto en chino e inglés con la misma voz (por ejemplo, oraciones en chino que contienen algunas palabras en inglés); afirman que su síntesis en inglés es "promedio".

El corpus de iFlyTek parece depender en gran medida de los caracteres chinos y no es posible sintetizarlos solo a partir del pinyin . A veces es posible, mediante CSSML, agregar pinyin a los caracteres para desambiguar entre múltiples pronunciaciones posibles, pero esto no siempre funciona.

Neodiscurso

Hay una demostración interactiva en línea para la síntesis de voz de NeoSpeech , ^[8] que acepta caracteres chinos y también pinyin si están incluidos en su marcado propietario "VTML". ^[9]

Sistema operativo Mac

Hasta la versión 9 de Mac OS había sintetizadores de voz chinos disponibles. Esto se eliminó en la versión 10.0 y se restableció en la versión 10.7 (Lion). ^[10]

Sintetizadores basados en corpus históricos (ya no están disponibles)

La Universidad de Tsinghua adoptó un enfoque basado en corpus en SinoSonic, con datos de voz en dialecto de Harbin que ocupaban 800 megabytes. Se planeó ofrecerlo como descarga, pero el enlace nunca se activó. Actualmente, solo se pueden encontrar referencias al mismo en Internet Archive . ^[11]

El enfoque de Bell Labs, que se demostró en línea en 1997 pero que posteriormente se eliminó, se describió en una monografía "Multilingual Text-to-Speech Synthesis: The Bell Labs Approach" (Springer, 31 de octubre de 1997, ISBN 978-0-7923-8027-6 ), y la ex empleada responsable del proyecto, Chilin Shih (que posteriormente trabajó en la Universidad de Illinois) puso algunas notas sobre sus métodos en su sitio web. ^[12]

Referencias

^ Eko
^ Gradiente
^ "Dando voz a más idiomas en Google Translate".
^ "¡Escúchanos ahora!".
^ "Yuet, el pequeño motor TTS cantonés, motor de síntesis de voz cantonés para sistemas integrados fuera de línea".
^ "Errores chinos en sintetizadores de voz comerciales".
^ http://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf ^{[ URL básica PDF ]}
^ "Inicio". neospeech.com .
^ por ejemplo <vtml_phoneme alphabet="x-pinyin" ph="ni3hao3"></vtml_phoneme>; consulte las páginas 7 y 25-27 de https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf
^ Los paquetes de voz se descargan automáticamente según sea necesario cuando se seleccionan en Preferencias del sistema, Configuración de voz, Texto a voz, Voz del sistema, Personalizar. Hay tres voces femeninas chinas disponibles en el sistema: una para China continental, una para Hong Kong y una para Taiwán.
^ "Grupo de investigación de interacción de voz entre humanos y computadoras". hcsi.cs.tsinghua.edu.cn . Archivado desde el original el 13 de agosto de 2004 . Consultado el 12 de enero de 2022 .
^ Página de inicio: Chilin Shih (enlace a Internet Archive)

[1] Eko

[2] Gradiente

[3] "Dando voz a más idiomas en Google Translate".

[4] "¡Escúchanos ahora!".

[5] "Yuet, el pequeño motor TTS cantonés, motor de síntesis de voz cantonés para sistemas integrados fuera de línea".

[6] "Errores chinos en sintetizadores de voz comerciales".

[7] ttp://www.w3.org/2005/08/SSML/Papers/iFLYTech.pdf ^{[ URL básica PDF ]}

[8] "Inicio". neospeech.com .

[9] r ejemplo <vtml_phoneme alphabet="x-pinyin" ph="ni3hao3"></vtml_phoneme>; consulte las páginas 7 y 25-27 de https://ondemand.neospeech.com/vt_eng-Engine-VTML-v3.9.0-3.pdf

[10] Los paquetes de voz se descargan automáticamente según sea necesario cuando se seleccionan en Preferencias del sistema, Configuración de voz, Texto a voz, Voz del sistema, Personalizar. Hay tres voces femeninas chinas disponibles en el sistema: una para China continental, una para Hong Kong y una para Taiwán.

[11] "Grupo de investigación de interacción de voz entre humanos y computadoras". hcsi.cs.tsinghua.edu.cn . Archivado desde el original el 13 de agosto de 2004 . Consultado el 12 de enero de 2022 .

[12] Página de inicio: Chilin Shih (enlace a Internet Archive)