Gnuspeech

Gnuspeech
Desarrollador(es)	Investigación sobre el sonido Trillium
Lanzamiento inicial	2002 ; hace 22 años ( 2002 )
Versión estable	0,9 / 14 de octubre de 2015 ; hace 9 años ( 14 de octubre de 2015 )
Repositorio	savannah.gnu.org/git/?group=gnuspeech ;
Plataforma	Multiplataforma
Tipo	Texto a voz
Licencia	Licencia Pública General GNU
Sitio web	www.gnu.org/software/gnuspeech/

Paquete de software informático de conversión de texto a voz

Gnuspeech es un paquete de software extensible de conversión de texto a voz que produce una salida de voz artificial basada en la síntesis de voz articulatoria en tiempo real mediante reglas. Es decir, convierte cadenas de texto en descripciones fonéticas, con la ayuda de un diccionario de pronunciación, reglas de conversión de letras a sonidos y modelos de ritmo y entonación; transforma las descripciones fonéticas en parámetros para un sintetizador de voz articulatoria de bajo nivel ; los utiliza para controlar un modelo articulatorio del tracto vocal humano que produce una salida adecuada para los dispositivos de salida de sonido normales utilizados por varios sistemas operativos de computadora ; y lo hace a la misma velocidad o más rápida que la que se habla en el habla de adultos.

Diseño

El sintetizador es un modelo de resonancia de tubo, o guía de ondas, que modela el comportamiento del tracto vocal real directamente y con una precisión razonable, a diferencia de los sintetizadores de formantes que modelan indirectamente el espectro del habla. ^[2] El problema de control se resuelve utilizando el Modelo de Región Distintiva de René Carré ^[3] que relaciona los cambios en los radios de ocho divisiones longitudinales del tracto vocal con los cambios correspondientes en los tres formantes de frecuencia en el espectro del habla que transmiten gran parte de la información del habla. Las regiones se basan, a su vez, en el trabajo del Laboratorio de Tecnología del Habla de Estocolmo ^[4] del Instituto Real de Tecnología ( KTH ) sobre "análisis de sensibilidad de formantes", es decir, cómo las frecuencias de formantes se ven afectadas por pequeños cambios en el radio del tracto vocal en varios lugares a lo largo de su longitud. ^[5]

Historia

Gnuspeech fue originalmente un software comercial producido por la ahora extinta Trillium Sound Research para la computadora NeXT como varios grados de kit "TextToSpeech". Trillium Sound Research era una empresa derivada de transferencia de tecnología formada en la Universidad de Calgary, Alberta, Canadá, basada en una investigación de larga data en el departamento de ciencias de la computación sobre la interacción computadora-humano usando el habla, donde se mantienen documentos y manuales relevantes para el sistema. ^[6] La versión inicial en 1992 usó un sintetizador de voz basado en formantes. Cuando NeXT dejó de fabricar hardware, el software del sintetizador fue completamente reescrito ^[7] y también portado a NSFIP (NextStep For Intel Processors) usando el enfoque de guía de ondas para el modelado de tubos acústicos basado en la investigación en el Centro de Investigación Informática en Música y Acústica ( CCRMA ) en la Universidad de Stanford, especialmente el Music Kit. El método de síntesis se explica con más detalle en un artículo presentado en la American Voice I/O Society en 1995. ^[8] El sistema utilizaba el procesador de señal digital (DSP) 56001 integrado en la computadora NeXT y una placa complementaria Turtle Beach con el mismo DSP en la versión NSFIP para ejecutar la guía de ondas (también conocida como modelo de tubo). Las limitaciones de velocidad significaban que la longitud de tracto vocal más corta que se podía utilizar para el habla en tiempo real (es decir, generada a la misma velocidad o más rápida que la que se "hablaba") era de alrededor de 15 centímetros, porque la frecuencia de muestreo para los cálculos de la guía de ondas aumenta con la disminución de la longitud del tracto vocal. Las velocidades de procesador más rápidas están eliminando progresivamente esta restricción, un avance importante para producir el habla de los niños en tiempo real.

Dado que NeXTSTEP ya no se fabrica y los ordenadores NeXT son escasos, una opción para ejecutar el código original es el uso de máquinas virtuales . El emulador Previous , por ejemplo, puede emular el DSP de los ordenadores NeXT , que puede ser utilizado por el software Trillium.

Trillium dejó de comercializarse a fines de la década de 1990 y el proyecto Gnuspeech se ingresó por primera vez al repositorio GNU Savannah bajo los términos de la Licencia Pública General de GNU en 2002, como software oficial de GNU .

Debido a su licencia libre y de código abierto , que permite la personalización del código, Gnuspeech se ha utilizado en investigaciones académicas. ^[9] ^[10]

Ejemplo de síntesis

El Caos sintetizado por Trillium TTS (Gnuspeech) utilizando el modelo de tracto vocal DSP.

¿Tiene problemas para reproducir este archivo? Consulte la ayuda multimedia .

Referencias

^ https://directory.fsf.org/wiki/gnuspeech. {{cite web}}: Falta o está vacío |title=( ayuda )
^ COOK, PR (1989) Síntesis de la voz cantada utilizando un modelo físicamente parametrizado del tracto vocal humano. Conferencia Internacional de Música por Computadora, Columbus, Ohio
^ CARRE, R. (1992) Regiones distintivas en tubos acústicos. Modelado de la producción del habla. Journal d'Acoustique, 5 141 a 159
^ Ahora Departamento de Habla, Música y Audición
^ FANT, G. y PAULI, S. (1974) Características espaciales de los modelos de resonancia del tracto vocal. Actas del Seminario de Comunicación del Habla de Estocolmo, KTH , Estocolmo, Suecia
^ Sitio web relevante de la Universidad de Calgary
^ El sintetizador de voz con modelo de resonancia de tubo
^ HILL, DR, MANZARA, L. y TAUBE-SCHOCK, CR. (1995) Síntesis de voz articulatoria en tiempo real mediante reglas. Actas de la 14.ª Conferencia Anual Internacional de Tecnologías de la Voz AVIOS '95, San José, 12-14 de septiembre de 1995, 27-44
^ D'Este, F. - Síntesis de voz articulatoria con algoritmo genético multiobjetivo paralelo. Tesis de maestría, Instituto de Ciencias Informáticas Avanzadas de Leiden, 2010.
^ Xiong, F.; Barker, J. - Aprendizaje profundo de representaciones articulatorias y aplicaciones para mejorar el reconocimiento del habla disártrica. Conferencia ITG sobre comunicación del habla, Alemania, 2018.

Enlaces externos

Discurso de Gnu sobre GNU Savannah
Descripción general del sistema Gnuspeech

[wikidata-11394c46a421cfb4f2c5f1fe4a3af522b7679d35-v18-1] ttps://directory.fsf.org/wiki/gnuspeech. {{cite web}}: Falta o está vacío |title=( ayuda )

[2] COOK, PR (1989) Síntesis de la voz cantada utilizando un modelo físicamente parametrizado del tracto vocal humano. Conferencia Internacional de Música por Computadora, Columbus, Ohio

[3] CARRE, R. (1992) Regiones distintivas en tubos acústicos. Modelado de la producción del habla. Journal d'Acoustique, 5 141 a 159

[4] Ahora Departamento de Habla, Música y Audición

[5] FANT, G. y PAULI, S. (1974) Características espaciales de los modelos de resonancia del tracto vocal. Actas del Seminario de Comunicación del Habla de Estocolmo, KTH , Estocolmo, Suecia

[6] Sitio web relevante de la Universidad de Calgary

[7] El sintetizador de voz con modelo de resonancia de tubo

[8] HILL, DR, MANZARA, L. y TAUBE-SCHOCK, CR. (1995) Síntesis de voz articulatoria en tiempo real mediante reglas. Actas de la 14.ª Conferencia Anual Internacional de Tecnologías de la Voz AVIOS '95, San José, 12-14 de septiembre de 1995, 27-44

[9] D'Este, F. - Síntesis de voz articulatoria con algoritmo genético multiobjetivo paralelo. Tesis de maestría, Instituto de Ciencias Informáticas Avanzadas de Leiden, 2010.

[10] Xiong, F.; Barker, J. - Aprendizaje profundo de representaciones articulatorias y aplicaciones para mejorar el reconocimiento del habla disártrica. Conferencia ITG sobre comunicación del habla, Alemania, 2018.