Este artículo necesita citas adicionales para su verificación . ( febrero de 2017 ) |
VoiceXML ( VXML ) es un estándar de documentos digitales para especificar medios interactivos y diálogos de voz entre humanos y computadoras. Se utiliza para desarrollar aplicaciones de respuesta de voz y audio, como sistemas bancarios y portales automatizados de servicio al cliente. Las aplicaciones VoiceXML se desarrollan e implementan de manera análoga a cómo un navegador web interpreta y presenta visualmente el lenguaje de marcado de hipertexto (HTML) que recibe de un servidor web . Los documentos VoiceXML son interpretados por un navegador de voz y, en arquitecturas de implementación comunes, los usuarios interactúan con los navegadores de voz a través de la red telefónica pública conmutada (PSTN).
El formato de documento VoiceXML se basa en el lenguaje de marcado extensible (XML), un estándar desarrollado por el Consorcio World Wide Web (W3C).
Las aplicaciones VoiceXML se utilizan habitualmente en muchas industrias y segmentos del comercio. Estas aplicaciones incluyen consultas de pedidos, seguimiento de paquetes, indicaciones para llegar, notificaciones de emergencia, despertador, seguimiento de vuelos, acceso por voz al correo electrónico, gestión de relaciones con los clientes, recarga de recetas, revistas de noticias en audio, marcación por voz, información inmobiliaria y aplicaciones de asistencia de directorio nacional . [ cita requerida ]
VoiceXML tiene etiquetas que indican al navegador de voz que proporcione síntesis de voz , reconocimiento automático de voz , gestión de diálogos y reproducción de audio. El siguiente es un ejemplo de un documento VoiceXML:
<vxml version= "2.0" xmlns= "http://www.w3.org/2001/vxml" > <form> <block> <prompt> ¡Hola mundo! </prompt> </block> </form> </vxml>
Cuando lo interprete un intérprete VoiceXML, esto emitirá "Hola mundo" con voz sintetizada.
Por lo general, se utiliza HTTP como protocolo de transporte para obtener páginas VoiceXML. Algunas aplicaciones pueden utilizar páginas VoiceXML estáticas, mientras que otras dependen de la generación de páginas VoiceXML dinámicas mediante un servidor de aplicaciones como Tomcat , Weblogic , IIS o WebSphere .
Históricamente, los proveedores de la plataforma VoiceXML han implementado el estándar de diferentes maneras y han añadido características exclusivas. Pero el estándar VoiceXML 2.0, adoptado como recomendación del W3C el 16 de marzo de 2004, aclaró la mayoría de las diferencias. El VoiceXML Forum, un grupo del sector que promueve el uso del estándar, ofrece un proceso de prueba de conformidad que certifica que las implementaciones de los proveedores son conformes.
AT&T Corporation , IBM , Lucent y Motorola formaron el VoiceXML Forum en marzo de 1999, con el fin de desarrollar un lenguaje de marcado estándar para especificar diálogos de voz. En septiembre de 1999, el Forum publicó VoiceXML 0.9 para comentarios de los miembros, y en marzo de 2000 publicó VoiceXML 1.0. Poco después, el Forum entregó el control del estándar al W3C. [1] El W3C produjo varias versiones intermedias de VoiceXML 2.0, que alcanzaron la etapa final de "Recomendación" en marzo de 2004. [2]
VoiceXML 2.1 agregó un conjunto relativamente pequeño de características adicionales a VoiceXML 2.0, basándose en los comentarios de las implementaciones del estándar 2.0. Es compatible con versiones anteriores de VoiceXML 2.0 y alcanzó el estado de recomendación del W3C en junio de 2007. [3]
Se había previsto que VoiceXML 3.0 fuera la próxima versión principal de VoiceXML, con nuevas funciones importantes. Sin embargo, con la disolución del foro VoiceXML en mayo de 2022, [4] se descartó el desarrollo del nuevo estándar.
A diciembre de 2022, se ofrecen pocas implementaciones de la plataforma VoiceXML 2.0/2.1.
El marco de interfaz de voz del W3C también define estos otros estándares estrechamente asociados con VoiceXML.
La especificación de gramática de reconocimiento de voz (SRGS) se utiliza para indicar al reconocedor de voz qué patrones de oraciones debería esperar escuchar: estos patrones se denominan gramáticas. Una vez que el reconocedor de voz determina la oración más probable que escuchó, necesita extraer el significado semántico de esa oración y devolverlo al intérprete VoiceXML. Esta interpretación semántica se especifica a través del estándar de interpretación semántica para el reconocimiento de voz (SISR). SISR se utiliza dentro de SRGS para especificar los resultados semánticos asociados con las gramáticas, es decir, el conjunto de asignaciones de ECMAScript que crean la estructura semántica devuelta por el reconocedor de voz.
El lenguaje de marcado de síntesis de voz (SSML) se utiliza para decorar indicaciones textuales con información sobre la mejor manera de reproducirlas en voz sintética, por ejemplo, qué voz de sintetizador de voz utilizar o cuándo hablar más alto o más bajo.
La Especificación del Léxico de Pronunciación (PLS) se utiliza para definir cómo se pronuncian las palabras. La información de pronunciación generada está destinada a ser utilizada tanto por los reconocedores de voz como por los sintetizadores de voz en aplicaciones de navegación por voz.
El lenguaje de marcado extensible para control de llamadas (CCXML) es un estándar complementario del W3C. En algunas plataformas VoiceXML se utiliza un intérprete CCXML para gestionar el establecimiento de la llamada inicial entre el interlocutor y el navegador de voz, y para proporcionar servicios de telefonía como la transferencia y desconexión de llamadas al navegador de voz. CCXML también se puede utilizar en contextos que no sean VoiceXML.
En las aplicaciones de servidores multimedia , a menudo es necesario que varias líneas de llamada interactúen entre sí, por ejemplo, en una conferencia multipartita. Se identificaron algunas deficiencias en VoiceXML para esta aplicación, por lo que las empresas diseñaron lenguajes de programación específicos para abordar este entorno. El lenguaje de marcado de servidor multimedia (MSML) fue la solución de Convedia, y el lenguaje de marcado de control de servidor multimedia (MSCML) fue la solución de Snowshore. Snowshore ahora es propiedad de Dialogic y Convedia es propiedad de Radisys. Estos lenguajes también contienen "ganchos" para que los scripts externos (como VoiceXML) puedan ejecutarse en líneas de llamada donde se requiere la funcionalidad de IVR .
Había un grupo de trabajo de la IETF llamado mediactrl ("control de medios") que estaba trabajando en un sucesor para estos sistemas de scripting, que se espera que progrese hasta convertirse en un estándar abierto y ampliamente adoptado. [5] El grupo de trabajo mediactrl concluyó en 2013. [6]