VozXML

Norma de documento digital

VoiceXML ( VXML ) es un estándar de documentos digitales para especificar medios interactivos y diálogos de voz entre humanos y computadoras. Se utiliza para desarrollar aplicaciones de respuesta de voz y audio, como sistemas bancarios y portales automatizados de servicio al cliente. Las aplicaciones VoiceXML se desarrollan e implementan de manera análoga a cómo un navegador web interpreta y presenta visualmente el lenguaje de marcado de hipertexto (HTML) que recibe de un servidor web . Los documentos VoiceXML son interpretados por un navegador de voz y, en arquitecturas de implementación comunes, los usuarios interactúan con los navegadores de voz a través de la red telefónica pública conmutada (PSTN).

El formato de documento VoiceXML se basa en el lenguaje de marcado extensible (XML), un estándar desarrollado por el Consorcio World Wide Web (W3C).

Uso

Las aplicaciones VoiceXML se utilizan habitualmente en muchas industrias y segmentos del comercio. Estas aplicaciones incluyen consultas de pedidos, seguimiento de paquetes, indicaciones para llegar, notificaciones de emergencia, despertador, seguimiento de vuelos, acceso por voz al correo electrónico, gestión de relaciones con los clientes, recarga de recetas, revistas de noticias en audio, marcación por voz, información inmobiliaria y aplicaciones de asistencia de directorio nacional . ^{[ cita requerida ]}

VoiceXML tiene etiquetas que indican al navegador de voz que proporcione síntesis de voz , reconocimiento automático de voz , gestión de diálogos y reproducción de audio. El siguiente es un ejemplo de un documento VoiceXML:

<vxml version= "2.0" xmlns= "http://www.w3.org/2001/vxml" > <form> <block> <prompt> ¡Hola mundo! </prompt> </block> </form> </vxml>

Cuando lo interprete un intérprete VoiceXML, esto emitirá "Hola mundo" con voz sintetizada.

Por lo general, se utiliza HTTP como protocolo de transporte para obtener páginas VoiceXML. Algunas aplicaciones pueden utilizar páginas VoiceXML estáticas, mientras que otras dependen de la generación de páginas VoiceXML dinámicas mediante un servidor de aplicaciones como Tomcat , Weblogic , IIS o WebSphere .

Históricamente, los proveedores de la plataforma VoiceXML han implementado el estándar de diferentes maneras y han añadido características exclusivas. Pero el estándar VoiceXML 2.0, adoptado como recomendación del W3C el 16 de marzo de 2004, aclaró la mayoría de las diferencias. El VoiceXML Forum, un grupo del sector que promueve el uso del estándar, ofrece un proceso de prueba de conformidad que certifica que las implementaciones de los proveedores son conformes.

Historia

AT&T Corporation , IBM , Lucent y Motorola formaron el VoiceXML Forum en marzo de 1999, con el fin de desarrollar un lenguaje de marcado estándar para especificar diálogos de voz. En septiembre de 1999, el Forum publicó VoiceXML 0.9 para comentarios de los miembros, y en marzo de 2000 publicó VoiceXML 1.0. Poco después, el Forum entregó el control del estándar al W3C. ^[1] El W3C produjo varias versiones intermedias de VoiceXML 2.0, que alcanzaron la etapa final de "Recomendación" en marzo de 2004. ^[2]

VoiceXML 2.1 agregó un conjunto relativamente pequeño de características adicionales a VoiceXML 2.0, basándose en los comentarios de las implementaciones del estándar 2.0. Es compatible con versiones anteriores de VoiceXML 2.0 y alcanzó el estado de recomendación del W3C en junio de 2007. ^[3]

Futuras versiones del estándar

Se había previsto que VoiceXML 3.0 fuera la próxima versión principal de VoiceXML, con nuevas funciones importantes. Sin embargo, con la disolución del foro VoiceXML en mayo de 2022, ^[4] se descartó el desarrollo del nuevo estándar.

Implementaciones

A diciembre de 2022, se ofrecen pocas implementaciones de la plataforma VoiceXML 2.0/2.1.

Hewlett-Packard (OCMP)
OnMobile (plataforma de voz Ozone)
Alvaria
Avaya (Portal de experiencias de Avaya)
OpenVXI
Cisco
Genesys (empresa)
Comunicaciones Nuance
Fonologías
Voz de ciruela
Tecnologías Telesoft

Normas relacionadas

El marco de interfaz de voz del W3C también define estos otros estándares estrechamente asociados con VoiceXML.

SRGS y SISR

La especificación de gramática de reconocimiento de voz (SRGS) se utiliza para indicar al reconocedor de voz qué patrones de oraciones debería esperar escuchar: estos patrones se denominan gramáticas. Una vez que el reconocedor de voz determina la oración más probable que escuchó, necesita extraer el significado semántico de esa oración y devolverlo al intérprete VoiceXML. Esta interpretación semántica se especifica a través del estándar de interpretación semántica para el reconocimiento de voz (SISR). SISR se utiliza dentro de SRGS para especificar los resultados semánticos asociados con las gramáticas, es decir, el conjunto de asignaciones de ECMAScript que crean la estructura semántica devuelta por el reconocedor de voz.

SSML

El lenguaje de marcado de síntesis de voz (SSML) se utiliza para decorar indicaciones textuales con información sobre la mejor manera de reproducirlas en voz sintética, por ejemplo, qué voz de sintetizador de voz utilizar o cuándo hablar más alto o más bajo.

POR FAVOR

La Especificación del Léxico de Pronunciación (PLS) se utiliza para definir cómo se pronuncian las palabras. La información de pronunciación generada está destinada a ser utilizada tanto por los reconocedores de voz como por los sintetizadores de voz en aplicaciones de navegación por voz.

Formato CCXML

El lenguaje de marcado extensible para control de llamadas (CCXML) es un estándar complementario del W3C. En algunas plataformas VoiceXML se utiliza un intérprete CCXML para gestionar el establecimiento de la llamada inicial entre el interlocutor y el navegador de voz, y para proporcionar servicios de telefonía como la transferencia y desconexión de llamadas al navegador de voz. CCXML también se puede utilizar en contextos que no sean VoiceXML.

MSML, MSCML, MediaCTRL

En las aplicaciones de servidores multimedia , a menudo es necesario que varias líneas de llamada interactúen entre sí, por ejemplo, en una conferencia multipartita. Se identificaron algunas deficiencias en VoiceXML para esta aplicación, por lo que las empresas diseñaron lenguajes de programación específicos para abordar este entorno. El lenguaje de marcado de servidor multimedia (MSML) fue la solución de Convedia, y el lenguaje de marcado de control de servidor multimedia (MSCML) fue la solución de Snowshore. Snowshore ahora es propiedad de Dialogic y Convedia es propiedad de Radisys. Estos lenguajes también contienen "ganchos" para que los scripts externos (como VoiceXML) puedan ejecutarse en líneas de llamada donde se requiere la funcionalidad de IVR .

Había un grupo de trabajo de la IETF llamado mediactrl ("control de medios") que estaba trabajando en un sucesor para estos sistemas de scripting, que se espera que progrese hasta convertirse en un estándar abierto y ampliamente adoptado. ^[5] El grupo de trabajo mediactrl concluyó en 2013. ^[6]

Véase también

ECMAScript : el lenguaje de programación utilizado en VoiceXML
OpenVXI: una biblioteca de interpretación VoiceXML de código abierto ^[7]
SCXML – Diagrama de estado XML

Referencias

^ "Introducción – VoiceXML". Voicexml.org . Consultado el 23 de febrero de 2017 .
^ Schwartz, Ephraim (17 de marzo de 2004). "W3C recomienda VoiceXML 2.0". InfoWorld . Consultado el 23 de febrero de 2017 .
^ "Lenguaje de marcado extensible por voz (VoiceXML) 2.1". W3.org . Consultado el 23 de febrero de 2017 .
^ "El foro VoiceXML se disuelve tras completar con éxito su misión". voicexml.org . Consultado el 31 de mayo de 2022 .
^ "Control del servidor multimedia (mediactrl)". Archivado desde el original el 30 de enero de 2009. Consultado el 18 de enero de 2009 .
^ "Control del servidor de medios (Mediactrl) -".
^ "OpenVXI". voip-info.org . 2018-07-31 . Consultado el 2019-06-03 .

Enlaces externos

Escucha este artículo ( 9 minutos )

Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 29 de octubre de 2011 y no refleja ediciones posteriores. ( 29-10-2011 )

Grupo de trabajo de navegadores de voz del W3C, estándares oficiales de VoiceXML
Foro VoiceXML, titular de la marca registrada VoiceXML
Tutoriales de VoiceXML

[Forum2003-1] "Introducción – VoiceXML". Voicexml.org . Consultado el 23 de febrero de 2017 .

[W3C2004-2] Schwartz, Ephraim (17 de marzo de 2004). "W3C recomienda VoiceXML 2.0". InfoWorld . Consultado el 23 de febrero de 2017 .

[VXML21-3] "Lenguaje de marcado extensible por voz (VoiceXML) 2.1". W3.org . Consultado el 23 de febrero de 2017 .

[VXMLNEWS-4] "El foro VoiceXML se disuelve tras completar con éxito su misión". voicexml.org . Consultado el 31 de mayo de 2022 .

[5] "Control del servidor multimedia (mediactrl)". Archivado desde el original el 30 de enero de 2009. Consultado el 18 de enero de 2009 .

[6] "Control del servidor de medios (Mediactrl) -".

[OpenVXI-7] "OpenVXI". voip-info.org . 2018-07-31 . Consultado el 2019-06-03 .