Hablando claro

Gama de tecnologías de reconocimiento y síntesis de voz de Apple Inc.

PlainTalk es el nombre colectivo de varias tecnologías de reconocimiento de voz y síntesis de voz ( MacinTalk ) desarrolladas por Apple Inc. En 1990, Apple invirtió mucho trabajo y dinero en tecnología de reconocimiento de voz, contratando a muchos investigadores en el campo. El resultado fue "PlainTalk", lanzado con los modelos AV de la serie Macintosh Quadra a partir de 1993. Se convirtió en un componente estándar del sistema en System 7 .1.2 y desde entonces se ha incluido en todos los PowerPC y algunos Macintosh 68k .

Software

Síntesis de voz

Tecnología

El sistema de conversión de texto a voz de Apple utiliza difonos . En comparación con otros métodos de síntesis de voz, no consume muchos recursos, pero limita la naturalidad de la síntesis de voz . Las versiones en inglés americano y español han estado disponibles, pero desde la llegada de Mac OS X, Apple ha distribuido únicamente voces en inglés americano, y ha recurrido a proveedores externos como Acapela Group para suministrar voces para otros idiomas (en OS X 10.7, Apple licenció muchas voces de terceros y las puso a disposición para su descarga dentro del panel de control de Voz).

Una interfaz de programación de aplicaciones conocida como Speech Manager permite a los desarrolladores externos utilizar la síntesis de voz en sus aplicaciones. Existen varias secuencias de control que se pueden utilizar para ajustar la entonación y el ritmo. También se puede configurar el volumen , el tono y la velocidad del habla, lo que permite cantar.

La entrada al sintetizador se puede controlar explícitamente utilizando un alfabeto de fonemas especial.

MacinTalk original

Demostración de MacinTalk 1

El motor de texto a voz inicial de Macintosh, MacinTalk (nombrado por Denise Chandler), fue utilizado por Apple en la presentación de Macintosh en 1984 , en la que la computadora se anunció al mundo (y se burló del peso de una computadora IBM). Si bien se incorporó al sistema operativo de Macintosh, no fue oficialmente compatible con Apple (aunque la información de programación se puso a disposición a través de una Nota técnica de Apple ^[1]^[2] ). MacinTalk fue desarrollado por Joseph Katz y Mark Barton, quienes luego fundaron SoftVoice, Inc., que actualmente comercializa motores TTS para Windows, Linux y plataformas integradas. MacinTalk usó acceso directo al hardware de sonido original de Macintosh y todos los intentos de licenciar el código fuente por parte de Apple para actualizarlo para las Mac más nuevas fracasaron. ^[3]^[4]

MacinTalk 2

Demostración de MacinTalk 2 con las voces de Mr. Hughes y Marvin

Finalmente, Apple lanzó un sistema de síntesis de voz compatible, llamado MacinTalk 2. Es compatible con cualquier Macintosh que ejecute el software del sistema 6.0.7 o posterior. Siguió siendo la versión recomendada para máquinas más lentas incluso después del lanzamiento de MacinTalk 3 y Pro.

MacinTalk 3, Pro

MacinTalk 3 introdujo una gran variedad de voces. Además de las voces estándar para adultos "Ralph", "Fred" y "Kathy", y voces infantiles como "Princess" (renombrada "Superstar" en macOS Ventura ) y "Junior", se incluyeron varias voces novedosas, como "Whisper", "Zarvox" (una voz robótica con sonidos melódicos de fondo, con una voz similar llamada "Trinoids" también incluida), "Cellos" (una voz que cantaba su texto con una melodía de Edvard Grieg , también conocida como "In the Hall of the Mountain King" con voces que cantaban de manera similar como "Good News", "Bad News", "Pipe Organ"), "Albert" (una voz que suena ronca), "Bells", "Boing", "Bubbles" y otras.

Cada una de estas voces venía con su propio texto de ejemplo, que se pronunciaba al pulsar el botón "Probar" en el panel de control de Voz. Algunas simplemente decían su nombre, idioma y la versión de MacinTalk con la que las habían presentado. Otras decían cosas divertidas , como "Me encanta estar dentro de esta elegante computadora", "Tengo una rana en la garganta... ¡No, me refiero a una rana de verdad!", "Debemos regocijarnos con esta voz morbosa" (una parodia de los himnos de la iglesia occidental con música de órgano ) o "La luz que ves al final del túnel es el faro de un tren que se acerca rápidamente". Estas voces todavía están en macOS hoy en día. (Algunos de los nombres de las voces y sus textos de prueba se cambiaron con macOS Ventura , y luego todos sus textos de prueba se cambiaron en macOS Sonoma a "Hola, mi nombre es [nombre de la voz]").

Con el aumento de la potencia de procesamiento que proporcionaron los Macs AV y los Macintosh basados en PowerPC, Apple pudo permitirse aumentar la calidad de la síntesis. MacinTalk 3 requería un procesador 68030 de 33 MHz y MacinTalk Pro requería un 68040 o superior y al menos 1 MB de RAM . Cada sintetizador admitía un conjunto diferente de voces.

Conversión de texto a voz en Mac OS X

La conversión de texto a voz ha sido parte de cada versión de Mac OS X (posteriormente macOS). La voz de Victoria se mejoró significativamente en Mac OS X v10.3 y se agregó como Vicki (Victoria no se eliminó). Su tamaño era casi 20 veces mayor, debido a las muestras de difonos de mayor calidad utilizadas.

Con el lanzamiento de Mac OS X 10.5 Leopard se ha añadido a la lista de texto a voz de Mac una nueva voz con un sonido mucho más natural, llamada "Alex" . ^[5]

Con Mac OS X 10.7 Lion, las voces están disponibles en inglés estadounidense adicional y otros acentos ingleses, así como en otros 21 idiomas. ^[6]

La función Leer texto seleccionado al presionar una tecla permite leer el texto seleccionado desde cualquier aplicación mediante una combinación de teclas. Desde Mac OS X 10.1 hasta Mac OS X 10.6 , la función copiaba el texto seleccionado al portapapeles y lo leía desde allí. Desde Mac OS X 10.7 hasta Mac OS X 10.10 , una nueva implementación de la función requería que los desarrolladores de software implementaran una API de síntesis de voz en sus aplicaciones. ^[7]^[8] Esto evitaba que se sobrescribiera el portapapeles, pero también significaba que, para las aplicaciones que no usaban la API, la función no funcionaba como se esperaba, leyendo la barra de título en lugar del texto seleccionado. ^[9]^[10]

En macOS Sierra 10.12, Siri se introdujo para Mac, sin embargo, la voz no estaba disponible como voz del sistema, lo que significaba que las voces de Siri solo se podían usar en Siri. Siri se puso a disposición como voz del sistema en macOS Catalina 10.15, de modo que pudiera funcionar con cualquier texto. Las voces de Siri funcionan de una manera completamente diferente y el saycomando sigue sin poder usar Siri.

En la actualización de macOS Big Sur 11.3, se eliminaron las referencias de género en todas las voces, coincidiendo con el cambio en las voces de Siri en iOS 14.5 y macOS 11.3 y posteriores, como parte de los esfuerzos de Apple para promover la inclusión de género.

Reconocimiento de voz

En 1990, Apple contrató a muchos investigadores en reconocimiento de voz. Después de aproximadamente un año, demostraron una tecnología con el nombre en código Casper. Se lanzó como parte del paquete PlainTalk en 1993. Aunque estaba disponible para todos los Macintosh PowerPC y las máquinas AV 68k (era una de las pocas aplicaciones que utilizaban el DSP en Centris 660AV y Quadra 840AV ), no formaba parte de la instalación predeterminada del sistema antes de Mac OS X, lo que requería que el usuario realizara una instalación personalizada del sistema operativo para obtener capacidades de reconocimiento de voz.

En Mac OS X 10.7 Lion y versiones anteriores, el reconocimiento de voz de Apple estaba orientado únicamente a comandos de voz, es decir, no estaba pensado para dictados. Se puede configurar para que escuche comandos cuando se presiona una tecla de acceso rápido, después de que se le indique con una frase de activación como "Computadora" o "Macintosh", o sin que se le solicite. Un monitor de estado gráfico, a menudo en forma de un personaje animado, proporciona información visual y textual sobre el estado de escucha, los comandos y las acciones disponibles. También puede comunicarse con el usuario mediante síntesis de voz.

Las primeras versiones del reconocimiento de voz proporcionaban acceso total a los menús. Esta función se eliminó más tarde, ya que requería demasiados recursos y hacía que el reconocimiento fuera menos fiable, y se volvió a incorporar en Mac OS X 10.3 como una "tecnología de acceso universal" denominada interfaz de usuario hablada.

El usuario puede abrir elementos ubicados en una carpeta especial, llamada "Elementos que se pueden leer", simplemente diciendo su nombre (mientras el sistema está en modo de escucha ). Apple envió una serie de AppleScripts en esta carpeta, pero los alias , los documentos y las carpetas se pueden abrir de la misma manera.

Las aplicaciones individuales proporcionan funciones adicionales. Una interfaz de programación de aplicaciones permite a los programas definir y modificar un vocabulario disponible . Por ejemplo, el Finder proporciona un vocabulario para manipular archivos y ventanas .

En OS X 10.8 Mountain Lion , Apple introdujo la función "Dictado", ^[11] pensada para textos generales. Originalmente, requería el envío de datos de audio a los servidores de Apple para su procesamiento. En OS X 10.9 Mavericks , Apple agregó la opción de descargar soporte para dictado sin conexión a Internet. A partir de OS X 10.9.3, se admiten ocho idiomas (19 dialectos).

Hardware

Apple produjo dos micrófonos bajo el nombre de producto "Apple PlainTalk Microphone". ^{[ cita requerida ]} El primero se envió incluido con Macintosh LC y los primeros modelos Performa, y tenía apariencia circular. Fue diseñado para colocarse en un soporte unido al costado de una pantalla CRT y levantarse y sostenerse con la boca al hablar. ^{[ cita requerida ]} El segundo modelo se introdujo junto con los modelos AV en la serie Macintosh Quadra en 1993, pero también se vendió por separado. Fue diseñado para colocarse en la parte superior de la pantalla y ser sensible al sonido del frente. Ambos modelos tenían un conector más largo, cuya punta se usaba para proporcionar voltaje de polarización al micrófono .

Referencias

^ Ginger Jernigan; Jim Reekes (junio de 1989) [abril de 1985]. «Nota técnica n.° 019: Cómo producir sonido continuo sin hacer clic». Apple Computer Inc. Consultado el 18 de septiembre de 2019 .
^ Jim Reekes (1 de febrero de 1990). "Nota técnica PT22, también conocida como n.° 268: MacinTalk: el capítulo final de MacinTalk: el capítulo final". Apple Computer Inc. Consultado el 18 de septiembre de 2019 .El resultado de este trabajo fue MacinTalk. MacinTalk es un archivo que se puede colocar en la carpeta del sistema de un ordenador Macintosh normal y que permite transformar texto en voz para su introducción en 1984. Se pensó que era un software interesante, por lo que Apple lo puso a disposición de los desarrolladores. Se publicaron interfaces para MacinTalk y la licencia de software de Apple permitió que se incluyera en los productos de los desarrolladores. El proyecto original era conseguir un controlador de voz para Macintosh, pero no incluía la obtención del código fuente de este controlador. Apple sólo tiene exactamente lo que da a los desarrolladores: un archivo que se copia en la carpeta del sistema, y este archivo no se puede modificar ya que Apple no tiene el código fuente. [El] MacinTalk original funciona mediante una tarea VBL para escribir datos directamente en el hardware de sonido de las placas lógicas Macintosh Plus y SE, un método que Apple no admite. Sólo ha sido gracias a los esfuerzos del Sound Manager que el software que escribe directamente en este hardware de sonido sigue funcionando. MacinTalk continúa escribiendo en las direcciones de hardware de la placa lógica Macintosh 128K, pero Sound Manager y Apple Sound Chip trabajan juntos para permitir que programas como MacinTalk sigan funcionando en máquinas más nuevas. Sound Manager y Apple Sound Chip [ASC] se introdujeron con Macintosh II. Sound Manager vigila las direcciones de hardware que solían estar presentes en Macintosh. Cuando Sound Manager detecta actividad en una de estas direcciones, entra en un modo de "compatibilidad". En este modo, enruta los datos al hardware de sonido real, pero mientras esto sucede, el código correcto de Sound Manager no puede ejecutarse; incluso el _SysBeep de Sound Manager no funciona cuando se utiliza MacinTalk. Además, el modo de compatibilidad no se puede desactivar hasta que la aplicación que lo requiere llame a _ExitToShell. Incluso una aplicación que utiliza el sonido correctamente, con el código correcto, no funciona si otra aplicación abre el controlador MacinTalk. No hay soluciones para esta incompatibilidad... En otras palabras, si encuentra MacinTalk interesante y entretenido, adelante, cómprelo. Escriba algo de código y disfrútelo. Sin embargo, tenga en cuenta que MacinTalk no debe incluirse como parte de ningún producto comercial. Apple Computer, Inc. no proporciona soporte para MacinTalk más allá de lo que se compra con el paquete mismo, y no habrá soporte en el futuro. Apple se compromete a proporcionar a la comunidad de desarrolladores una variedad de tecnologías de voz integradas con Sound Manager... No se hará nada más [con el MacinTalk original]. Es un riesgo de compatibilidad... hace que Sound Manager falle... no funcionará con el nuevo Sound Manager planeado para System 7.0... puede que no funcione en absoluto con futuras versiones del hardware Macintosh. ....#000: Acerca de las Notas técnicas de Macintosh.... No imponemos restricciones a la copia de las Notas técnicas, con la excepción de que no puede revenderlas, así que léalas, disfrútelas y compártalas.Esperamos que las Notas técnicas de Macintosh le proporcionen mucha información valiosa mientras desarrolla hardware y software de Macintosh.URL alternativa
^ "MacIntalk".
^ "Talk de Macin".
^ "Accesibilidad - OS X". Apple . Consultado el 27 de abril de 2016 .
^ "Apple - OS X Lion - Acceso universal". Archivado desde el original el 24 de septiembre de 2011 . Consultado el 23 de julio de 2011 .
^ "Guía de introducción a la programación de síntesis de voz". Developer.apple.com . 2006-09-05 . Consultado el 2016-04-27 .
^ "Síntesis de voz en OS X". Developer.apple.com . 2006-09-05 . Consultado el 2016-04-27 .
^ "[Resuelto] La conversión de texto a voz solo lee el título del documento (Ver tema) • Foro de la comunidad Apache OpenOffice". Forum.openoffice.org . Consultado el 27 de abril de 2016 .
^ "scottmartin/speak-selected-text-sublime: Un complemento para utilizar el texto a voz de Mac desde Sublime Text 2". GitHub.com . Consultado el 27 de abril de 2016 .
^ "Usa tu voz para ingresar texto en tu Mac - Soporte técnico de Apple". Support.apple.com . 2016-04-05 . Consultado el 2016-04-27 .

Enlaces externos

Folklore.org: El Macintosh original, sobre la introducción de Macintosh
Documentación API:
- 10.14+ frameworks: Voz (Reconocimiento), Síntesis de voz (Parte de AVFoundation)
- API de Cocoa: NSSpeechSynthesizer y NSSpeechRecognizer
- Carbon API (ApplicationServices): Administrador de síntesis de voz (el antiguo sistema basado en difonos con control de tono utilizado por say)
MacinTalk en IMDb
Technote TN 22 - MacinTalk - El capítulo final

[1] Ginger Jernigan; Jim Reekes (junio de 1989) [abril de 1985]. «Nota técnica n.° 019: Cómo producir sonido continuo sin hacer clic». Apple Computer Inc. Consultado el 18 de septiembre de 2019 .

[2] Jim Reekes (1 de febrero de 1990). "Nota técnica PT22, también conocida como n.° 268: MacinTalk: el capítulo final de MacinTalk: el capítulo final". Apple Computer Inc. Consultado el 18 de septiembre de 2019 .El resultado de este trabajo fue MacinTalk. MacinTalk es un archivo que se puede colocar en la carpeta del sistema de un ordenador Macintosh normal y que permite transformar texto en voz para su introducción en 1984. Se pensó que era un software interesante, por lo que Apple lo puso a disposición de los desarrolladores. Se publicaron interfaces para MacinTalk y la licencia de software de Apple permitió que se incluyera en los productos de los desarrolladores. El proyecto original era conseguir un controlador de voz para Macintosh, pero no incluía la obtención del código fuente de este controlador. Apple sólo tiene exactamente lo que da a los desarrolladores: un archivo que se copia en la carpeta del sistema, y este archivo no se puede modificar ya que Apple no tiene el código fuente. [El] MacinTalk original funciona mediante una tarea VBL para escribir datos directamente en el hardware de sonido de las placas lógicas Macintosh Plus y SE, un método que Apple no admite. Sólo ha sido gracias a los esfuerzos del Sound Manager que el software que escribe directamente en este hardware de sonido sigue funcionando. MacinTalk continúa escribiendo en las direcciones de hardware de la placa lógica Macintosh 128K, pero Sound Manager y Apple Sound Chip trabajan juntos para permitir que programas como MacinTalk sigan funcionando en máquinas más nuevas. Sound Manager y Apple Sound Chip [ASC] se introdujeron con Macintosh II. Sound Manager vigila las direcciones de hardware que solían estar presentes en Macintosh. Cuando Sound Manager detecta actividad en una de estas direcciones, entra en un modo de "compatibilidad". En este modo, enruta los datos al hardware de sonido real, pero mientras esto sucede, el código correcto de Sound Manager no puede ejecutarse; incluso el _SysBeep de Sound Manager no funciona cuando se utiliza MacinTalk. Además, el modo de compatibilidad no se puede desactivar hasta que la aplicación que lo requiere llame a _ExitToShell. Incluso una aplicación que utiliza el sonido correctamente, con el código correcto, no funciona si otra aplicación abre el controlador MacinTalk. No hay soluciones para esta incompatibilidad... En otras palabras, si encuentra MacinTalk interesante y entretenido, adelante, cómprelo. Escriba algo de código y disfrútelo. Sin embargo, tenga en cuenta que MacinTalk no debe incluirse como parte de ningún producto comercial. Apple Computer, Inc. no proporciona soporte para MacinTalk más allá de lo que se compra con el paquete mismo, y no habrá soporte en el futuro. Apple se compromete a proporcionar a la comunidad de desarrolladores una variedad de tecnologías de voz integradas con Sound Manager... No se hará nada más [con el MacinTalk original]. Es un riesgo de compatibilidad... hace que Sound Manager falle... no funcionará con el nuevo Sound Manager planeado para System 7.0... puede que no funcione en absoluto con futuras versiones del hardware Macintosh. ....#000: Acerca de las Notas técnicas de Macintosh.... No imponemos restricciones a la copia de las Notas técnicas, con la excepción de que no puede revenderlas, así que léalas, disfrútelas y compártalas.Esperamos que las Notas técnicas de Macintosh le proporcionen mucha información valiosa mientras desarrolla hardware y software de Macintosh.URL alternativa

[3] "MacIntalk".

[4] "Talk de Macin".

[5] "Accesibilidad - OS X". Apple . Consultado el 27 de abril de 2016 .

[6] "Apple - OS X Lion - Acceso universal". Archivado desde el original el 24 de septiembre de 2011 . Consultado el 23 de julio de 2011 .

[7] "Guía de introducción a la programación de síntesis de voz". Developer.apple.com . 2006-09-05 . Consultado el 2016-04-27 .

[8] "Síntesis de voz en OS X". Developer.apple.com . 2006-09-05 . Consultado el 2016-04-27 .

[9] "[Resuelto] La conversión de texto a voz solo lee el título del documento (Ver tema) • Foro de la comunidad Apache OpenOffice". Forum.openoffice.org . Consultado el 27 de abril de 2016 .

[10] "scottmartin/speak-selected-text-sublime: Un complemento para utilizar el texto a voz de Mac desde Sublime Text 2". GitHub.com . Consultado el 27 de abril de 2016 .

[11] "Usa tu voz para ingresar texto en tu Mac - Soporte técnico de Apple". Support.apple.com . 2016-04-05 . Consultado el 2016-04-27 .