Reconocimiento subvocal

Convertir la subvocalización en una salida digital

El reconocimiento subvocal (SVR) es el proceso de tomar la subvocalización y convertir los resultados detectados en una salida digital, auditiva o basada en texto. ^[1] Una interfaz de voz silenciosa es un dispositivo que permite la comunicación por voz sin utilizar el sonido que se produce cuando las personas vocalizan sus sonidos del habla . Funciona mediante la identificación por computadora de los fonemas que pronuncia una persona a partir de fuentes no auditivas de información sobre sus movimientos del habla . Estos se utilizan luego para recrear el habla mediante síntesis de voz . ^[2]

Métodos de entrada

Se han creado sistemas de interfaz de habla silenciosa utilizando ultrasonidos y cámaras ópticas que captan los movimientos de la lengua y los labios . ^[3] Los dispositivos electromagnéticos son otra técnica para rastrear los movimientos de la lengua y los labios. ^[4]

La detección de los movimientos del habla mediante electromiografía de los músculos articuladores del habla y de la laringe es otra técnica. ^[5]^[6] Otra fuente de información son las señales de resonancia del tracto vocal que se transmiten a través de la conducción ósea, llamadas soplos no audibles. ^[7]

También se han creado como una interfaz cerebro-computadora utilizando la actividad cerebral en la corteza motora obtenida a partir de microelectrodos intracorticales . ^[8]

Usos

Estos dispositivos se crean como ayuda para aquellas personas que no pueden crear la fonación sonora necesaria para el habla audible, como después de una laringectomía . ^[9] Otro uso es para la comunicación cuando el habla está enmascarada por el ruido de fondo o distorsionada por un aparato de respiración autónomo . Otro uso práctico es cuando existe una necesidad de comunicación silenciosa, como cuando se requiere privacidad en un lugar público o se necesita una transmisión silenciosa de datos con manos libres durante una operación militar o de seguridad. ^[3]^[10]

En 2002, la empresa japonesa NTT DoCoMo anunció que había creado un teléfono móvil silencioso mediante electromiografía e imágenes del movimiento de los labios. La empresa afirmó que "el motivo del desarrollo de un teléfono de este tipo fue eliminar el ruido de los lugares públicos", y añadió que "se espera que la tecnología también ayude a las personas que han perdido la voz de forma permanente". ^[11] Desde entonces se ha demostrado la viabilidad de utilizar interfaces de voz silenciosas para la comunicación práctica. ^[12]

En 2019, Arnav Kapur , investigador del Instituto Tecnológico de Massachusetts , realizó un estudio conocido como AlterEgo. Su implementación de la interfaz de voz silenciosa permite la comunicación directa entre el cerebro humano y dispositivos externos a través de la estimulación de los músculos del habla. Al aprovechar las señales neuronales asociadas con el habla y el lenguaje, el sistema AlterEgo descifra las palabras que el usuario pretende decir y las traduce en texto o comandos sin necesidad de un habla audible. ^[13]

Investigación y patentes

Con una subvención del Ejército de los EE. UU., se está llevando a cabo una investigación sobre telepatía sintética mediante subvocalización en la Universidad de California, Irvine, bajo la dirección del científico principal Mike D'Zmura. ^[14]

El Laboratorio de Investigación Ames de la NASA en Mountain View , California, bajo la supervisión de Charles Jorgensen, está llevando a cabo una investigación sobre subvocalización. ^{[ cita requerida ]}

El programa de investigación y desarrollo de la interfaz cerebro-computadora del Centro Wadsworth, dependiente del Departamento de Salud del Estado de Nueva York, ha confirmado la capacidad existente para descifrar consonantes y vocales a partir del habla imaginada, lo que permite una comunicación basada en el cerebro utilizando el habla imaginada, ^[15] pero utilizando EEG en lugar de técnicas de subvocalización.

Las patentes de EE. UU. sobre tecnologías de comunicación silenciosa incluyen: Patente de EE. UU. 6587729 "Aparato para comunicar de forma audible el habla utilizando el efecto de audición por radiofrecuencia", ^[16] Patente de EE. UU. 5159703 "Sistema de presentación subliminal silenciosa", ^[17] Patente de EE. UU. 6011991 "Sistema y método de comunicación que incluye análisis de ondas cerebrales y/o uso de actividad cerebral", ^[18] Patente de EE. UU. 3951134 "Aparato y método para monitorear y alterar de forma remota las ondas cerebrales". ^[19] Las dos últimas se basan en el análisis de ondas cerebrales.

En la ficción

La decodificación del habla silenciosa mediante una computadora jugó un papel importante en la historia de Arthur C. Clarke y la película asociada de Stanley Kubrick Una odisea del espacio . En esta, HAL 9000 , una computadora que controla la nave espacial Discovery One , con destino a Júpiter, descubre un complot para desactivarla por parte de los astronautas de la misión Dave Bowman y Frank Poole mediante la lectura de los labios de sus conversaciones. ^[20]
En la serie de Orson Scott Card (incluida Ender's Game ), se puede hablar con la inteligencia artificial mientras el protagonista lleva un sensor de movimiento en la mandíbula, lo que le permite conversar con la IA sin hacer ruido. También lleva un implante en la oreja.
En Speaker for the Dead y novelas posteriores, el autor Orson Scott Card describió un implante auditivo, llamado "joya", que permite la comunicación subvocal con sistemas informáticos.
El autor Robert J. Sawyer hizo uso del reconocimiento subvocal para permitir órdenes silenciosas a los "implantes acompañantes" cibernéticos utilizados por los personajes neandertales avanzados en su trilogía de novelas de ciencia ficción Neanderthal Parallax .
En Tierra , David Brin describe esta tecnología y sus usos como un engranaje normal en un futuro cercano.
En Down and Out in the Magic Kingdom , Cory Doctorow silencia la tecnología de los teléfonos móviles mediante un implante coclear y un micrófono en la garganta para captar la subvocalización.
La trilogía Sprawl de William Gibson utiliza con frecuencia sistemas de subvocalización en varios dispositivos.
En las novelas de Kage Baker 's Company , los cyborgs inmortales se comunican subvocalmente.
En Hyperion Cantos de Dan Simmons , ganador del premio Hugo , los personajes a menudo utilizan la subvocalización para comunicarse.
En las novelas de Cultura de Iain M. Banks , las especies más avanzadas a menudo se comunican subvocalmente a través de su tecnología.
En Deus Ex: Human Revolution (2011), el protagonista recibe un implante de subvocalización para enviar comunicaciones encubiertas (y un implante coclear correspondiente para recibir comunicaciones encubiertas).
En la serie de videojuegos y juegos de rol de mesa Shadowrun , los personajes jugadores pueden comunicarse a través de micrófonos subvocales en algunos casos.
En Paranoia , todos los ciudadanos pueden hablar con la computadora a través de sus implantes de "corteza cerebral".
La trilogía Revelation Space de Alistair Reynolds utiliza con frecuencia sistemas de subvocalización en varios dispositivos.

Véase también

Referencias

^ Shirley, John (1 de mayo de 2013). Nuevos tabúes. PM Press. ISBN 9781604868715. Recuperado el 14 de abril de 2017 .
^ Denby B, Schultz T, Honda K, Hueber T, Gilbert JM, Brumberg JS (2010). Interfaces de habla silenciosa. Speech Communication 52: 270–287. doi :10.1016/j.specom.2009.08.002
^ ab Hueber T, Benaroya EL, Chollet G, Denby B, Dreyfus G, Stone M. (2010). Desarrollo de una interfaz de habla silenciosa impulsada por ultrasonidos e imágenes ópticas de la lengua y los labios. Speech Communication, 52 288–300. doi :10.1016/j.specom.2009.11.004
^ Wang, J., Samal, A. y Green, JR (2014). Prueba preliminar de una interfaz de habla silenciosa interactiva en tiempo real basada en un artigrafo electromagnético, 5.º taller ACL/ISCA sobre procesamiento del habla y el lenguaje para tecnologías de asistencia, Baltimore, MD, 38-45.
^ Jorgensen C, Dusan S. (2010). Interfaces de voz basadas en electromiografía de superficie. Speech Communication, 52: 354–366. doi :10.1016/j.specom.2009.11.003
^ Schultz T, Wand M. (2010). Modelado de la coarticulación en el reconocimiento continuo del habla basado en EMG. Speech Communication, 52: 341-353. doi :10.1016/j.specom.2009.12.002
^ Hirahara T, Otani M, Shimizu S, Toda T, Nakamura K, Nakajima Y, Shikano K. (2010). Mejora del habla silenciosa mediante señales de resonancia del tracto vocal conducidas por el cuerpo. Speech Communication, 52:301–313. doi :10.1016/j.specom.2009.12.001
^ Brumberg JS, Nieto-Castanon A, Kennedy PR, Guenther FH (2010). Interfaces cerebro-computadora para la comunicación por voz. Speech Communication 52:367–379. 2010 doi :10.1016/j.specom.2010.01.001
^ Deng Y., Patel R., Heaton JT, Colby G., Gilmore LD, Cabrera J., Roy SH, De Luca CJ, Meltzner GS (2009). Reconocimiento de habla desordenada mediante señales acústicas y sEMG. En INTERSPEECH-2009, 644-647.
^ Deng Y., Colby G., Heaton JT y Meltzner HG. S. (2012). Avances en el procesamiento de señales para el sistema de reconocimiento de voz silencioso basado en sEMG MUTE. Conferencia de comunicación militar, MILCOM 2012.
^ Fitzpatrick M. (2002). El teléfono móvil que lee los labios silencia a los charlatanes. New Scientist.
^ Wand M, Schultz T. (2011). Reconocimiento de voz basado en EMG independiente de la sesión. Actas de la 4.ª Conferencia internacional sobre sistemas bioinspirados y procesamiento de señales.
^ "Descripción general del proyecto ‹ AlterEgo". MIT Media Lab . Consultado el 20 de mayo de 2024 .
^ "El ejército desarrolla 'telepatía sintética'". NBC News . 13 de octubre de 2008.
^ Pei, Xiaomei; Barbour, Dennis L; Leuthardt, Eric C; Schalk, Gerwin (2011). "Decodificación de vocales y consonantes en palabras habladas e imaginarias utilizando señales electrocorticográficas en humanos". Journal of Neural Engineering . 8 (4): 046028. Bibcode :2011JNEng...8d6028P. doi :10.1088/1741-2560/8/4/046028. PMC 3772685 . PMID 21750369.
^ Aparato para comunicar de forma audible el habla utilizando el efecto auditivo de radiofrecuencia.
^ Sistema de presentación subliminal silenciosa
^ Sistema y método de comunicación que incluye análisis de ondas cerebrales y/o uso de la actividad cerebral.
^ Aparato y método para monitorizar y alterar de forma remota las ondas cerebrales
^ Clarke, Arthur C. (1972). Los mundos perdidos de 2001. Londres: Sidgwick y Jackson. ISBN 0-283-97903-8 .

Lectura adicional

Bluck, John (17 de marzo de 2004). «Comunicado de prensa de la NASA». NASA. p. 1. Archivado desde el original el 1 de enero de 2024.
Armstrong, David (10 de abril de 2006). "El orador silencioso". Forbes . p. 1. Archivado desde el original el 14 de abril de 2006.
Simonite, Tom (6 de septiembre de 2007). "Pensar en palabras puede guiar tu silla de ruedas". New Scientist, pág. 1.

Enlaces externos

Centro Ames de la NASA

[1] Shirley, John (1 de mayo de 2013). Nuevos tabúes. PM Press. ISBN 9781604868715. Recuperado el 14 de abril de 2017 .

[2] Denby B, Schultz T, Honda K, Hueber T, Gilbert JM, Brumberg JS (2010). Interfaces de habla silenciosa. Speech Communication 52: 270–287. doi :10.1016/j.specom.2009.08.002

[Hueber-3] Hueber T, Benaroya EL, Chollet G, Denby B, Dreyfus G, Stone M. (2010). Desarrollo de una interfaz de habla silenciosa impulsada por ultrasonidos e imágenes ópticas de la lengua y los labios. Speech Communication, 52 288–300. doi :10.1016/j.specom.2009.11.004

[4] Wang, J., Samal, A. y Green, JR (2014). Prueba preliminar de una interfaz de habla silenciosa interactiva en tiempo real basada en un artigrafo electromagnético, 5.º taller ACL/ISCA sobre procesamiento del habla y el lenguaje para tecnologías de asistencia, Baltimore, MD, 38-45.

[5] Jorgensen C, Dusan S. (2010). Interfaces de voz basadas en electromiografía de superficie. Speech Communication, 52: 354–366. doi :10.1016/j.specom.2009.11.003

[6] Schultz T, Wand M. (2010). Modelado de la coarticulación en el reconocimiento continuo del habla basado en EMG. Speech Communication, 52: 341-353. doi :10.1016/j.specom.2009.12.002

[7] Hirahara T, Otani M, Shimizu S, Toda T, Nakamura K, Nakajima Y, Shikano K. (2010). Mejora del habla silenciosa mediante señales de resonancia del tracto vocal conducidas por el cuerpo. Speech Communication, 52:301–313. doi :10.1016/j.specom.2009.12.001

[8] Brumberg JS, Nieto-Castanon A, Kennedy PR, Guenther FH (2010). Interfaces cerebro-computadora para la comunicación por voz. Speech Communication 52:367–379. 2010 doi :10.1016/j.specom.2010.01.001

[Deng-9] Deng Y., Patel R., Heaton JT, Colby G., Gilmore LD, Cabrera J., Roy SH, De Luca CJ, Meltzner GS (2009). Reconocimiento de habla desordenada mediante señales acústicas y sEMG. En INTERSPEECH-2009, 644-647.

[Deng2-10] Deng Y., Colby G., Heaton JT y Meltzner HG. S. (2012). Avances en el procesamiento de señales para el sistema de reconocimiento de voz silencioso basado en sEMG MUTE. Conferencia de comunicación militar, MILCOM 2012.

[11] Fitzpatrick M. (2002). El teléfono móvil que lee los labios silencia a los charlatanes. New Scientist.

[12] Wand M, Schultz T. (2011). Reconocimiento de voz basado en EMG independiente de la sesión. Actas de la 4.ª Conferencia internacional sobre sistemas bioinspirados y procesamiento de señales.

[13] "Descripción general del proyecto ‹ AlterEgo". MIT Media Lab . Consultado el 20 de mayo de 2024 .

[14] "El ejército desarrolla 'telepatía sintética'". NBC News . 13 de octubre de 2008.

[15] Pei, Xiaomei; Barbour, Dennis L; Leuthardt, Eric C; Schalk, Gerwin (2011). "Decodificación de vocales y consonantes en palabras habladas e imaginarias utilizando señales electrocorticográficas en humanos". Journal of Neural Engineering . 8 (4): 046028. Bibcode :2011JNEng...8d6028P. doi :10.1088/1741-2560/8/4/046028. PMC 3772685 . PMID 21750369.

[16] Aparato para comunicar de forma audible el habla utilizando el efecto auditivo de radiofrecuencia.

[17] Sistema de presentación subliminal silenciosa

[18] Sistema y método de comunicación que incluye análisis de ondas cerebrales y/o uso de la actividad cerebral.

[19] Aparato y método para monitorizar y alterar de forma remota las ondas cerebrales

[20] Clarke, Arthur C. (1972). Los mundos perdidos de 2001. Londres: Sidgwick y Jackson. ISBN 0-283-97903-8 .