La máquina parlante de Wolfgang von Kempelen

Una réplica de la máquina parlante de Kempelen, construida entre 2007 y 2009 en el Departamento de Fonética de la Universidad del Sarre , Saarbrücken , Alemania

La máquina parlante de Wolfgang von Kempelen es un sintetizador de voz operado manualmente que comenzó a desarrollarse en 1769, por el autor e inventor austrohúngaro Wolfgang von Kempelen . Fue en este mismo año que completó su contribución mucho más infame a la historia: El Turco , un autómata que jugaba al ajedrez , que más tarde se reveló que era un engaño muy elaborado y de gran alcance debido a que el ser humano que jugaba al ajedrez ocupaba sus entrañas. [1] Pero mientras que la construcción del Turco se completó en seis meses, la máquina parlante de Kempelen ocupó los siguientes veinte años de su vida. [2] Después de dos "callejones sin salida" conceptuales durante los primeros cinco años de investigación, la tercera dirección de Kempelen finalmente lo llevó al diseño que se sintió cómodo al considerar "final": un modelo de representación funcional del tracto vocal humano . [3]

Primer diseño

El primer experimento de Kempelen con la síntesis del habla sólo implicaba los elementos más rudimentarios del tracto vocal necesarios para producir sonidos similares al habla. Un fuelle de cocina, utilizado para avivar el fuego en las estufas de leña, se invocó como un conjunto de pulmones para suministrar el flujo de aire. Una caña extraída de una gaita común se implementó como glotis , la fuente del sonido fundamental en bruto en el tracto vocal. La campana de un clarinete era suficiente para una boca, a pesar de su forma rígida. Este modelo básico era capaz de producir sólo sonidos vocálicos simples, aunque era posible cierta articulación adicional colocando la mano en la abertura de la campana para obstruir el flujo de aire. Sin embargo, no estaba presente el hardware físico para construir las nasales , oclusivas y fricativas que requieren la mayoría de las consonantes . Kempelen, como muchos otros pioneros de la fonética , no comprendió la fuente de las "frecuencias más altas" percibidas de ciertos sonidos como una función de la glotis, en lugar de como la función de los formantes de todo el tracto vocal, por lo que abandonó su diseño de lengüeta única para un enfoque de lengüetas múltiples. [2] [3]

Segundo diseño

El segundo diseño consistía en una consola, similar a la de un órgano musical de la época, en la que el operador manejaba un conjunto de teclas, una para cada letra. Los sonidos se producían mediante un fuelle común que alimentaba el aire a través de varios tubos con las formas y obstrucciones adecuadas necesarias para producir esa letra. A través de la experimentación, llegó a descubrir que la longitud resonante de la lengüeta no era crucial para la creación de los componentes de alta frecuencia de ciertas vocales y fricativas, por lo que las afinó todas para que tuvieran el mismo tono en aras de la coherencia entre las letras. Si bien no todas las letras estaban representadas en ese momento, Kempelen había desarrollado la tecnología necesaria para producir la mayoría de las vocales y varias consonantes, incluida la oclusiva /p/ y la nasal /m/, y, por lo tanto, estaba en condiciones de comenzar a formar sílabas y palabras cortas. Sin embargo, esto condujo inmediatamente al principal defecto de su segundo diseño: la naturaleza paralela de las múltiples lengüetas permitía que sonara más de una letra a la vez. Y en el proceso de construcción de sílabas y palabras, la “superposición” sónica (ahora llamada coarticulación ) hacía que los sonidos fueran muy poco característicos del habla humana, socavando por completo la intención del diseño. Kempelen comenta:
“Para continuar con mis experimentos era necesario, sobre todo, que tuviera un conocimiento perfecto de lo que quería imitar. Tuve que hacer un estudio formal del habla y consultar continuamente a la naturaleza mientras realizaba mis experimentos. De esta manera, mi máquina parlante y mi teoría sobre el habla progresaron por igual, sirviendo una de guía a la otra”. [3]
“Era posible, siguiendo los métodos que había estado usando, inventar letras separadas, pero nunca combinarlas para formar sílabas, y era absolutamente necesario seguir a la naturaleza, que tiene una sola glotis y una boca, a través de la cual emerge cada sonido y que les da una unidad”. [2] [3]
Así, Kempelen comenzó a trabajar en su tercer y último diseño, que en muchos sentidos era una representación "lo más cercana posible" de la fisiología del tracto vocal.

Tercer diseño

El tercer enfoque siguió un diseño similar al primero, que era conceptualmente más fiel al diseño natural del tracto vocal humano que el segundo. Consistía, como antes, en un fuelle, una lengüeta y una boca simulada (esta vez hecha de caucho de la India , para una mejor creación de sonidos vocálicos mediante manipulación manual), pero también incluía una "garganta" a la que se adjuntaba una "cavidad nasal" (completa con dos "fosas nasales" para pronunciar consonantes nasales), así como varias palancas y tubos dedicados a pronunciar /s/ y /ʃ/, una varilla que interferiría con la vibración de las lengüetas para articular /r/, y fuelles separados y más pequeños que permitirían que el aire pasara por la lengüeta mientras la boca estaba completamente cerrada (una característica necesaria para pronunciar /b/). En un momento dado, se incluyó una válvula especial destinada a simular /f/, pero luego se eliminó cuando se reveló que se podía lograr el mismo sonido simplemente cerrando todos los orificios de la máquina y permitiendo que el aire se filtrara por las grietas. De manera similar, en un punto del diseño, había un conjunto de "boca" alternativo que consistía en una caja de madera con un par de obturadores con bisagras que actuaban como labios. Dentro de la caja se encontraba una solapa de madera con bisagras, operada por una cuerda, que actuaba como una lengua. El propósito de este conjunto era imitar la boca y la lengua en la construcción de oclusivas como "b" y "d", pero luego fue eliminado cuando Kempelen reconoció que sin una lengua adecuada, la máquina nunca podría producir /t/, /d/, /k/ y /ɡ/. Encontró la manera de resolver todo este problema reemplazando /t/ y /k/ con /p/, y /d/ y /ɡ/ con /b/ (que en sí solo se diferenciaba en la sonoridad de /p/). En el contexto de una palabra familiar, los oyentes a menudo ignoraban por completo la pronunciación incorrecta (un fenómeno explorado más tarde por investigadores en el campo de la ciencia cognitiva ). Kempelen creía que la gente era más tolerante con los errores cometidos por su máquina debido a la frecuencia de la lengüeta y la longitud de resonancia del tracto vocal que eligió utilizar, que crean una resonancia mucho más parecida a la de un niño pequeño que a la de un adulto. [2] [3] Este tercer diseño, a diferencia de los anteriores, era completamente capaz de pronunciar frases completas en francés, italiano e inglés (el alemán era posible, pero requería un mayor nivel de habilidad por parte del operador, debido al uso más frecuente de consonantes en el idioma alemán). Su mayor limitación era el fuelle, que, aunque tenía seis veces la capacidad de los pulmones humanos, se vaciaba de aire mucho más rápido que el de su contraparte humana. Debido a que el diseño se basaba en una sola lengüeta como fuente de sonido glótico, no tenía ninguno de los problemas de coarticulación que venían inherentemente con el segundo diseño. Pero esa única lengüeta también significaba que la máquina parlante tenía una voz monótona.[1] Kempelen dedicó algún tiempo a intentar introducir varias expresiones prosódicas.En el conjunto de lengüetas se incorporaron mecanismos de variación de tono, pero no hubo resultados. Decidió dejar que el diseño fuera mejorado por el siguiente grupo de experimentadores. Todas estas importantes incorporaciones al tercer diseño surgieron de las dos décadas de investigación intensiva del tracto vocal en relación con los idiomas hablados por parte de Kempelen, para las cuales se examinó y replicó acústica y/o mecánicamente el comportamiento de cada elemento fisiológico crucial de la producción del habla. [3]

Una contribución significativa

Poco después de la finalización y exhibición de su máquina parlante, en 1804, von Kempelen murió, aunque no antes de publicar un diario extremadamente completo de los últimos veinte años de su investigación en fonética. El libro de 456 páginas, titulado Mechanismus der menschlichen Sprache nebst Beschreibung einer sprechenden Maschine (que se traduce como El mecanismo del habla humana, con una descripción de una máquina parlante , publicado en 1791), [2] [1] contenía todos los aspectos técnicos tanto de la construcción de la máquina parlante por parte de Kempelen (incluidos los diseños preliminares) como de sus estudios del tracto vocal humano. [3]

En 1837, Sir Charles Wheatstone resucitó el trabajo de Wolfgang von Kempelen, creando una réplica mejorada de su máquina parlante. [3] [1] Utilizando nueva tecnología desarrollada durante los 50 años anteriores, Wheatstone pudo analizar y sintetizar más a fondo los componentes del habla acústica, dando lugar a la segunda ola de interés científico en la fonética. Después de ver la réplica mejorada de la máquina parlante de Wheatstone en una exposición, un joven Alexander Graham Bell se propuso construir su propia máquina parlante con la ayuda y el estímulo de su padre. [1] [4] Los experimentos e investigaciones de Bell finalmente condujeron a su invención del teléfono en 1876, [1] que revolucionó la comunicación global.

En 1968, Marcel Van den Broecke (Universidad de Ámsterdam) construyó una réplica como parte de una tesis de maestría, sobre la que informó en "Sound Structures", Marcel van den Broecke, Vincent van Heuven y Wim Zonneveld (eds.), capítulo 2, pág. 9-19: "Wolfgang von Kempelen's Speaking Machine as a Performer", Foris Publications, Dordrecht-Netherlands/Cinnaminson-USA, 1983. Las predicciones acústicas utilizando aproximaciones de tubo N del tracto vocal y aplicándolas a las características de la réplica mostraron lo que ya se había establecido perceptualmente, es decir, que la máquina solo podía producir dos sonidos vocálicos, a saber, una vocal tipo /a/ y una vocal tipo /o/. De las consonantes producidas, la oclusiva de propósito general es muy convincente. También se puede identificar fácilmente una nasal de propósito general, pero las sibilancias y la /r/ vibrante son tan desagradables como lo informó el testigo ocular von Windisch dos siglos antes.

Referencias

  1. ^ abcdef Standage, Tom, El turco: La vida y los tiempos de la famosa máquina de ajedrez del siglo XVIII , Nueva York: Walker & Company , 2002: pp. 76–81
  2. ^ abcde Dudley, Homer y Tarnoczy, TH, La máquina parlante de Wolfgang Von Kempelen. The Journal of the Acoustical Society of America , vol. 22, n.º 2, marzo de 1950: págs. 151-166.
  3. ^ abcdefgh Linggard, R., Síntesis electrónica del habla , Cambridge: Cambridge University Press , 1985: págs. 4-9
  4. ^ Rossing, Thomas, et al., La ciencia del sonido , San Francisco: Addison-Wesley , 2002: pág. 365

Lectura adicional

  • Von Kempelen, Wolfgang, Mechanismus Der Menschlichen Sprache Nebst Beschreibung Seiner Sprechenden Maschine , Austria: Stuttgart-Bad Cannstatt, 1970.
  • Wolfgang von Kempelen: Der Mechanismus der menschlichen Sprache. / El mecanismo del habla humana. : Kommentierte Transliteration & Übertragung ins Englische / Transliteración comentada y traducción al inglés. Herausgegeben von / Editado por Fabian Brackhane, Richard Sproat y Jürgen Trouvain; Dresde 2017 (versión online).
  • https://www.youtube.com/watch?v=k_YUB_S6Gpo Una réplica de la máquina parlante de Kempelen en youtube.com
Retrieved from "https://en.wikipedia.org/w/index.php?title=Wolfgang_von_Kempelen%27s_speaking_machine&oldid=1150647789"