Visema

Este artículo contiene transcripciones fonéticas en el Alfabeto Fonético Internacional (AFI) . Para obtener una guía introductoria sobre los símbolos del AFI, consulte Ayuda:AFI . Para conocer la distinción entre [ ] , / / y ⟨ ⟩, consulte AFI § Corchetes y delimitadores de transcripción .

Un visema es cualquiera de varios sonidos del habla que parecen iguales, por ejemplo, al leer los labios (Fisher 1968).

Los visemas y los fonemas no comparten una correspondencia uno a uno. A menudo, varios fonemas corresponden a un solo visema, ya que varios fonemas parecen iguales en el rostro cuando se producen, como /k, ɡ, ŋ/ , (visema: /k/), /t͡ʃ, ʃ, d͡ʒ, ʒ/ (visema: /ch/), /t, d, n, l/ (visema: /t/) y /p, b, m/ (visema: /p/). Por lo tanto, palabras como pet, bell y men son difíciles de distinguir para los lectores de labios, ya que todas se parecen a /pet/. Sin embargo, puede haber diferencias en el tiempo y la duración durante el habla real en términos de la "firma" visual de un gesto determinado que no se puede capturar con una sola fotografía. Por el contrario, algunos sonidos que son difíciles de distinguir acústicamente se distinguen claramente por el rostro (Chen 2001). Por ejemplo, acústicamente hablando, la /l/ y la /r/ en inglés pueden ser bastante similares (especialmente en grupos, como 'grass' vs. 'glass'), pero la información visual puede mostrar un contraste claro. Esto se demuestra por la mayor frecuencia con la que se escuchan mal las palabras por teléfono que en persona. Algunos lingüistas han argumentado que el habla se entiende mejor como bimodal (auditiva y visual), y la comprensión puede verse comprometida si uno de estos dos dominios está ausente ( McGurk y MacDonald 1976 ).

Los visemas a menudo pueden ser humorísticos, como en la frase "jugo de elefante", que al leerse en los labios parece idéntica a "te amo".

Las aplicaciones para el estudio de visemas incluyen el procesamiento de voz , el reconocimiento de voz y la animación facial por computadora .

Véase también

Referencias

Chen, T. y Rao RR (1998, mayo). "Integración audiovisual en comunicación multimodal". Actas del IEEE 86, 837–852. doi :10.1109/5.664274.
Chen, T. (2001). "Procesamiento audiovisual del habla". Revista IEEE Signal Processing Magazine 18, 9–21. doi :10.1109/79.911195
Fisher, CG (1968). "Confusiones entre consonantes percibidas visualmente". Journal of Speech and Hearing Research , 11(4):796–804. doi :10.1044/jshr.1104.796.
McGurk, H. y MacDonald, J. (diciembre de 1976). "Oír labios y ver voces". Nature 264, 746–748. doi :10.1038/264746a0.
Patrick Lucey, Terrence Martin, Sridha Sridharan (2004). "Confusibilidad de fonemas agrupados según sus clases de visema en entornos ruidosos". Presentado en la Décima Conferencia Internacional Australiana sobre Ciencia y Tecnología del Habla, Universidad Macquarie , Sydney, 8-10 de diciembre de 2004.

Este artículo de fonología es un esbozo . Puedes ayudar a Wikipedia expandiéndolo.