Espectrograma

Representación visual del espectro de frecuencias de una señal a medida que varía con el tiempo.
Espectrograma de las palabras habladas "siglo XIX". Las frecuencias se muestran en sentido ascendente en el eje vertical y el tiempo en el eje horizontal. La leyenda de la derecha muestra que la intensidad del color aumenta con la densidad.
Espectrograma 3D: se muestra el espectro de RF de un cargador de batería a lo largo del tiempo

Un espectrograma es una representación visual del espectro de frecuencias de una señal a medida que varía con el tiempo. Cuando se aplican a una señal de audio , los espectrogramas a veces se denominan sonografías , huellas de voz o voicegramas . Cuando los datos se representan en un gráfico 3D, pueden denominarse visualizaciones en cascada .

Los espectrogramas se utilizan ampliamente en los campos de la música , la lingüística , el sonar , el radar , el procesamiento del habla , [1] la sismología , la ornitología y otros. Los espectrogramas de audio se pueden utilizar para identificar palabras habladas fonéticamente y para analizar los diversos llamados de los animales .

Un espectrograma puede ser generado por un espectrómetro óptico , un banco de filtros de paso de banda , por transformada de Fourier o por una transformada wavelet (en cuyo caso también se conoce como scaleograma o escalograma ). [2]

Scaleogramas del DWT y CWT para una muestra de audio

Un espectrograma suele representarse como un mapa de calor , es decir, como una imagen cuya intensidad se muestra variando el color o el brillo .

Formato

Un formato común es un gráfico con dos dimensiones geométricas: un eje representa el tiempo y el otro eje representa la frecuencia ; una tercera dimensión que indica la amplitud de una frecuencia particular en un momento particular está representada por la intensidad o el color de cada punto de la imagen.

Existen muchas variaciones de formato: a veces se intercambian los ejes vertical y horizontal, de modo que el tiempo se desplaza hacia arriba y hacia abajo; a veces como un gráfico en cascada donde la amplitud se representa por la altura de una superficie 3D en lugar del color o la intensidad. Los ejes de frecuencia y amplitud pueden ser lineales o logarítmicos , según para qué se utilice el gráfico. El audio normalmente se representaría con un eje de amplitud logarítmico (probablemente en decibeles o dB), y la frecuencia sería lineal para enfatizar las relaciones armónicas, o logarítmica para enfatizar las relaciones musicales y tonales.

Espectrografía sonora de grabaciones infrasónicas 30301

Generación

Se pueden crear espectrogramas de luz directamente usando un espectrómetro óptico a lo largo del tiempo.

Los espectrogramas se pueden crear a partir de una señal en el dominio del tiempo de una de dos maneras: aproximándose como un banco de filtros que resulta de una serie de filtros de paso de banda (esta era la única manera antes de la llegada del procesamiento de señales digitales moderno), o calculándose a partir de la señal de tiempo utilizando la transformada de Fourier . Estos dos métodos en realidad forman dos representaciones de tiempo-frecuencia diferentes , pero son equivalentes en algunas condiciones.

El método de filtros de paso de banda generalmente utiliza procesamiento analógico para dividir la señal de entrada en bandas de frecuencia; la magnitud de la salida de cada filtro controla un transductor que registra el espectrograma como una imagen en papel. [3]

La creación de un espectrograma mediante la FFT es un proceso digital . Los datos muestreados digitalmente , en el dominio del tiempo , se dividen en fragmentos, que generalmente se superponen, y se transforman en Fourier para calcular la magnitud del espectro de frecuencia para cada fragmento. Cada fragmento corresponde entonces a una línea vertical en la imagen; una medida de magnitud versus frecuencia para un momento específico en el tiempo (el punto medio del fragmento). Estos espectros o gráficos de tiempo se "colocan uno al lado del otro" para formar la imagen o una superficie tridimensional, [4] o se superponen ligeramente de varias maneras, es decir, mediante la creación de ventanas . Este proceso corresponde esencialmente al cálculo de la magnitud al cuadrado de la transformada de Fourier de tiempo corto (STFT) de la señal , es decir, para un ancho de ventana de . [ 5] s ( a ) {\estilo de visualización s(t)} ω {\estilo de visualización \omega} s pag mi do a a o gramo a a metro ( a , ω ) = | S yo F yo ( a , ω ) | 2 {\displaystyle \mathrm {spectrogram} (t,\omega )=\left|\mathrm {STFT} (t,\omega )\right|^{2}}

Limitaciones y resíntesis

De la fórmula anterior se desprende que un espectrograma no contiene información sobre la fase exacta, o incluso aproximada, de la señal que representa. Por este motivo, no es posible revertir el proceso y generar una copia de la señal original a partir de un espectrograma, aunque en situaciones en las que la fase inicial exacta no es importante puede ser posible generar una aproximación útil de la señal original. El espectrógrafo de sonido de análisis y resíntesis [6] es un ejemplo de un programa informático que intenta hacer esto. El reproductor de patrones era un sintetizador de voz temprano, diseñado en los Laboratorios Haskins a finales de la década de 1940, que convertía imágenes de los patrones acústicos del habla (espectrogramas) de nuevo en sonido.

De hecho, hay cierta información de fase en el espectrograma, pero aparece en otra forma, como retardo de tiempo (o retardo de grupo ), que es el dual de la frecuencia instantánea . [7]

El tamaño y la forma de la ventana de análisis pueden variar. Una ventana más pequeña (más corta) producirá resultados más precisos en la sincronización, a expensas de la precisión de la representación de frecuencia. Una ventana más grande (más larga) proporcionará una representación de frecuencia más precisa, a expensas de la precisión en la representación de sincronización. Este es un ejemplo del principio de incertidumbre de Heisenberg , según el cual el producto de la precisión en dos variables conjugadas es mayor o igual a una constante (B*T>=1 en la notación habitual). [8]

Aplicaciones

  • Los primeros espectrogramas analógicos se aplicaron a una amplia gama de áreas, incluido el estudio de los cantos de las aves (como el del carbonero común ), y la investigación actual continúa utilizando equipos digitales modernos [9] y se aplica a todos los sonidos animales. El uso contemporáneo del espectrograma digital es especialmente útil para estudiar la modulación de frecuencia (FM) en los cantos de los animales. Específicamente, las características distintivas de los chirridos de FM, los clics de banda ancha y la armonización social se visualizan más fácilmente con el espectrograma.
  • Los espectrogramas son útiles para ayudar a superar los déficits del habla y en el entrenamiento del habla para la parte de la población que es profundamente sorda . [10]
  • Los estudios de fonética y síntesis de voz a menudo se facilitan mediante el uso de espectrogramas. [11] [12]
  • En la síntesis de voz basada en aprendizaje profundo, el espectrograma (o espectrograma en escala mel ) se predice primero mediante un modelo seq2seq, luego el espectrograma se envía a un vocoder neuronal para derivar la forma de onda sin procesar sintetizada.
  • Al invertir el proceso de producción de un espectrograma, es posible crear una señal cuyo espectrograma sea una imagen arbitraria. Esta técnica se puede utilizar para ocultar una imagen en un fragmento de audio y ha sido empleada por varios artistas de música electrónica . [13] Véase también Esteganografía .
  • Algunos tipos de música moderna se crean utilizando espectrogramas como medio intermedio; modificando la intensidad de distintas frecuencias a lo largo del tiempo, o incluso creando otras nuevas, dibujándolas y luego transformándolas de forma inversa. Véase Modificación de tono de escala de tiempo de audio y Vocoder de fase .
  • Los espectrogramas se pueden utilizar para analizar los resultados de pasar una señal de prueba a través de un procesador de señales, como un filtro, para comprobar su rendimiento. [14]
  • Los espectrogramas de alta definición se utilizan en el desarrollo de sistemas de RF y microondas. [15]
  • En la actualidad, se utilizan espectrogramas para mostrar parámetros de dispersión medidos con analizadores de redes vectoriales. [16]
  • El Servicio Geológico de Estados Unidos y el Consorcio IRIS proporcionan visualizaciones de espectrogramas casi en tiempo real para monitorear estaciones sísmicas [17] [18]
  • Los espectrogramas se pueden utilizar con redes neuronales recurrentes para el reconocimiento de voz . [19] [20]
  • El gobierno chino recoge espectrogramas de individuos como parte de sus programas de vigilancia masiva . [21]
  • En el caso de una señal de vibración, la escala de colores de un espectrograma identifica las frecuencias de los picos de amplitud de una forma de onda a lo largo del tiempo. A diferencia de un gráfico de tiempo o frecuencia, un espectrograma correlaciona los valores pico con el tiempo y la frecuencia. Los ingenieros de pruebas de vibración utilizan espectrogramas para analizar el contenido de frecuencia de una forma de onda continua, localizando señales fuertes y determinando cómo cambia el comportamiento de la vibración a lo largo del tiempo. [22]
  • Los espectrogramas se pueden utilizar para analizar el habla en dos aplicaciones diferentes: detección automática de déficits del habla en usuarios de implantes cocleares y reconocimiento de clases de fonemas para extraer características de atributos del teléfono. [23]
  • Para obtener las características de pronunciación de un hablante, algunos investigadores propusieron un método basado en una idea de la biónica, que utiliza estadísticas de espectrogramas para lograr un espectrograma característico para dar una representación estable de la pronunciación del hablante a partir de una superposición lineal de espectrogramas de tiempo corto. [24]
  • Los investigadores exploran un nuevo enfoque para el análisis de señales de ECG aprovechando técnicas de espectrogramas, posiblemente para una mejor visualización y comprensión. La integración de MFCC para la extracción de características sugiere una aplicación interdisciplinaria, tomando prestados métodos del procesamiento de audio para extraer información relevante de señales biomédicas. [25]
  • La interpretación precisa de la pintura indicadora de temperatura (TIP) es de gran importancia en la aviación y otras aplicaciones industriales. El espectrograma 2D de TIP se puede utilizar en la interpretación de la temperatura. [26]
  • El espectrograma se puede utilizar para procesar la señal de la tasa de cambio del tórax humano. Al visualizar las señales respiratorias mediante un espectrograma, los investigadores han propuesto un enfoque para la clasificación de los estados respiratorios basado en un modelo de red neuronal. [27]

Véase también

Referencias

  1. ^ JL Flanagan, Análisis del habla, síntesis y percepción, Springer-Verlag, Nueva York, 1972
  2. ^ Sejdic, E.; Djurovic, I.; Stankovic, L. (agosto de 2008). "Análisis cuantitativo del rendimiento del escalograma como estimador de frecuencia instantánea". IEEE Transactions on Signal Processing . 56 (8): 3837–3845. Bibcode :2008ITSP...56.3837S. doi :10.1109/TSP.2008.924856. ISSN  1053-587X. S2CID  16396084.
  3. ^ "Espectrógrafo". www.sfu.ca . Consultado el 7 de abril de 2018 .
  4. ^ "Espectrogramas". ccrma.stanford.edu . Consultado el 7 de abril de 2018 .
  5. ^ "STFT Spectrograms VI – Ayuda de NI LabVIEW 8.6". zone.ni.com . Consultado el 7 de abril de 2018 .
  6. ^ "El espectrógrafo de sonido de análisis y resíntesis". arss.sourceforge.net . Consultado el 7 de abril de 2018 .
  7. ^ Boashash, B. (1992). "Estimación e interpretación de la frecuencia instantánea de una señal. I. Fundamentos". Actas del IEEE . 80 (4). Instituto de Ingenieros Eléctricos y Electrónicos (IEEE): 520–538. doi :10.1109/5.135376. ISSN  0018-9219.
  8. ^ "Principio de incertidumbre de Heisenberg". Archivado desde el original el 25 de enero de 2019. Consultado el 5 de febrero de 2019 .
  9. ^ "CANTOS Y LLAMADAS DE AVES CON ESPECTROGRAMAS (SONOGRAMAS) DEL SUR DE LA TOSCANA (Toscana – Italia)". www.birdsongs.it . Consultado el 7 de abril de 2018 .
  10. ^ Saunders, Frank A.; Hill, William A.; Franklin, Barbara (1 de diciembre de 1981). "Una ayuda sensorial táctil portátil para niños con sordera profunda". Journal of Medical Systems . 5 (4): 265–270. doi :10.1007/BF02222144. PMID  7320662. S2CID  26620843.
  11. ^ "Lectura de espectrogramas". ogi.edu . Archivado desde el original el 27 de abril de 1999 . Consultado el 7 de abril de 2018 .
  12. ^ "Praat: haciendo fonética por computadora". www.fon.hum.uva.nl . Consultado el 7 de abril de 2018 .
  13. ^ "El rostro de Aphex – bastwood". www.bastwood.com . Consultado el 7 de abril de 2018 .
  14. ^ "Comparaciones de SRC". src.infinitewave.ca . Consultado el 7 de abril de 2018 .
  15. ^ "constantwave.com – recursos e información de constantwave". www.constantwave.com . Consultado el 7 de abril de 2018 .
  16. ^ "Espectrogramas para analizadores de redes vectoriales". Archivado desde el original el 10 de agosto de 2012.
  17. ^ "Visualizaciones de espectrogramas en tiempo real". terremoto.usgs.gov . Consultado el 7 de abril de 2018 .
  18. ^ "IRIS: MUSTANG: Espectrograma de ruido: Docs: v. 1: Ayuda".
  19. ^ Geitgey, Adam (24 de diciembre de 2016). "El aprendizaje automático es divertido, parte 6: cómo hacer reconocimiento de voz con aprendizaje profundo". Medium . Consultado el 21 de marzo de 2018 .
  20. ^ Véase también Praat .
  21. ^ "El enorme estado de vigilancia de China sigue creciendo" . The Economist . 23 de noviembre de 2023. ISSN  0013-0613 . Consultado el 25 de noviembre de 2023 .
  22. ^ "¿Qué es un espectrograma?" . Consultado el 18 de diciembre de 2023 .
  23. ^ T., Arias-Vergara; P., Klumpp; JC, Vasquez-Correa; E., Nöth; JR, Orozco-Arroyave; M., Schuster (2021). "Espectrogramas multicanal para aplicaciones de procesamiento de voz utilizando métodos de aprendizaje profundo". Análisis de patrones y aplicaciones . 24 (2): 423–431. doi : 10.1007/s10044-020-00921-5 .
  24. ^ Jia, Yanjie; Chen, Xi; Yu, Jieqiong; Wang, Lianming; Xu, Yuanzhe; Liu, Shaojin; Wang, Yonghui (2021). "Reconocimiento de hablantes basado en espectrogramas característicos y una red neuronal de mapas de características autoorganizada mejorada". Sistemas complejos e inteligentes . 7 (4): 1749-1757. doi : 10.1007/s40747-020-00172-1 .
  25. ^ Yalamanchili, Arpitha; Madhumathi, GL; Balaji, N. (2022). "Análisis de espectrograma de señal de ECG y eficiencia de clasificación utilizando la técnica de extracción de características MFCC". Revista de inteligencia ambiental y computación humanizada . 13 (2): 757–767. doi :10.1007/s12652-021-02926-2. S2CID  233657057.
  26. ^ Ge, Junfeng; Wang, Li; Gui, Kang; Ye, Lin (30 de septiembre de 2023). "Método de interpretación de temperatura para pintura indicadora de temperatura basado en espectrograma". Medición . 219 . Código Bibliográfico :2023Meas..21913317G. doi :10.1016/j.measurement.2023.113317. S2CID  259871198.
  27. ^ Park, Cheolhyeong; Lee, Deokwoo (11 de febrero de 2022). "Clasificación de estados respiratorios mediante espectrograma con red neuronal convolucional". Applied Sciences . 12 (4): 1895. doi : 10.3390/app12041895 .
  • Vea un espectrograma en línea del habla u otros sonidos capturados por el micrófono de su computadora.
  • Generar una secuencia de tonos cuyo espectrograma coincida con un texto arbitrario, en línea
  • Más información sobre la creación de una señal cuyo espectrograma es una imagen arbitraria
  • Artículo que describe el desarrollo de un espectrograma de software
  • Historia de los espectrogramas y desarrollo de la instrumentación
  • Cómo identificar las palabras en un espectrograma de la publicación Monthly Mystery Spectrogram de un profesor de lingüística .
  • Sonogram Visible Speech Software gratuito con licencia GPL para la generación de espectrogramas de archivos de señales.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Spectrogram&oldid=1245763810"