Huella acústica

Resumen digital condensado generado a partir de una señal de audio

Una huella acústica es un resumen digital condensado, una huella digital , generada de manera determinista a partir de una señal de audio , que puede utilizarse para identificar una muestra de audio o localizar rápidamente elementos similares en una base de datos de música . ^[1]

Los usos prácticos de la huella acústica incluyen la identificación de canciones , melodías , tonadas o anuncios publicitarios ; la gestión de bibliotecas de efectos de sonido y la identificación de archivos de vídeo . La identificación de medios mediante huellas acústicas se puede utilizar para supervisar el uso de obras musicales específicas y actuaciones en transmisiones de radio , discos , CD , medios de transmisión y redes peer to peer . Esta identificación se ha utilizado en el cumplimiento de derechos de autor, licencias y otros esquemas de monetización .

Atributos

Un algoritmo robusto de huellas acústicas debe tener en cuenta las características perceptivas del audio. Si dos archivos suenan igual al oído humano, sus huellas acústicas deberían coincidir, incluso si sus representaciones binarias son bastante diferentes. Las huellas acústicas no son funciones hash , que son sensibles a cualquier pequeño cambio en los datos. Las huellas acústicas son más análogas a las huellas humanas, donde se toleran pequeñas variaciones que son insignificantes para las características que utiliza la huella. Uno puede imaginar el caso de una impresión de huella humana borrosa que puede coincidir con precisión con otra muestra de huella en una base de datos de referencia; las huellas acústicas funcionan de manera similar.

Las características perceptivas que suelen explotar las huellas dactilares de audio incluyen la tasa promedio de cruce por cero , el tempo estimado , el espectro promedio , la planitud espectral , los tonos prominentes en un conjunto de bandas de frecuencia y el ancho de banda .

La mayoría de las técnicas de compresión de audio realizan cambios radicales en la codificación binaria de un archivo de audio, sin afectar radicalmente la forma en que lo percibe el oído humano. Una huella acústica robusta permitirá identificar una grabación después de haber pasado por dicha compresión, incluso si la calidad del audio se ha reducido significativamente. Para su uso en el monitoreo de transmisiones de radio , las huellas acústicas también deben ser insensibles a los artefactos de transmisión analógica .

Espectrograma

Generar una firma a partir del audio es esencial para realizar búsquedas por sonido . Una técnica común es crear un gráfico de tiempo-frecuencia llamado espectrograma .

Cualquier fragmento de audio se puede traducir a un espectrograma. Cada fragmento de audio se divide en segmentos a lo largo del tiempo. En algunos casos, los segmentos adyacentes comparten un límite temporal común, en otros casos, los segmentos adyacentes pueden superponerse. El resultado es un gráfico que representa tres dimensiones del audio: frecuencia vs amplitud (intensidad) vs tiempo.

Shazam

El algoritmo de Shazam selecciona los puntos donde hay picos en el espectrograma que representan un mayor contenido de energía. ^[2] Centrarse en los picos del audio reduce en gran medida el impacto que tiene el ruido de fondo en la identificación del audio. Shazam construye su catálogo de huellas digitales como una tabla hash , donde la clave es la frecuencia. No solo marcan un único punto en el espectrograma, sino que marcan un par de puntos: la intensidad del pico más un segundo punto de anclaje . ^[3] Por lo tanto, su clave de base de datos no es solo una frecuencia única, es un hash de las frecuencias de ambos puntos. Esto conduce a menos colisiones de hash, lo que mejora el rendimiento de la tabla hash. ^[4]

Véase también

Referencias

^ ISO IEC TR 21000-11 (2004), Marco multimedia (MPEG-21) -- Parte 11: Herramientas de evaluación para tecnologías de asociación persistente
^ Surdu, Nicolae (20 de enero de 2011). «¿Cómo funciona Shazam para reconocer una canción?». Archivado desde el original el 24 de octubre de 2016. Consultado el 12 de febrero de 2018 .
^ Li-Chun Wang, Avery, Un algoritmo de búsqueda de audio de nivel industrial (PDF) , Universidad de Columbia , consultado el 2 de abril de 2018
^ "Cómo funciona Shazam". 10 de enero de 2009. Consultado el 2 de abril de 2018 .

Enlaces externos

Una revisión de algoritmos para la identificación de audio (P. Cano et al. en el Taller internacional sobre procesamiento de señales multimedia, Islas Vírgenes de los Estados Unidos, diciembre de 2002)
Recuperación de música y audio basada en contenido por Jonathan Foote, ISS, Universidad Nacional de Singapur.

[1] ISO IEC TR 21000-11 (2004), Marco multimedia (MPEG-21) -- Parte 11: Herramientas de evaluación para tecnologías de asociación persistente

[2] Surdu, Nicolae (20 de enero de 2011). «¿Cómo funciona Shazam para reconocer una canción?». Archivado desde el original el 24 de octubre de 2016. Consultado el 12 de febrero de 2018 .

[3] Li-Chun Wang, Avery, Un algoritmo de búsqueda de audio de nivel industrial (PDF) , Universidad de Columbia , consultado el 2 de abril de 2018

[4] "Cómo funciona Shazam". 10 de enero de 2009. Consultado el 2 de abril de 2018 .