Ambisónica

Formato de sonido envolvente de esfera completa

Antigua marca registrada de Ambisonics

Ambisonics es un formato de sonido envolvente de esfera completa : además del plano horizontal, cubre las fuentes de sonido por encima y por debajo del oyente. [1] [2]

A diferencia de otros formatos de sonido envolvente multicanal, sus canales de transmisión no transportan señales de los altavoces, sino que contienen una representación independiente del altavoz de un campo sonoro llamado formato B , que luego se decodifica en la configuración de altavoces del oyente. Este paso adicional permite al productor pensar en términos de direcciones de fuente en lugar de posiciones de altavoces, y ofrece al oyente un grado considerable de flexibilidad en cuanto a la disposición y la cantidad de altavoces utilizados para la reproducción.

Ambisonics se desarrolló en el Reino Unido en la década de 1970 bajo los auspicios de la Corporación Nacional de Investigación y Desarrollo británica .

A pesar de su sólida base técnica y sus muchas ventajas, hasta hace poco [ ¿cuándo? ] Ambisonics no había sido un éxito comercial y sólo sobrevivió en aplicaciones de nicho y entre los entusiastas de la grabación.

Con la amplia disponibilidad de un potente procesamiento de señales digitales (a diferencia de los costosos y propensos a errores circuitos analógicos que se debían utilizar durante sus primeros años) y la exitosa introducción en el mercado de los sistemas de sonido envolvente de cine en casa desde la década de 1990, el interés en Ambisonics entre ingenieros de grabación, diseñadores de sonido, compositores, empresas de medios, emisoras e investigadores ha regresado y continúa aumentando.

En particular, ha demostrado ser una forma eficaz de presentar audio espacial en aplicaciones de realidad virtual (por ejemplo, videos 360 de YouTube), ya que la escena en formato B se puede rotar para que coincida con la orientación de la cabeza del usuario y luego decodificarse como estéreo binaural.

Introducción

La ambisónica puede entenderse como una extensión tridimensional del estéreo M/S (medio/lateral) , que añade canales de diferencia adicionales para altura y profundidad. El conjunto de señales resultante se denomina formato B. Sus canales componentes están etiquetados para la presión sonora (la M en M/S), para el gradiente de presión sonora frontal-menos-posterior, para izquierda-menos-derecha (la S en M/S) y para arriba-menos-abajo. [nota 1] Yo {\estilo de visualización W} incógnita {\displaystyle X} Y {\displaystyle Y} Z {\displaystyle Z}

La señal corresponde a un micrófono omnidireccional, mientras que los componentes serían captados por cápsulas en forma de ocho orientadas a lo largo de los tres ejes espaciales. W {\displaystyle W} X Y Z {\displaystyle XYZ}

Panorámica de una fuente

Un panner (o codificador ) ambisónico simple toma una señal de origen y dos parámetros, el ángulo horizontal y el ángulo de elevación . Coloca la fuente en el ángulo deseado distribuyendo la señal sobre los componentes ambisónicos con diferentes ganancias: S {\displaystyle S} θ {\displaystyle \theta } ϕ {\displaystyle \phi }

W = S 1 2 {\displaystyle W=S\cdot {\frac {1}{\sqrt {2}}}}
X = S cos θ cos ϕ {\displaystyle X=S\cdot \cos \theta \cos \phi }
Y = S sin θ cos ϕ {\displaystyle Y=S\cdot \sin \theta \cos \phi }
Z = S sin ϕ {\displaystyle Z=S\cdot \sin \phi }

Al ser omnidireccional, el canal siempre recibe la misma señal de entrada constante, independientemente de los ángulos. De modo que tiene más o menos la misma energía media que los otros canales, W se atenúa en unos 3 dB (precisamente, dividido por la raíz cuadrada de dos). [3] Los términos para producen en realidad los patrones polares de los micrófonos en forma de ocho (véase la ilustración de la derecha, segunda fila). Tomamos su valor en y , y multiplicamos el resultado por la señal de entrada. El resultado es que la entrada acaba en todos los componentes exactamente tan fuerte como la habría captado el micrófono correspondiente. W {\displaystyle W} X Y Z {\displaystyle XYZ} θ {\displaystyle \theta } ϕ {\displaystyle \phi }

Micrófonos virtuales

Transformación entre diferentes patrones de micrófonos virtuales

Los componentes de formato B se pueden combinar para obtener micrófonos virtuales con cualquier patrón polar de primer orden (omnidireccional, cardioide, hipercardioide, en forma de ocho o cualquier patrón intermedio) apuntando en cualquier dirección. Se pueden obtener varios micrófonos de este tipo con diferentes parámetros al mismo tiempo para crear pares estéreo coincidentes (como un Blumlein ) o conjuntos envolventes.

p {\displaystyle p} Patrón
0 {\displaystyle 0} Figura de ocho
( 0 , 0.5 ) {\displaystyle (0,0.5)} Hipercardioides y supercardioides
0.5 {\displaystyle 0.5} Cardioide
( 0.5 , 1.0 ) {\displaystyle (0.5,1.0)} Cardioides anchos
1.0 {\displaystyle 1.0} Omnidireccional

Un micrófono virtual horizontal en ángulo horizontal con patrón se da por Θ {\displaystyle \Theta } 0 p 1 {\displaystyle 0\leq p\leq 1}

M ( Θ , p ) = p 2 W + ( 1 p ) ( cos Θ X + sin Θ Y ) {\displaystyle M(\Theta ,p)=p{\sqrt {2}}W+(1-p)(\cos \Theta X+\sin \Theta Y)} .

Este micrófono virtual está normalizado en campo libre , lo que significa que tiene una ganancia constante de uno para los sonidos en el eje. La ilustración de la izquierda muestra algunos ejemplos creados con esta fórmula.

Los micrófonos virtuales se pueden manipular en la postproducción: se pueden seleccionar los sonidos deseados, suprimir los no deseados y se puede ajustar el equilibrio entre el sonido directo y el reverberante durante la mezcla.

Descodificación

Decodificador ingenuo de banda única en fase para un diseño de altavoz cuadrado

Un decodificador ambisónico básico es muy similar a un conjunto de micrófonos virtuales. Para diseños perfectamente regulares, se puede generar un decodificador simplificado apuntando un micrófono cardioide virtual en la dirección de cada altavoz. Aquí se muestra un cuadrado:

L F = ( 2 W + X + Y ) 8 {\displaystyle LF=({\sqrt {2}}W+X+Y){\sqrt {8}}}
L B = ( 2 W X + Y ) 8 {\displaystyle LB=({\sqrt {2}}W-X+Y){\sqrt {8}}}
R B = ( 2 W X Y ) 8 {\displaystyle RB=({\sqrt {2}}W-X-Y){\sqrt {8}}}
R F = ( 2 W + X Y ) 8 {\displaystyle RF=({\sqrt {2}}W+X-Y){\sqrt {8}}}

Los signos de los componentes y son la parte importante, el resto son factores de ganancia. El componente se descarta porque no es posible reproducir señales de altura con solo cuatro altavoces en un plano. X {\displaystyle X} Y {\displaystyle Y} Z {\displaystyle Z}

En la práctica, un decodificador ambisónico real requiere una serie de optimizaciones psicoacústicas para funcionar correctamente. [4]

Actualmente, el decodificador ambisónico integral (AllRAD) puede considerarse la solución estándar para la reproducción basada en altavoces, [5] y los mínimos cuadrados de magnitud (MagLS) [6] o la decodificación binaural, tal como se implementa, por ejemplo, en las herramientas de producción ambisónica IEM y SPARTA. [7] [8]

La decodificación dependiente de la frecuencia también se puede utilizar para producir estéreo binaural; esto es particularmente relevante en aplicaciones de realidad virtual.

Ambisonics de orden superior

Representación visual de los componentes del formato B ambisónico hasta el tercer orden. Las partes oscuras representan regiones donde la polaridad está invertida. Observe cómo las dos primeras filas corresponden a patrones polares de micrófonos omnidireccionales y en forma de ocho.

La resolución espacial de los ambisónicos de primer orden descritos anteriormente es bastante baja. En la práctica, eso se traduce en fuentes ligeramente borrosas, pero también en un área de escucha utilizable o punto óptimo comparativamente pequeño . La resolución se puede aumentar y el punto óptimo se puede ampliar agregando grupos de componentes direccionales más selectivos al formato B. Estos ya no corresponden a los patrones polares de micrófono convencionales, sino que parecen hojas de trébol. El conjunto de señales resultante se denomina entonces ambisónico de segundo orden , ambisónico de tercer orden o, colectivamente, ambisónico de orden superior .

Para un orden determinado , los sistemas de esfera completa requieren componentes de señal y se necesitan componentes para la reproducción solo horizontal. {\displaystyle \ell } ( + 1 ) 2 {\displaystyle (\ell +1)^{2}} 2 + 1 {\displaystyle 2\ell +1}

Históricamente ha habido varias convenciones de formato diferentes para Ambisonic de orden superior; para obtener más detalles, consulte Formatos de intercambio de datos Ambisonic .

Comparación con otros formatos de sonido envolvente

Ambisonics se diferencia de otros formatos envolventes en varios aspectos:

  • Solo se necesitan tres canales para un sonido envolvente horizontal básico y cuatro canales para un campo sonoro de esfera completa. La reproducción básica de esfera completa requiere un mínimo de seis altavoces (un mínimo de cuatro para el sonido horizontal).
  • El mismo material de programa se puede decodificar para distintos números de altavoces. Además, una mezcla de ancho y altura se puede reproducir en sistemas estéreo, mono o solo horizontales sin perder el contenido por completo (se plegará al plano horizontal y al cuadrante frontal, respectivamente). Esto permite a los productores adoptar la producción con altura sin preocuparse por la pérdida de información.
  • La tecnología ambisónica se puede escalar a cualquier resolución espacial deseada a costa de canales de transmisión adicionales y más altavoces para la reproducción. El material de orden superior sigue siendo compatible con versiones anteriores y se puede reproducir con una resolución espacial más baja sin necesidad de una mezcla especial.
  • La tecnología central de Ambisonics está libre de patentes y una cadena de herramientas completa para producción y escucha está disponible como software gratuito para todos los sistemas operativos principales .

En el lado negativo, Ambisonics es:

  • Propenso a una fuerte coloración debido a artefactos de filtrado de peine debido a la alta coherencia de las señales de los altavoces vecinos en órdenes inferiores
  • Incapaz de ofrecer la amplitud particular de los micrófonos omnidireccionales espaciados que prefieren muchos ingenieros de sonido y oyentes clásicos
  • No cuenta con el respaldo de ningún sello discográfico o compañía de medios importante. Sin embargo, es posible encontrar varias pistas codificadas en formato Ambisonic UHJ (principalmente clásicas), aunque con cierta dificultad, en servicios como Spotify .[1].
  • Conceptualmente difícil de comprender para la gente, a diferencia del paradigma convencional "un canal, un hablante" .
  • Más complicado de configurar para el consumidor, debido a la etapa de decodificación.
  • Punto óptimo que no se encuentra en otras formas de sonido envolvente como VBAP
  • La localización de fuentes puntuales es peor que la de las señales de amplitud panorámica y de fase contraria, lo que desenfoca las imágenes.
  • Mucho más sensible a la ubicación de los altavoces que otras formas de sonido envolvente que utilizan panorámica de amplitud.

Fundamentación teórica

Análisis del campo sonoro (codificación)

Las señales en formato B comprenden una descomposición armónica esférica truncada del campo sonoro. Corresponden a la presión sonora y a los tres componentes del gradiente de presión (que no debe confundirse con la velocidad de la partícula relacionada ) en un punto del espacio. En conjunto, estos componentes aproximan el campo sonoro en una esfera alrededor del micrófono; formalmente, el truncamiento de primer orden de la expansión multipolar ( la señal mono) es la información de orden cero, que corresponde a una función constante en la esfera, mientras que son los términos de primer orden (los dipolos o figuras de ocho). Este truncamiento de primer orden es solo una aproximación del campo sonoro general. W {\displaystyle W} X Y Z {\displaystyle XYZ} W {\displaystyle W} X Y Z {\displaystyle XYZ}

Los órdenes superiores corresponden a términos adicionales de la expansión multipolar de una función en la esfera en términos de armónicos esféricos. En la práctica, los órdenes superiores requieren más altavoces para la reproducción, pero aumentan la resolución espacial y amplían el área en la que el campo sonoro se reproduce perfectamente (hasta una frecuencia límite superior).

El radio de esta área para el orden y frecuencia ambisónicos viene dado por r {\displaystyle r} {\displaystyle \ell } f {\displaystyle f}

r c 2 π f {\displaystyle r\approx {\frac {\ell c}{2\pi f}}} , [9]

donde denota la velocidad del sonido. c {\displaystyle c}

Esta área se vuelve más pequeña que una cabeza humana por encima de los 600 Hz para el primer orden o 1800 Hz para el tercer orden. La reproducción precisa en un volumen del tamaño de una cabeza hasta 20 kHz requeriría un orden de 32 o más de 1000 altavoces.

En aquellas frecuencias y posiciones de escucha donde ya no es posible una reconstrucción perfecta del campo sonoro , la reproducción Ambisonics debe centrarse en proporcionar señales direccionales correctas para permitir una buena localización incluso en presencia de errores de reconstrucción.

Psicoacústica

El aparato auditivo humano tiene una localización muy precisa en el plano horizontal (hasta 2° de separación de fuentes en algunos experimentos). Se pueden identificar dos señales predominantes para diferentes rangos de frecuencia:

Localización de baja frecuencia

En las frecuencias bajas, donde la longitud de onda es grande en comparación con la cabeza humana, el sonido entrante se difracta a su alrededor, de modo que prácticamente no hay sombra acústica y, por lo tanto, no hay diferencia de nivel entre los oídos. En este rango, la única información disponible es la relación de fase entre las dos señales del oído, llamada diferencia de tiempo interaural o ITD . La evaluación de esta diferencia de tiempo permite una localización precisa dentro de un cono de confusión : el ángulo de incidencia es inequívoco, pero la ITD es la misma para los sonidos que vienen de adelante o de atrás. Siempre que el sonido no sea totalmente desconocido para el sujeto, la confusión generalmente se puede resolver percibiendo las variaciones tímbricas de adelante hacia atrás causadas por las aletas de las orejas (o pabellones auriculares ).

Localización de alta frecuencia

A medida que la longitud de onda se acerca al doble del tamaño de la cabeza, las relaciones de fase se vuelven ambiguas, ya que ya no está claro si la diferencia de fase entre los oídos corresponde a uno, dos o incluso más períodos a medida que aumenta la frecuencia. Afortunadamente, la cabeza creará una sombra acústica significativa en este rango, lo que provoca una ligera diferencia de nivel entre los oídos. Esto se llama diferencia de nivel interaural o ILD (se aplica el mismo cono de confusión). Combinados, estos dos mecanismos proporcionan localización en todo el rango auditivo.

Reproducción de ITD e ILD en Ambisonics

Gerzon ha demostrado que la calidad de las señales de localización en el campo sonoro reproducido corresponde a dos métricas objetivas: la longitud del vector de velocidad de partículas para el ITD y la longitud del vector de energía para el ILD. Gerzon y Barton (1992) definen un decodificador para sonido envolvente horizontal como ambisónico si r V {\displaystyle {\vec {r_{V}}}} r E {\displaystyle {\vec {r_{E}}}}

  • las direcciones de y acuerdan hasta al menos 4 kHz, r V {\displaystyle {\vec {r_{V}}}} r E {\displaystyle {\vec {r_{E}}}}
  • a frecuencias inferiores a unos 400 Hz, para todos los ángulos de acimut, y r V = 1 {\displaystyle \|{\vec {r_{V}}}\|=1}
  • En frecuencias de aproximadamente 700 Hz a 4 kHz, la magnitud de se "maximiza sustancialmente en la mayor parte posible del escenario sonoro de 360°" . [10] r E {\displaystyle {\vec {r_{E}}}}

En la práctica, se consiguen resultados satisfactorios en órdenes de magnitud moderados incluso para áreas de escucha muy grandes. [11] [12]

Señal HRTF monoaural

Los humanos también pueden obtener información sobre la ubicación de la fuente de sonido en el espacio 3D, teniendo en cuenta la altura. Gran parte de esta capacidad se debe a la forma de la cabeza (especialmente el pabellón auricular ), que produce una respuesta de frecuencia variable según el ángulo de la fuente. La respuesta se puede medir colocando un micrófono en el canal auditivo de una persona y luego reproduciendo sonidos desde varias direcciones. La función de transferencia relacionada con la cabeza (HRTF) registrada se puede utilizar para reproducir sonidos ambisónicos en auriculares, imitando el efecto de la cabeza. Las HRTF difieren de una persona a otra debido a las variaciones en la forma de la cabeza, pero una genérica puede producir un resultado satisfactorio. [13]

Síntesis del campo sonoro (decodificación)

En principio, las señales de los altavoces se obtienen mediante una combinación lineal de las señales de los componentes ambisónicos, donde cada señal depende de la posición real del altavoz en relación con el centro de una esfera imaginaria cuya superficie pasa por todos los altavoces disponibles. En la práctica, las distancias ligeramente irregulares de los altavoces se pueden compensar con un retardo .

Sin embargo, la verdadera decodificación ambisónica requiere una ecualización espacial de las señales para tener en cuenta las diferencias en los mecanismos de localización de sonido de alta y baja frecuencia en la audición humana. [14] Un refinamiento adicional tiene en cuenta la distancia del oyente respecto de los altavoces ( compensación de campo cercano ). [15]

También se utilizan diversos métodos de decodificación más modernos.

Compatibilidad con los canales de distribución existentes

Actualmente, los decodificadores Ambisonic no se comercializan de forma significativa para los usuarios finales y no hay grabaciones Ambisonic nativas disponibles comercialmente. Por lo tanto, el contenido producido en Ambisonic debe ponerse a disposición de los consumidores en formatos estéreo o multicanal discretos.

Estéreo

El contenido ambisónico se puede convertir a estéreo automáticamente, sin necesidad de una mezcla especial. El método más sencillo es muestrear el formato B con un micrófono estéreo virtual . El resultado es equivalente a una grabación estéreo coincidente. La imagen dependerá de la geometría del micrófono, pero normalmente las fuentes traseras se reproducirán de forma más suave y difusa. Se omite la información vertical (del canal). Z {\displaystyle Z}

Como alternativa, el formato B se puede codificar en matriz en formato UHJ , que es adecuado para la reproducción directa en sistemas estéreo. Como antes, se descartará la información vertical, pero además de la reproducción de izquierda a derecha, el formato UHJ intenta conservar parte de la información envolvente horizontal al traducir las fuentes en la parte posterior en señales desfasadas. Esto le da al oyente una cierta sensación de localización trasera.

El UHJ de dos canales también se puede decodificar nuevamente en Ambisonic horizontal (con cierta pérdida de precisión), si se dispone de un sistema de reproducción Ambisonic. El UHJ sin pérdida de hasta cuatro canales (incluida la información de altura) existe, pero nunca se ha utilizado ampliamente. En todos los esquemas UHJ, los dos primeros canales son alimentaciones de altavoz izquierda y derecha convencionales.

Formatos multicanal

Asimismo, es posible predecodificar material Ambisonics para configuraciones de altavoces arbitrarias, como Quad , 5.1 , 7.1 , Auro 11.1 o incluso 22.2 , nuevamente sin intervención manual. El canal LFE se omite o se crea una mezcla especial manualmente. La predecodificación para medios 5.1 se conoce comoFormato G [16]durante los primeros días del audio DVD, aunque el término ya no se usa comúnmente.

La ventaja obvia de la decodificación previa es que cualquier oyente de sonido envolvente puede experimentar Ambisonics; no se requiere ningún hardware especial más allá del que se encuentra en un sistema de cine en casa común. La principal desventaja es que se pierde la flexibilidad de reproducir una única señal Ambisonics estándar en cualquier conjunto de altavoces de destino: la señal asume un diseño "estándar" específico y cualquiera que escuche con un conjunto diferente puede experimentar una degradación de la precisión de localización.

Los diseños de objetivos a partir de 5.1 suelen superar la resolución espacial de los Ambisonics de primer orden, al menos en el cuadrante frontal. Para lograr una resolución óptima, evitar una diafonía excesiva y sortear las irregularidades del diseño de objetivos, las decodificaciones previas para dichos objetivos deben derivarse de material fuente en Ambisonics de orden superior. [17]

Flujo de trabajo de producción

El contenido ambisónico se puede crear de dos formas básicas: grabando un sonido con un micrófono de primer orden o superior adecuado, o tomando fuentes monofónicas independientes y colocándolas en las posiciones deseadas. El contenido también se puede manipular mientras está en formato B.

Micrófonos ambisónicos

Matrices nativas en formato B

El conjunto diseñado y fabricado por el Dr. Jonathan Halliday de Nimbus Records

Dado que los componentes de los Ambisonics de primer orden corresponden a patrones físicos de captación de micrófonos, es completamente práctico grabar directamente en formato B, con tres micrófonos coincidentes: una cápsula omnidireccional, una cápsula en forma de 8 orientada hacia adelante y una cápsula en forma de 8 orientada hacia la izquierda, lo que produce los componentes , y . [18] [19] Esto se conoce como un conjunto de micrófonos nativos o Nimbus/Halliday , en honor a su diseñador, el Dr. Jonathan Halliday en Nimbus Records , donde se utiliza para grabar su extensa y continua serie de lanzamientos Ambisonic. Un micrófono nativo integrado en formato B, el C700S [20] ha sido fabricado y vendido por Josephson Engineering desde 1990. W {\displaystyle W} X {\displaystyle X} Y {\displaystyle Y}

La principal dificultad inherente a este enfoque es que la localización y claridad de alta frecuencia depende de que los diafragmas se acerquen a la coincidencia verdadera. Al apilar las cápsulas verticalmente, se obtiene una coincidencia perfecta para las fuentes horizontales. Sin embargo, el sonido desde arriba o desde abajo sufrirá teóricamente efectos sutiles de filtrado de peine en las frecuencias más altas. En la mayoría de los casos, esto no es una limitación, ya que las fuentes de sonido alejadas del plano horizontal suelen ser de reverberación ambiental. Además, los elementos de micrófono en forma de 8 apilados tienen un nulo profundo en la dirección de su eje de apilamiento, de modo que el transductor principal en esas direcciones es el micrófono omnidireccional central. En la práctica, esto puede producir menos error de localización que cualquiera de las alternativas (matrices tetraédricas con procesamiento o un cuarto micrófono para el eje Z). [ cita requerida ]

Los arreglos nativos se utilizan con mayor frecuencia para sonido envolvente solo horizontal, debido al aumento de errores de posición y efectos de sombreado cuando se agrega un cuarto micrófono.

El micrófono tetraédrico

Dado que es imposible construir un conjunto de micrófonos perfectamente coincidentes, el siguiente mejor enfoque es minimizar y distribuir el error de posición de la forma más uniforme posible. Esto se puede lograr organizando cuatro cápsulas cardioides o subcardioides en un tetraedro y ecualizando para lograr una respuesta de campo difuso uniforme. [21] Las señales de la cápsula se convierten luego al formato B con una operación matricial.

Fuera de Ambisonics, los micrófonos tetraédricos se han vuelto populares entre los ingenieros de grabación en exteriores que trabajan en estéreo o 5.1 por su flexibilidad en la posproducción; aquí, el formato B solo se utiliza como intermedio para derivar micrófonos virtuales.

Micrófonos de orden superior

Por encima del primer orden, ya no es posible obtener componentes ambisónicos directamente con cápsulas de micrófono individuales. En su lugar, se derivan señales diferenciales de orden superior a partir de varias cápsulas distribuidas espacialmente (normalmente omnidireccionales) mediante un procesamiento de señales digitales muy sofisticado. [22]

El Eigenmike em32 [23] y el ZYLIA ZM-1 [24] son ​​un conjunto de micrófonos ambisónicos de 32 canales disponibles comercialmente.

Un artículo reciente de Peter Craven et al. [25] (posteriormente patentado) describe el uso de cápsulas bidireccionales para micrófonos de orden superior con el fin de reducir la extremidad de la ecualización involucrada. Hasta el momento no se han fabricado micrófonos que utilicen esta idea.

Panorámica ambisónica

La forma más sencilla de producir mezclas Ambisonic de orden arbitrariamente alto es tomar fuentes monofónicas y posicionarlas con un codificador Ambisonic.

Un codificador de esfera completa normalmente tiene dos parámetros: acimut (u horizonte) y ángulo de elevación. El codificador distribuirá la señal de origen a los componentes ambisónicos de modo que, al decodificarla, la fuente aparecerá en la ubicación deseada. Los panoramizadores más sofisticados también proporcionarán un parámetro de radio que se ocupará de la atenuación dependiente de la distancia y del refuerzo de graves debido al efecto de campo cercano.

Las unidades de paneo de hardware y mezcladores para Ambisonics de primer orden han estado disponibles desde la década de 1980 [26] [27] [28] y se han utilizado comercialmente. Hoy en día, los complementos de paneo y otras herramientas de software relacionadas están disponibles para todas las principales estaciones de trabajo de audio digital, a menudo como software gratuito . Sin embargo, debido a restricciones arbitrarias de ancho de bus, pocas estaciones de trabajo de audio digital (DAW) profesionales admiten órdenes superiores al segundo. Las excepciones notables son REAPER , Pyramix, ProTools , Nuendo y Ardour .

Manipulación ambisónica

El formato B de primer orden se puede manipular de diversas maneras para cambiar el contenido de una escena auditiva. Las manipulaciones más conocidas incluyen la "rotación" y la "dominancia" (mover las fuentes hacia una dirección particular o alejarlas de ella). [10] [29]

Además, el procesamiento de señales lineales invariantes en el tiempo, como la ecualización, se puede aplicar al formato B sin alterar las direcciones del sonido, siempre que se aplique a todos los canales componentes por igual.

Los desarrollos más recientes en Ambisonics de orden superior permiten una amplia gama de manipulaciones que incluyen rotación, reflexión, movimiento, reverberación 3D , mezcla ascendente desde formatos heredados como 5.1 o primer orden, visualización y enmascaramiento y ecualización dependientes de la dirección.

Intercambio de datos

La transmisión del formato B ambisónico entre dispositivos y hacia los usuarios finales requiere un formato de intercambio estandarizado. Si bien el formato B de primer orden tradicional está bien definido y es universalmente comprendido, existen convenciones conflictivas para los ambisónicos de orden superior, que difieren tanto en el orden de los canales como en la ponderación, y que podrían necesitar soporte durante algún tiempo. Tradicionalmente, el más extendido es el formato de orden superior Furse-Malham en el .ambcontenedor basado en el formato de archivo WAVE-EX de Microsoft. [30] Es escalable hasta el tercer orden y tiene una limitación de tamaño de archivo de 4 GB.

Las nuevas implementaciones y producciones podrían considerar la propuesta AmbiX [31].caf , que adopta el formato de archivo y elimina el límite de 4 GB. Se escala a órdenes arbitrariamente altas y se basa en la codificación SN3D. Google ha adoptado la codificación SN3D como base para su formato YouTube 360. [32]

Distribución comprimida

Para distribuir de manera eficaz los datos ambisónicos a los no profesionales, se desea una compresión con pérdida para mantener un tamaño de datos aceptable. Sin embargo, la compresión multimono simple no es suficiente, ya que la compresión con pérdida tiende a destruir la información de fase y, por lo tanto, degrada la localización en forma de reducción espacial, desenfoque y fuente fantasma. Se desea la reducción de la redundancia entre canales, no solo para mejorar la compresión, sino también para reducir el riesgo de errores de fase detectables. [33] (También es posible utilizar el posprocesamiento para ocultar los artefactos). [34]

Al igual que con la codificación estéreo conjunta mid-side, un esquema de matriz estática (como en Opus) es utilizable para ambisonics de primer orden, pero no es óptimo en caso de múltiples fuentes. Una serie de esquemas como DirAC utilizan un esquema similar al estéreo paramétrico , donde se codifica una señal mezclada, se graba la dirección principal y se agrega alguna descripción del ambiente. MPEG-H 3D Audio , basándose en algunos trabajos de MPEG Surround , extiende el concepto para manejar múltiples fuentes. MPEG-H utiliza análisis de componentes principales para determinar las fuentes principales y luego codifica una señal multimono correspondiente a las direcciones principales. Estos métodos paramétricos proporcionan una buena calidad, siempre que tengan cuidado de suavizar las direcciones del sonido entre los fotogramas. [33] PCA/SVD es aplicable para la entrada ambisónica de primer orden, así como de alto orden. [35]

Desarrollo actual

Código abierto

Desde 2018 existe una implementación libre y de código abierto en el IEM Plugin Suite [7] y el SPARTA suite [8] que implementan los recientes desarrollos académicos y el códec de sonido Opus . Opus proporciona dos modos de codificación de canales: uno que simplemente almacena los canales individualmente y otro que pondera los canales a través de una matriz fija e invertible para reducir la redundancia. [36] En 2020 se publicó una prueba de escucha de la ambisónica Opus, como calibración para AMBIQUAL, una métrica objetiva para la ambisónica comprimida de Google. La ambisónica de tercer orden Opus a 256 kbps tiene una precisión de localización similar en comparación con la ambisónica de primer orden Opus a 128 kbps. [37] : Fig. 12 

Interés corporativo

Desde que Google y otros fabricantes lo adoptaron como el formato de audio preferido para la realidad virtual , Ambisonics ha despertado un gran interés. [38] [39] [40]

En 2018, Sennheiser lanzó su micrófono VR, [41] y Zoom lanzó una grabadora de campo Ambisonics. [42] Ambas son implementaciones del diseño de micrófono tetraédrico que produce Ambisonics de primer orden.

Actualmente varias empresas están realizando investigaciones en Ambisonics:

Dolby Laboratories ha expresado su "interés" en Ambisonics al adquirir (y liquidar) el especialista en Ambisonics con sede en Barcelona imm sound antes de lanzar Dolby Atmos [48] , que, aunque no se ha revelado su funcionamiento preciso, implementa el desacoplamiento entre la dirección de la fuente y las posiciones reales de los altavoces. Atmos adopta un enfoque fundamentalmente diferente en el sentido de que no intenta transmitir un campo de sonido; transmite premezclas discretas o pistas (es decir, flujos sin procesar de datos de sonido) junto con metadatos sobre la ubicación y la dirección de la que deberían parecer provenir. Luego, las pistas se decodifican, se mezclan y se renderizan en tiempo real utilizando los altavoces disponibles en la ubicación de reproducción.

Uso en juegos

La tecnología Ambisonic de orden superior ha encontrado un nicho de mercado en los videojuegos desarrollados por Codemasters . Su primer juego en utilizar un motor de audio Ambisonic fue Colin McRae: DiRT , sin embargo, este solo utilizó Ambisonic en la plataforma PlayStation 3. [49] Su juego Race Driver: GRID extendió el uso de Ambisonic a la plataforma Xbox 360 , [50] y Colin McRae: DiRT 2 utiliza Ambisonic en todas las plataformas, incluida la PC. [51]

Los juegos recientes de Codemasters, F1 2010 , Dirt 3 , [52] F1 2011 [53] y Dirt: Showdown , [54] usan Ambisonic de cuarto orden en PC más rápidas, [55] renderizados por el controlador Rapture3D OpenAL de Blue Ripple Sound y audio Ambisonic premezclado producido usando los complementos WigWare Ambisonic de Bruce Wiggins. [56]

OpenAL Soft [2], una implementación gratuita y de código abierto de la especificación OpenAL, también utiliza Ambisonics para renderizar audio 3D. [57] OpenAL Soft a menudo se puede utilizar como un reemplazo directo para otras implementaciones de OpenAL, lo que permite que varios juegos que usan la API de OpenAL se beneficien de la renderización de audio con Ambisonics.

En el caso de muchos juegos que no utilizan la API OpenAL de forma nativa, el uso de un contenedor o una cadena de contenedores puede ayudar a que estos juegos utilicen indirectamente la API OpenAL. En última instancia, esto hace que el sonido se represente en Ambisonics si se utiliza un controlador OpenAL compatible, como OpenAL Soft. [58]

El motor Unreal Engine admite la representación de campos sonoros Ambisonics desde la versión 4.25. [59] El motor Unity admite el trabajo con clips de audio Ambisonics desde la versión 2017.1. [60]

Patentes y marcas

La mayoría de las patentes que cubren los desarrollos Ambisonic han expirado (incluidas las que cubren el micrófono Soundfield ) y, como resultado, la tecnología básica está disponible para que cualquiera pueda implementarla.

El "fondo" de patentes que comprende la tecnología Ambisonics fue creado originalmente por la National Research & Development Corporation (NRDC) del gobierno del Reino Unido, que existió hasta fines de los años 70 para desarrollar y promover inventos británicos y otorgar licencias a fabricantes comerciales, idealmente a un único licenciatario. El sistema fue finalmente licenciado a Nimbus Records (ahora propiedad de Wyastone Estate Ltd).

El logotipo de Ambisonic de "círculos entrelazados" (marcas comerciales del Reino Unido UK00001113276 y UK00001113277 ), y las marcas de texto "AMBISONIC" y "AMBISO N" (marcas comerciales del Reino Unido UK00001500177 y UK00001112259 ), anteriormente propiedad de Wyastone Estate Ltd., expiraron a partir de 2010.

Véase también

Notas

  1. ^ En este párrafo introductorio se utiliza la notación tradicional en formato B, ya que se supone que el lector ya la habrá conocido. Para sistemas ambisónicos de orden superior, se recomienda utilizar la notación ACN .

Referencias

  1. ^ Michael A. Gerzon, Periphony: reproducción de sonido con altura . Revista de la Sociedad de Ingeniería de Audio, 1973, 21(1):2–10.
  2. ^ Franz Zotter y Matthias Frank, Ambisonics: una teoría práctica del audio 3D para grabación, producción en estudio, refuerzo de sonido y realidad virtual. SpringerOpen, 2019.
  3. ^ Gerzon, MA (febrero de 1980). Practical Periphony . 65th Audio Engineering Society Convention. Londres: Audio Engineering Society . p. 7. Preimpresión 1571. Para hacer que las señales de formato B transporten una energía promedio más o menos igual, X, Y, Z tienen una ganancia de 2 en sus direcciones de sensibilidad máxima.
  4. ^ Eric Benjamin, Richard Lee y Aaron Heller, ¿Mi decodificador es ambisónico?, 125.ª Convención AES, San Francisco, 2008
  5. ^ Franz Zotter y Matthias Frank, Panorámica y decodificación ambisónica integral. Revista de la Sociedad de Ingeniería de Audio, 2012, 60(10): 807-820.
  6. ^ Christian Schörkhuber y Markus Zaunschirm, Representación binaural de señales ambisónicas mediante mínimos cuadrados de magnitud. Fortschritte der Akustik, DAGA, Múnich, 2018.
  7. ^ de Daniel Rudrich et al., IEM Plug-in Suite. 2018 (consultado en 2024)
  8. ^ de Leo McCormack, Aplicaciones de audio espacial en tiempo real. 2019 (consultado en 2024)
  9. ^ Darren B Ward y Thushara D Abhayapala, Reproducción de un campo sonoro de ondas planas utilizando una matriz de altavoces Archivado el 8 de octubre de 2006 en Wayback Machine , IEEE Transactions on Speech and Audio Processing Vol.9 No.6, septiembre de 2001
  10. ^ por Michael A Gerzon, Geoffrey J Barton, "Decodificadores ambisónicos para HDTV", 92.ª Convención AES, Viena, 1992. http://www.aes.org/e-lib/browse.cfm?elib=6788
  11. ^ Malham, DG (1992). "Experiencia con sistemas de sonido ambisónico tridimensional de gran superficie" (PDF) . Actas del Instituto de Acústica . 14 (5): 209–215. Archivado desde el original (PDF) el 22 de julio de 2011. Consultado el 24 de enero de 2007 .
  12. ^ Jörn Nettingsmeier y David Dohrmann, Estudios preliminares sobre sistemas de refuerzo de sonido ambisónicos de orden superior a gran escala, Simposio Ambisonics 2011, Lexington (KY) 2011
  13. ^ Armstrong, Cal; Thresh, Lewis; Murphy, Damian; Kearney, Gavin (23 de octubre de 2018). "Una evaluación perceptual de HRTF individuales y no individuales: un estudio de caso de la base de datos SADIE II". Applied Sciences . 8 (11): 2029. doi : 10.3390/app8112029 .
  14. ^ Eric Benjamin, Richard Lee y Aaron Heller: Localización en sistemas ambisónicos solo horizontales, 121.ª Convención AES, San Francisco, 2006
  15. ^ Jérôme Daniel, Codificación de sonido espacial que incluye el efecto de campo cercano: introducción de filtros de codificación de distancia y un nuevo formato ambisónico viable, 23.ª Conferencia de la AES, Copenhague 2003
  16. ^ Richard Elen, Ambisonics para el nuevo milenio, septiembre de 1998.
  17. ^ Bruce Wiggins, Generación de leyes de paneo para matrices de altavoces irregulares mediante métodos heurísticos Archivado el 17 de mayo de 2016 en el Archivo Web Portugués. 31.ª Conferencia AES, Londres 2007
  18. ^ EM Benjamin y T. Chen, "El micrófono nativo de formato B", 119.ª Convención de la AES, Nueva York, 2005, preimpresión n.º 6621. http://www.aes.org/e-lib/browse.cfm?elib=13348
  19. ^ [1] EM Benjamin y T. Chen, "El micrófono nativo de formato B: Parte II", 120.ª Convención de la AES, París, 2006, preimpresión n.º 6640. http://www.aes.org/e-lib/browse.cfm?elib=13444
  20. ^ Micrófonos de patrón variable C700, Josephson Engineering
  21. ^ Michael A. Gerzon, El diseño de conjuntos de micrófonos coincidentes con precisión para sonido estéreo y envolvente , 50.ª Convención de la AES, Londres, 1975, http://www.aes.org/e-lib/browse.cfm?elib=2466
  22. ^ Peter Plessas, Matrices de micrófonos de esfera rígida para grabación espacial y holografía, tesis de diploma en Ingeniería eléctrica - Ingeniería de audio, Graz 2009
  23. ^ "Productos | mhacoustics.com". mhacoustics.com . Consultado el 7 de abril de 2018 .
  24. ^ "ZYLIA - Soluciones de posprocesamiento y grabación de audio 3D". Zylia Inc. Consultado el 19 de septiembre de 2023 .
  25. ^ PG Craven, MJ Law y C Travis, Matrices de micrófonos que utilizan sensores de velocidad tangencial Archivado el 30 de junio de 2009 en Wayback Machine , Simposio Ambisonics, Graz 2009
  26. ^ Michael A Gerzon y Geoffrey J Barton, Mezcla de sonido envolvente ambisónico para estudios multipista , AES Preprint C1009, 2.ª Conferencia internacional: El arte y la tecnología de la grabación, mayo de 1984. http://www.aes.org/e-lib/browse.cfm?elib=11654
  27. ^ Richard Elen, Mezcla ambisónica: una introducción, Studio Sound, septiembre de 1983
  28. ^ Nigel Branwell, Tecnología de sonido envolvente ambisónico para grabación y transmisión, Ingeniero de grabación/productor, diciembre de 1983
  29. ^ Dave G. Malham, Mecanismos de rumbo espacial y reproducción del sonido 1998, consultado el 24 de enero de 2014
  30. ^ Richard Dobson El formato de archivo ambisónico AMB Archivado el 22 de abril de 2014 en Wayback Machine.
  31. ^ Christian Nachbar, Franz Zotter, Etienne Deleflie y Alois Sontacchi: AmbiX: un formato ambisónico sugerido Simposio sobre ambisónico 2011, Lexington (KY) 2011
  32. ^ Ayuda de YouTube, Cómo usar audio espacial en videos de 360 ​​grados y VR
  33. ^ ab Mahé, Pierre; Ragot, Stéphane; Marchand, Sylvain (2 de septiembre de 2019). Codificación ambisónica de primer orden con matriz PCA e interpolación basada en cuaterniones. 22.ª Conferencia internacional sobre efectos de audio digital (DAFx-19), Birmingham, Reino Unido. pág. 284.
  34. ^ Mahé, Pierre; Ragot, Stéphane; Marchand, Sylvain; Daniel, Jérôme (enero de 2021). Codificación ambisónica con corrección de imágenes espaciales. Conferencia Europea de Procesamiento de Señales (EUSIPCO) 2020.
  35. ^ Zamani, Sina; Nanjundaswamy, Tejaswi; Rose, Kenneth (octubre de 2017). "Descomposición de valores singulares en el dominio de la frecuencia para una codificación de audio espacial eficiente". Taller IEEE de 2017 sobre aplicaciones del procesamiento de señales en audio y acústica (WASPAA) . págs. 126–130. arXiv : 1705.03877 . doi :10.1109/WASPAA.2017.8170008. ISBN . 978-1-5386-1632-1.S2CID1036250  .
  36. ^ Valin, Jean-Marc. «Opus 1.3 Released». Documentación de Opus . Consultado el 7 de septiembre de 2020 .
  37. ^ Narbutt, Miroslaw; Skoglund, Jan; Allen, Andrew; Chinen, Michael; Barry, Dan; Hines, Andrew (3 de mayo de 2020). "AMBIQUAL: Hacia una métrica de calidad para el audio espacial ambisónico comprimido renderizado con auriculares". Applied Sciences . 10 (9): 3188. doi : 10.3390/app10093188 . hdl : 10197/11947 .
  38. ^ Especificaciones y herramientas de Google para vídeo 360º y audio espacial, consultado en mayo de 2016
  39. ^ Subir vídeos de 360 ​​grados, consultado en mayo de 2016
  40. ^ Centro para desarrolladores de Oculus: Funciones compatibles/Ambisonics
  41. ^ "Micrófono Sennheiser AMBEO VR"
  42. ^ "Grabadora de campo ambisónica Zoom H3-VR"
  43. ^ Chris Baume, Anthony Churnside, Upping the Auntie: la opinión de un locutor sobre la tecnología ambisónica, BBC R&D Publications, 2012
  44. ^ Darius Satongar, Chris Dunn, Yiu Lam y Francis Li Rendimiento de localización de ambisónicos de orden superior para escucha descentrada, BBC R&D Publications, 2013
  45. ^ Paul Power, Chris Dunn, W. Davies y J. Hirst, Localización de fuentes elevadas en ambisónicos de orden superior, BBC R&D Publications, 2013
  46. ^ Johann-Markus Batke y Florian Keiler, Uso de funciones de paneo derivadas de VBAP para decodificación ambisónica 3D, 2.º simposio internacional sobre ambisónica y acústica esférica, París, 2010
  47. ^ Florian Keiler, Sven Kordon, Johannes Boehm, Holger Kropp y Johann-Markus Batke, Estructura de datos para datos de audio Ambisonics de orden superior, Solicitud de patente europea EP 2450880 A1, 2012
  48. ^ "Dolby Laboratories adquiere su rival Imm Sound". The Hollywood Reporter. 23 de julio de 2012.
  49. ^ Deleflie, Etienne (30 de agosto de 2007). "Entrevista con Simon Goodwin de Codemasters sobre el juego DiRT para PS3 y Ambisonics". Creación de Ambisonia.com . Australia: Etienne Deleflie. Archivado desde el original el 23 de julio de 2011. Consultado el 7 de agosto de 2010 .
  50. ^ Deleflie, Etienne (24 de junio de 2008). «Codemasters mejora Ambisonics de nuevo en Race Driver GRID…». Building Ambisonia.com . Australia: Etienne Deleflie. Archivado desde el original el 23 de julio de 2011. Consultado el 7 de agosto de 2010 .
  51. ^ Firshman, Ben (3 de marzo de 2010). "Entrevista: Simon N Goodwin, Codemasters". The Boar . Coventry, Reino Unido: Universidad de Warwick. p. 18. Núcleo del volumen 32, número 11 . Consultado el 7 de agosto de 2010 .
  52. ^ "DiRT3". Noticias de juegos . Sonido Blue Ripple. 23 de mayo de 2011. Consultado el 21 de noviembre de 2013 .
  53. ^ "F1 2011". Noticias de videojuegos . Blue Ripple Sound. 23 de septiembre de 2011. Archivado desde el original el 19 de diciembre de 2013. Consultado el 21 de noviembre de 2013 .
  54. ^ "DiRT Showdown". Noticias de juegos . Blue Ripple Sound. 18 de junio de 2012. Archivado desde el original el 14 de diciembre de 2017. Consultado el 21 de noviembre de 2013 .
  55. ^ "Audio 3D para juegos". Blue Ripple Sound. Archivado desde el original el 13 de diciembre de 2013. Consultado el 21 de noviembre de 2013 .
  56. ^ "Audio espacial mejorado con software de sonido envolvente ambisónico: un estudio de caso de impacto de REF". Consejo de Financiamiento de la Educación Superior de Inglaterra (HEFCE) . Consultado el 18 de febrero de 2016 .
  57. ^ "openal-soft/ambisonics.txt en master · kcat/openal-soft · GitHub". GitHub . Consultado el 15 de junio de 2021 .
  58. ^ "Lista de juegos para PC que utilizan DirectSound3D - Google Docs". I Drink Lava . Consultado el 26 de junio de 2021 .
  59. ^ "Notas de la versión 4.25 de Unreal Engine | Documentación de Unreal Engine". Epic Games, Inc. Consultado el 27 de mayo de 2022 .
  60. ^ "Novedades de Unity 2017.1 - Unity". Unity Technologies. Archivado desde el original el 24 de marzo de 2022. Consultado el 27 de mayo de 2022 .
  • Sitio web Ambisonic.net
  • Ambisonia, un repositorio de grabaciones y composiciones ambisónicas
  • Ambisonic.info, sitio web del grabador de campo Ambisonic Paul Hodges
  • Recursos ambisónicos en la Universidad de Parma
  • Recursos ambisónicos en la Universidad de York
  • Notas técnicas sobre el sistema ambisónico de orden superior en Blue Ripple Sound
  • Ambisonics en la wiki de Xiph, un recurso dirigido a desarrolladores de formatos de archivo
Retrieved from "https://en.wikipedia.org/w/index.php?title=Ambisonics&oldid=1248181371"