MPEG-4 Parte 3 o MPEG-4 Audio (formalmente ISO / IEC 14496-3) es la tercera parte del estándar internacional ISO / IEC MPEG-4 desarrollado por Moving Picture Experts Group . [1] Especifica los métodos de codificación de audio . La primera versión de ISO/IEC 14496-3 se publicó en 1999. [2]
La Parte 3 del MPEG-4 consta de una variedad de tecnologías de codificación de audio, desde codificación de voz con pérdida ( HVXC , CELP ), codificación de audio general ( AAC , TwinVQ , BSAC), compresión de audio sin pérdida ( MPEG-4 SLS , codificación de audio sin pérdida , MPEG-4 DST ), una interfaz de texto a voz (TTSI), audio estructurado (usando SAOL , SASL, MIDI ) y muchas técnicas adicionales de síntesis y codificación de audio. [3] [4] [5 ] [6 ] [ 7] [8] [9] [10] [11]
El audio MPEG-4 no está destinado a una única aplicación, como la telefonía en tiempo real o la compresión de audio de alta calidad, sino que se aplica a todas las aplicaciones que requieren el uso de compresión, síntesis, manipulación o reproducción de sonido avanzadas. El audio MPEG-4 es un nuevo tipo de estándar de audio que integra numerosos tipos diferentes de codificación de audio: sonido natural y sonido sintético, entrega de baja tasa de bits y entrega de alta calidad, voz y música, bandas sonoras complejas y simples, contenido tradicional y contenido interactivo. [7]
Edición | Fecha de lanzamiento | Última modificación | Estándar | Descripción |
---|---|---|---|---|
Primera edición | 1999 | 2001 | ISO/IEC 14496-3:1999 [2] | También conocido como "MPEG-4 Audio Versión 1" |
2000 | ISO/IEC 14496-3:1999/Enmienda 1:2000 [13] | También conocido como "MPEG-4 Audio Version 2", una enmienda a la primera edición [7] [8] | ||
Segunda edición | 2001 | 2005 | ISO/IEC 14496-3:2001 [14] | |
Tercera edición | 2005 | 2008 | ISO/IEC 14496-3:2005 [15] | |
Cuarta edición | 2009 | 2015 y en desarrollo [12] | ISO/IEC 14496-3:2009 [1] [16] | |
Quinta edición | 2019 | ISO/IEC 14496-3:2019 [17] | Versión actual |
La Parte 3 del MPEG-4 contiene las siguientes subpartes: [16]
El formato de audio MPEG-4 incluye un sistema para manejar un grupo diverso de formatos de audio de manera uniforme. A cada formato se le asigna un tipo de objeto de audio único para representarlo. [18] [19] El tipo de objeto se utiliza para distinguir entre diferentes métodos de codificación. Determina directamente el subconjunto de herramientas MPEG-4 necesario para decodificar un objeto específico. Los perfiles MPEG-4 se basan en los tipos de objetos y cada perfil admite una lista diferente de tipos de objetos. [19]
Identificación del tipo de objeto | Tipo de objeto de audio | Fecha del primer lanzamiento público | Descripción |
---|---|---|---|
1 | AAC principal | 1999 | contiene AAC LC |
2 | AAC LC (baja complejidad) | 1999 | Se utiliza en el "Perfil AAC". El tipo de objeto de audio MPEG-4 AAC LC se basa en el perfil de baja complejidad (LC) MPEG-2 Parte 7 combinado con la sustitución de ruido perceptual (PNS) (definido en MPEG-4 Parte 3 Subparte 4). [4] [22] |
3 | Frecuencia de muestreo escalable (SSR) de AAC | 1999 | El tipo de objeto de audio MPEG-4 AAC SSR se basa en el perfil de frecuencia de muestreo escalable (SSR) de MPEG-2 Parte 7 combinado con la sustitución de ruido perceptual (PNS) (definido en MPEG-4 Parte 3 Subparte 4). [4] [22] |
4 | AAC LTP ( Predicción a largo plazo ) | 1999 | contiene AAC LC |
5 | SBR ( Replicación de banda espectral ) | 2003 [23] | Se utiliza con AAC LC en el "Perfil AAC de alta eficiencia" ( HE-AAC v1) |
6 | CAA escalable | 1999 | |
7 | TwinVQ | 1999 | codificación de audio a tasas de bits muy bajas |
8 | CELP ( Predicción lineal excitada por código ) | 1999 | codificación de voz |
9 | HVXC (codificación de excitación vectorial armónica) | 1999 | codificación de voz |
10 | (Reservado) | ||
11 | (Reservado) | ||
12 | TTSI ( Interfaz de texto a voz ) | 1999 | |
13 | Síntesis principal | 1999 | Contiene síntesis basada en muestras de ' tabla de ondas ' [24] y síntesis algorítmica y efectos de audio |
14 | Síntesis basada en muestras de tabla de ondas | 1999 | Basado en SoundFont y DownLoadable Sounds , [24] contiene General MIDI |
15 | MIDI general | 1999 | |
16 | Síntesis algorítmica y efectos de audio | 1999 | |
17 | ER AAC LC | 2000 | Resistente a errores |
18 | (Reservado) | ||
19 | ER AAC LTP | 2000 | Resistente a errores |
20 | ER AAC Escalable | 2000 | Resistente a errores |
21 | ER TwinVQ | 2000 | Resistente a errores |
22 | ER BSAC (codificación aritmética de bits divididos) | 2000 | También se conoce como "Fine Granule Audio" o herramienta de escalabilidad de grano fino. Se utiliza en combinación con las herramientas de codificación AAC y reemplaza la codificación sin ruido y el formato de flujo de bits del codificador GA MPEG-4 versión 1. Resistente a errores |
23 | ER AAC LD (retardo bajo) | 2000 | Resistente a errores, utilizado con CELP, ER CELP, HVXC, ER HVXC y TTSI en el "Perfil de bajo retardo" (comúnmente utilizado para aplicaciones de conversación en tiempo real) |
24 | CELP DE ER | 2000 | Resistente a errores |
25 | ER HVXC | 2000 | Resistente a errores |
26 | ER HILN (Líneas armónicas e individuales más ruido) | 2000 | Resistente a errores |
27 | ER paramétrico | 2000 | Resistente a errores |
28 | SSC (codificación sinusoidal) | 2004 [25] [26] | |
29 | PS ( Estéreo paramétrico ) | 2004 [27] y 2006 [28] [29] | Se utiliza con AAC LC y SBR en el "Perfil HE-AAC v2". La herramienta de codificación PS se definió en 2004 y el tipo de objeto se definió en 2006. |
30 | MPEG envolvente | 2007 [30] | También conocido como codificación de audio espacial MPEG (SAC), es un tipo de codificación de audio espacial [31] [32] (MPEG Surround también se definió en ISO/IEC 23003-1 en 2007 [33] ) |
31 | (ESCAPAR) | ||
32 | MPEG-1/2 Capa-1 | 2005 [34] | |
33 | MPEG-1/2 capa 2 | 2005 [34] | |
34 | MPEG-1/2 capa 3 | 2005 [34] | También conocido como "MP3onMP4" |
35 | DST ( transferencia de flujo directo ) | 2005 [35] | Codificación de audio sin pérdida, utilizada en Super Audio CD |
36 | ALS ( codificación sin pérdida de audio ) | 2006 [29] | codificación de audio sin pérdida |
37 | SLS ( codificación escalable sin pérdida ) | 2006 [36] | Codificación de audio de dos capas con capa sin pérdida y núcleo/capa de audio general con pérdida (por ejemplo, AAC) |
38 | SLS no básico | 2006 | Codificación de audio sin pérdida de audio general sin núcleo/capa de audio (por ejemplo, AAC) |
39 | ER AAC ELD (retardo bajo mejorado) | 2008 [37] | Resistente a errores |
40 | SMR (Representación musical simbólica) simple | 2008 | Nota: La representación musical simbólica también es el estándar MPEG-4 Parte 23 (ISO/IEC 14496-23:2008) [38] [39] |
41 | SMR principal | 2008 | |
42 | USAC ( codificación unificada de voz y audio ) | 2012 | La codificación unificada de voz y audio se define en MPEG-D Parte 3 (ISO/IEC 23003-3:2012) [40] |
43 | SAOC (codificación de objetos de audio espacial) | 2010 [41] [42] | Nota: La codificación de objetos de audio espacial también es el estándar MPEG-D Parte 2 (ISO/IEC 23003-2:2010) [43] |
44 | Sonido envolvente LD MPEG | 2010 [44] | Este tipo de objeto transmite información secundaria de codificación MPEG Surround de bajo retardo (que se definió en MPEG-D Parte 2 – ISO/IEC 23003-2 [43] ) en el marco de audio MPEG-4. |
45 | SAOC-DE | 2013 | Mejora del diálogo de codificación de objetos de audio espacial |
46 | Sincronización de audio | 2015 | La herramienta de sincronización de audio proporciona la capacidad de sincronizar múltiples contenidos en múltiples dispositivos. |
El estándar de audio MPEG-4 define varios perfiles. Estos perfiles se basan en los tipos de objetos y cada perfil admite una lista diferente de tipos de objetos. Cada perfil también puede tener varios niveles, que limitan algunos parámetros de las herramientas presentes en un perfil. Estos parámetros suelen ser la frecuencia de muestreo y el número de canales de audio decodificados al mismo tiempo.
Perfil de audio | Tipos de objetos de audio | Fecha del primer lanzamiento público |
---|---|---|
Perfil de CAA | CAA LC | 2003 |
Perfil AAC de alta eficiencia | AAC LC, SBR | 2003 |
Perfil HE-AAC v2 | AAC LC, SBR, PS | 2006 |
Perfil de audio principal | AAC Main, AAC LC, AAC SSR, AAC LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Síntesis principal | 1999 |
Perfil de audio escalable | AAC LC, AAC LTP, AAC escalable, TwinVQ, CELP, HVXC, TTSI | 1999 |
Perfil de audio de voz | CELP , HVXC , TTSI | 1999 |
Perfil de audio sintético | TTSI, Síntesis principal | 1999 |
Perfil de audio de alta calidad | AAC LC, AAC LTP, AAC escalable, CELP, ER AAC LC, ER AAC LTP, ER AAC escalable, ER CELP | 2000 |
Perfil de audio de bajo retardo | CELP, HVXC, TTSI, ER AAC LD, ER CELP, ER HVXC | 2000 |
Perfil de audio natural | AAC principal, AAC LC, AAC SSR, AAC LTP, AAC escalable, TwinVQ, CELP, HVXC, TTSI, ER AAC LC, ER AAC LTP, ER AAC escalable, ER TwinVQ, ER BSAC, ER AAC LD, ER CELP, ER HVXC , ER HILN, ER Paramétrico | 2000 |
Perfil de interconexión de audio móvil | ER AAC LC, ER AAC escalable, ER TwinVQ, ER BSAC, ER AAC LD | 2000 |
Perfil HD-AAC | AAC LC, SLS [45] | 2009 [46] |
Perfil simple de ELA | ELA | 2010 [42] [47] |
Estándar | Descripción | |
---|---|---|
Multicine | ISO/IEC 14496-1 | Esquema de multiplexación MPEG-4 (M4Mux) [48] |
Multicine | ISO/IEC 14496-3 | Multiplexor de transporte de audio de bajo consumo (LATM) |
Almacenamiento | ISO/IEC 14496-3 (informativo) | Formato de intercambio de datos de audio (ADIF): solo para AAC |
Almacenamiento | ISO/IEC 14496-12 | Formato de archivo MPEG-4 ( MP4 ) / Formato de archivo multimedia basado en ISO |
Transmisión | ISO/IEC 14496-3 (informativo) | Flujo de transporte de datos de audio (ADTS): solo para AAC |
Transmisión | ISO/IEC 14496-3 | Transmisión de audio de baja sobrecarga (LOAS), basada en LATM |
No existe un estándar para el transporte de transmisiones elementales a través de un canal, porque la amplia gama de aplicaciones MPEG-4 tiene requisitos de entrega que son demasiado amplios para caracterizarlos fácilmente con una única solución.
Las capacidades de una capa de transporte y la comunicación entre funciones de transporte, multiplexación y demultiplexación se describen en el Marco de integración multimedia de entrega (DMIF) en ISO/IEC 14496-6. [16] Existe una amplia variedad de mecanismos de entrega debajo de esta interfaz, por ejemplo, flujo de transporte MPEG , Protocolo de transporte en tiempo real (RTP), etc.
El protocolo de transporte en tiempo real se define en RFC 3016 (Formato de carga útil RTP para transmisiones de audio/visuales MPEG-4), RFC 3640 (Formato de carga útil RTP para el transporte de transmisiones elementales MPEG-4), RFC 4281 (El parámetro de códecs para los tipos de medios "Bucket") y RFC 4337 (Registro de tipo MIME para MPEG-4).
LATM y LOAS se definieron para aplicaciones de audio natural, que no requieren codificación sofisticada basada en objetos ni otras funciones proporcionadas por los sistemas MPEG-4.
La codificación de audio avanzada en MPEG-4 Parte 3 (Audio MPEG-4) Subparte 4 se mejoró en relación con el estándar anterior MPEG-2 Parte 7 (Codificación de audio avanzada), con el fin de proporcionar una mejor calidad de sonido para una tasa de bits de codificación determinada.
Se supone que el organismo de normalización ISO resolverá en un futuro próximo las diferencias entre las Partes 3 y 7 para evitar la posibilidad de futuras incompatibilidades de flujo de bits. En la actualidad, no se conocen incompatibilidades entre reproductores o códecs debido a la novedad de la norma.
El estándar MPEG-2 Parte 7 (codificación de audio avanzada) se publicó por primera vez en 1997 y ofrece tres perfiles predeterminados: [49] [50] Perfil de baja complejidad (LC), Perfil principal y Perfil de frecuencia de muestreo escalable (SSR).
La subparte 4 de la parte 3 del MPEG-4 (codificación de audio general) combinó los perfiles de la parte 7 del MPEG-2 con sustitución de ruido perceptual (PNS) y los definió como tipos de objetos de audio (AAC LC, AAC Main, AAC SSR). [4]
La codificación avanzada de audio de alta eficiencia es una extensión de AAC LC que utiliza replicación de banda espectral (SBR) y estéreo paramétrico (PS). Está diseñada para aumentar la eficiencia de la codificación a tasas de bits bajas mediante la representación paramétrica parcial del audio.
La frecuencia de muestreo escalable AAC fue introducida por Sony en los estándares MPEG-2 Parte 7 y MPEG-4 Parte 3. [ cita requerida ] Se publicó por primera vez en ISO/IEC 13818-7, Parte 7: Codificación de audio avanzada (AAC) en 1997. [ 49 ] [ 50 ] La señal de audio se divide primero en 4 bandas utilizando un banco de filtros de cuadratura polifásica de 4 bandas . Luego, estas 4 bandas se dividen aún más utilizando MDCT con un tamaño k de 32 o 256 muestras. Esto es similar a la LC AAC normal que utiliza MDCT con un tamaño k de 128 o 1024 directamente en la señal de audio.
La ventaja de esta técnica es que la conmutación de bloques cortos se puede realizar por separado para cada banda PQF . Por lo tanto, las frecuencias altas se pueden codificar utilizando un bloque corto para mejorar la resolución temporal, mientras que las frecuencias bajas se pueden codificar con una resolución espectral alta. Sin embargo, debido al aliasing entre las 4 bandas PQF, la eficiencia de codificación alrededor de (1,2,3) * fs/8 es peor que con el LC MPEG-4 AAC normal. [ cita requerida ]
MPEG-4 AAC-SSR es muy similar a ATRAC y ATRAC-3 .
La idea detrás del AAC-SSR no era solo la ventaja mencionada anteriormente, sino también la posibilidad de reducir la velocidad de datos eliminando 1, 2 o 3 de las bandas PQF superiores. Un divisor de flujo de bits muy simple puede eliminar estas bandas y, por lo tanto, reducir la velocidad de bits y la frecuencia de muestreo.
Ejemplo:
Nota: aunque es posible, la calidad resultante es mucho peor que la típica para esta tasa de bits. Por lo tanto, para un LC AAC de 64 kbit/s normal, se logra un ancho de banda de 14–16 kHz utilizando estéreo de intensidad y NMR reducidos. Esto degrada la calidad audible menos que la transmisión de un ancho de banda de 6 kHz con una calidad perfecta.
Bit Sliced Arithmetic Coding es un estándar MPEG-4 (ISO/IEC 14496-3 subparte 4) para codificación de audio escalable. BSAC utiliza una codificación alternativa sin ruido a AAC, con el resto del procesamiento siendo idéntico a AAC. Esta compatibilidad con la escalabilidad permite una calidad de sonido casi transparente a 64 kbit/s y una degradación elegante a velocidades de bits más bajas. La codificación BSAC se realiza mejor en el rango de 40 kbit/s a 64 kbit/s, aunque opera en el rango de 16 kbit/s a 64 kbit/s. El códec AAC-BSAC se utiliza en aplicaciones de transmisión multimedia digital (DMB) .
En 2002, el Comité de Licencias de Audio MPEG-4 seleccionó a Via Licensing Corporation como Administrador de Licencias para el fondo de patentes de audio MPEG-4 . [3] [51] [52]
{{cite web}}
: |author=
tiene nombre genérico ( ayuda ){{cite web}}
: CS1 maint: varios nombres: lista de autores ( enlace ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )[ enlace muerto ]{{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )Síntesis de tabla de ondas con SASBF:
El formato de banco de tabla de ondas SASBF tuvo una historia de desarrollo algo compleja. La especificación original fue aportada por E-Mu Systems y se basó en su formato "SoundFont" [15]. Después de que se completó la integración de este componente en el software de referencia MPEG-4, la MIDI Manufacturers Association (MMA) se acercó a MPEG solicitando que MPEG-4 SASBF fuera compatible con su formato "Downloaded Sounds" [13]. E-Mu estuvo de acuerdo en que esta compatibilidad era deseable, por lo que se negoció y diseñó un nuevo formato en colaboración entre todas las partes.
{{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{citation}}
: CS1 maint: nombres numéricos: lista de autores ( enlace ){{cite web}}
: |author=
tiene nombre genérico ( ayuda )