Este artículo necesita ser actualizado . El motivo es que las fuentes confiables sobre el estándar de códec son extremadamente escasas. Please help update this article to reflect recent events or newly available information.(October 2024)
El estándar de codificación de audio y video ( AVS ) se refiere al estándar de compresión de audio y video digital formulado por el grupo de trabajo de estándares de codificación de audio y video de China. El trabajo comenzó en 2002 y se publicaron tres generaciones de estándares. [1]
El estándar AVS de primera generación incluye "Tecnología de la información, codificación avanzada de audio y vídeo, parte 2: vídeo" ( AVS1 ) y "Tecnología de la información, codificación avanzada de audio y vídeo, parte 16: vídeo de radio y televisión" ( AVS+ ). Para la segunda generación, denominada AVS2 , el principal objetivo de aplicación era el vídeo de televisión de ultraalta definición , que admitía la compresión eficiente de vídeos de ultraalta resolución ( 4K y superiores) y alto rango dinámico , y se publicó como estándar internacional IEEE 1857.4. Se estableció una alianza industrial para desarrollar y promover los estándares AVS. [2] Un fondo de patentes cobra una pequeña regalía por los productos terminales (como los televisores), excluyendo a los proveedores de contenido y los operadores. [3]
El códec AVS3 se agregó a la caja de herramientas de distribución de medios de DVB . [4]
Organizaciones
Grupo de trabajo
El grupo de trabajo AVS se fundó en junio de 2002 para cooperar con empresas chinas e instituciones de investigación científica, para formular y revisar estándares técnicos comunes tales como compresión, descompresión, procesamiento y representación de audio digital y video digital, para así proporcionar tecnologías de codificación/decodificación eficientes y económicas para dispositivos y sistemas de audio digital y video digital, al servicio de la transmisión digital de alta resolución, medios de almacenamiento láser digital de alta densidad, comunicación multimedia de banda ancha inalámbrica, medios de transmisión de banda ancha por Internet y otras aplicaciones.
El grupo de trabajo está encabezado por Gao Wen , académico de la Academia China de Ingeniería, profesor y supervisor de doctorado de la Universidad de Pekín y subdirector del Comité del Fondo Nacional de Ciencias Naturales, y está formado por un grupo de requisitos, un grupo de sistemas, un grupo de vídeo, un grupo de audio, un grupo de pruebas, un grupo de propiedad intelectual y otros departamentos. El primer revés se produjo cuando China no utilizó AVS para su propio sistema de transmisión de televisión digital en 2003. [5]
La AVS Industry Alliance, abreviatura de Zhongguancun Audio Visual Industry Technology Innovation Alliance, fue formada en mayo de 2005 en Pekín por doce entidades, entre ellas TCL Group Co., Ltd., Skyworth Group Research Institute, Huawei Technology Co., Ltd., Hisense Group Co., Ltd., Haier Group Co., Ltd., Beijing Haier Guangke Co., Ltd., Inspur Group Co., Ltd., Joint Source Digital Audio Video Technology (Beijing) Co., Ltd., New Pudong District Mobile Communication Association, Sichuan Changhong Co., Ltd., Shanghai SVA (Group) Central Research Institute, Zte Communication Co., Ltd. y Zhongguancun Hi-Tech Industry Association. La organización también se conoce como AVSA y colabora con "AVS Workgroup" y "AVS Patent Pool Management Committee" como parte de los "Three Carriages".
Primera generación
El estándar AVS de primera generación incluía el estándar nacional chino "Tecnología de la información, codificación avanzada de audio y vídeo, parte 2: vídeo" (AVS1 para abreviar, etiqueta GB: GB/T 20090.2-2006) y "Tecnología de la información, codificación avanzada de audio y vídeo, parte 16: vídeo de radio y televisión" (AVS+ para abreviar, etiqueta GB: GB/T 20090.16-2016). Una prueba organizada por el Instituto de Planificación de Radio y Televisión de la Administración Estatal de Radio, Cine y Televisión (SARFT, más tarde parte de la Administración Nacional de Radio y Televisión ) muestra: si la tasa de bits de AVS1 es la mitad del estándar MPEG-2 , la calidad de codificación alcanzará un nivel excelente tanto para la definición estándar como para la alta definición; si la tasa de bits es inferior a 1/3, también alcanza niveles buenos o excelentes. La parte de video estándar AVS1 se promulgó como estándar nacional chino en febrero de 2006. En esa época, se consideró el uso de AVS en el formato de disco versátil mejorado , [8] aunque los productos nunca llegaron al mercado.
Durante la reunión del 7 al 11 de mayo de 2007 de la UIT-T (Sector de Normalización de las Telecomunicaciones de la UIT), AVS1 fue uno de los estándares disponibles para la televisión por protocolo de Internet (IPTV) junto con MPEG-2, H.264 y VC-1 . El 4 de junio de 2013, el Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) emitió la parte de vídeo de AVS1 como estándar IEEE1857-2013. AVS+ no solo es el estándar de la industria de radio, cine y televisión GY/T 257.1-2012 "Codificación avanzada de audio y vídeo para radio y televisión, Parte 1: Vídeo" emitido por la SARFT el 10 de julio de 2012, sino también la versión mejorada de AVS1. [9]
Segunda generación
El estándar AVS de segunda generación incluye la serie de estándares nacionales chinos "Tecnología de la información, codificación multimedia eficiente" (AVS2). El AVS2 se dirige principalmente a la transmisión de programas de televisión de alta definición adicionales. La SARFT emitió el video AVS2 como estándar de la industria en mayo de 2016 y como estándar nacional chino el 30 de diciembre de 2016. El AVS2 fue publicado por el Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) como estándar 1857.4-2018 en agosto de 2019. [10]
Una prueba demostró que la eficiencia de codificación de AVS2 duplicaba con creces la de AVS+ y que la tasa de compresión superaba al estándar internacional HEVC (H.265). En comparación con el estándar AVS de primera generación, el segundo puede ahorrar la mitad del ancho de banda de transmisión.
Características
AVS2 adopta un marco de codificación híbrido y todo el proceso de codificación incluye módulos como predicción intra-cuadro, predicción inter-cuadro, transformación, cuantificación, cuantificación inversa y transformación inversa, filtro de bucle y codificación de entropía. Posee las siguientes características técnicas: [11]
Partición de estructura de codificación flexible
Para satisfacer los requisitos de los videos de resolución HD y Ultra HD para la eficiencia de compresión, AVS2 adopta una estructura de partición de bloques basada en el quadtree , que incluye la CU (unidad de codificación), la PU (unidad de predicción) y la TU (unidad de transformación). Una imagen se divide en LCU (CU más grande) de tamaño fijo, que se itera y se divide en una serie de CU en forma de quadtree. Cada CU contiene un bloque de codificación de luminancia y dos bloques de codificación de crominancia correspondientes (el tamaño de la unidad de bloque a continuación se refiere al bloque de codificación de luminancia). En comparación con el macrobloque tradicional, la estructura de partición basada en el quadtree es más flexible, con el tamaño de CU extendido de 8×8 a 64×64.
La PU estipula todos los modos de predicción de la CU y es la unidad básica para la predicción, incluida la predicción intra-frame y la predicción inter-frame. El tamaño máximo de la PU no puede superar el de la CU actual a la que pertenece. Sobre la base de los bloques de predicción intra-frame cuadrados de AVS1, se agrega la partición de bloque de predicción intra-frame no cuadrada. Mientras tanto, sobre la base de la partición de bloque de predicción simétrica, la predicción inter-frame también agrega 4 formas de partición asimétrica.
Además de CU y PU, AVS2 también define una unidad de transformación TU para la predicción de la transformación residual y la cuantificación. TU es la unidad básica de transformación y cuantificación, definida en CU como PU. Su selección de tamaño está relacionada con la forma de PU correspondiente. Si la CU actual está particionada en PU no cuadradas, la partición no cuadrada se aplicará a la TU correspondiente; de lo contrario, se aplicará el tipo de partición cuadrada. El tamaño de TU podría ser mayor que el de la PU, pero no más que el de la CU a la que pertenece.
Codificación de predicción intra
En comparación con AVS1 y H.264/AVC, AVS2 diseña 33 modos para la codificación de predicción intracuadro de bloques de luminancia, incluidos el modo de predicción DC, el modo de predicción de plano, el modo de predicción bilineal y 30 modos de predicción de ángulos. Hay 5 modos para bloques de crominancia: modo DC, modo de predicción horizontal, modo de predicción vertical, modo de interpolación bilineal, así como el modo derivado de luminancia (DM), recientemente agregado.
Codificación de predicción entre pares
En comparación con AVS1, AVS2 aumenta la cantidad máxima de marcos de referencia candidatos a 4, para adaptarse a la gestión de marcos de referencia de múltiples niveles, que también aprovecha al máximo el espacio redundante del búfer.
Para satisfacer los requisitos de gestión de múltiples cuadros de referencia, AVS2 adopta un tipo de modo de gestión de cuadros de referencia de múltiples niveles. En este modo, los cuadros de cada GOP (grupo de imágenes) se dividen en múltiples niveles según la relación de referencia entre los cuadros.
Modo de predicción entre
Sobre la base de los tres tipos de imágenes I, P, B de AVS1, de acuerdo con los requisitos de la aplicación, AVS2 agrega la imagen de predicción de múltiples hipótesis hacia adelante F. Con el objetivo de videovigilancia, reproducción de escenas y otras aplicaciones específicas, AVS2 diseña marcos de escena (Imagen G e Imagen GB) y marco de escena de referencia S.
Para el cuadro B, además de los modos tradicionales de avance, retroceso y bidireccional y de salto/directo, se agrega un nuevo modo simétrico. En el modo simétrico, solo se requiere codificar los vectores de movimiento hacia adelante y, luego, los vectores de movimiento hacia atrás se derivarán de los vectores de movimiento hacia adelante.
Para aprovechar al máximo el rendimiento del modo de salto/directo del Cuadro B, AVS2 también adopta el modo de salto/directo multidireccional bajo la premisa de conservar el modo de salto/directo original del Cuadro B: modo de salto/directo bidireccional, modo de salto/directo simétrico, modo de salto/directo hacia atrás y modo de salto/directo hacia adelante. Para los cuatro modos particulares, el mismo bloque de modo de predicción entre bloques adyacentes se descubre de acuerdo con el modo de predicción del bloque actual, y los vectores de movimiento de los bloques adyacentes con el mismo modo de predicción, que se descubren primero, se considerarán como los del bloque actual.
Para el cuadro F, los bloques de codificación pueden hacer referencia a los dos bloques de referencia hacia adelante, equivalentes a la predicción de doble hipótesis del cuadro P.
AVS2 divide la predicción de múltiples hipótesis en dos categorías, a saber, el modo de múltiples hipótesis temporal y espacial.
El bloque de codificación actual de la hipótesis doble del dominio del tiempo aplica el promedio ponderado de los bloques de predicción como valor de predicción actual, pero solo hay uno tanto para la MVD (diferencia del vector de movimiento) como para el índice de la imagen de referencia, mientras que otra MVD y el índice de la imagen de referencia se derivan del escalamiento lineal basado en la distancia en el dominio del tiempo.
La predicción doble en el dominio espacial también se denomina DMH (Hipótesis multidireccional), que se obtiene fusionando dos puntos de predicción alrededor del punto de predicción inicial, y el punto inicial se encuentra en la línea entre los dos puntos de predicción. Además del punto de predicción inicial, hay 8 puntos de predicción en total, que se fusionarán solo con los dos puntos de predicción ubicados en la misma línea recta con el punto de predicción inicial. Además de cuatro direcciones diferentes, el ajuste también se realizará de acuerdo con la distancia, y se calcularán respectivamente los cuatro modos con una distancia de 1/2 píxel y una distancia de 1/4 de píxel, más el punto de predicción inicial, para elaborar 9 modos en total para la comparación, y así seleccionar el modo de predicción óptimo.
El cuadro de escena es propuesto por AVS2 basándose en el método de codificación de video de vigilancia de modelado de fondo. Cuando la herramienta de vigilancia no está abierta, el cuadro I solo se usa como referencia para las imágenes antes del siguiente punto de acceso aleatorio. Cuando la herramienta de vigilancia está abierta, AVS2 aplicará un cuadro determinado en el video como el cuadro de imagen de escena G, que puede considerarse como una referencia a largo plazo para las imágenes posteriores.
AVS2 puede generar el cuadro de imagen de escena GB con algunos cuadros en el video, y el cuadro GB también se puede aplicar como una referencia a largo plazo.
Para simplificar la compensación de movimiento, AVS2 adopta un filtro de interpolación de 8 toques basado en la transformación DCT , que requiere solo un filtrado y admite la generación de una precisión de vector de movimiento mayor que 1/4 de píxel.
Transformación
La codificación de transformación en AVS2 aplica principalmente la transformación DCT de números enteros , que se realiza directamente en los bloques de transformación de tamaño 4×4, 8×8, 16×16, 32x32.
Para un bloque de transformación con una dimensión mayor a 64, se adopta una transformación lógica LOT para realizar la transformación wavelet, seguida de la transformación DCT de números enteros.
Una vez lograda la transformación DCT, AVS2 realizará la segunda transformación 4 x 4 para los bloques 4 x 4 con coeficientes de baja frecuencia, reduciendo así aún más la correlación entre coeficientes y permitiendo que la energía esté más concentrada.
Codificación de entropía
La codificación de entropía AVS2 divide primero los coeficientes de transformación en CG (grupo de coeficientes) de tamaño 4 x 4 y luego realiza la codificación y el escaneo en zigzag según los CG.
La codificación de coeficientes codifica primero la posición CG que contiene el último coeficiente distinto de cero y luego codifica cada CG hasta que se completan todos los coeficientes CG, a fin de permitir que los coeficientes cero se concentren más durante el proceso de codificación.
La codificación aritmética binaria y la codificación de longitud variable bidimensional basada en el contexto todavía se aplican en el AVS2.
Filtro de bucle
Los módulos de filtro de bucle de AVS2 contienen tres partes: filtro de desbloqueo, filtro de compensación de muestra y desplazamiento de punto de muestra adaptativo.
Los bloques de filtrado del filtro de desbloqueo tienen un tamaño de 8x8 y realizan el filtrado en el borde vertical primero, seguido del borde horizontal. Se seleccionan diversos métodos de filtrado para cada borde según las diferentes intensidades de filtrado.
Después del filtro de desbloqueo, se adopta la compensación de desplazamiento de muestra adaptativa para reducir aún más la distorsión.
El AVS2 agrega un filtro adaptativo después del filtro de desbloqueo y la compensación de desplazamiento de muestra, un filtro Wiener con centrosimetría cruzada de 7 × 7 más cuadrada de 3 × 3, que aplica la imagen original sin distorsión y la imagen reconstruida de codificación para determinar el coeficiente de filtro de mínimos cuadrados y realizar el filtrado en la imagen reconstruida de decodificación, para así reducir la distorsión de compresión en la imagen de decodificación y mejorar la calidad de la imagen de referencia.
Implementaciones
uAVS3
uAVS3 es un codificador y decodificador AVS3 multiplataforma y de código abierto . El decodificador ( uAVS3d ) y el codificador ( uAVS3e ) admiten el perfil de referencia AVS3-Phase2. uAVS3d se puede compilar para Windows , Linux , macOS , iOS y Android , [12] mientras que uAVS3e solo se puede compilar para Windows y Linux . [13] uAVS3d y uAVS3e se publican bajo los términos de las licencias BSD de 3 cláusulas [12] y BSD de 4 cláusulas [13] respectivamente.
OpenAVS2 es un conjunto de software de codificación, transcodificación y decodificación de audio y vídeo basado en el estándar AVS2. [17]
xAVS2 y dAVS2
xAVS2 y dAVS2 son codificadores y decodificadores de código abierto publicados por el Laboratorio de codificación de vídeo de la Universidad de Pekín (PKU-VCL) basados en el estándar de codificación de vídeo AVS2-P2/IEEE 1857.4, que se ofrece bajo la versión 2 de la Licencia Pública General de GNU (GPL) o una licencia comercial.
^ "Youwei Vision lanza el decodificador de video en tiempo real AVS3 8K (en chino)". Tencent . 29 de mayo de 2019.
^ "Introducción a AVSA". Sitio web oficial de AVSA . Archivado desde el original el 24 de marzo de 2019. Consultado el 29 de septiembre de 2017 .
^ "Quién liderará el nuevo estándar de codificación de vídeo: un informe comparativo de rendimiento de HEVC, AVS2 y AV1". Archivado desde el original el 28 de julio de 2018. Consultado el 29 de septiembre de 2017 .
^ "El códec AVS3 se agregó a la caja de herramientas de distribución de medios de DVB". 7 de julio de 2022 . Consultado el 7 de septiembre de 2022 .
^ Elspeth Thomson, Jon Sigurdson, ed. (2008). El sector científico y tecnológico de China y las fuerzas de la globalización. World Scientific Publishing. pp. 93–95. ISBN978-981-277-101-8. Consultado el 15 de junio de 2022 .
^跳转提示. www.avs.org.cn.
^ Consejo Nacional de Investigación (7 de octubre de 2013). Patent Challenges for Standard-Setting in the Global Economy: Lessons from Information and Communications Technology [Los desafíos de las patentes para la normalización en la economía global: lecciones extraídas de la tecnología de la información y las comunicaciones]. National Academies Press. ISBN978-0-309-29315-0. Consultado el 15 de junio de 2022 .
^ Liu Baijia (6 de marzo de 2006). «Standard Issue». China Business Weekly . Consultado el 14 de junio de 2022 .
^ Xinhua (27 de agosto de 2012). «China promoverá su propio estándar de codificación de audio y video». The Manilla Times . Consultado el 15 de junio de 2022 .