Tipo de medio de Internet | vídeo/AV1, vídeo/webm |
---|---|
Desarrollado por | Alianza para los Medios Abiertos |
Lanzamiento inicial | 28 de marzo de 2018 ( 28-03-2018 ) |
Último lanzamiento | 1.0.0 Errata 1 [1] 8 de enero de 2019 ( 08-01-2019 ) |
Tipo de formato | Formato de codificación de vídeo |
Contenido por | |
Extendido desde | |
Estándar | AOM-AV1 |
¿ Formato abierto ? | Sí |
¿ Formato libre ? | Véase § Reivindicaciones de patentes |
Sitio web | aomedia.org/caracteristicas-av1/ |
AOMedia Video 1 ( AV1 ) es un formato de codificación de video abierto y libre de regalías diseñado inicialmente para transmisiones de video a través de Internet. Fue desarrollado como sucesor de VP9 por Alliance for Open Media (AOMedia), [2] un consorcio fundado en 2015 que incluye empresas de semiconductores , proveedores de video a pedido , productores de contenido de video, empresas de desarrollo de software y proveedores de navegadores web. La especificación de flujo de bits AV1 incluye un códec de video de referencia . [1] En 2018, Facebook realizó pruebas que se aproximaron a las condiciones del mundo real, y el codificador de referencia AV1 logró una compresión de datos un 34 %, 46,2 % y 50,3 % mayor que libvpx-vp9, x264 High profile y x264 Main profile respectivamente. [3]
Al igual que VP9, pero a diferencia de H.264 (AVC) y H.265 (HEVC), AV1 tiene un modelo de licencia libre de regalías que no obstaculiza su adopción en proyectos de código abierto . [4] [5] [6] [7] [2] [8]
AVIF es un formato de archivo de imagen que utiliza algoritmos de compresión AV1.
Las motivaciones de la Alianza para crear AV1 incluyeron el alto costo y la incertidumbre involucrada con la licencia de patente de HEVC , el códec diseñado para MPEG que se espera que suceda a AVC . [9] [7] Además, los siete miembros fundadores de la Alianza ( Amazon , Cisco , Google , Intel , Microsoft , Mozilla y Netflix ) anunciaron que el enfoque inicial del formato de video sería la entrega de video web de alta calidad. [10] El anuncio oficial de AV1 llegó con el comunicado de prensa sobre la formación de la Alianza para Medios Abiertos el 1 de septiembre de 2015. Solo 42 días antes, el 21 de julio de 2015, se anunció que la oferta de licencia inicial de HEVC Advance sería un aumento sobre las tarifas de regalías de su predecesor, AVC. [11] Además del aumento del costo, la complejidad del proceso de licencia aumentó con HEVC. A diferencia de los estándares MPEG anteriores, en los que la tecnología incluida en el estándar podía obtenerse bajo licencia de una única entidad, MPEG LA , cuando se terminó el estándar HEVC, se habían formado dos consorcios de patentes y se estaba preparando un tercer consorcio. Además, varios titulares de patentes se negaban a conceder licencias de patentes a través de cualquiera de los consorcios, lo que aumentaba la incertidumbre sobre las licencias de HEVC. Según Ian LeGrow, de Microsoft, una tecnología de código abierto y libre de regalías se consideraba la forma más sencilla de eliminar esta incertidumbre en torno a las licencias. [9]
El efecto negativo de las licencias de patentes sobre el software libre y de código abierto también se ha citado como una razón para la creación de AV1. [7] Por ejemplo, construir una implementación H.264 en Firefox evitaría que se distribuyera gratuitamente ya que se tendrían que pagar tarifas de licencia a MPEG-LA. [12] La Free Software Foundation Europe ha argumentado que las prácticas de licencias de patentes FRAND hacen imposible la implementación de estándares en software libre debido a varias incompatibilidades con las licencias de software libre . [8]
Muchos de los componentes del proyecto AV1 se obtuvieron de investigaciones previas de miembros de la Alianza. Los colaboradores individuales habían iniciado plataformas tecnológicas experimentales años antes: el código publicado de Daala de Xiph/Mozilla en 2010, el proyecto de evolución experimental de VP9 de Google, VP10, se anunció el 12 de septiembre de 2014 [13] y Thor de Cisco se publicó el 11 de agosto de 2015. Basándose en la base de código de VP9, AV1 incorpora técnicas adicionales, varias de las cuales se desarrollaron en estos formatos experimentales [14] .
Muchas empresas forman parte de Alliance for Open Media, incluidas Samsung , Vimeo , Microsoft, Netflix , Mozilla , AMD , Nvidia , Intel, ARM , Google, Facebook, Cisco, Amazon, Hulu , VideoLAN , Adobe y Apple . Apple es un miembro rector de AOMedia, aunque se unió después de la formación. La gestión de los flujos AV1 se ha incluido oficialmente entre los vídeos tipológicos gestionables por Coremedia. [15]
La primera versión 0.1.0 del códec de referencia AV1 se publicó el 7 de abril de 2016. Aunque a finales de octubre de 2017 entró en vigor una congelación de funciones suaves, se continuó con el desarrollo de varias funciones importantes. Se proyectó que el formato bitstream se congelaría en enero de 2018, pero se retrasó debido a errores críticos no resueltos, así como a cambios adicionales en las transformaciones, la sintaxis, la predicción de vectores de movimiento y la finalización del análisis legal. [ cita requerida ]
La Alianza anunció el lanzamiento de la especificación de flujo de bits AV1 el 28 de marzo de 2018, junto con un codificador y decodificador de referencia basado en software. [16] El 25 de junio de 2018, se lanzó una versión validada 1.0.0 de la especificación. [17]
El 8 de enero de 2019, se lanzó una versión validada 1.0.0 con Errata 1 de la especificación. Martin Smole de Bitmovin, miembro de AOM , dijo que la eficiencia computacional era el mayor desafío restante después de que se había completado la congelación del formato de flujo de bits. [18] Mientras se trabajaba en el formato, el codificador no estaba destinado al uso en producción y no se priorizaron las optimizaciones de velocidad. En consecuencia, la versión inicial de AV1 era órdenes de magnitud más lenta que los codificadores HEVC existentes. Gran parte del esfuerzo de desarrollo se trasladó en consecuencia a la maduración del codificador de referencia. En marzo de 2019, se informó que la velocidad del codificador de referencia había mejorado considerablemente y dentro del mismo orden de magnitud que los codificadores para otros formatos comunes. [19]
El 21 de enero de 2021, el tipo MIME de AV1 se definió como video/AV1
. El uso de AV1 con este tipo MIME está restringido únicamente a los fines del Protocolo de transporte en tiempo real . [20]
AV1 tiene como objetivo ser un formato de vídeo para la web que sea a la vez de última generación y libre de regalías . [2] Según Matt Frost, jefe de estrategia y asociaciones en el equipo Chrome Media de Google, "La misión de la Alliance for Open Media sigue siendo la misma que la del proyecto WebM ". [21] Una preocupación recurrente en el desarrollo de estándares, no menos importante de los formatos multimedia libres de regalías, es el peligro de infringir accidentalmente patentes que sus creadores y usuarios no conocían. Esta preocupación se ha planteado con respecto a AV1, [22] y anteriormente VP8 , [23] VP9, [24] Theora [25] e IVC . [26] El problema no es exclusivo de los formatos libres de regalías, pero amenaza de forma única su condición de libres de regalías.
Licencia de patentes | Perfil base AV1, VP9 , Theora y MPEG-5 | Perfil principal VVC , HEVC , AVC , MPEG-5 | GIF , MP3 , MPEG-1 , MPEG-2 , MPEG-4 Parte 2 |
---|---|---|---|
Por titulares de patentes conocidos | Libre de regalías | Realeza portadora | Las patentes expiraron |
Por titulares de patentes desconocidos | Es imposible determinarlo hasta que el formato sea lo suficientemente antiguo como para que las patentes hayan expirado (al menos 20 años en los países de la OMC ). |
Para cumplir con el objetivo de no pagar regalías, el proceso de desarrollo requiere que no se pueda adoptar ninguna característica antes de que dos partes independientes confirmen de forma independiente que no infringen las patentes de empresas competidoras. En los casos en que no se dispone de una alternativa a una técnica protegida por patente, se ha invitado a los propietarios de las patentes pertinentes a unirse a la Alianza (incluso si ya eran miembros de otro consorcio de patentes). Por ejemplo, los miembros de la Alianza Apple, Cisco, Google y Microsoft también son licenciatarios del consorcio de patentes de MPEG-LA para H.264. [22] Como protección adicional para el estado libre de regalías de AV1, la Alianza tiene un fondo de defensa legal para ayudar a los miembros más pequeños de la Alianza o a los licenciatarios de AV1 en caso de que sean demandados por supuesta infracción de patentes. [22] [6] [27]
Según las normas de patentes adoptadas por el Consorcio World Wide Web (W3C), los contribuyentes de tecnología otorgan licencias de sus patentes relacionadas con AV1 a cualquier persona, en cualquier lugar y en cualquier momento, en base a la reciprocidad (es decir, siempre que el usuario no participe en litigios de patentes). [28] Como condición defensiva, cualquiera que participe en litigios de patentes pierde el derecho a las patentes de todos los titulares de patentes. [ cita requerida ] [29]
Este tratamiento de los derechos de propiedad intelectual (DPI) y su absoluta prioridad durante el desarrollo es contrario a los formatos MPEG existentes, como AVC y HEVC. Estos fueron desarrollados bajo una política de no participación en los DPI por parte de sus organizaciones de normalización, tal como se estipula en la definición de estándar abierto de la UIT-T . Sin embargo, el presidente de MPEG ha argumentado que esta práctica tiene que cambiar, [30] y así es: [ cita requerida ] EVC también tendrá un subconjunto libre de regalías, [31] [32] y tendrá características conmutables en su flujo de bits para defenderse contra futuras amenazas a los DPI. [ cita requerida ]
La creación de estándares web libres de regalías ha sido una búsqueda de larga data para la industria. En 2007, la propuesta para el video HTML especificó que Theora era de implementación obligatoria. La razón era que el contenido público debería codificarse en formatos libremente implementables, aunque fuera solo como un "formato de referencia", y que cambiar dicho formato de referencia más adelante sería difícil debido a los efectos de red. [33]
La Alianza para los Medios Abiertos es una continuación de los esfuerzos de Google con el proyecto WebM, que renovó la competencia libre de regalías después de que Theora fuera superada por AVC. Para empresas como Mozilla que distribuyen software libre, AVC puede ser difícil de apoyar ya que una regalía por copia es insostenible dada la falta de un flujo de ingresos para respaldar estos pagos en el software libre (véase FRAND § Exclusión de la distribución sin costo ). [4] De manera similar, HEVC no ha logrado convencer a todos los licenciantes de permitir una excepción para el software distribuido libremente (véase HEVC § Disposición para software sin costo ).
Los objetivos de rendimiento incluyen "un paso adelante respecto de VP9 y HEVC" en eficiencia con un pequeño aumento en la complejidad . El objetivo de eficiencia de NETVC es una mejora del 25 % respecto de HEVC. [34] La principal preocupación en cuanto a complejidad es la decodificación de software, ya que el soporte de hardware tardará en llegar a los usuarios. Sin embargo, para WebRTC , el rendimiento de la codificación en vivo también es relevante, lo cual es la agenda de Cisco: Cisco es un fabricante de equipos de videoconferencia y sus contribuciones a Thor apuntan a una "compresión razonable con una complejidad moderada". [35]
En cuanto a sus características, AV1 está diseñado específicamente para aplicaciones en tiempo real (especialmente WebRTC) y resoluciones más altas ( gamas de color más amplias , velocidades de cuadro más altas , UHD ) que los escenarios de uso típicos de la generación actual (H.264) de formatos de video, donde se espera que logre sus mayores ganancias de eficiencia. Por lo tanto, está previsto que admita el espacio de color de la Recomendación ITU-R BT.2020 y hasta 12 bits de precisión por componente de color. [36] AV1 está destinado principalmente a la codificación con pérdida , aunque también admite la compresión sin pérdida . [37]
AV1 es un formato tradicional de transformación de frecuencia basado en bloques que incorpora nuevas técnicas. Basado en el VP9 de Google, [38] AV1 incorpora técnicas adicionales que principalmente brindan a los codificadores más opciones de codificación para permitir una mejor adaptación a diferentes tipos de entrada.
Desarrollador(es) | Alianza para los Medios Abiertos |
---|---|
Versión estable | 3.9.1 [39] / 5 de junio de 2024 ( 05/06/2024 ) |
Escrito en | C , montaje |
Licencia | Licencia BSD de 2 cláusulas ( software libre ) |
Sitio web | aomedia.googlesource.com/aom |
La Alianza publicó una implementación de referencia escrita en C y lenguaje ensamblador ( aomenc
, aomdec
) como software libre bajo los términos de la Licencia BSD de 2 Cláusulas . [40] El desarrollo se realiza en público y está abierto a contribuciones, independientemente de la membresía de AOM. El proceso de desarrollo fue tal que se agregaron herramientas de codificación a la base de código de referencia como experimentos , controlados por indicadores que los habilitan o deshabilitan en el momento de la compilación, para su revisión por otros miembros del grupo, así como equipos especializados que ayudaron y garantizaron la compatibilidad con el hardware y el cumplimiento de los derechos de propiedad intelectual (TAPAS). Cuando la característica ganó algo de apoyo en la comunidad, el experimento se habilitó de forma predeterminada y, en última instancia, se eliminó su indicador cuando se aprobaron todas las revisiones. [41] Los nombres de los experimentos se escribieron en minúsculas en el script de configuración y en mayúsculas en los indicadores de compilación condicional . [ cita requerida ]
Para soportar mejor y de manera más confiable HDR y espacios de color, ahora se pueden integrar los metadatos correspondientes en el flujo de bits de video en lugar de señalizarse en el contenedor.
El contenido del marco se divide en bloques adyacentes del mismo tamaño, denominados superbloques. De forma similar al concepto de macrobloque , los superbloques tienen forma cuadrada y pueden tener un tamaño de 128×128 o 64×64 píxeles. Los superbloques se pueden dividir en bloques más pequeños según diferentes patrones de partición. El patrón de división en cuatro direcciones es el único patrón cuyas particiones se pueden subdividir de forma recursiva. Esto permite dividir los superbloques en particiones tan pequeñas como 4×4 píxeles.
Se introducen patrones de partición en "forma de T", una característica desarrollada para VP10, así como divisiones horizontales o verticales en cuatro franjas con una relación de aspecto de 4:1 y 1:4. Los patrones de partición disponibles varían según el tamaño del bloque; los bloques de 128×128 y 8×8 no pueden utilizar divisiones de 4:1 y 1:4. Además, los bloques de 8×8 no pueden utilizar divisiones en forma de T.
Ahora se pueden usar dos predicciones separadas en partes espacialmente diferentes de un bloque utilizando una línea de transición oblicua suave ( predicción con partición en cuña ). [ cita requerida ] Esto permite una separación más precisa de los objetos sin las tradicionales líneas de escalera a lo largo de los límites de los bloques cuadrados.
Es posible un mayor paralelismo del codificador gracias a la dependencia de predicción configurable entre filas de mosaicos ( ext_tile
). [42]
AV1 realiza un procesamiento interno con mayor precisión (10 o 12 bits por muestra), lo que conduce a una mejora de la calidad al reducir los errores de redondeo.
Las predicciones se pueden combinar de formas más avanzadas (que un promedio uniforme) en un bloque ( predicción compuesta ), incluyendo gradientes de transición suaves y nítidos en diferentes direcciones ( predicción con particiones en cuña ), así como máscaras implícitas que se basan en la diferencia entre los dos predictores. Esto permite la combinación de dos predicciones inter o una predicción inter y una intra para ser utilizadas en el mismo bloque. [43] [ cita requerida ]
Un marco puede hacer referencia a 6 en lugar de 3 de los 8 buffers de marco disponibles para la predicción (inter) temporal, al tiempo que proporciona más flexibilidad en la bipredicción [44] ( ext_refs
[ cita requerida ] ).
Las herramientas Warped Motion ( warped_motion
) [42] y Global Motion ( global_motion
[ cita requerida ] ) en AV1 tienen como objetivo reducir la información redundante en los vectores de movimiento al reconocer patrones que surgen del movimiento de la cámara. [42] Implementan ideas que se intentaron en formatos anteriores como, por ejemplo, MPEG-4 ASP, aunque con un enfoque novedoso que funciona en tres dimensiones. Puede haber un conjunto de parámetros de deformación para un cuadro completo ofrecido en el flujo de bits, o los bloques pueden usar un conjunto de parámetros locales implícitos que se calculan en función de los bloques circundantes.
Los cuadros de conmutación (S-frame) son un nuevo tipo de inter-cuadros que se pueden predecir usando cuadros de referencia ya decodificados de una versión de mayor resolución del mismo video para permitir cambiar a una resolución más baja sin la necesidad de un cuadro clave completo al comienzo de un segmento de video en el caso de uso de transmisión de tasa de bits adaptativa . [45]
La predicción intra consiste en predecir los píxeles de bloques determinados utilizando únicamente la información disponible en el cuadro actual. La mayoría de las veces, las predicciones intra se construyen a partir de los píxeles vecinos que se encuentran por encima y a la izquierda del bloque predicho. El predictor DC construye una predicción promediando los píxeles que se encuentran por encima y a la izquierda del bloque.
Los predictores direccionales extrapolan estos píxeles vecinos según un ángulo especificado. En AV1, se pueden elegir 8 modos direccionales principales. Estos modos comienzan en un ángulo de 45 grados y aumentan en un tamaño de paso de 22,5 grados hasta 203 grados. Además, para cada modo direccional, se pueden señalar seis desplazamientos de 3 grados para bloques más grandes, tres por encima del ángulo principal y tres por debajo de él, lo que da como resultado un total de 56 ángulos ( ext_intra
).
El predictor "TrueMotion" fue reemplazado por un predictor Paeth que observa la diferencia entre el píxel conocido en la esquina superior izquierda y el píxel directamente encima y directamente a la izquierda del nuevo y luego elige el que se encuentra en la dirección del gradiente más pequeño como predictor. Un predictor de paleta está disponible para bloques con hasta 8 colores dominantes, como algunos contenidos de la pantalla de la computadora. Las correlaciones entre la luminosidad y la información de color ahora se pueden explotar con un predictor para bloques de croma que se basa en muestras del plano de luminancia ( cfl
). [42] Para reducir los límites visibles a lo largo de los bordes de los bloques interpredichos, se puede utilizar una técnica llamada compensación de movimiento de bloque superpuesto (OBMC). Esto implica extender el tamaño de un bloque para que se superponga con los bloques vecinos de 2 a 32 píxeles y mezclar las partes superpuestas. [46]
Para transformar el error restante después de la predicción al dominio de frecuencia, los codificadores AV1 pueden usar DCT cuadradas, rectangulares 2:1/1:2 y 4:1/1:4 ( rect_tx
), [44] así como una DST asimétrica [47] [48] [49] para bloques donde se espera que el borde superior y/o izquierdo tenga un error menor gracias a la predicción de los píxeles cercanos, o elegir no realizar ninguna transformación (transformación de identidad).
Puede combinar dos transformaciones unidimensionales para utilizar transformaciones diferentes para la dimensión horizontal y vertical ( ext_tx
). [42] [44]
AV1 tiene nuevas matrices de cuantificación optimizadas ( aom_qm
). [50] Los ocho conjuntos de parámetros de cuantificación que se pueden seleccionar y señalar para cada cuadro ahora tienen parámetros individuales para los dos planos de croma y pueden usar predicción espacial. En cada nuevo superbloque, los parámetros de cuantificación se pueden ajustar señalando un desplazamiento.
El filtrado en bucle combina el filtro de paso bajo restringido de Thor y el filtro de eliminación de ruido direccional de Daala en el filtro de mejora direccional restringido . cdef
Este es un filtro de reemplazo condicional dirigido por el borde que suaviza los bloques aproximadamente a lo largo de la dirección del borde dominante para eliminar los artefactos de ruido . [51]
También existe el filtro de restauración de bucle ( loop_restoration
) basado en el filtro de Wiener y filtros de restauración autoguiados para eliminar artefactos de desenfoque debido al procesamiento de bloques. [42]
La síntesis de grano de película (film_grain
) mejora la codificación de señales ruidosas mediante un enfoque de codificación de video paramétrico. Debido a la aleatoriedad inherente al ruido de grano de película, este componente de señal es tradicionalmente muy costoso de codificar o propenso a dañarse o perderse, posiblemente dejando artefactos de codificación graves como residuo. Esta herramienta evita estos problemas mediante análisis y síntesis, reemplazando partes de la señal con una textura sintética visualmente similar basada únicamente en la impresión visual subjetiva en lugar de la similitud objetiva. Elimina el componente de grano de la señal, analiza sus características no aleatorias y, en su lugar, transmite solo parámetros descriptivos al decodificador, que agrega nuevamente una señal de ruido sintética y pseudoaleatoria que tiene la forma del componente original. Es el equivalente visual de la técnica de sustitución de ruido perceptual utilizada en los códecs de audio AC3, AAC, Vorbis y Opus.
El codificador de entropía de Daala ( daala_ec
[ cita requerida ] ), un codificador aritmético no binario , fue seleccionado para reemplazar al codificador de entropía binario de VP9. El uso de codificación aritmética no binaria ayuda a evadir patentes pero también agrega paralelismo a nivel de bit a un proceso que de otro modo sería serial, reduciendo las demandas de velocidad de reloj en las implementaciones de hardware. [ cita requerida ] Esto quiere decir que la efectividad de la codificación aritmética binaria moderna como CABAC se está abordando usando un alfabeto mayor que el binario, por lo tanto mayor velocidad, como en el código de Huffman (pero no tan simple y rápido como el código de Huffman). AV1 también ganó la capacidad de adaptar las probabilidades de símbolo en el codificador aritmético por símbolo codificado en lugar de por cuadro ( ec_adapt
). [42]
AV1 tiene disposiciones para escalabilidad temporal y espacial. [52]
Una primera comparación de principios de junio de 2016 [53] encontró que AV1 estaba aproximadamente a la par con HEVC, al igual que otra que utilizó código de fines de enero de 2017. [54]
En abril de 2017, utilizando las 8 funciones experimentales habilitadas en ese momento (de un total de 77), Bitmovin pudo demostrar métricas objetivas favorables , así como resultados visuales, en comparación con HEVC en los cortometrajes Sintel y Tears of Steel . [55] Una comparación de seguimiento realizada por Jan Ozer de Streaming Media Magazine confirmó esto y concluyó que "AV1 es al menos tan bueno como HEVC ahora". [56] Ozer señaló que sus resultados y los de Bitmovin contradecían una comparación realizada por el Instituto Fraunhofer de Telecomunicaciones de finales de 2016 [57] que había encontrado que AV1 era un 65,7 % menos eficiente que HEVC, con un rendimiento inferior incluso al de H.264/AVC, que concluyeron que era un 10,5 % más eficiente. Ozer justificó esta discrepancia al haber utilizado parámetros de codificación avalados por cada proveedor de codificadores, además de tener más funciones en el codificador AV1 más nuevo. [57] El rendimiento de decodificación fue aproximadamente la mitad de la velocidad de VP9 según mediciones internas de 2017. [45]
Las pruebas de Netflix en 2017, basadas en mediciones con PSNR y VMAF a 720p, mostraron que AV1 era aproximadamente un 25 % más eficiente que VP9 (libvpx). [58] Las pruebas de Facebook realizadas en 2018, basadas en PSNR , mostraron que el codificador de referencia AV1 pudo lograr una compresión de datos un 34 %, 46,2 % y 50,3 % mayor que libvpx-vp9, x264 High profile y x264 Main profile respectivamente. [59] [3]
Las pruebas de la Universidad Estatal de Moscú en 2017 descubrieron que VP9 requería un 31% y HEVC un 22% más de tasa de bits que AV1 para lograr niveles similares de calidad. [60] El codificador AV1 funcionaba a una velocidad "2500–3500 veces menor que la de los competidores" debido a la falta de optimización (que no estaba disponible en ese momento). [61] Las pruebas de la Universidad de Waterloo en 2020 descubrieron que al usar una puntuación de opinión media (MOS) para un video de 2160p (4K), AV1 tenía un ahorro de tasa de bits del 9,5% en comparación con HEVC y del 16,4% en comparación con VP9. También concluyeron que en el momento del estudio a 2160p, la codificación de video AV1 tomó en promedio 590 veces más tiempo en comparación con la codificación con AVC; mientras que HEVC tomó en promedio 4,2 veces más y VP9 tomó en promedio 5,2 veces más que AVC respectivamente. [62] [63]
La última comparación de codificadores realizada por Streaming Media Magazine en septiembre de 2020, que utilizó velocidades de codificación moderadas, VMAF y un conjunto diverso de clips cortos, indicó que los codificadores de código abierto libaom y SVT-AV1 tardaron aproximadamente el doble de tiempo en codificar que x265 en su configuración predeterminada "muy lenta" mientras usaban entre un 15 y un 20 % menos de tasa de bits, o aproximadamente un 45 % menos de tasa de bits que x264 veryslow . El mejor codificador AV1 de la prueba, Aurora1 de Visionular, en su configuración predeterminada "más lenta", fue tan rápido como x265 veryslow mientras ahorraba un 50 % de tasa de bits en comparación con x264 veryslow . [64]
CapFrameX probó el rendimiento de las GPU con decodificación AV1. [65] El 5 de octubre de 2022, Cloudflare anunció que tiene un reproductor beta. [66]
AV1 define tres perfiles para decodificadores: Main, High y Professional. El perfil Main permite una profundidad de bits de 8 o 10 bits por muestra con muestreo de croma 4:0:0 (escala de grises) y 4:2:0 (cuarto) . El perfil High agrega además compatibilidad con muestreo de croma 4:4:4 (sin submuestreo). El perfil Professional amplía las capacidades con compatibilidad total con submuestreo de croma 4:0:0, 4:2:0, 4:2:2 (mitad) y 4:4:4 con profundidades de color de 8, 10 y 12 bits. [16]
Principal (0) | Alto (1) | Profesional (2) | ||
---|---|---|---|---|
Profundidad de bits | 8 o 10 | 8 o 10 | 8, 10 y 12 | |
Submuestreo de croma | 4:0:0 | Sí | Sí | Sí |
4:2:0 | Sí | Sí | Sí | |
4:2:2 | No | No | Sí | |
4:4:4 | No | Sí | Sí |
Esta sección puede ser demasiado técnica para que la mayoría de los lectores la comprendan . ( Septiembre de 2023 ) |
AV1 define niveles para decodificadores con variables máximas para niveles que van desde 2.0 a 6.3. [67] Los niveles que se pueden implementar dependen de la capacidad del hardware.
Las resoluciones de ejemplo serían 426×240 a 30 fps para el nivel 2.0, 854×480 a 30 fps para el nivel 3.0, 1920×1080 a 30 fps para el nivel 4.0, 3840×2160 a 60 fps para el nivel 5.1, 3840×2160 a 120 fps para el nivel 5.2 y 7680×4320 a 120 fps para el nivel 6.2. El nivel 7 aún no se ha definido. [68]
idx de nivel de secuencia | Nivel | MaxPicSize (muestras) | MaxHSize (muestras) | MaxVSize (muestras) | Frecuencia de visualización máxima (Hz) | Velocidad máxima de decodificación (Hz) | Frecuencia máxima de encabezado (Hz) | Mbps principal (Mbit/s) | Alta velocidad de Mbps (Mbit/s) | Base de compensación mínima | Máximo de mosaicos | Colecciones de mosaicos máx. | Ejemplo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 2.0 | 147456 | 2048 | 1152 | 4.423.680 | 5.529.600 | 150 | 1.5 | - | 2 | 8 | 4 | 426×240 a 30 fps |
1 | 2.1 | 278784 | 2816 | 1584 | 8.363.520 | 10.454.400 | 150 | 3.0 | - | 2 | 8 | 4 | 640×360 a 30 fps |
4 | 3.0 | 665856 | 4352 | 2448 | 19.975.680 | 24.969.600 | 150 | 6.0 | - | 2 | 16 | 6 | 854×480 a 30 fps |
5 | 3.1 | 1065024 | 5504 | 3096 | 31.950.720 | 39.938.400 | 150 | 10.0 | - | 2 | 16 | 6 | 1280×720 a 30 fps |
8 | 4.0 | 2359296 | 6144 | 3456 | 70.778.880 | 77.856.768 | 300 | 12.0 | 30.0 | 4 | 32 | 8 | 1920×1080 a 30 fps |
9 | 4.1 | 2359296 | 6144 | 3456 | 141.557.760 | 155.713.536 | 300 | 20.0 | 50.0 | 4 | 32 | 8 | 1920×1080 a 60 fps |
12 | 5.0 | 8912896 | 8192 | 4352 | 267.386.880 | 273.715.200 | 300 | 30.0 | 100.0 | 6 | 64 | 8 | 3840×2160 a 30 fps |
13 | 5.1 | 8912896 | 8192 | 4352 | 534.773.760 | 547.430.400 | 300 | 40.0 | 160.0 | 8 | 64 | 8 | 3840×2160 a 60 fps |
14 | 5.2 | 8912896 | 8192 | 4352 | 1.069.547.520 | 1.094.860.800 | 300 | 60.0 | 240.0 | 8 | 64 | 8 | 3840×2160 a 120 fps |
15 | 5.3 | 8912896 | 8192 | 4352 | 1.069.547.520 | 1.176.502.272 | 300 | 60.0 | 240.0 | 8 | 64 | 8 | 3840×2160 a 120 fps |
16 | 6.0 | 35651584 | 16384 | 8704 | 1.069.547.520 | 1.176.502.272 | 300 | 60.0 | 240.0 | 8 | 128 | 16 | 7680×4320 a 30 fps |
17 | 6.1 | 35651584 | 16384 | 8704 | 2.139.095.040 | 2.189.721.600 | 300 | 100.0 | 480.0 | 8 | 128 | 16 | 7680×4320 a 60 fps |
18 | 6.2 | 35651584 | 16384 | 8704 | 4.278.190.080 | 4.379.443.200 | 300 | 160.0 | 800.0 | 8 | 128 | 16 | 7680×4320 a 120 fps |
19 | 6.3 | 35651584 | 16384 | 8704 | 4.278.190.080 | 4.706.009.088 | 300 | 160.0 | 800.0 | 8 | 128 | 16 | 7680×4320 a 120 fps |
Estandarizado:
Normas inacabadas:
No estandarizado:
El video AV1 generalmente viene acompañado de audio AAC u Opus en un contenedor de formato de archivo multimedia base ISO ( MP4 ).
En octubre de 2016, Netflix declaró que esperaba ser uno de los primeros en adoptar AV1. [79] El 5 de febrero de 2020, Netflix comenzó a usar AV1 para transmitir títulos seleccionados en Android , lo que proporciona una eficiencia de compresión un 20% mejorada con respecto a sus transmisiones VP9. [80] El 9 de noviembre de 2021, Netflix anunció que había comenzado a transmitir contenido AV1 a varios televisores con decodificadores AV1, así como a la PlayStation 4 Pro . [81]
En 2018, YouTube comenzó a implementar AV1, comenzando con su lista de reproducción de lanzamiento de AV1 Beta. Según la descripción, los videos están (para empezar) codificados a una alta tasa de bits para probar el rendimiento de la decodificación, y YouTube tiene "metas ambiciosas" para implementar AV1. YouTube para Android TV admite la reproducción de videos codificados en AV1 en plataformas compatibles a partir de la versión 2.10.13, lanzada a principios de 2020. [82] En 2020, YouTube comenzó a ofrecer videos con una resolución de 8K en AV1. [83]
En febrero de 2019, Facebook siguió sus propios resultados positivos de las pruebas, diciendo que implementaría gradualmente el códec AV1 tan pronto como surgiera el soporte del navegador, comenzando con sus videos más populares. [59] También en 2022, su empresa matriz Meta expresó interés en SVT-AV1 mientras que, mientras tanto, el ingeniero de Google Matt Frost habló al final del canal Intel de YouTube que tenía la intención de realizar una primera prueba en 2023, [84] cuando se introducirá y se generalizará la aceleración de hardware, pero en el último video de mayo de Streaming Media se desconocía el estado y no se expresaron declaraciones de AOMedia. [85] Se anunció MSVP (Meta Scalable Video Processor) [86] y el simposio se publicó en un popular sitio web de investigación científica el 15 de octubre de 2022.
El 4 de noviembre de 2022, se anunció el códec AV1 con el artículo del blog de tecnología Meta y con Mark Zuckerberg en Instagram Reels , que muestra el códec AV1 en comparación con H.264/MPEG-4 AVC. Citando "Nuestro equipo de ingeniería de Instagram desarrolló una forma de mejorar drásticamente la calidad del video. Hicimos que el procesamiento básico de videos fuera un 94% más rápido". [87] [88] Android tiene una reproducción nativa preliminar de AV1. [89] [90]
En junio de 2019, los videos de Vimeo en el canal "Staff picks" estaban disponibles en AV1 y Opus. [91] Vimeo está utilizando y contribuyendo al codificador Rav1e de Mozilla y espera, con más mejoras del codificador, eventualmente brindar soporte AV1 para todos los videos cargados en Vimeo, así como también para la oferta "Live" de la compañía. [91]
El 30 de abril de 2020, iQIYI anunció el soporte para AV1 para usuarios de navegadores web de PC y dispositivos Android, según el anuncio, como el primer sitio de transmisión de video chino en adoptar el códec. [92]
Twitch implementó AV1 para su contenido más popular en 2022 o 2023, [93] y se proyecta que el soporte universal llegará en 2024 o 2025. [94] [95]
En abril de 2021, Roku eliminó la aplicación YouTube TV de la plataforma de streaming Roku después de que expirara un contrato. Más tarde se informó que los dispositivos de streaming Roku no utilizan procesadores que admitan el códec AV1. En diciembre de 2021, YouTube y Roku acordaron un acuerdo de varios años para mantener tanto la aplicación YouTube TV como la aplicación YouTube en la plataforma de streaming Roku. Roku había argumentado que el uso de procesadores en sus dispositivos de streaming que admitan el códec AV1 libre de regalías aumentaría los costos para los consumidores. [96] [97]
En enero de 2022, Bilibili implementó la codificación H.265 HEVC y AV1 para videos con un alto número de visualizaciones, mientras que los videos con un menor número de visualizaciones solo están disponibles en H.264 AVC. [98]
En julio de 2024, DMM.com implementó AV1 en su servicio DMM.TV, convirtiéndose en la primera empresa japonesa en hacerlo. [99]
Otros proveedores habían anunciado codificadores, incluidos EVE para AV1, [113] NGCodec, [114] Socionext, [115] Aurora [116] y MilliCast. [117]
Esta sección se lee como un directorio . ( Enero de 2024 ) |
Navegadores web:
Reproductores de vídeo:
Front-end del codificador:
Editores de vídeo:
Otros:
Microsoft Windows | macOS | BSD / Linux | Sistema operativo Chrome | Androide | iOS | |
---|---|---|---|---|---|---|
Compatibilidad con códecs | Sí | Sí | Sí | Sí | Sí | Sí |
Soporte de contenedores |
|
|
|
|
| |
Notas |
|
| Admite decodificación a partir de ChromeOS 70 | Compatible desde Android 10 [146] [147] [148] |
|
Esta sección se lee como un directorio . ( Enero de 2024 ) |
Compañía | Producto | Descodificar | Codificar | Perfil | Rendimiento (núcleo único) [ aclaración necesaria ] | Rendimiento (máximo) [ aclaración necesaria ] | Árbitro |
---|---|---|---|---|---|---|---|
AMD | RDNA 2 (excluyendo Navi 24) | Principal (0) | 8K30 de 10 bits | [149] [150] [151] [152] | |||
ADNr 3 | 8K60 (codificación de 10 bits, decodificación de 12 bits) | [153] [154] | |||||
ADNr 3.5 | 4K60 | ||||||
Alveo MA35D | [155] [156] | ||||||
Amlogic | S905X4 | 4K120 | 8K | [157] | |||
S908X | 8K60 | ||||||
S805X2 | 1080p | ||||||
Manzana | A17 Pro | 4K60 | [158] | ||||
A18 / A18 Pro | |||||||
Serie M3 | |||||||
Serie M4 | |||||||
Broadcom | BCM7218X | 4K | [159] | ||||
Chips y medios | ONDA510A ONDA627 [160] | Principal (0) | 4K60 | 4K120 | [161] | ||
Tensor original / G2 | 4K60 | [162] | |||||
Tensor G3 | 4K60 | [163] | |||||
Intel | Xe | Principal (0) | 8K 10 bits [164] | [165] [166] [150] [167] | |||
Xe2 | 8K de 10 bits | 8K de 10 bits | |||||
Arco | 8K60 | [168] [169] | |||||
Serie Flex de GPU para centros de datos | [170] [171] | ||||||
MediaTek | Serie Dimension 1000 | 4K60 | 4K60 | [172] [173] [174] [175] | |||
Serie Dimension 8000 | [176] | ||||||
Serie Dimension 9000 | 8K30 | [177] [178] | |||||
Serie MT96XX | 4K60 de 10 bits | 4K60 de 10 bits | [179] | ||||
MT9950 | 8K30 | [180] | |||||
Serie pentónica | |||||||
NETINT | Quadra T1 (1x ASIC Codensity G5) | 4 transmisiones 4K60 de 10 bits | 4 transmisiones 4K60 de 10 bits | [181] [182] | |||
Quadra T2 (2 ASIC Codensity G5) | 4 transmisiones 4K60 de 10 bits | 8 transmisiones 4K60 de 10 bits | [181] [182] | ||||
Quadra T4 (4 ASIC Codensity G5) | 4 transmisiones 4K60 de 10 bits | 16 transmisiones 4K60 de 10 bits | [181] [182] | ||||
Nvidia | GeForce30 | Principal (0) | 8K60 de 10 bits | [183] [150] [184] | |||
GeForce 40 | Principal (0) | 8K60 de 10 bits | 2x 8K60 de 10 bits | [185] [186] [187] [188] | |||
Qualcomm | Snapdragon 8 de segunda generación | 8K60 | [189] | ||||
Snapdragon 8/8s de 3.ª generación | |||||||
Snapdragon X Plus/Elite | Principal (0) | 4K120 de 10 bits | [190] | ||||
Realtek | RTD1311 | 4K | [191] | ||||
RTD2893 | 8K | [192] [193] | |||||
Chip de roca | RK3588 | 4K60 de 10 bits | [194] | ||||
Samsung | Serie Exynos 2000 | 8K30 | [195] [196] |
A principios de 2019, Sisvel, una empresa con sede en Luxemburgo, afirmó estar formando un fondo de patentes esenciales para AV1. [197] Este desarrollo no ha hecho que Google reevalúe su uso planificado de AV1 [198] y la Alliance for Open Media ha declarado que sigue confiando en que AV1 todavía supera el entorno de "elevados requisitos de regalías de patentes e incertidumbre en las licencias". [199] Sisvel comenzó a vender licencias al fondo, que contiene patentes de Philips , GE , NTT , Ericsson , Dolby y Toshiba en 2020. [200] Unified Patents ha estado rastreando los desafíos a varias patentes en el fondo. [201]
El 7 de julio de 2022, se reveló que los reguladores antimonopolio de la Unión Europea habían abierto una investigación sobre AOM y su política de licencias. Se dijo que esta acción podría estar restringiendo la capacidad de los innovadores para competir con la especificación técnica AV1 y también eliminar los incentivos para que innoven. [202]
La Comisión tiene información de que AOM y sus miembros pueden estar imponiendo condiciones de licencia (licencia cruzada obligatoria libre de regalías) a innovadores que no formaban parte de AOM en el momento de la creación de la tecnología AV1, pero cuyas patentes se consideran esenciales para (sus) especificaciones técnicas.
El 23 de mayo de 2023, la Comisión Europea decidió cerrar la investigación sin tomar ninguna otra medida, pero en un correo electrónico reiteró que el cierre no constituye una constatación de cumplimiento o incumplimiento de las leyes antimonopolio de la UE. [203]
En octubre de 2023, el operador de consorcio de patentes Avanci anunció el inicio de un nuevo programa de licencias dirigido a los operadores de transmisión de video que utilizan AV1 además de H.265, H.266, VP9, etc. [204]
El formato de archivo de imagen AV1 (AVIF) es una especificación de formato de archivo de imagen para almacenar imágenes fijas o secuencias de imágenes comprimidas con AV1 en el formato de archivo HEIF . [205] Compite con HEIC, que utiliza el mismo formato contenedor , basado en ISOBMFF , pero HEVC para la compresión.
Si no fuera por la generosidad de Cisco, Mozilla estaría pagando tarifas de licencia estimadas en 9,75 millones de dólares al año.
Como el software libre le da a cada usuario la libertad de redistribuir el software por sí mismo, llevar un registro y cobrar regalías en función de las copias distribuidas también es, en la práctica, imposible.
Debido a que las implementaciones de H.264 están sujetas a una licencia de patente con regalías y Mozilla es un proyecto de código abierto, no podemos distribuir H.264 en Firefox directamente. Queremos que cualquiera pueda distribuir Firefox sin pagar la tarifa MPEG LA.
dos pistas en MPEG: una pista que produce estándares libres de regalías (Opción 1, en lenguaje ISO) y la otra los estándares tradicionales Fair Reasonable and Non Discriminatory (FRAND) (Opción 2, en lenguaje ISO). (…) El estándar Internet Video Coding (IVC) fue una implementación exitosa de la idea (…). Desafortunadamente, 3 empresas hicieron declaraciones en blanco de la Opción 2 (del tipo "Puedo tener patentes y estoy dispuesto a licenciarlas en términos FRAND"), una posibilidad que ISO permite. MPEG no tenía medios para eliminar las tecnologías infractoras reclamadas, si las había, y la IVC está prácticamente muerta.
¿Cómo pudo MPEG lograr esto? Gracias a su "modelo de negocio" que se puede describir simplemente como: producir estándares que tengan como objetivo el mejor desempeño, independientemente de los derechos de propiedad intelectual involucrados.
El problema con Flash es que no es un estándar abierto. Es un formato propietario, no ha sido documentado y probablemente requiera el pago de licencias si vas a (…) escribir software para él (…) La comunidad web siempre se ha basado en estándares abiertos. Esto ha sido sobre lo que se fundó la web, donde comenzó HTML. Es por eso que desarrollamos el formato de imagen PNG: queríamos un estándar abierto de libre implementación para albergar el contenido que publicamos. Nuestro contenido es demasiado valioso para ponerlo en un formato cerrado. Esto se remonta a SGML, en el que el mantra era "sea dueño de sus datos". (…) Si miramos los estándares abiertos para vídeo hoy en día (…), hay uno que creo que es el correcto, y se llama Ogg Theora.
¿Qué puede añadir Thor a VP9/AV1? Dado que Thor apunta a una compresión razonable con una complejidad moderada, consideramos las características de Thor que podrían aumentar la eficiencia de compresión de VP9 y/o reducir la complejidad computacional.
... Una vez disponible, YouTube espera realizar la transición a AV1 lo más rápido posible, en particular para configuraciones de video como UHD, HDR y videos de alta velocidad de cuadros ... Con base en su experiencia con la implementación de VP9, YouTube estima que podrían comenzar a enviar transmisiones AV1 dentro de los seis meses posteriores a que se finalice el flujo de bits. ...
{{cite web}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )El resultado más intrigante obtenido después del análisis de los datos radica en el hecho de que el códec AV1 desarrollado actualmente es igual en rendimiento a HEVC. Los flujos dados están codificados con la actualización de AV1 del 31 de enero de 2017.
Si bien 2018 fue el año en que AV1 se hizo conocido, 2020 será el año en que AV1 se volvió interesante, principalmente debido a tres desarrollos. Primero, a principios de 2020, los televisores inteligentes habilitados para AV1 llegaron al mercado, justo en el cronograma de 2 años anunciado en 2018 por Alliance for Open Media (AOMedia). En segundo lugar, en los últimos dos años, los tiempos de codificación para el códec AOMedia AV1 han disminuido de aproximadamente 2500x en tiempo real a aproximadamente 2x más lento que HEVC. Finalmente, la aparición de códecs AV1 de terceros ha aumentado tanto la calidad como la velocidad de codificación del códec AV1.
Por lo general, la aplicación no utilizará archivos de FIV.
Además, estamos trabajando con AOM en lo que respecta a proporcionar vectores de prueba y requisitos. Esperamos probar AV1 en nuestro flujo de trabajo con un catálogo grande y proporcionar resultados allí. Y también esperamos ser uno de los primeros en adoptar AV1.
pero esperamos que, hacia 2024-2025, el ecosistema AV1 esté listo, queremos cambiar a AV1 al 100%. ... esta es nuestra proyección en este momento. Pero, por otro lado, como dije, nuestro lanzamiento de AV1 será, para el contenido principal, mucho antes. Esperamos que en 2022-2023 lancemos AV1 para el contenido principal.
Nos hemos centrado en congelar el flujo de bits y obtener la calidad, no necesariamente en hacer las cosas más rápidas. Este es un gráfico de la velocidad [de codificación] de AV1 a lo largo de su proceso de desarrollo. Puede ver que a medida que nos acercamos al final de ese proceso, comenzamos a hacer las cosas más rápidas nuevamente, y ahora es dos órdenes de magnitud más rápido de lo que era en su punto más lento. Así que eso va a mejorar. Y este es un gráfico correspondiente de la calidad. (…) Entonces, puede ver que incluso si ha seguido volviéndose mucho más rápido, la calidad realmente no ha disminuido. (…) Queríamos abordar esto desde el otro extremo, así que comenzamos un codificador propio, llamado rav1e, y la idea es que comenzaríamos siendo siempre rápidos y luego intentaríamos mejorarlo con el tiempo.
Safari 17.0 agrega compatibilidad con video AV1 en dispositivos con soporte de decodificación de hardware, como iPhone 15 Pro y iPhone 15 Pro Max.
Apple también está enviando, por primera vez, un decodificador AV1 con su familia de chips M3 para que los propietarios se beneficien de una reproducción de contenido AV1 con mayor eficiencia energética.
Sisvel comienza a vender licencias para más de 1050 patentes para AV1, una tecnología de video que se supone que es gratuita.