Tecnología de la información – Codificación genérica de imágenes en movimiento e información de audio asociada: Vídeo | |
Estado | En vigor |
---|---|
Año iniciado | 1995 |
Primera publicación | Mayo de 1996 ( 1996-05 ) |
Última versión | ISO/IEC 13818-2:2013 Octubre de 2013 ( 2013-10 ) |
Organización | UIT-T , ISO/IEC JTC 1 |
Comité | Grupo de estudio 16 de la UIT-T VCEG , MPEG |
Normas básicas | H.261 , MPEG-2 |
Normas relacionadas | H.222.0 , H.263 , H.264 , H.265 , H.266 , ISO/IEC 14496-2 |
Dominio | Compresión de vídeo |
Licencia | Patentes vencidas [1] |
Sitio web | https://www.itu.int/rec/T-REC-H.262 |
H.262 [2] o MPEG-2 Parte 2 (formalmente conocido como Recomendación UIT-T H.262 e ISO/IEC 13818-2 , [3] también conocido como Vídeo MPEG-2 ) es un formato de codificación de vídeo estandarizado y mantenido conjuntamente por el Grupo de Estudio 16 de Expertos en Codificación de Vídeo (VCEG) de la UIT-T y el Grupo de Expertos en Imágenes en Movimiento (MPEG) de ISO / IEC , y desarrollado con la participación de muchas empresas. Es la segunda parte del estándar ISO/IEC MPEG-2 . Los documentos de la Recomendación UIT-T H.262 e ISO/IEC 13818-2 son idénticos.
El estándar está disponible a cambio de una tarifa en la ITU-T [2] y la ISO. El vídeo MPEG-2 es muy similar al MPEG-1 , pero también proporciona compatibilidad con vídeo entrelazado (una técnica de codificación utilizada en los sistemas de televisión analógicos NTSC, PAL y SECAM). El vídeo MPEG-2 no está optimizado para velocidades de bits bajas (por ejemplo, menos de 1 Mbit/s), pero supera un poco al MPEG-1 a velocidades de bits más altas (por ejemplo, 3 Mbit/s y superiores), aunque no por un margen amplio a menos que el vídeo esté entrelazado. Todos los decodificadores de vídeo MPEG-2 que cumplen con los estándares también son totalmente capaces de reproducir secuencias de vídeo MPEG-1. [4]
El proceso de aprobación de la ISO/IEC se completó en noviembre de 1994. [5] La primera edición fue aprobada en julio de 1995 [6] y publicada por la UIT-T [2] e ISO/IEC en 1996. [7] Didier LeGall de Bellcore presidió el desarrollo de la norma [8] y Sakae Okubo de NTT fue el coordinador de la UIT-T y presidió los acuerdos sobre sus requisitos. [9]
La tecnología se desarrolló con la colaboración de varias empresas. Hyundai Electronics (ahora SK Hynix ) desarrolló el primer decodificador MPEG-2 SAVI (sistema/audio/vídeo) en 1995. [10]
La mayoría de las patentes que luego se afirmaron en un fondo de patentes que eran esenciales para implementar el estándar provenían de tres empresas: Sony (311 patentes), Thomson (198 patentes) y Mitsubishi Electric (119 patentes). [11]
En 1996, se amplió con dos enmiendas para incluir el registro de identificadores de derechos de autor y el perfil 4:2:2. [2] [12] La UIT-T publicó estas enmiendas en 1996 y la ISO en 1997. [7]
También hay otras modificaciones publicadas posteriormente por la UIT-T y la ISO/IEC. [2] [13] La edición más reciente de la norma se publicó en 2013 e incorpora todas las modificaciones anteriores. [3]
Edición | Fecha de lanzamiento | Última modificación | Norma ISO/IEC | Recomendación de la UIT-T |
---|---|---|---|---|
Primera edición | 1995 | 2000 | ISO/IEC 13818-2:1996 [7] | H.262 (07/95) |
Segunda edición | 2000 | 2010 [2] [14] | ISO/IEC 13818-2:2000 [15] | H.262 (02/00) |
Tercera edición | 2013 | ISO/IEC 13818-2:2013 [3] | H.262 (02/12), que incorpora la enmienda 1 (03/13) |
Esta sección puede contener una cantidad excesiva de detalles intrincados que pueden interesar solo a una audiencia en particular . En concreto, este no es el lugar para explicar el concepto general de compresión de vídeo con tanto detalle; se debe mantener el foco en el códec de vídeo H.262. Por ( Mayo de 2020 ) |
Una cámara HDTV con muestreo de 8 bits genera un flujo de vídeo sin procesar de 25 × 1920 × 1080 × 3 = 155.520.000 bytes por segundo para un vídeo de 25 fotogramas por segundo (utilizando el formato de muestreo 4:4:4 ). Este flujo de datos debe comprimirse para que la televisión digital se ajuste al ancho de banda de los canales de televisión disponibles y para que las películas quepan en los DVD. La compresión de vídeo es práctica porque los datos de las imágenes suelen ser redundantes en el espacio y el tiempo. Por ejemplo, el cielo puede ser azul en la parte superior de una imagen y ese cielo azul puede persistir fotograma tras fotograma. Además, debido a la forma en que funciona el ojo, es posible eliminar o aproximar algunos datos de las imágenes de vídeo con poca o ninguna degradación perceptible en la calidad de la imagen.
Un truco común (y antiguo) para reducir la cantidad de datos es separar cada "fotograma" completo de vídeo en dos "campos" al transmitirlo/codificarlo: el "campo superior", que son las líneas horizontales con número impar, y el "campo inferior", que son las líneas con número par. Al recibir/descodificar, los dos campos se muestran de forma alternada con las líneas de un campo intercaladas entre las líneas del campo anterior; este formato se denomina vídeo entrelazado . La velocidad de campo típica es de 50 (Europa/PAL) o 59,94 (EE. UU./NTSC) campos por segundo, lo que corresponde a 25 (Europa/PAL) o 29,97 (Norteamérica/NTSC) fotogramas completos por segundo. Si el vídeo no está entrelazado, se denomina vídeo de exploración progresiva y cada imagen es un fotograma completo. MPEG-2 admite ambas opciones.
La televisión digital requiere que estas imágenes se digitalicen para que puedan ser procesadas por el hardware de la computadora. Cada elemento de la imagen (un píxel ) se representa entonces mediante un número de luminancia y dos números de croma . Estos describen el brillo y el color del píxel (véase YCbCr ). Por lo tanto, cada imagen digitalizada se representa inicialmente mediante tres matrices rectangulares de números.
Otra práctica común para reducir la cantidad de datos a procesar es submuestrear los dos planos de croma (después de un filtrado de paso bajo para evitar el aliasing ). Esto funciona porque el sistema visual humano resuelve mejor los detalles de brillo que los detalles en el tono y la saturación de los colores. El término 4:2:2 se utiliza para el vídeo con el croma submuestreado en una proporción de 2:1 horizontalmente, y 4:2:0 se utiliza para el vídeo con el croma submuestreado en una proporción de 2:1 tanto vertical como horizontalmente. El vídeo que tiene luma y croma a la misma resolución se denomina 4:4:4 . El documento de vídeo MPEG-2 considera los tres tipos de muestreo, aunque 4:2:0 es por lejos el más común para el vídeo de consumo, y no hay "perfiles" definidos de MPEG-2 para el vídeo 4:4:4 (consulte a continuación para obtener más información sobre los perfiles).
Aunque la siguiente sección describe en general la compresión de video MPEG-2, hay muchos detalles que no se tratan, incluidos detalles relacionados con campos, formatos de crominancia, respuestas a cambios de escena, códigos especiales que etiquetan las partes del flujo de bits y otros datos. Aparte de las características para manejar campos para codificación entrelazada, el video MPEG-2 es muy similar al video MPEG-1 (e incluso bastante similar al estándar anterior H.261 ), por lo que toda la descripción a continuación se aplica igualmente bien a MPEG-1.
MPEG-2 incluye tres tipos básicos de cuadros codificados: cuadros intracodificados ( cuadros I ), cuadros codificados predictivamente ( cuadros P ) y cuadros codificados predictivamente bidireccionalmente ( cuadros B ).
Un fotograma I es una versión comprimida por separado de un único fotograma sin comprimir (sin procesar). La codificación de un fotograma I aprovecha la redundancia espacial y la incapacidad del ojo para detectar ciertos cambios en la imagen. A diferencia de los fotogramas P y B, los fotogramas I no dependen de los datos de los fotogramas anteriores o posteriores, por lo que su codificación es muy similar a la codificación de una fotografía fija (aproximadamente similar a la codificación de imágenes JPEG ). En pocas palabras, el fotograma sin procesar se divide en bloques de 8 píxeles por 8 píxeles. Los datos de cada bloque se transforman mediante la transformada discreta del coseno (DCT). El resultado es una matriz de 8×8 de coeficientes que tienen valores de números reales . La transformada convierte las variaciones espaciales en variaciones de frecuencia, pero no cambia la información del bloque; si la transformada se calcula con precisión perfecta, el bloque original se puede recrear exactamente aplicando la transformada inversa del coseno (también con precisión perfecta). La conversión de números enteros de 8 bits a coeficientes de transformación de valor real realmente expande la cantidad de datos utilizados en esta etapa del procesamiento, pero la ventaja de la transformación es que los datos de la imagen pueden entonces aproximarse cuantificando los coeficientes. Muchos de los coeficientes de transformación, normalmente los componentes de frecuencia más alta, serán cero después de la cuantificación, que es básicamente una operación de redondeo. La penalización de este paso es la pérdida de algunas distinciones sutiles en brillo y color. La cuantificación puede ser gruesa o fina, según lo seleccione el codificador. Si la cuantificación no es demasiado gruesa y se aplica la transformación inversa a la matriz después de cuantificarla, se obtiene una imagen que se ve muy similar a la imagen original, pero no es exactamente la misma. A continuación, la matriz de coeficientes cuantificados se comprime. Normalmente, una esquina de la matriz de coeficientes de 8 × 8 contiene solo ceros después de aplicar la cuantificación. Si se comienza por el extremo opuesto de la matriz, se avanza en zigzag por ella para combinar los coeficientes en una cadena, se sustituyen los ceros consecutivos por códigos de longitud de serie y se aplica la codificación de Huffman a ese resultado, se reduce la matriz a una cantidad menor de datos. Son estos datos codificados por entropía los que se transmiten o se colocan en los DVD. En el receptor o el reproductor, todo el proceso se invierte, lo que permite al receptor reconstruir, con una aproximación cercana, el cuadro original.
El procesamiento de fotogramas B es similar al de fotogramas P, salvo que los fotogramas B utilizan la imagen de un fotograma de referencia posterior, así como la imagen de un fotograma de referencia anterior. Como resultado, los fotogramas B suelen proporcionar más compresión que los fotogramas P. Los fotogramas B nunca son fotogramas de referencia en el vídeo MPEG-2.
Por lo general, cada decimoquinto fotograma aproximadamente se convierte en un fotograma I. Los fotogramas P y B pueden seguir a un fotograma I como este, IBBPBBPBBPBB(I), para formar un grupo de imágenes (GOP) ; sin embargo, el estándar es flexible al respecto. El codificador selecciona qué imágenes se codifican como fotogramas I, P y B.
Los fotogramas P proporcionan más compresión que los fotogramas I porque aprovechan los datos de un fotograma I o P anterior, un fotograma de referencia . Para generar un fotograma P, se reconstruye el fotograma de referencia anterior, tal como se haría en un receptor de TV o un reproductor de DVD. El fotograma que se está comprimiendo se divide en macrobloques de 16 píxeles por 16 píxeles . Luego, para cada uno de esos macrobloques, se busca en el fotograma de referencia reconstruido para encontrar un área de 16 por 16 que coincida estrechamente con el contenido del macrobloque que se está comprimiendo. El desplazamiento se codifica como un "vector de movimiento". Con frecuencia, el desplazamiento es cero, pero si algo en la imagen se está moviendo, el desplazamiento puede ser algo así como 23 píxeles a la derecha y 4 píxeles y medio hacia arriba. En MPEG-1 y MPEG-2, los valores del vector de movimiento pueden representar desplazamientos enteros o desplazamientos de medio entero. La coincidencia entre las dos regiones a menudo no será perfecta. Para corregir esto, el codificador toma la diferencia de todos los píxeles correspondientes de las dos regiones y, sobre esa diferencia de macrobloque, calcula la DCT y las cadenas de valores de coeficientes para las cuatro áreas de 8×8 en el macrobloque de 16×16, como se describió anteriormente. Este "residuo" se agrega al vector de movimiento y el resultado se envía al receptor o se almacena en el DVD para cada macrobloque que se comprime. A veces no se encuentra una coincidencia adecuada. Entonces, el macrobloque se trata como un macrobloque de fotograma I.
El vídeo MPEG-2 es compatible con una amplia gama de aplicaciones, desde dispositivos móviles hasta edición HD de alta calidad. Para muchas aplicaciones, es poco realista y demasiado costoso admitir todo el estándar. Para permitir que dichas aplicaciones admitan solo subconjuntos del mismo, el estándar define perfiles y niveles.
Un perfil define conjuntos de características como imágenes B, video 3D, formato cromático, etc. El nivel limita la memoria y la potencia de procesamiento necesarias, definiendo velocidades de bits máximas, tamaños de cuadros y frecuencias de cuadros.
Una aplicación MPEG especifica entonces las capacidades en términos de perfil y nivel. Por ejemplo, un reproductor de DVD puede indicar que admite hasta el perfil principal y el nivel principal (que suele escribirse como MP@ML). Esto significa que el reproductor puede reproducir cualquier flujo MPEG codificado como MP@ML o inferior.
Las tablas siguientes resumen las limitaciones de cada perfil y nivel, aunque existen restricciones que no se enumeran aquí. [2] : Anexo E Tenga en cuenta que no todas las combinaciones de perfiles y niveles son permisibles, y los modos escalables modifican las restricciones de nivel.
Abr. | Nombre | Tipos de codificación de imágenes | Formato cromático | Modos escalables | Precisión intra-CC |
---|---|---|---|---|---|
ES | Perfil simple | Yo, P | 4:2:0 | ninguno | 8, 9, 10 |
Diputado | Perfil principal | Yo, P, B | 4:2:0 | ninguno | 8, 9, 10 |
relación señal/ruido | Perfil escalable SNR | Yo, P, B | 4:2:0 | relación señal/ruido [a] | 8, 9, 10 |
Espacial | Perfil escalable espacialmente | Yo, P, B | 4:2:0 | SNR, [a] espacial [b] | 8, 9, 10 |
caballos de fuerza | De alto perfil | Yo, P, B | 4:2:2 o 4:2:0 | SNR, [a] espacial [b] | 8, 9, 10, 11 |
422 | Perfil 4:2:2 | Yo, P, B | 4:2:2 o 4:2:0 | ninguno | 8, 9, 10, 11 |
Jugador Más Valioso | Perfil de múltiples vistas | Yo, P, B | 4:2:0 | Temporal [c] | 8, 9, 10 |
Abr. | Nombre | Velocidad de cuadros (Hz) | Resolución máxima | Muestras de luminancia máxima por segundo (aproximadamente alto x ancho x velocidad de cuadros) | Velocidad de bits máxima MP@ (Mbit/s) | |
---|---|---|---|---|---|---|
horizontal | vertical | |||||
LL | Nivel bajo | 23.976, 24, 25, 29.97, 30 | 0 352 | 0 288 | 0 3.041.280 | 0 4 |
Ml | Nivel principal | 23.976, 24, 25, 29.97, 30 | 0 720 | 0 576 | 10.368.000, excepto en Perfil alto: la restricción es 14.475.600 para 4:2:0 y 11.059.200 para 4:2:2 | 15 |
H-14 | Alto 1440 | 23,976, 24, 25, 29,97, 30, 50, 59,94, 60 | 1440 | 1152 | 47.001.600, excepto en Perfil alto: la restricción es 62.668.800 para 4:2:0 | 60 |
Alto nivel | Alto nivel | 23,976, 24, 25, 29,97, 30, 50, 59,94, 60 | 1920 | 1152 | 62.668.800, excepto en Perfil alto: la restricción es 83.558.400 para 4:2:0 | 80 |
A continuación se presentan algunas combinaciones comunes de perfil/nivel MPEG-2, con límites máximos particulares indicados:
Perfil @ Nivel | Resolución (px) | Velocidad de cuadros máxima (Hz) | Muestreo | Tasa de bits (Mbit/s) | Ejemplo de aplicación |
---|---|---|---|---|---|
SP@LL | 176 × 144 | 15 | 4:2:0 | 0,096 | Teléfonos inalámbricos |
SP@ML | 352 × 288 | 15 | 4:2:0 | 0,384 | PDA |
320 × 240 | 24 | ||||
Diputado@LL | 352 × 288 | 30 | 4:2:0 | 4 | Decodificadores (STB) |
Diputado@ML | 720 × 480 | 30 | 4:2:0 | 15 | DVD (9,8 Mbit/s), SD- DVB (15 Mbit/s) |
720 × 576 | 25 | ||||
Diputado@H-14 | 1440 × 1080 | 30 | 4:2:0 | 60 | HDV (25 Mbit/s) |
1280 × 720 | 30 | ||||
MP@HL | 1920 × 1080 | 30 | 4:2:0 | 80 | ATSC (18,3 Mbit/s), DVB -S (31 Mbit/s), DVB -HD (50,3 Mbit/s) |
1280 × 720 | 60 | ||||
422P@ML | 720 × 480 | 30 | 4:2:2 | 50 | Sony IMX (solo I), contribución a la transmisión (solo I&P) |
720 × 576 | 25 | ||||
422P@H-14 | 1440 × 1080 | 30 | 4:2:2 | 80 | |
422P@HL | 1920 × 1080 | 30 | 4:2:2 | 300 | Sony MPEG HD422 (50 Mbit/s), Canon XF Codec (50 Mbit/s), grabadora Convergent Design Nanoflash (hasta 160 Mbit/s) |
1280 × 720 | 60 |
A continuación se enumeran algunas aplicaciones.
Las siguientes organizaciones han sido titulares de patentes para la tecnología de video MPEG-2, como se indica en MPEG LA . Todas estas patentes han expirado en los EE. UU. y en la mayoría de los demás territorios. [1]
Organización | Patentes [16] |
---|---|
Corporación Sony | 311 |
Licencias de Thomson | 198 |
Mitsubishi Eléctrico | 119 |
Philips | 99 |
Desarrollo de tecnología GE , Inc. | 75 |
Corporación Panasonic | 55 |
Licencias CIF, LLC | 44 |
JVC Kenwood | 39 |
Electrónica Samsung | 38 |
Alcatel Lucent (incluido Multimedia Patent Trust) | 33 |
Tecnología Cisco, Inc. | 13 |
Corporación Toshiba | 9 |
Universidad de Columbia | 9 |
Electrónica LG | 8 |
Hitachi | 7 |
Naranja SA | 7 |
Fujitsu | 6 |
Robert Bosch GmbH | 5 |
Instrumento general | 4 |
Telecomunicaciones británicas | 3 |
Canon Inc. | 2 |
Corporación KDDI | 2 |
Telégrafo y Teléfono Nipón (NTT) | 2 |
Tecnología ARRIS, Inc. | 2 |
Sanyo Eléctrico | 1 |
Corporación Sharp | 1 |
Empresa Hewlett-Packard Enterprise | 1 |