Este artículo incluye una lista de referencias generales , pero carece de suficientes citas en línea correspondientes . ( Septiembre de 2016 ) |
La codificación aritmética ( AC ) es una forma de codificación de entropía utilizada en la compresión de datos sin pérdida . Normalmente, una cadena de caracteres se representa utilizando un número fijo de bits por carácter, como en el código ASCII . Cuando una cadena se convierte a codificación aritmética, los caracteres utilizados con frecuencia se almacenarán con menos bits y los caracteres que aparecen con menos frecuencia se almacenarán con más bits, lo que da como resultado menos bits utilizados en total. La codificación aritmética difiere de otras formas de codificación de entropía, como la codificación de Huffman , en que en lugar de separar la entrada en símbolos componentes y reemplazar cada uno con un código, la codificación aritmética codifica todo el mensaje en un solo número, una fracción de precisión arbitraria q , donde 0.0 ≤ q < 1.0 . Representa la información actual como un rango, definido por dos números. [1] Una familia reciente de codificadores de entropía llamados sistemas numerales asimétricos permiten implementaciones más rápidas gracias a la operación directa sobre un único número natural que representa la información actual. [2]
1. | Se encuentran las frecuencias de las letras. |
---|---|
2. | El intervalo [0, 1) se divide en la relación de las frecuencias. |
3–5. | El intervalo correspondiente se particiona iterativamente para cada letra del mensaje. |
6. | Se elige cualquier valor en el intervalo final para representar el mensaje. |
2*–6*. | La partición y el valor si el mensaje fuera "KIWI". |
En el caso más simple, la probabilidad de que cada símbolo aparezca es igual. Por ejemplo, considere un conjunto de tres símbolos, A, B y C, cada uno con la misma probabilidad de aparecer. Codificar los símbolos uno por uno requeriría 2 bits por símbolo, lo cual es un desperdicio: una de las variaciones de bits nunca se utiliza. Es decir, los símbolos A, B y C podrían codificarse respectivamente como 00, 01 y 10, con 11 sin utilizar.
Una solución más eficiente es representar una secuencia de estos tres símbolos como un número racional en base 3 donde cada dígito representa un símbolo. Por ejemplo, la secuencia "ABBCAB" podría convertirse en 0.011201 3 , en codificación aritmética como un valor en el intervalo [0, 1). El siguiente paso es codificar este número ternario utilizando un número binario de punto fijo de precisión suficiente para recuperarlo, como 0.0010110001 2 – esto son solo 10 bits; se ahorran 2 bits en comparación con la codificación de bloques ingenua. Esto es factible para secuencias largas porque existen algoritmos eficientes y en el lugar para convertir la base de números arbitrariamente precisos.
Para decodificar el valor, sabiendo que la cadena original tenía una longitud de 6, uno puede simplemente convertir nuevamente a base 3, redondear a 6 dígitos y recuperar la cadena.
En general, los codificadores aritméticos pueden producir una salida casi óptima para cualquier conjunto dado de símbolos y probabilidades. (El valor óptimo es −log 2 P bits para cada símbolo de probabilidad P ; consulte el teorema de codificación de la fuente ). Los algoritmos de compresión que utilizan codificación aritmética comienzan determinando un modelo de los datos: básicamente, una predicción de qué patrones se encontrarán en los símbolos del mensaje. Cuanto más precisa sea esta predicción, más cerca del óptimo estará el resultado.
Ejemplo : un modelo estático simple para describir el resultado de un instrumento de monitoreo particular a lo largo del tiempo podría ser:
Los modelos también pueden manejar alfabetos distintos del simple conjunto de cuatro símbolos elegido para este ejemplo. También son posibles modelos más sofisticados: el modelado de orden superior cambia su estimación de la probabilidad actual de un símbolo en función de los símbolos que lo preceden (el contexto ), de modo que en un modelo para texto en inglés, por ejemplo, el porcentaje de probabilidad de "u" sería mucho mayor cuando sigue a una "Q" o una "q". Los modelos incluso pueden ser adaptativos , de modo que cambien continuamente su predicción de los datos en función de lo que realmente contiene el flujo. El decodificador debe tener el mismo modelo que el codificador.
En general, cada paso del proceso de codificación, excepto el último, es el mismo; el codificador básicamente tiene que considerar solo tres datos:
El codificador divide el intervalo actual en subintervalos, cada uno de los cuales representa una fracción del intervalo actual proporcional a la probabilidad de que ese símbolo aparezca en el contexto actual. El intervalo que corresponda al símbolo real que se codificará a continuación se convierte en el intervalo utilizado en el siguiente paso.
Ejemplo : para el modelo de cuatro símbolos anterior:
Cuando se han codificado todos los símbolos, el intervalo resultante identifica de forma inequívoca la secuencia de símbolos que lo generó. Cualquiera que tenga el mismo intervalo final y el mismo modelo que se está utilizando puede reconstruir la secuencia de símbolos que debe haber ingresado al codificador para generar ese intervalo final.
Sin embargo, no es necesario transmitir el intervalo final; sólo es necesario transmitir una fracción que se encuentre dentro de ese intervalo. En particular, sólo es necesario transmitir suficientes dígitos (en cualquier base) de la fracción para que todas las fracciones que comiencen con esos dígitos caigan en el intervalo final; esto garantizará que el código resultante sea un código de prefijo .
Considere el proceso para decodificar un mensaje codificado con el modelo de cuatro símbolos dado. El mensaje está codificado en la fracción 0,538 (se utiliza el sistema decimal para mayor claridad, en lugar del sistema binario; también se supone que solo hay tantos dígitos como sean necesarios para decodificar el mensaje).
El proceso comienza con el mismo intervalo que utiliza el codificador: [0,1), y utilizando el mismo modelo, dividiéndolo en los mismos cuatro subintervalos que debe tener el codificador. La fracción 0.538 cae en el subintervalo para NEUTRAL, [0, 0.6); esto indica que el primer símbolo que leyó el codificador debe haber sido NEUTRAL, por lo que este es el primer símbolo del mensaje.
A continuación, divida el intervalo [0, 0,6) en subintervalos:
Dado que 0,538 está dentro del intervalo [0,48, 0,54), el segundo símbolo del mensaje debe haber sido NEGATIVO.
Dividamos nuevamente nuestro intervalo actual en subintervalos:
Ahora, 0,538 se encuentra dentro del intervalo del símbolo END-OF-DATA; por lo tanto, este debe ser el siguiente símbolo. Dado que también es el símbolo de terminación interna, significa que la decodificación está completa. Si el flujo no termina internamente, debe haber alguna otra forma de indicar dónde se detiene el flujo. De lo contrario, el proceso de decodificación podría continuar eternamente, leyendo por error más símbolos de la fracción de los que en realidad estaban codificados en ella.
El mensaje 0,538 del ejemplo anterior podría haberse codificado con las fracciones igualmente cortas 0,534, 0,535, 0,536, 0,537 o 0,539. Esto sugiere que el uso del decimal en lugar del binario introdujo cierta ineficiencia. Esto es correcto; el contenido de información de un decimal de tres dígitos es bits ; el mismo mensaje podría haberse codificado en la fracción binaria 0,10001001 (equivalente a 0,53515625 decimal) con un coste de sólo 8 bits.
Esta salida de 8 bits es mayor que el contenido de información, o la entropía del mensaje, que es
Pero se debe utilizar un número entero de bits en la codificación binaria, por lo que un codificador para este mensaje utilizaría al menos 8 bits, lo que daría como resultado un mensaje un 8,4 % más grande que el contenido de entropía. Esta ineficiencia de 1 bit como máximo da como resultado una sobrecarga relativamente menor a medida que aumenta el tamaño del mensaje.
Además, las probabilidades de símbolo reclamadas fueron [0.6, 0.2, 0.1, 0.1), pero las frecuencias reales en este ejemplo son [0.33, 0, 0.33, 0.33). Si los intervalos se reajustan para estas frecuencias, la entropía del mensaje sería 4.755 bits y el mismo mensaje NEUTRAL NEGATIVO FIN DE DATOS podría codificarse como intervalos [0, 1/3); [1/9, 2/9); [5/27, 6/27); y un intervalo binario de [0.00101111011, 0.00111000111). Este es también un ejemplo de cómo los métodos de codificación estadística como la codificación aritmética pueden producir un mensaje de salida que es más grande que el mensaje de entrada, especialmente si el modelo de probabilidad está fuera de lugar.
Una ventaja de la codificación aritmética sobre otros métodos similares de compresión de datos es la comodidad de la adaptación. La adaptación es el cambio de las tablas de frecuencia (o probabilidad) durante el procesamiento de los datos. Los datos decodificados coinciden con los datos originales siempre que la tabla de frecuencias en la decodificación se reemplace de la misma manera y en el mismo paso que en la codificación. La sincronización se basa, por lo general, en una combinación de símbolos que aparecen durante el proceso de codificación y decodificación.
Las explicaciones anteriores de la codificación aritmética contienen cierta simplificación. En particular, están escritas como si el codificador calculara primero las fracciones que representan los puntos finales del intervalo en su totalidad, utilizando precisión infinita , y solo convirtiera la fracción a su forma final al final de la codificación. En lugar de intentar simular precisión infinita, la mayoría de los codificadores aritméticos operan en cambio con un límite fijo de precisión que saben que el decodificador podrá igualar, y redondean las fracciones calculadas a sus equivalentes más cercanos con esa precisión. Un ejemplo muestra cómo funcionaría esto si el modelo exigiera que el intervalo [0,1) se dividiera en tercios, y esto se aproximara con precisión de 8 bits. Tenga en cuenta que, dado que ahora se conoce la precisión, también se conocen los rangos binarios que podremos usar.
Símbolo | Probabilidad | Intervalo reducido a precisión de ocho bits | Rango | |
---|---|---|---|---|
(expresado como fracción) | (como fracciones) | (en binario) | (en binario) | |
A | 1/3 | [0, 85/256) | [0,00000000, 0,01010101) | 00000000 – 01010100 |
B | 1/3 | [85/256, 171/256) | [0,01010101, 0,10101011) | 01010101 – 10101010 |
do | 1/3 | [171/256, 1) | [0,10101011, 1,00000000) | 10101011 – 11111111 |
Un proceso llamado renormalización evita que la precisión finita se convierta en un límite para el número total de símbolos que se pueden codificar. Siempre que el rango se reduce hasta el punto en que todos los valores del rango comparten ciertos dígitos iniciales, esos dígitos se envían a la salida. Por muchos dígitos de precisión que la computadora pueda manejar, ahora está manejando menos que eso, por lo que los dígitos existentes se desplazan a la izquierda y, a la derecha, se agregan nuevos dígitos para expandir el rango lo más ampliamente posible. Observe que este resultado ocurre en dos de los tres casos de nuestro ejemplo anterior.
Símbolo | Probabilidad | Rango | Dígitos que se pueden enviar a la salida | Rango después de la renormalización |
---|---|---|---|---|
A | 1/3 | 0 0000000 – 0 1010100 | 0 | 0000000 0 – 1010100 1 |
B | 1/3 | 01010101 – 10101010 | Ninguno | 01010101 – 10101010 |
do | 1/3 | 1 0101011 – 1 1111111 | 1 | 0101011 0 – 1111111 1 |
Recordemos que en el caso en que los símbolos tuvieran probabilidades iguales, la codificación aritmética podría implementarse mediante un simple cambio de base o radix. En general, la codificación aritmética (y de rango) puede interpretarse como un cambio generalizado de radix . Por ejemplo, podemos observar cualquier secuencia de símbolos:
como un número en una base determinada, suponiendo que los símbolos involucrados forman un conjunto ordenado y que cada símbolo en el conjunto ordenado denota un entero secuencial A = 0, B = 1, C = 2, D = 3, etc. Esto da como resultado las siguientes frecuencias y frecuencias acumuladas:
Símbolo | Frecuencia de ocurrencia | Frecuencia acumulada |
---|---|---|
A | 1 | 0 |
B | 2 | 1 |
D | 3 | 3 |
La frecuencia acumulada de un elemento es la suma de todas las frecuencias que lo preceden. En otras palabras, la frecuencia acumulada es el total acumulado de frecuencias.
En un sistema de numeración posicional, el radio, o base, es numéricamente igual a una serie de símbolos diferentes que se utilizan para expresar el número. Por ejemplo, en el sistema decimal, el número de símbolos es 10, es decir, 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9. El radio se utiliza para expresar cualquier número entero finito en un multiplicador presunto en forma polinómica. Por ejemplo, el número 457 es en realidad 4×10 2 + 5×10 1 + 7×10 0 , donde se presupone la base 10, pero no se muestra explícitamente.
Inicialmente, convertiremos DABDDB en un número de base 6, porque 6 es la longitud de la cadena. La cadena se asigna primero a la cadena de dígitos 301331, que luego se asigna a un número entero mediante el polinomio:
El resultado 23671 tiene una longitud de 15 bits, lo que no está muy cerca del límite teórico (la entropía del mensaje), que es de aproximadamente 9 bits.
Para codificar un mensaje con una longitud más cercana al límite teórico impuesto por la teoría de la información, necesitamos generalizar ligeramente la fórmula clásica para cambiar el radio. Calcularemos los límites inferior y superior L y U y elegiremos un número entre ellos. Para el cálculo de L, multiplicamos cada término en la expresión anterior por el producto de las frecuencias de todos los símbolos que aparecieron anteriormente:
La diferencia entre este polinomio y el polinomio anterior es que cada término se multiplica por el producto de las frecuencias de todos los símbolos que aparecieron anteriormente. En términos más generales, L se puede calcular como:
donde son las frecuencias acumuladas y son las frecuencias de ocurrencia. Los índices indican la posición del símbolo en un mensaje. En el caso especial en el que todas las frecuencias son 1, esta es la fórmula de cambio de base.
El límite superior U será L más el producto de todas las frecuencias; en este caso U = L + (3 × 1 × 2 × 3 × 3 × 2) = 25002 + 108 = 25110. En general, U viene dada por:
Ahora podemos elegir cualquier número del intervalo [ L , U ) para representar el mensaje; una opción conveniente es el valor con el rastro de ceros más largo posible, 25100, ya que nos permite lograr la compresión al representar el resultado como 251×10 2 . Los ceros también se pueden truncar, dando 251, si la longitud del mensaje se almacena por separado. Los mensajes más largos tenderán a tener rastros de ceros más largos.
Para decodificar el número entero 25100, el cálculo polinómico se puede realizar en sentido inverso, como se muestra en la tabla siguiente. En cada etapa se identifica el símbolo actual y luego se resta el término correspondiente del resultado.
Resto | Identificación | Símbolo identificado | Resto corregido |
---|---|---|---|
25100 | 25100 / 6 5 = 3 | D | (25100 − 6 5 × 3) / 3 = 590 |
590 | 590 / 6 4 = 0 | A | (590 − 6 4 × 0) / 1 = 590 |
590 | 590 / 6 3 = 2 | B | (590 − 6 3 × 1) / 2 = 187 |
187 | 187 / 6 2 = 5 | D | (187 − 6 2 × 3) / 3 = 26 |
26 | 26 / 6 1 = 4 | D | (26 − 6 1 × 3) / 3 = 2 |
2 | 2 / 6 0 = 2 | B | — |
Durante la decodificación, tomamos la palabra después de dividir por la potencia correspondiente de 6. Luego, el resultado se compara con los intervalos acumulativos y se selecciona el símbolo apropiado de la tabla de búsqueda. Cuando se identifica el símbolo, se corrige el resultado. El proceso continúa durante la longitud conocida del mensaje o mientras el resultado restante sea positivo. La única diferencia en comparación con el cambio de base clásico es que puede haber un rango de valores asociados con cada símbolo. En este ejemplo, A siempre es 0, B es 1 o 2 y D es cualquiera de los siguientes: 3, 4 o 5. Esto está en exacta concordancia con nuestros intervalos que están determinados por las frecuencias. Cuando todos los intervalos son iguales a 1, tenemos un caso especial del cambio de base clásico.
El límite inferior L nunca excede n n , donde n es el tamaño del mensaje, y por lo tanto puede representarse en bits. Después del cálculo del límite superior U y la reducción del mensaje seleccionando un número del intervalo [ L , U ) con la cola de ceros más larga, podemos suponer que esta longitud puede reducirse en bits. Dado que cada frecuencia en un producto ocurre exactamente el mismo número de veces que el valor de esta frecuencia, podemos usar el tamaño del alfabeto A para el cálculo del producto.
Aplicando log 2 para el número estimado de bits en el mensaje, el mensaje final (sin contar una sobrecarga logarítmica para las tablas de frecuencia y longitud del mensaje) coincidirá con el número de bits dado por la entropía , que para mensajes largos está muy cerca del óptimo:
En otras palabras, la eficiencia de la codificación aritmética se aproxima al límite teórico de bits por símbolo, a medida que la longitud del mensaje se acerca al infinito.
Podemos entender esto intuitivamente. Supongamos que la fuente es ergódica, entonces tiene la propiedad de equipartición asintótica (AEP). Por la AEP, después de una larga secuencia de símbolos, el intervalo de está casi dividido en intervalos de tamaño casi igual.
Técnicamente, para cualquier pequeño , para todos los suficientemente grandes , existen cadenas , tales que cada cadena tiene una probabilidad casi igual a , y su probabilidad total es .
Para cualquier cadena de este tipo, se codifica aritméticamente mediante una cadena binaria de longitud , donde es la más pequeña tal que existe una fracción de la forma en el intervalo para . Dado que el intervalo para tiene tamaño , deberíamos esperar que contenga una fracción de la forma cuando .
Por tanto, con alta probabilidad, se puede codificar aritméticamente con una cadena binaria de longitud .
Debido a que la codificación aritmética no comprime un dato a la vez, puede acercarse arbitrariamente a la entropía al comprimir cadenas IID . Por el contrario, el uso de la extensión de la codificación de Huffman (a cadenas) no alcanza la entropía a menos que todas las probabilidades de los símbolos del alfabeto sean potencias de dos, en cuyo caso tanto la codificación de Huffman como la aritmética alcanzan la entropía.
Cuando se codifican cadenas binarias de forma ingenua según Huffman, no es posible la compresión, incluso si la entropía es baja (por ejemplo, ({0, 1}) tiene probabilidades {0,95, 0,05}). La codificación de Huffman asigna 1 bit a cada valor, lo que da como resultado un código de la misma longitud que la entrada. Por el contrario, la codificación aritmética comprime bien los bits, acercándose a la relación de compresión óptima de
Una forma sencilla de abordar el problema de la suboptimización de la codificación de Huffman es concatenar símbolos ("bloquear") para formar un nuevo alfabeto en el que cada símbolo nuevo represente una secuencia de símbolos originales (en este caso, bits) del alfabeto original. En el ejemplo anterior, agrupar secuencias de tres símbolos antes de la codificación produciría nuevos "supersímbolos" con las siguientes frecuencias:
Con esta agrupación, la codificación de Huffman tiene un promedio de 1,3 bits por cada tres símbolos, o 0,433 bits por símbolo, en comparación con un bit por símbolo en la codificación original, es decir, la compresión. Permitir secuencias arbitrariamente grandes se acerca arbitrariamente a la entropía (al igual que la codificación aritmética), pero requiere códigos enormes para hacerlo, por lo que no es tan práctico como la codificación aritmética para este propósito.
Una alternativa es codificar longitudes de ejecución mediante códigos Golomb-Rice basados en Huffman . Este enfoque permite una codificación/decodificación más simple y rápida que la codificación aritmética o incluso la codificación Huffman, ya que esta última requiere búsquedas en tablas. En el ejemplo {0.95, 0.05}, un código Golomb-Rice con un resto de cuatro bits logra una relación de compresión de , mucho más cercana al óptimo que el uso de bloques de tres bits. Sin embargo, los códigos Golomb-Rice solo se aplican a entradas Bernoulli como la de este ejemplo, por lo que no es un sustituto del bloqueo en todos los casos.
Los algoritmos básicos para la codificación aritmética fueron desarrollados independientemente por Jorma J. Rissanen , en IBM Research , y por Richard C. Pasco, un estudiante de doctorado en la Universidad de Stanford ; ambos fueron publicados en mayo de 1976. Pasco cita un borrador previo a la publicación del artículo de Rissanen y comenta sobre la relación entre sus trabajos: [3]
Rissanen [1976] desarrolló de forma independiente un algoritmo de esta familia: desplaza el elemento de código al extremo más significativo del acumulador, utilizando un puntero obtenido por adición y exponenciación. Compararemos ahora las alternativas en las tres opciones y veremos que es preferible desplazar el elemento de código en lugar del acumulador y añadir elementos de código al extremo menos significativo del acumulador.
Menos de un año después de su publicación, IBM solicitó una patente estadounidense para el trabajo de Rissanen, pero el trabajo de Pasco no fue patentado.
Históricamente, las patentes estadounidenses han cubierto una variedad de técnicas específicas de codificación aritmética, aunque varios métodos bien conocidos han pasado desde entonces al dominio público a medida que las patentes han expirado. Las técnicas cubiertas por patentes pueden ser esenciales para implementar los algoritmos de codificación aritmética que se especifican en algunas normas internacionales formales. Cuando este es el caso, dichas patentes generalmente están disponibles para licencias bajo lo que se denominan términos de licencia "razonables y no discriminatorios" ( RAND , por sus siglas en inglés) (al menos como una cuestión de política del comité de normas). En algunos casos bien conocidos (incluidos algunos relacionados con patentes de IBM que han expirado desde entonces), dichas licencias estaban disponibles de forma gratuita, y en otros casos se han requerido tarifas de licencia. La disponibilidad de licencias bajo los términos RAND no satisface necesariamente a todos los que podrían querer usar la tecnología, ya que lo que puede parecer "razonable" para una empresa que prepara un producto de software comercial propietario puede parecer mucho menos razonable para un proyecto de software libre o de código abierto .
Al menos un importante programa de compresión, bzip2 , abandonó deliberadamente el uso de la codificación aritmética en favor de la codificación Huffman debido a la situación de las patentes percibida en ese momento. Además, los codificadores y decodificadores del formato de archivo JPEG , que tiene opciones tanto para la codificación Huffman como para la codificación aritmética, normalmente solo admiten la opción de codificación Huffman, que originalmente se debió a problemas de patentes; el resultado es que casi todas las imágenes JPEG en uso hoy en día utilizan la codificación Huffman [4] aunque las patentes de codificación aritmética de JPEG [5] han expirado debido a la antigüedad del estándar JPEG (cuyo diseño se completó aproximadamente en 1990). [6] JPEG XL , así como archivadores como PackJPG, Brunsli y Lepton, que pueden convertir sin pérdidas archivos codificados Huffman a otros con codificación aritmética (o sistemas numéricos asimétricos en el caso de JPEG XL), mostrando un ahorro de tamaño de hasta el 25%.
El algoritmo de codificación aritmética del formato de compresión de imágenes JPEG se basa en las siguientes patentes citadas (ya vencidas). [7]
Otras patentes (en su mayoría también expiradas) relacionadas con la codificación aritmética incluyen las siguientes.
Nota: Esta lista no es exhaustiva. Consulte los siguientes enlaces para obtener una lista de más patentes estadounidenses. [8] El códec Dirac utiliza codificación aritmética y no está pendiente de patente. [9]
Es posible que existan patentes sobre codificación aritmética en otras jurisdicciones; consulte patentes de software para obtener un análisis de la patentabilidad del software en todo el mundo.
Cada implementación programática de codificación aritmética tiene una relación de compresión y un rendimiento diferentes. Si bien las relaciones de compresión varían solo un poco (generalmente menos del 1 %), [10] el tiempo de ejecución del código puede variar en un factor de 10. Elegir el codificador correcto de una lista de codificadores disponibles públicamente no es una tarea sencilla porque el rendimiento y la relación de compresión también dependen del tipo de datos, en particular del tamaño del alfabeto (número de símbolos diferentes). Uno de dos codificadores en particular puede tener un mejor rendimiento para alfabetos pequeños, mientras que el otro puede mostrar un mejor rendimiento para alfabetos grandes. La mayoría de los codificadores tienen limitaciones en el tamaño del alfabeto y muchos de ellos están especializados para alfabetos de exactamente dos símbolos (0 y 1).