Teoría de la información

Estudio científico de la información digital.

La teoría de la información es el estudio matemático de la cuantificación , el almacenamiento y la comunicación de la información . El campo fue establecido y puesto sobre una base sólida por Claude Shannon en la década de 1940, [1] aunque las primeras contribuciones se hicieron en la década de 1920 a través de los trabajos de Harry Nyquist y Ralph Hartley . Se encuentra en la intersección de la ingeniería electrónica , las matemáticas , la estadística , la informática , la neurobiología , la física y la ingeniería eléctrica . [2] [3]

Una medida clave en la teoría de la información es la entropía . La entropía cuantifica la cantidad de incertidumbre involucrada en el valor de una variable aleatoria o el resultado de un proceso aleatorio . Por ejemplo, identificar el resultado de un lanzamiento de moneda justo (que tiene dos resultados igualmente probables) proporciona menos información (menor entropía, menor incertidumbre) que identificar el resultado de un lanzamiento de dado (que tiene seis resultados igualmente probables). Algunas otras medidas importantes en la teoría de la información son la información mutua , la capacidad del canal , los exponentes de error y la entropía relativa . Los subcampos importantes de la teoría de la información incluyen la codificación de fuentes , la teoría de la complejidad algorítmica , la teoría de la información algorítmica y la seguridad de la teoría de la información .

Las aplicaciones de los temas fundamentales de la teoría de la información incluyen la codificación de fuentes/ compresión de datos (por ejemplo, para archivos ZIP ) y la codificación de canales/ detección y corrección de errores (por ejemplo, para DSL ). Su impacto ha sido crucial para el éxito de las misiones Voyager al espacio profundo, la invención del disco compacto , la viabilidad de los teléfonos móviles y el desarrollo de Internet. [3] La teoría ha encontrado aplicaciones en otras áreas, incluyendo la inferencia estadística , [4] la criptografía , la neurobiología , [5] la percepción , [6] el procesamiento de señales , [2] la lingüística, la evolución [7] y función [8] de códigos moleculares ( bioinformática ), física térmica , [9] dinámica molecular , [10] los agujeros negros , la computación cuántica , la recuperación de información , la recopilación de inteligencia , la detección de plagio , [11] el reconocimiento de patrones , la detección de anomalías , [12] el análisis de la música , [13] [14] la creación de arte , [15] el diseño de sistemas de imágenes, [16] el estudio del espacio exterior , [17] la dimensionalidad del espacio , [18] e incluso incluyendo la epistemología . [19]

Descripción general

La teoría de la información estudia la transmisión, el procesamiento, la extracción y la utilización de la información . De manera abstracta, la información puede considerarse como la resolución de la incertidumbre. En el caso de la comunicación de información a través de un canal ruidoso, este concepto abstracto fue formalizado en 1948 por Claude Shannon en un artículo titulado A Mathematical Theory of Communication , en el que la información se considera como un conjunto de mensajes posibles, y el objetivo es enviar estos mensajes a través de un canal ruidoso, y hacer que el receptor reconstruya el mensaje con baja probabilidad de error, a pesar del ruido del canal. El principal resultado de Shannon, el teorema de codificación del canal ruidoso , mostró que, en el límite de muchos usos del canal, la tasa de información que se puede alcanzar asintóticamente es igual a la capacidad del canal, una cantidad que depende meramente de las estadísticas del canal a través del cual se envían los mensajes. [5]

La teoría de la codificación se ocupa de encontrar métodos explícitos, llamados códigos , para aumentar la eficiencia y reducir la tasa de error de la comunicación de datos a través de canales ruidosos hasta cerca de la capacidad del canal. Estos códigos se pueden subdividir a grandes rasgos en técnicas de compresión de datos (codificación de fuente) y de corrección de errores (codificación de canal). En este último caso, se necesitaron muchos años para encontrar los métodos que el trabajo de Shannon demostró que eran posibles. [ cita requerida ]

Una tercera clase de códigos de la teoría de la información son los algoritmos criptográficos (tanto códigos como cifras ). Los conceptos, métodos y resultados de la teoría de la codificación y la teoría de la información se utilizan ampliamente en criptografía y criptoanálisis , como la unidad ban . [ cita requerida ]

Antecedentes históricos

El acontecimiento que marcó un hito y que estableció la disciplina de la teoría de la información y le dio una atención mundial inmediata fue la publicación del artículo clásico de Claude E. Shannon "A Mathematical Theory of Communication" en el Bell System Technical Journal en julio y octubre de 1948. Se lo llegó a conocer como el "padre de la teoría de la información". [20] [21] [22] Shannon esbozó algunas de sus ideas iniciales sobre la teoría de la información ya en 1939 en una carta a Vannevar Bush . [22]

Antes de este artículo, se habían desarrollado ideas limitadas de teoría de la información en Bell Labs , todas asumiendo implícitamente eventos de igual probabilidad. El artículo de Harry Nyquist de 1924, Certain Factors Affecting Telegraph Speed , contiene una sección teórica que cuantifica la "inteligencia" y la "velocidad de línea" a la que puede ser transmitida por un sistema de comunicación, dando la relación W = K log m (recordando la constante de Boltzmann ), donde W es la velocidad de transmisión de la inteligencia, m es el número de diferentes niveles de voltaje para elegir en cada paso de tiempo y K es una constante. El artículo de Ralph Hartley de 1928, Transmission of Information , utiliza la palabra información como una cantidad medible, que refleja la capacidad del receptor para distinguir una secuencia de símbolos de cualquier otra, cuantificando así la información como H = log S n = n log S , donde S era el número de símbolos posibles y n el número de símbolos en una transmisión. La unidad de información era, por tanto, el dígito decimal , que desde entonces se ha denominado a veces Hartley en su honor como unidad, escala o medida de información. Alan Turing utilizó en 1940 ideas similares como parte del análisis estadístico del descifrado de los códigos Enigma alemanes de la Segunda Guerra Mundial . [ cita requerida ]

Gran parte de las matemáticas que sustentan la teoría de la información con eventos de diferentes probabilidades fueron desarrolladas para el campo de la termodinámica por Ludwig Boltzmann y J. Willard Gibbs . Las conexiones entre la entropía teórica de la información y la entropía termodinámica, incluidas las importantes contribuciones de Rolf Landauer en la década de 1960, se exploran en Entropía en termodinámica y teoría de la información . [ cita requerida ]

En el artículo revolucionario e innovador de Shannon, cuyo trabajo se había completado sustancialmente en Bell Labs a fines de 1944, Shannon introdujo por primera vez el modelo cualitativo y cuantitativo de la comunicación como un proceso estadístico subyacente a la teoría de la información, comenzando con la afirmación:

" El problema fundamental de la comunicación es el de reproducir en un punto, de forma exacta o aproximada, un mensaje seleccionado en otro punto. "

Con ello surgieron las ideas de:

Cantidades de información

La teoría de la información se basa en la teoría de la probabilidad y la estadística, donde la información cuantificada se describe generalmente en términos de bits. La teoría de la información a menudo se ocupa de las medidas de información de las distribuciones asociadas con variables aleatorias. Una de las medidas más importantes se llama entropía , que forma el bloque de construcción de muchas otras medidas. La entropía permite la cuantificación de la medida de la información en una sola variable aleatoria. [23] Otro concepto útil es la información mutua definida en dos variables aleatorias, que describe la medida de información en común entre esas variables, que puede usarse para describir su correlación. La primera cantidad es una propiedad de la distribución de probabilidad de una variable aleatoria y da un límite a la velocidad a la que los datos generados por muestras independientes con la distribución dada pueden comprimirse de manera confiable. La última es una propiedad de la distribución conjunta de dos variables aleatorias, y es la tasa máxima de comunicación confiable a través de un canal ruidoso en el límite de longitudes de bloque largas, cuando las estadísticas del canal están determinadas por la distribución conjunta.

La elección de la base logarítmica en las siguientes fórmulas determina la unidad de entropía de información que se utiliza. Una unidad de información común es el bit o shannon , basada en el logaritmo binario . Otras unidades incluyen el nat , que se basa en el logaritmo natural , y el dígito decimal , que se basa en el logaritmo común .

En lo que sigue, una expresión de la forma p log p se considera por convención igual a cero siempre que p = 0. Esto se justifica porque para cualquier base logarítmica. límite pag 0 + pag registro pag = 0 {\displaystyle \lim_{p\rightarrow 0+}p\log p=0}

Entropía de una fuente de información

Basándose en la función de masa de probabilidad de cada símbolo fuente que se va a comunicar, la entropía de Shannon H , en unidades de bits (por símbolo), se da por

yo = i pag i registro 2 ( pag i ) {\displaystyle H=-\suma _{i}p_{i}\log _{2}(p_{i})}

donde p i es la probabilidad de ocurrencia del i -ésimo valor posible del símbolo fuente. Esta ecuación da la entropía en las unidades de "bits" (por símbolo) porque utiliza un logaritmo de base 2, y esta medida de entropía de base 2 a veces se ha llamado shannon en su honor. La entropía también se calcula comúnmente utilizando el logaritmo natural (base e , donde e es el número de Euler), que produce una medida de entropía en nats por símbolo y a veces simplifica el análisis al evitar la necesidad de incluir constantes adicionales en las fórmulas. También son posibles otras bases, pero se usan con menos frecuencia. Por ejemplo, un logaritmo de base 2 8 = 256 producirá una medida en bytes por símbolo, y un logaritmo de base 10 producirá una medida en dígitos decimales (o hartleys ) por símbolo.

Intuitivamente, la entropía H X de una variable aleatoria discreta X es una medida de la cantidad de incertidumbre asociada con el valor de X cuando solo se conoce su distribución.

La entropía de una fuente que emite una secuencia de N símbolos independientes y distribuidos de forma idéntica (iid) es NH bits (por mensaje de N símbolos). Si los símbolos de los datos de la fuente están distribuidos de forma idéntica pero no son independientes, la entropía de un mensaje de longitud N será menor que NH .

La entropía de un ensayo de Bernoulli en función de la probabilidad de éxito, a menudo llamada función de entropía binaria , H b ( p ) . La entropía se maximiza en 1 bit por ensayo cuando los dos resultados posibles son igualmente probables, como en un lanzamiento de moneda imparcial.

Si se transmiten 1000 bits (0 y 1) y el valor de cada uno de estos bits es conocido por el receptor (tiene un valor específico con certeza) antes de la transmisión, está claro que no se transmite información. Sin embargo, si cada bit tiene la misma probabilidad de ser 0 o 1, se han transmitido 1000 shannons de información (más a menudo llamados bits). Entre estos dos extremos, la información se puede cuantificar de la siguiente manera. Si es el conjunto de todos los mensajes { x 1 , ..., x n } que X podría ser, y p ( x ) es la probabilidad de algún , entonces la entropía, H , de X se define: [24] incógnita {\displaystyle \mathbb {X}} incógnita incógnita {\displaystyle x\in \mathbb {X}}

yo ( incógnita ) = mi incógnita [ I ( incógnita ) ] = incógnita incógnita pag ( incógnita ) registro pag ( incógnita ) . {\displaystyle H(X)=\mathbb {E} _{X}[I(x)]=-\sum _{x\in \mathbb {X} }p(x)\log p(x).}

(Aquí, I ( x ) es la autoinformación , que es la contribución de entropía de un mensaje individual, y es el valor esperado ). Una propiedad de la entropía es que se maximiza cuando todos los mensajes en el espacio de mensajes son equiprobables p ( x ) = 1/ n ; es decir, más impredecibles, en cuyo caso H ( X ) = log n . mi incógnita {\displaystyle \mathbb {E}_{X}}

El caso especial de entropía de información para una variable aleatoria con dos resultados es la función de entropía binaria, usualmente llevada a la base logarítmica 2, teniendo así como unidad a Shannon (Sh):

yo b ( pag ) = pag registro 2 pag ( 1 pag ) registro 2 ( 1 pag ) . {\displaystyle H_{\mathrm {b}}(p)=-p\log _{2}p-(1-p)\log _{2}(1-p).}

Entropía conjunta

La entropía conjunta de dos variables aleatorias discretas X e Y es simplemente la entropía de su par: ( X , Y ) . Esto implica que si X e Y son independientes , entonces su entropía conjunta es la suma de sus entropías individuales.

Por ejemplo, si ( X , Y ) representa la posición de una pieza de ajedrez (X la fila e Y la columna), entonces la entropía conjunta de la fila de la pieza y la columna de la pieza será la entropía de la posición de la pieza.

yo ( incógnita , Y ) = mi incógnita , Y [ registro pag ( incógnita , y ) ] = incógnita , y pag ( incógnita , y ) registro pag ( incógnita , y ) {\displaystyle H(X,Y)=\mathbb {E} _{X,Y}[-\log p(x,y)]=-\sum _{x,y}p(x,y)\log p(x,y)\,}

A pesar de la notación similar, la entropía conjunta no debe confundirse con la entropía cruzada .

Entropía condicional (equivocación)

La entropía condicional o incertidumbre condicional de X dada la variable aleatoria Y (también llamada equivocación de X sobre Y ) es la entropía condicional promedio sobre Y : [25]

yo ( incógnita | Y ) = mi Y [ yo ( incógnita | y ) ] = y Y pag ( y ) incógnita incógnita pag ( incógnita | y ) registro pag ( incógnita | y ) = incógnita , y pag ( incógnita , y ) registro pag ( incógnita | y ) . {\displaystyle H(X|Y)=\mathbb {E} _{Y}[H(X|y)]=-\sum _{y\in Y}p(y)\sum _{x\in X }p(x|y)\log p(x|y)=-\sum _{x,y}p(x,y)\log p(x|y).}

Dado que la entropía puede estar condicionada a una variable aleatoria o a que dicha variable aleatoria tenga un valor determinado, se debe tener cuidado de no confundir estas dos definiciones de entropía condicional, siendo la primera la de uso más común. Una propiedad básica de esta forma de entropía condicional es que:

yo ( incógnita | Y ) = yo ( incógnita , Y ) yo ( Y ) . {\displaystyle H(X|Y)=H(X,Y)-H(Y).\,}

Información mutua (transinformación)

La información mutua mide la cantidad de información que se puede obtener sobre una variable aleatoria observando otra. Es importante en la comunicación, ya que se puede utilizar para maximizar la cantidad de información compartida entre las señales enviadas y recibidas. La información mutua de X con respecto a Y se da por:

I ( incógnita ; Y ) = mi incógnita , Y [ S I ( incógnita , y ) ] = incógnita , y pag ( incógnita , y ) registro pag ( incógnita , y ) pag ( incógnita ) pag ( y ) {\displaystyle I(X;Y)=\mathbb {E} _{X,Y}[SI(x,y)]=\sum _{x,y}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}}

donde SI ( Información mutua específica ) es la información mutua puntual .

Una propiedad básica de la información mutua es que

I ( X ; Y ) = H ( X ) H ( X | Y ) . {\displaystyle I(X;Y)=H(X)-H(X|Y).\,}

Es decir, conociendo Y , podemos ahorrar un promedio de I ( X ; Y ) bits en la codificación de X en comparación con no conocer Y.

La información mutua es simétrica :

I ( X ; Y ) = I ( Y ; X ) = H ( X ) + H ( Y ) H ( X , Y ) . {\displaystyle I(X;Y)=I(Y;X)=H(X)+H(Y)-H(X,Y).\,}

La información mutua se puede expresar como la divergencia promedio de Kullback-Leibler (ganancia de información) entre la distribución de probabilidad posterior de X dado el valor de Y y la distribución previa en X :

I ( X ; Y ) = E p ( y ) [ D K L ( p ( X | Y = y ) p ( X ) ) ] . {\displaystyle I(X;Y)=\mathbb {E} _{p(y)}[D_{\mathrm {KL} }(p(X|Y=y)\|p(X))].}

En otras palabras, se trata de una medida de cuánto, en promedio, cambiará la distribución de probabilidad de X si se nos da el valor de Y. Esto suele recalcularse como la divergencia entre el producto de las distribuciones marginales y la distribución conjunta real:

I ( X ; Y ) = D K L ( p ( X , Y ) p ( X ) p ( Y ) ) . {\displaystyle I(X;Y)=D_{\mathrm {KL} }(p(X,Y)\|p(X)p(Y)).}

La información mutua está estrechamente relacionada con la prueba de razón de verosimilitud logarítmica en el contexto de las tablas de contingencia y la distribución multinomial y con la prueba χ 2 de Pearson : la información mutua puede considerarse una estadística para evaluar la independencia entre un par de variables y tiene una distribución asintótica bien especificada.

Divergencia de Kullback-Leibler (ganancia de información)

La divergencia de Kullback-Leibler (o divergencia de información , ganancia de información o entropía relativa ) es una forma de comparar dos distribuciones: una distribución de probabilidad " real p ( X ) {\displaystyle p(X)} " y una distribución de probabilidad arbitraria . q ( X ) {\displaystyle q(X)} Si comprimimos los datos de una manera que supone que es q ( X ) {\displaystyle q(X)} la distribución subyacente a algunos datos, cuando, en realidad, es la distribución correcta p ( X ) {\displaystyle p(X)} , la divergencia de Kullback-Leibler es el número de bits adicionales promedio por dato necesario para la compresión. Se define así:

D K L ( p ( X ) q ( X ) ) = x X p ( x ) log q ( x ) x X p ( x ) log p ( x ) = x X p ( x ) log p ( x ) q ( x ) . {\displaystyle D_{\mathrm {KL} }(p(X)\|q(X))=\sum _{x\in X}-p(x)\log {q(x)}\,-\,\sum _{x\in X}-p(x)\log {p(x)}=\sum _{x\in X}p(x)\log {\frac {p(x)}{q(x)}}.}

Aunque a veces se utiliza como una "métrica de distancia", la divergencia KL no es una métrica verdadera ya que no es simétrica y no satisface la desigualdad triangular (lo que la convierte en una semicuasimétrica).

Otra interpretación de la divergencia KL es la "sorpresa innecesaria" introducida por una previa de la verdad: supongamos que un número X está a punto de ser extraído aleatoriamente de un conjunto discreto con distribución de probabilidad ⁠ ⁠ p ( x ) {\displaystyle p(x)} . Si Alice conoce la distribución verdadera ⁠ ⁠ p ( x ) {\displaystyle p(x)} , mientras que Bob cree (tiene una previa ) que la distribución es ⁠ ⁠ q ( x ) {\displaystyle q(x)} , entonces Bob estará más sorprendido que Alice, en promedio, al ver el valor de X . La divergencia KL es el valor esperado (objetivo) de la sorpresa (subjetiva) de Bob menos la sorpresa de Alice, medido en bits si el logaritmo está en base 2. De esta manera, el grado en que la previa de Bob es "incorrecta" se puede cuantificar en términos de cuán "innecesariamente sorprendido" se espera que lo haga.

Información dirigida

La información dirigida ,es una medida de la teoría de la información que cuantifica elflujo de información de un proceso aleatorio a otro. El término información dirigida fue acuñado por James Massey y se define como I ( X n Y n ) {\displaystyle I(X^{n}\to Y^{n})} X n = { X 1 , X 2 , , X n } {\displaystyle X^{n}=\{X_{1},X_{2},\dots ,X_{n}\}} Y n = { Y 1 , Y 2 , , Y n } {\displaystyle Y^{n}=\{Y_{1},Y_{2},\dots ,Y_{n}\}}

I ( X n Y n ) i = 1 n I ( X i ; Y i | Y i 1 ) {\displaystyle I(X^{n}\to Y^{n})\triangleq \sum _{i=1}^{n}I(X^{i};Y_{i}|Y^{i-1})} ,

¿Dónde está la información mutua condicional ? I ( X i ; Y i | Y i 1 ) {\displaystyle I(X^{i};Y_{i}|Y^{i-1})} I ( X 1 , X 2 , . . . , X i ; Y i | Y 1 , Y 2 , . . . , Y i 1 ) {\displaystyle I(X_{1},X_{2},...,X_{i};Y_{i}|Y_{1},Y_{2},...,Y_{i-1})}

A diferencia de la información mutua , la información dirigida no es simétrica. La mide los bits de información que se transmiten causalmente [¿definición de transmisión causal?] de a . La información dirigida tiene muchas aplicaciones en problemas donde la causalidad juega un papel importante, como la capacidad de canal con retroalimentación, [26] [27] capacidad de redes discretas sin memoria con retroalimentación, [28] juegos de azar con información secundaria causal, [29] compresión con información secundaria causal, [30] y en entornos de comunicación de control en tiempo real , [31] [32] física estadística. [33] I ( X n Y n ) {\displaystyle I(X^{n}\to Y^{n})} X n {\displaystyle X^{n}} Y n {\displaystyle Y^{n}}

Otras cantidades

Otras magnitudes teóricas de la información importantes son la entropía de Rényi y la entropía de Tsallis (generalizaciones del concepto de entropía), la entropía diferencial (una generalización de las magnitudes de información a distribuciones continuas) y la información mutua condicional . Además, se ha propuesto la información pragmática como una medida de cuánta información se ha utilizado para tomar una decisión.

Teoría de la codificación

Una imagen que muestra rayones en la superficie legible de un CD-R. Los CD de música y datos están codificados mediante códigos de corrección de errores y, por lo tanto, pueden leerse incluso si tienen rayones menores mediante la detección y corrección de errores .

La teoría de la codificación es una de las aplicaciones más importantes y directas de la teoría de la información. Puede subdividirse en teoría de la codificación de fuente y teoría de la codificación de canal. Mediante una descripción estadística de los datos, la teoría de la información cuantifica la cantidad de bits necesarios para describir los datos, que es la entropía de información de la fuente.

  • Compresión de datos (codificación fuente): Hay dos formulaciones para el problema de compresión:
  • Códigos de corrección de errores (codificación de canal): si bien la compresión de datos elimina la mayor cantidad de redundancia posible, un código de corrección de errores agrega exactamente el tipo correcto de redundancia (es decir, corrección de errores) necesaria para transmitir los datos de manera eficiente y fiel a través de un canal ruidoso.

Esta división de la teoría de codificación en compresión y transmisión se justifica por los teoremas de transmisión de información, o teoremas de separación fuente-canal que justifican el uso de bits como moneda universal para la información en muchos contextos. Sin embargo, estos teoremas solo se cumplen en la situación en la que un usuario transmisor desea comunicarse con un usuario receptor. En escenarios con más de un transmisor (el canal de acceso múltiple), más de un receptor (el canal de difusión ) o "ayudantes" intermediarios (el canal de retransmisión ), o redes más generales , la compresión seguida de la transmisión puede ya no ser óptima.

Teoría de las fuentes

Cualquier proceso que genere mensajes sucesivos puede considerarse una fuente de información. Una fuente sin memoria es aquella en la que cada mensaje es una variable aleatoria independiente distribuida de forma idéntica , mientras que las propiedades de ergodicidad y estacionariedad imponen restricciones menos restrictivas. Todas estas fuentes son estocásticas . Estos términos se estudian bien por derecho propio fuera de la teoría de la información.

Tasa

La tasa de información es la entropía media por símbolo. Para fuentes sin memoria, es simplemente la entropía de cada símbolo, mientras que, en el caso de un proceso estocástico estacionario, es:

r = lim n H ( X n | X n 1 , X n 2 , X n 3 , ) ; {\displaystyle r=\lim _{n\to \infty }H(X_{n}|X_{n-1},X_{n-2},X_{n-3},\ldots );}

es decir, la entropía condicional de un símbolo dados todos los símbolos generados anteriormente. Para el caso más general de un proceso que no es necesariamente estacionario, la tasa promedio es:

r = lim n 1 n H ( X 1 , X 2 , X n ) ; {\displaystyle r=\lim _{n\to \infty }{\frac {1}{n}}H(X_{1},X_{2},\dots X_{n});}

es decir, el límite de la entropía conjunta por símbolo. Para fuentes estacionarias, estas dos expresiones dan el mismo resultado. [34]

La tasa de información se define como:

r = lim n 1 n I ( X 1 , X 2 , X n ; Y 1 , Y 2 , Y n ) ; {\displaystyle r=\lim _{n\to \infty }{\frac {1}{n}}I(X_{1},X_{2},\dots X_{n};Y_{1},Y_{2},\dots Y_{n});}

En teoría de la información es habitual hablar de la "velocidad" o "entropía" de un lenguaje. Esto es apropiado, por ejemplo, cuando la fuente de información es prosa en inglés. La velocidad de una fuente de información está relacionada con su redundancia y con lo bien que se puede comprimir, tema de la codificación de fuentes .

Capacidad del canal

Las comunicaciones a través de un canal son la principal motivación de la teoría de la información. Sin embargo, los canales a menudo no logran producir una reconstrucción exacta de una señal; el ruido, los períodos de silencio y otras formas de corrupción de la señal suelen degradar la calidad.

Consideremos el proceso de comunicación a través de un canal discreto. A continuación se muestra un modelo simple del proceso:

Message W Encoder f n E n c o d e d s e q u e n c e X n Channel p ( y | x ) R e c e i v e d s e q u e n c e Y n Decoder g n E s t i m a t e d m e s s a g e W ^ {\displaystyle {\xrightarrow[{\text{Message}}]{W}}{\begin{array}{|c| }\hline {\text{Encoder}}\\f_{n}\\\hline \end{array}}{\xrightarrow[{\mathrm {Encoded \atop sequence} }]{X^{n}}}{\begin{array}{|c| }\hline {\text{Channel}}\\p(y|x)\\\hline \end{array}}{\xrightarrow[{\mathrm {Received \atop sequence} }]{Y^{n}}}{\begin{array}{|c| }\hline {\text{Decoder}}\\g_{n}\\\hline \end{array}}{\xrightarrow[{\mathrm {Estimated \atop message} }]{\hat {W}}}}

Aquí X representa el espacio de mensajes transmitidos, e Y el espacio de mensajes recibidos durante una unidad de tiempo a través de nuestro canal. Sea p ( y | x ) la función de distribución de probabilidad condicional de Y dado X . Consideraremos p ( y | x ) como una propiedad fija inherente de nuestro canal de comunicaciones (que representa la naturaleza del ruido de nuestro canal). Entonces la distribución conjunta de X e Y está completamente determinada por nuestro canal y por nuestra elección de f ( x ) , la distribución marginal de mensajes que elegimos enviar a través del canal. Bajo estas restricciones, nos gustaría maximizar la tasa de información, o la señal , que podemos comunicar a través del canal. La medida apropiada para esto es la información mutua, y esta información mutua máxima se llama capacidad del canal y está dada por:

C = max f I ( X ; Y ) . {\displaystyle C=\max _{f}I(X;Y).\!}

Esta capacidad tiene la siguiente propiedad relacionada con la comunicación a una tasa de información R (donde R es usualmente bits por símbolo). Para cualquier tasa de información R < C y error de codificación ε > 0, para un N suficientemente grande , existe un código de longitud N y tasa ≥ R y un algoritmo de decodificación, tal que la probabilidad máxima de error de bloque es ≤ ε ; es decir, siempre es posible transmitir con un error de bloque arbitrariamente pequeño. Además, para cualquier tasa R > C , es imposible transmitir con un error de bloque arbitrariamente pequeño.

La codificación de canales se ocupa de encontrar códigos casi óptimos que puedan usarse para transmitir datos a través de un canal ruidoso con un pequeño error de codificación a una velocidad cercana a la capacidad del canal.

Capacidad de modelos de canales particulares

  • Un canal de comunicaciones analógico de tiempo continuo sujeto a ruido gaussiano (véase teorema de Shannon-Hartley) .
  • Un canal binario simétrico (BSC) con probabilidad de cruce p es un canal binario de entrada y salida que invierte el bit de entrada con probabilidad p . El BSC tiene una capacidad de 1 − H b ( p ) bits por uso de canal, donde H b es la función de entropía binaria en base 2:
  • Un canal de borrado binario (BEC) con probabilidad de borrado p es un canal de entrada binaria y salida ternaria. Las salidas de canal posibles son 0, 1 y un tercer símbolo "e" llamado borrado. El borrado representa la pérdida completa de información sobre un bit de entrada. La capacidad del BEC es de 1 − p bits por uso del canal.

Canales con memoria e información dirigida

En la práctica, muchos canales tienen memoria. Es decir, en el momento en que el canal se da por la probabilidad condicional . A menudo es más cómodo utilizar la notación y el canal se convierte en . En tal caso, la capacidad se da por la tasa de información mutua cuando no hay retroalimentación disponible y la tasa de información dirigida en el caso de que haya retroalimentación o no [26] [35] (si no hay retroalimentación, la información dirigida es igual a la información mutua). i {\displaystyle i} P ( y i | x i , x i 1 , x i 2 , . . . , x 1 , y i 1 , y i 2 , . . . , y 1 ) . {\displaystyle P(y_{i}|x_{i},x_{i-1},x_{i-2},...,x_{1},y_{i-1},y_{i-2},...,y_{1}).} x i = ( x i , x i 1 , x i 2 , . . . , x 1 ) {\displaystyle x^{i}=(x_{i},x_{i-1},x_{i-2},...,x_{1})} P ( y i | x i , y i 1 ) . {\displaystyle P(y_{i}|x^{i},y^{i-1}).}

Información fungible

La información fungible es aquella para la cual el medio de codificación no es importante. [36] Los teóricos de la información clásicos y los científicos informáticos se ocupan principalmente de la información de este tipo. A veces se la denomina información descriptible. [37]

Aplicaciones a otros campos

Usos de la inteligencia y aplicaciones del secreto

Los conceptos de la teoría de la información se aplican a la criptografía y al criptoanálisis. La unidad de información de Turing, la ban , se utilizó en el proyecto Ultra , que descifró el código de la máquina alemana Enigma y aceleró el fin de la Segunda Guerra Mundial en Europa . El propio Shannon definió un concepto importante que ahora se denomina distancia de unicidad . Basado en la redundancia del texto simple , intenta proporcionar una cantidad mínima de texto cifrado necesaria para garantizar la descifrabilidad única.

La teoría de la información nos lleva a creer que es mucho más difícil guardar secretos de lo que parece a primera vista. Un ataque de fuerza bruta puede romper sistemas basados ​​en algoritmos de clave asimétrica o en los métodos más comúnmente utilizados de algoritmos de clave simétrica (a veces llamados algoritmos de clave secreta), como los cifrados de bloques . La seguridad de todos estos métodos se basa en el supuesto de que ningún ataque conocido puede romperlos en un tiempo práctico.

La seguridad basada en la teoría de la información se refiere a métodos como el block de un solo uso que no son vulnerables a este tipo de ataques de fuerza bruta. En tales casos, la información mutua condicional positiva entre el texto simple y el texto cifrado (condicionada a la clave ) puede garantizar una transmisión adecuada, mientras que la información mutua incondicional entre el texto simple y el texto cifrado permanece cero, lo que da como resultado comunicaciones absolutamente seguras. En otras palabras, un espía no podría mejorar su suposición del texto simple obteniendo conocimiento del texto cifrado pero no de la clave. Sin embargo, como en cualquier otro sistema criptográfico, se debe tener cuidado para aplicar correctamente incluso los métodos seguros desde el punto de vista de la información; el proyecto Venona pudo descifrar los block de un solo uso de la Unión Soviética debido a su reutilización indebida del material de la clave.

Generación de números pseudoaleatorios

Los generadores de números pseudoaleatorios están ampliamente disponibles en bibliotecas de lenguajes informáticos y programas de aplicación. Son, casi universalmente, inadecuados para uso criptográfico ya que no evaden la naturaleza determinista de los equipos y software informáticos modernos. Una clase de generadores de números aleatorios mejorados se denomina generadores de números pseudoaleatorios criptográficamente seguros , pero incluso ellos requieren semillas aleatorias externas al software para funcionar como se pretende. Estas se pueden obtener a través de extractores , si se hacen con cuidado. La medida de aleatoriedad suficiente en los extractores es la min-entropía , un valor relacionado con la entropía de Shannon a través de la entropía de Rényi ; la entropía de Rényi también se utiliza para evaluar la aleatoriedad en sistemas criptográficos. Aunque relacionadas, las distinciones entre estas medidas significan que una variable aleatoria con alta entropía de Shannon no es necesariamente satisfactoria para su uso en un extractor y, por lo tanto, para usos criptográficos.

Exploración sísmica

Una de las primeras aplicaciones comerciales de la teoría de la información fue en el campo de la exploración sísmica de petróleo. Los trabajos en este campo permitieron eliminar y separar el ruido no deseado de la señal sísmica deseada. La teoría de la información y el procesamiento de señales digitales ofrecen una mejora importante en la resolución y la claridad de la imagen en comparación con los métodos analógicos anteriores. [38]

Semiótica

Los semióticos Doede Nauta y Winfried Nöth consideraron que Charles Sanders Peirce creó una teoría de la información en sus obras sobre semiótica. [39] : 171  [40] : 137  Nauta definió la teoría de la información semiótica como el estudio de " los procesos internos de codificación, filtrado y procesamiento de la información " . [39] : 91 

Conceptos de la teoría de la información como redundancia y control de código han sido utilizados por semióticos como Umberto Eco y Ferruccio Rossi-Landi para explicar la ideología como una forma de transmisión de mensajes mediante la cual una clase social dominante emite su mensaje utilizando signos que exhiben un alto grado de redundancia, de modo que solo se decodifica un mensaje entre una selección de mensajes en competencia. [41]

Organización integrada de procesos de información neuronal

Los métodos de teoría de la información cuantitativa se han aplicado en la ciencia cognitiva para analizar la organización del proceso integrado de la información neuronal en el contexto del problema de enlace en la neurociencia cognitiva . [42] En este contexto, se define una medida teórica de la información, como los clústeres funcionales ( modelo de agrupamiento funcional y la hipótesis del núcleo dinámico (DCH) de Gerald Edelman y Giulio Tononi [43] ) o la información efectiva ( teoría de la información integrada (IIT) de la conciencia de Tononi [44] [45] [46] ), (sobre la base de una organización de proceso reentrante, es decir, la sincronización de la actividad neurofisiológica entre grupos de poblaciones neuronales), o la medida de la minimización de la energía libre sobre la base de métodos estadísticos ( principio de energía libre (FEP) de Karl J. Friston , una medida teórica de la información que establece que cada cambio adaptativo en un sistema autoorganizado conduce a una minimización de la energía libre, y la hipótesis del cerebro bayesiano [47] [48] [49] [50] [51] ).

Aplicaciones varias

La teoría de la información también tiene aplicaciones en la búsqueda de inteligencia extraterrestre , [52] agujeros negros , bioinformática [ cita requerida ] y juegos de azar .

Véase también

Aplicaciones

Historia

Teoría

Conceptos

Referencias

  1. ^ Schneider, Thomas D. (2006). "Claude Shannon: biólogo". Revista IEEE de Ingeniería en Medicina y Biología: revista trimestral de la Sociedad de Ingeniería en Medicina y Biología . 25 (1): 30–33. doi :10.1109/memb.2006.1578661. ISSN  0739-5175. PMC 1538977.  PMID 16485389  .
  2. ^ ab Cruces, Sergio; Martín-Clemente, Rubén; Samek, Wojciech (3 de julio de 2019). "Aplicaciones de la teoría de la información en el procesamiento de señales". Entropy . 21 (7): 653. Bibcode :2019Entrp..21..653C. doi : 10.3390/e21070653 . ISSN  1099-4300. PMC 7515149 . PMID  33267367. 
  3. ^ ab Baleanu, D.; Balas, Valentina Emilia; Agarwal, Praveen, eds. (2023). Sistemas de orden fraccionario y aplicaciones en ingeniería. Estudios avanzados en sistemas complejos. Londres, Reino Unido: Academic Press. p. 23. ISBN 978-0-323-90953-2.OCLC 1314337815  .
  4. ^ Burnham, KP y Anderson DR (2002) Selección de modelos e inferencia multimodelo: un enfoque práctico de teoría de la información, segunda edición (Springer Science, Nueva York) ISBN 978-0-387-95364-9 . 
  5. ^ ab F. Rieke; D. Warland; R Ruyter van Steveninck; W. Bialek (1997). Spikes: explorando el código neuronal . La prensa del MIT. ISBN 978-0262681087.
  6. ^ Delgado-Bonal, Alfonso; Martín-Torres, Javier (2016-11-03). "La visión humana está determinada en base a la teoría de la información". Scientific Reports . 6 (1): 36038. Bibcode :2016NatSR...636038D. doi :10.1038/srep36038. ISSN  2045-2322. PMC 5093619 . PMID  27808236. 
  7. ^ cf; Huelsenbeck, JP; Ronquist, F.; Nielsen, R.; Bollback, JP (2001). "Inferencia bayesiana de la filogenia y su impacto en la biología evolutiva". Science . 294 (5550): 2310–2314. Bibcode :2001Sci...294.2310H. doi :10.1126/science.1065889. PMID  11743192. S2CID  2138288.
  8. ^ Allikmets, Rando; Wasserman, Wyeth W.; Hutchinson, Amy; Smallwood, Philip; Nathans, Jeremy; Rogan, Peter K. (1998). "Thomas D. Schneider], Michael Dean (1998) Organización del gen ABCR: análisis de las secuencias promotoras y de unión de empalme". Gene . 215 (1): 111–122. doi : 10.1016/s0378-1119(98)00269-8 . PMID  9666097.
  9. ^ Jaynes, ET (1957). "Teoría de la información y mecánica estadística". Phys. Rev. 106 ( 4): 620. Bibcode :1957PhRv..106..620J. doi :10.1103/physrev.106.620. S2CID  17870175.
  10. ^ Talaat, Khaled; Cowen, Benjamin; Anderoglu, Osman (5 de octubre de 2020). "Método de entropía de información para la evaluación de la convergencia de simulaciones de dinámica molecular". Journal of Applied Physics . 128 (13): 135102. Bibcode :2020JAP...128m5102T. doi : 10.1063/5.0019078 . OSTI  1691442. S2CID  225010720.
  11. ^ Bennett, Charles H.; Li, Ming; Ma, Bin (2003). "Cartas en cadena e historias evolutivas". Scientific American . 288 (6): 76–81. Código Bibliográfico :2003SciAm.288f..76B. doi :10.1038/scientificamerican0603-76. PMID  12764940. Archivado desde el original el 2007-10-07 . Consultado el 2008-03-11 .
  12. ^ David R. Anderson (1 de noviembre de 2003). «Algunos antecedentes sobre por qué las personas que trabajan en ciencias empíricas podrían querer entender mejor los métodos teóricos de la información» (PDF) . Archivado desde el original (PDF) el 23 de julio de 2011. Consultado el 23 de junio de 2010 .
  13. ^ Loy, D. Gareth (2017), Pareyon, Gabriel; Pina-Romero, Silvia; Agustín-Aquino, Octavio A.; Lluis-Puebla, Emilio (eds.), "Música, expectativa y teoría de la información", The Musical-Mathematical Mind: Patterns and Transformations , Computational Music Science, Cham: Springer International Publishing, pp. 161–169, doi :10.1007/978-3-319-47337-6_17, ISBN 978-3-319-47337-6, consultado el 19 de septiembre de 2024
  14. ^ Rocamora, Martín; Cancela, Pablo; Biscainho, Luiz (5 de abril de 2019). "Conceptos de teoría de la información aplicados al análisis del ritmo en música grabada con patrones rítmicos recurrentes". Journal of the Audio Engineering Society . 67 (4): 160–173. doi :10.17743/jaes.2019.0003.
  15. ^ Marsden, Alan (2020). "Nuevas perspectivas para la teoría de la información en la investigación en artes". Leonardo . 53 (3): 274–280. doi :10.1162/leon_a_01860. ISSN  0024-094X.
  16. ^ Pinkard, Henry; Kabuli, Leyla; Markley, Eric; Chien, Tiffany; Jiao, Jiantao; Waller, Laura (2024). "Evaluación y diseño universal de sistemas de imágenes utilizando estimación de información". arXiv : 2405.20559 [física.óptica].
  17. ^ Wing, Simon; Johnson, Jay R. (1 de febrero de 2019). "Aplicaciones de la teoría de la información en la física solar y espacial". Entropy . 21 (2): 140. doi : 10.3390/e21020140 . ISSN  1099-4300. PMC 7514618 . PMID  33266856. 
  18. ^ Kak, Subhash (26 de noviembre de 2020). "Teoría de la información y dimensionalidad del espacio". Scientific Reports . 10 (1): 20733. doi :10.1038/s41598-020-77855-9. ISSN  2045-2322.
  19. ^ Harms, William F. (1998). "El uso de la teoría de la información en epistemología". Filosofía de la ciencia . 65 (3): 472–501. doi :10.1086/392657. ISSN  0031-8248. JSTOR  188281.
  20. ^ Horgan, John (27 de abril de 2016). «Claude Shannon: inventor, bromista y padre de la teoría de la información». IEEE . Consultado el 30 de septiembre de 2023 .
  21. ^ Roberts, Siobhan (30 de abril de 2016). "El padre olvidado de la era de la información". The New Yorker . ISSN  0028-792X . Consultado el 30 de septiembre de 2023 .
  22. ^ ab Tse, David (22 de diciembre de 2020). "Cómo Claude Shannon inventó el futuro". Revista Quanta . Consultado el 30 de septiembre de 2023 .
  23. ^ Braverman, Mark (19 de septiembre de 2011). "Teoría de la información en la informática" (PDF) .
  24. ^ Fazlollah M. Reza (1994) [1961]. Introducción a la teoría de la información. Dover Publications, Inc., Nueva York. ISBN 0-486-68210-2.
  25. ^ Robert B. Ash (1990) [1965]. Teoría de la información. Dover Publications, Inc. ISBN 0-486-66521-6.
  26. ^ ab Massey, James (1990), "Causalidad, retroalimentación e información dirigida", Proc. 1990 Intl. Symp. on Info. Th. and its Applications , CiteSeerX 10.1.1.36.5688 
  27. ^ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (febrero de 2009). "Canales de estados finitos con retroalimentación determinista invariante en el tiempo". IEEE Transactions on Information Theory . 55 (2): 644–662. arXiv : cs/0608070 . doi :10.1109/TIT.2008.2009849. S2CID  13178.
  28. ^ Kramer, G. (enero de 2003). "Resultados de capacidad para la red discreta sin memoria". IEEE Transactions on Information Theory . 49 (1): 4–21. doi :10.1109/TIT.2002.806135.
  29. ^ Permuter, Haim H.; Kim, Young-Han; Weissman, Tsachy (junio de 2011). "Interpretaciones de información dirigida en teoría de cartera, compresión de datos y prueba de hipótesis". IEEE Transactions on Information Theory . 57 (6): 3248–3259. arXiv : 0912.4872 . doi :10.1109/TIT.2011.2136270. S2CID  11722596.
  30. ^ Simeone, Osvaldo; Permuter, Haim Henri (junio de 2013). "Codificación de fuentes cuando la información secundaria puede retrasarse". IEEE Transactions on Information Theory . 59 (6): 3607–3618. arXiv : 1109.1293 . doi :10.1109/TIT.2013.2248192. S2CID  3211485.
  31. ^ Charalambous, Charalambos D.; Stavrou, Photios A. (agosto de 2016). "Información dirigida en espacios abstractos: propiedades e igualdades variacionales". IEEE Transactions on Information Theory . 62 (11): 6019–6052. arXiv : 1302.3971 . doi :10.1109/TIT.2016.2604846. S2CID  8107565.
  32. ^ Tanaka, Takashi; Esfahani, Peyman Mohajerin; Mitter, Sanjoy K. (enero de 2018). "Control LQG con información mínima dirigida: enfoque de programación semidefinida". IEEE Transactions on Automatic Control . 63 (1): 37–52. arXiv : 1510.04214 . doi :10.1109/TAC.2017.2709618. S2CID  1401958. Archivado desde el original el 12 de abril de 2024, a través de los repositorios de la TU Delft.
  33. ^ Vinkler, Dror A; Permuter, Haim H; Merhav, Neri (20 de abril de 2016). "Analogía entre el juego y la extracción de trabajo basada en la medición". Journal of Statistical Mechanics: Theory and Experiment . 2016 (4): 043403. arXiv : 1404.6788 . Bibcode :2016JSMTE..04.3403V. doi :10.1088/1742-5468/2016/04/043403. S2CID  124719237.
  34. ^ Jerry D. Gibson (1998). Compresión digital para multimedia: principios y estándares. Morgan Kaufmann. ISBN 1-55860-369-7.
  35. ^ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (febrero de 2009). "Canales de estados finitos con retroalimentación determinista invariante en el tiempo". IEEE Transactions on Information Theory . 55 (2): 644–662. arXiv : cs/0608070 . doi :10.1109/TIT.2008.2009849. S2CID  13178.
  36. ^ Bartlett, Stephen D.; Rudolph, Terry; Spekkens, Robert W. (abril-junio de 2007). "Marcos de referencia, reglas de superselección e información cuántica". Reseñas de física moderna . 79 (2): 555–606. arXiv : quant-ph/0610030 . Código Bibliográfico :2007RvMP...79..555B. doi :10.1103/RevModPhys.79.555.
  37. ^ Peres, A.; PF Scudo (2002b). A. Khrennikov (ed.). Teoría cuántica: reconsideración de fundamentos . Prensa de la Universidad de Växjö, Växjö, Suecia. pag. 283.
  38. ^ Haggerty, Patrick E. (1981). "La corporación y la innovación". Revista de Gestión Estratégica . 2 (2): 97–118. doi :10.1002/smj.4250020202.
  39. ^ ab Nauta, Doede (1972). El significado de la información . La Haya: Mouton. ISBN 9789027919960.
  40. ^ Nöth, Winfried (enero de 2012). «La teoría de la información de Charles S. Peirce: una teoría del crecimiento de los símbolos y del conocimiento». Cibernética y conocimiento humano . 19 (1–2): 137–161.
  41. ^ Nöth, Winfried (1981). "Semiótica de la ideología". Semiotica , número 148.
  42. ^ Maurer, H. (2021). Ciencia cognitiva: mecanismos de sincronización integradores en las neuroarquitecturas cognitivas del conexionismo moderno. CRC Press, Boca Raton/FL, cap. 10, ISBN 978-1-351-04352-6. https://doi.org/10.1201/9781351043526
  43. ^ Edelman, GM y G. Tononi (2000). Un universo de conciencia: cómo la materia se convierte en imaginación. Basic Books, Nueva York.
  44. ^ Tononi, G. y O. Sporns (2003). Medición de la integración de la información. BMC Neuroscience 4: 1-20.
  45. ^ Tononi, G. (2004a). Una teoría de la integración de la información de la conciencia. BMC Neuroscience 5: 1-22.
  46. ^ Tononi, G. (2004b). Conciencia y cerebro: aspectos teóricos. En: G. Adelman y B. Smith [eds.]: Encyclopedia of Neuroscience. 3.ª ed. Elsevier, Ámsterdam, Oxford.
  47. ^ Friston, K. y KE Stephan (2007). Energía libre y cerebro. Synthese 159: 417-458.
  48. ^ Friston, K. (2010). El principio de energía libre: una teoría unificada del cerebro. Nature Reviews Neuroscience 11: 127-138.
  49. ^ Friston, K., M. Breakstear y G. Deco (2012). Percepción e inestabilidad autoorganizada. Frontiers in Computational Neuroscience 6: 1-19.
  50. ^ Friston, K. (2013). La vida tal como la conocemos. Revista de la Royal Society Interface 10: 20130475.
  51. ^ Kirchhoff, M., T. Parr, E. Palacios, K. Friston y J. Kiverstein. (2018). Las mantas de Markov de la vida: autonomía, inferencia activa y el principio de energía libre. Journal of the Royal Society Interface 15: 20170792.
  52. ^ Doyle, Laurance R. ; McCowan, Brenda ; Johnston, Simon; Hanser, Sean F. (febrero de 2011). "Teoría de la información, comunicación animal y la búsqueda de inteligencia extraterrestre". Acta Astronautica . 68 (3–4): 406–417. Bibcode :2011AcAau..68..406D. doi :10.1016/j.actaastro.2009.11.018.

Lectura adicional

La obra clásica

Otros artículos de revistas

  • JL Kelly Jr., Princeton, "Una nueva interpretación de la tasa de información" , Bell System Technical Journal , vol. 35, julio de 1956, págs. 917–26.
  • R. Landauer, IEEE.org, "La información es física", Proc. Taller sobre física y computación PhysComp'92 (IEEE Comp. Sci.Press, Los Alamitos, 1993), págs. 1–4.
  • Landauer, R. (1961). "Irreversibilidad y generación de calor en el proceso computacional" (PDF) . IBM J. Res. Dev . 5 (3): 183–191. doi :10.1147/rd.53.0183.
  • Timme, Nicholas; Alford, Wesley; Flecker, Benjamin; Beggs, John M. (2012). "Medidas de información multivariadas: la perspectiva de un experimentalista". arXiv : 1111.6857 [cs.IT].

Libros de texto sobre teoría de la información

Otros libros

  • "Información", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
  • Lambert FL (1999), "Cartas mezcladas, escritorios desordenados y dormitorios desordenados: ¿ejemplos de aumento de la entropía? ¡Tonterías!", Journal of Chemical Education
  • Monografías, encuestas y reseñas de la IEEE Information Theory Society y ITSOC Archivado el 12 de junio de 2018 en Wayback Machine
Retrieved from "https://en.wikipedia.org/w/index.php?title=Information_theory&oldid=1251421217"