Estas divergencias fueron introducidas por Alfréd Rényi [1] en el mismo artículo donde introdujo la conocida entropía de Rényi . Demostró que estas divergencias disminuyen en los procesos de Markov . Las divergencias f fueron estudiadas más a fondo de forma independiente por Csiszár (1963), Morimoto (1963) y Ali & Silvey (1966) y a veces se conocen como divergencias de Csiszár, divergencias de Csiszár–Morimoto o distancias de Ali–Silvey.
Definición
Caso no singular
Sean y dos distribuciones de probabilidad sobre un espacio , tal que , es decir, es absolutamente continua con respecto a . Entonces, para una función convexa tal que es finita para todo , , y (que podría ser infinita), la -divergencia de de se define como
Cuando no se dispone de una distribución de referencia de este tipo, podemos simplemente definir y proceder como se indicó anteriormente. Esta es una técnica útil en pruebas más abstractas.
La definición anterior puede extenderse a los casos en que ya no se cumple (Definición 7.1 de [2] ).
Como es convexo, y , la función debe ser no decreciente, por lo que existe , que toma valor en .
Dado que para cualquier , tenemos , podemos extender la f-divergencia a .
Propiedades
Relaciones básicas entre f-divergencias
Linealidad: dada una secuencia finita de números reales no negativos y generadores .
si para algunos .
Prueba
Si , entonces por definición.
Por el contrario, si , entonces sea . Para dos medidas de probabilidad cualesquiera en el conjunto , ya que , obtenemos
Dado que cada medida de probabilidad tiene un grado de libertad, podemos resolver para cada elección de .
El álgebra lineal da como resultado , que es una medida de probabilidad válida. Entonces obtenemos .
Por lo tanto,
para algunas constantes . Al introducir la fórmula en se obtiene .
Propiedades básicas de las f-divergencias
No negatividad : la divergencia ƒ es siempre positiva; es cero si las medidas P y Q coinciden. Esto se deduce inmediatamente de la desigualdad de Jensen :
La igualdad aquí se cumple si y sólo si la transición se induce a partir de una estadística suficiente con respecto a { P , Q }.
Convexidad articular : para cualquier 0 ≤ λ ≤ 1 ,
Esto se desprende de la convexidad del mapeo en .
Inversión por inversión convexa : para cualquier función , su inversión convexa se define como . Cuando satisface las características definitorias de un generador de f-divergencia ( es finito para todos , , y ), entonces satisface las mismas características y, por lo tanto, define una f-divergencia . Esta es la "inversa" de , en el sentido de que para todos los que son absolutamente continuos entre sí. De esta manera, cada f-divergencia puede volverse simétrica por . Por ejemplo, realizar esta simetrización convierte la KL-divergencia en divergencia de Jeffreys.
En particular, la monotonía implica que si un proceso de Markov tiene una distribución de probabilidad de equilibrio positiva , entonces es una función monótona (no creciente) del tiempo, donde la distribución de probabilidad es una solución de las ecuaciones directas de Kolmogorov (o ecuación maestra ), utilizada para describir la evolución temporal de la distribución de probabilidad en el proceso de Markov. Esto significa que todas las f -divergencias son las funciones de Lyapunov de las ecuaciones directas de Kolmogorov. La afirmación inversa también es verdadera: Si es una función de Lyapunov para todas las cadenas de Markov con equilibrio positivo y es de la forma traza ( ) entonces , para alguna función convexa f . [3] [4] Por ejemplo, las divergencias de Bregman en general no tienen dicha propiedad y pueden aumentar en los procesos de Markov. [5]
Propiedades analíticas
Las f-divergencias pueden expresarse utilizando series de Taylor y reescribirse utilizando una suma ponderada de distancias de tipo chi (Nielsen y Nock (2013)).
Representación variacional ingenua
Sea el conjugado convexo de . Sea el dominio efectivo de , es decir, . Entonces tenemos dos representaciones variacionales de , que describimos a continuación.
Representación variacional básica
Con la configuración anterior,
Teorema — .
Este es el teorema 7,24. [2]
Ejemplos de aplicaciones
Usando este teorema sobre la distancia de variación total, con generador su conjugado convexo es , y obtenemos
Para la divergencia chi-cuadrado, definida por , obtenemos
Dado que el término de variación no es afín-invariante en , aunque el dominio sobre el cual varía es afín-invariante, podemos usar la invariancia afín para obtener una expresión más simple.
Para -divergencia con , tenemos , con rango . Su conjugado convexo es con rango , donde .
La aplicación de este teorema produce, después de sustituir con ,
o, liberando la restricción en ,
El establecimiento produce la representación variacional de la -divergencia obtenida anteriormente.
El dominio sobre el cual varía no es invariante afín en general, a diferencia del caso de la divergencia. La divergencia es especial, ya que en ese caso podemos eliminar el de .
Para general , el dominio sobre el cual varía es simplemente invariante de escala. De manera similar a lo anterior, podemos reemplazar por , y tomar el mínimo para obtener
Si establecemos , y realizamos otra sustitución por , obtenemos dos representaciones variacionales de la distancia Hellinger al cuadrado:
Si aplicamos este teorema a la divergencia KL, definida por , obtenemos
Esto es estrictamente menos eficiente que la representación de Donsker-Varadhan
Este defecto se corrige con el siguiente teorema.
Representación variacional mejorada
Supongamos la configuración presentada al comienzo de esta sección ("Representaciones variacionales").
Teorema — Si está activado (redefinir si es necesario), entonces
,
donde
y , donde es la función de densidad de probabilidad de con respecto a alguna medida subyacente.
En el caso especial de , tenemos
.
Este es el teorema 7,25. [2]
Ejemplos de aplicaciones
La aplicación de este teorema a la divergencia KL produce la representación de Donsker-Varadhan.
Intentar aplicar este teorema a la divergencia general con no produce una solución de forma cerrada.
Ejemplos comunes deF-divergencias
En la siguiente tabla se enumeran muchas de las divergencias comunes entre distribuciones de probabilidad y las posibles funciones generadoras a las que corresponden. Cabe destacar que, a excepción de la distancia de variación total, todas las demás son casos especiales de divergencia o sumas lineales de divergencias.
Para cada f-divergencia , su función generadora no está definida de forma única, sino solo hasta , donde es una constante real cualquiera. Es decir, para cualquier que genere una f-divergencia, tenemos . Esta libertad no solo es conveniente, sino realmente necesaria.
Sea el generador de la divergencia , entonces y son inversiones convexas entre sí, por lo que . En particular, esto demuestra que la distancia al cuadrado de Hellinger y la divergencia de Jensen-Shannon son simétricas.
En la literatura, las divergencias a veces se parametrizan como
lo que equivale a la parametrización en esta página sustituyendo .
Un par de distribuciones de probabilidad puede considerarse como un juego de azar en el que una de las distribuciones define las probabilidades oficiales y la otra contiene las probabilidades reales. El conocimiento de las probabilidades reales permite a un jugador obtener beneficios del juego. Para una clase grande de jugadores racionales, la tasa de beneficio esperada tiene la misma forma general que la divergencia ƒ . [8]
^ Rényi, Alfréd (1961). Sobre medidas de entropía e información (PDF) . El 4º Simposio de Berkeley sobre Matemáticas, Estadística y Probabilidad, 1960. Berkeley, CA: University of California Press. pp. 547–561.Ecuación (4.20)
^ abcd Polyanskiy, Yury; Yihong, Wu (2022). Teoría de la información: de la codificación al aprendizaje (borrador del 20 de octubre de 2022) (PDF) . Cambridge University Press. Archivado desde el original (PDF) el 1 de febrero de 2023.
^ Gorban, Pavel A. (15 de octubre de 2003). "Entropías monótonamente equivalentes y solución de la ecuación de aditividad". Physica A . 328 (3–4): 380–390. arXiv : cond-mat/0304131 . Código Bibliográfico :2003PhyA..328..380G. doi :10.1016/S0378-4371(03)00578-8. S2CID 14975501.
^ Amari, Shun'ichi (2009). Leung, CS; Lee, M.; Chan, JH (eds.). Divergencia, optimización, geometría . La 16.ª Conferencia internacional sobre procesamiento de información neuronal (ICONIP 20009), Bangkok, Tailandia, del 1 al 5 de diciembre de 2009. Lecture Notes in Computer Science, vol. 5863. Berlín, Heidelberg: Springer. págs. 185–193. doi :10.1007/978-3-642-10677-4_21.
^ Gorban, Alexander N. (29 de abril de 2014). "Teorema H general y entropías que violan la segunda ley". Entropía . 16 (5): 2408–2432. arXiv : 1212.6767 . Código Bibliográfico :2014Entrp..16.2408G. doi : 10.3390/e16052408 .
^ Jiao, Jiantao; Courtade, Thomas; No, Albert; Venkat, Kartik; Weissman, Tsachy (diciembre de 2014). "Medidas de información: el curioso caso del alfabeto binario". IEEE Transactions on Information Theory . 60 (12): 7616–7626. arXiv : 1404.6810 . doi :10.1109/TIT.2014.2360184. ISSN 0018-9448. S2CID 13108908.
^ Sriperumbudur, Bharath K.; Fukumizu, Kenji; Gretton, Arthur; Schölkopf, Bernhard ; Lanckriet, Gert RG (2009). "Sobre métricas de probabilidad integral, divergencias φ y clasificación binaria". arXiv : 0901.2698 [cs.IT].
^ Soklakov, Andrei N. (2020). "Economía del desacuerdo: intuición financiera para la divergencia de Rényi". Entropía . 22 (8): 860. arXiv : 1811.08308 . Código Bibliográfico :2020Entrp..22..860S. doi : 10.3390/e22080860 . PMC 7517462 . PMID 33286632.
Csiszár, I. (1963). "Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten". Magiar. Tud. Akád. Estera. Aeropuerto Internacional de Kutato. Kozl . 8 : 85-108.
Morimoto, T. (1963). "Procesos de Markov y el teorema H". J. Phys. Soc. Jpn . 18 (3): 328–331. Código Bibliográfico :1963JPSJ...18..328M. doi :10.1143/JPSJ.18.328.
Ali, SM; Silvey, SD (1966). "Una clase general de coeficientes de divergencia de una distribución respecto de otra". Revista de la Royal Statistical Society, Serie B . 28 (1): 131–142. JSTOR 2984279. MR 0196777.
Csiszár, I. (1967). "Medidas de tipo informativo de la diferencia de distribuciones de probabilidad y observación indirecta". Studia Scientiarum Mathematicarum Hungarica . 2 : 229–318.
Csiszár, I. ; Shields, P. (2004). "Teoría de la información y estadística: un tutorial" (PDF) . Fundamentos y tendencias en teoría de la información y las comunicaciones . 1 (4): 417–528. doi :10.1561/0100000004 . Consultado el 8 de abril de 2009 .
Liese, F.; Vajda, I. (2006). "Sobre divergencias e informaciones en estadística y teoría de la información". IEEE Transactions on Information Theory . 52 (10): 4394–4412. doi :10.1109/TIT.2006.881731. S2CID 2720215.
Nielsen, F.; Nock, R. (2013). "Sobre el Chi cuadrado y las distancias Chi de orden superior para aproximar divergencias f". IEEE Signal Processing Letters . 21 (1): 10–13. arXiv : 1309.3029 . Bibcode :2014ISPL...21...10N. doi :10.1109/LSP.2013.2288355. S2CID 4152365.
Coeurjolly, JF.; Drouilhet, R. (2006). "Divergencias normalizadas basadas en información". arXiv : math/0604246 .