Información de Fisher

Noción en estadística

En estadística matemática , la información de Fisher (a veces simplemente llamada información ^[1] ) es una forma de medir la cantidad de información que una variable aleatoria observable X lleva sobre un parámetro desconocido θ de una distribución que modela X. Formalmente, es la varianza de la puntuación , o el valor esperado de la información observada .

El estadístico Sir Ronald Fisher (después de algunos resultados iniciales de Francis Ysidro Edgeworth ) enfatizó y exploró el papel de la información de Fisher en la teoría asintótica de la estimación de máxima verosimilitud . La matriz de información de Fisher se utiliza para calcular las matrices de covarianza asociadas con las estimaciones de máxima verosimilitud . También se puede utilizar en la formulación de estadísticas de prueba, como la prueba de Wald .

En la estadística bayesiana , la información de Fisher juega un papel en la derivación de distribuciones previas no informativas según la regla de Jeffreys . ^[2] También aparece como la covarianza de muestra grande de la distribución posterior , siempre que la previa sea suficientemente suave (un resultado conocido como teorema de Bernstein-von Mises , que fue anticipado por Laplace para familias exponenciales ). ^[3] El mismo resultado se utiliza cuando se aproxima la posterior con la aproximación de Laplace , donde la información de Fisher aparece como la covarianza de la gaussiana ajustada. ^[4]

Se ha demostrado que los sistemas estadísticos de naturaleza científica (física, biológica, etc.) cuyas funciones de verosimilitud obedecen a la invariancia de desplazamiento obedecen a la máxima información de Fisher. ^[5] El nivel del máximo depende de la naturaleza de las restricciones del sistema.

Definición

La información de Fisher es una forma de medir la cantidad de información que una variable aleatoria observable lleva consigo sobre un parámetro desconocido del que depende la probabilidad de . Sea la función de densidad de probabilidad (o función de masa de probabilidad ) para condicionada al valor de . Describe la probabilidad de que observemos un resultado dado de , dado un valor conocido de . Si tiene un pico pronunciado con respecto a los cambios en , es fácil indicar el valor "correcto" de a partir de los datos o, equivalentemente, que los datos proporcionan mucha información sobre el parámetro . Si es plana y dispersa, entonces se necesitarían muchas muestras de para estimar el valor "verdadero" real de que se obtendría utilizando toda la población muestreada. Esto sugiere estudiar algún tipo de varianza con respecto a . ${\estilo de visualización X}$ ${\estilo de visualización \theta}$ ${\estilo de visualización X}$ $f(X;\theta )$ ${\estilo de visualización X}$ ${\estilo de visualización \theta}$ ${\estilo de visualización X}$ ${\estilo de visualización \theta}$ ${\estilo de visualización f}$ ${\estilo de visualización \theta}$ ${\estilo de visualización \theta}$ ${\estilo de visualización X}$ ${\estilo de visualización \theta}$ ${\estilo de visualización f}$ ${\estilo de visualización X}$ ${\estilo de visualización \theta}$ ${\estilo de visualización \theta}$

Formalmente, la derivada parcial con respecto a del logaritmo natural de la función de verosimilitud se denomina puntuación . En determinadas condiciones de regularidad, si es el parámetro verdadero (es decir, se distribuye realmente como ), se puede demostrar que el valor esperado (el primer momento ) de la puntuación, evaluada en el valor verdadero del parámetro , es 0: ^[6] ${\estilo de visualización \theta}$ ${\estilo de visualización \theta}$ ${\estilo de visualización X}$ $f(X;\theta )$ ${\estilo de visualización \theta}$

{\begin{aligned}\operatorname {E} \left[\left.{\frac {\parcial }{\parcial \theta }}\log f(X;\theta )\,\,\right|\,\,\theta \right]={}&\int _{\mathbb {R} }{\frac {{\frac {\parcial }{\parcial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta )\,dx\\[6pt]={}&{\frac {\parcial }{\parcial \theta }}\int _{\mathbb {R} }f(x;\theta )\,dx\\[6pt]={}&{\frac {\parcial }{\parcial \theta }}1\\[6pt]={}&0.\end{alineado}}

La información de Fisher se define como la varianza de la puntuación: ^[7]

{\mathcal {I}}(\theta )=\operatorname {E} \left[\left.\left({\frac {\parcial }{\parcial \theta }}\log f(X;\theta )\right)^{2}\,\,\right|\,\,\theta \right]=\int _{\mathbb {R} }\left({\frac {\parcial }{\parcial \theta }}\log f(x;\theta )\right)^{2}f(x;\theta )\,dx,

Tenga en cuenta que . Una variable aleatoria que contiene una alta información de Fisher implica que el valor absoluto de la puntuación suele ser alto. La información de Fisher no es una función de una observación particular, ya que la variable aleatoria X se ha promediado. ${\mathcal {I}}(\theta )\geq 0$

Si log f ( x ; θ ) es dos veces diferenciable con respecto a θ , y bajo ciertas condiciones de regularidad, entonces la información de Fisher también puede escribirse como ^[8]

{\mathcal {I}}(\theta )=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )\,\,\right|\,\,\theta \right],

desde

{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log f(X;\theta )={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {{\frac {\partial }{\partial \theta }}f(X;\theta )}{f(X;\theta )}}\right)^{2}={\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}-\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}

y

\operatorname {E} \left[\left.{\frac {{\frac {\partial ^{2}}{\partial \theta ^{2}}}f(X;\theta )}{f(X;\theta )}}\,\,\right|\,\,\theta \right]={\frac {\partial ^{2}}{\partial \theta ^{2}}}\int _{\mathbb {R} }f(x;\theta )\,dx=0.

Por lo tanto, la información de Fisher puede verse como la curvatura de la curva de soporte (el gráfico de la verosimilitud logarítmica). Cerca de la estimación de máxima verosimilitud , una información de Fisher baja indica que el máximo parece "despuntado", es decir, el máximo es poco profundo y hay muchos valores cercanos con una verosimilitud logarítmica similar. Por el contrario, una información de Fisher alta indica que el máximo es abrupto.

Condiciones de regularidad

Las condiciones de regularidad son las siguientes: ^[9]

La derivada parcial de f ( X ; θ ) con respecto a θ existe casi en todas partes . (Puede no existir en un conjunto nulo, siempre que este conjunto no dependa de θ .)
La integral de f ( X ; θ ) se puede diferenciar bajo el signo integral con respecto a θ .
El soporte de f ( X ; θ ) no depende de θ .

Si θ es un vector, entonces las condiciones de regularidad deben cumplirse para cada componente de θ . Es fácil encontrar un ejemplo de una densidad que no satisface las condiciones de regularidad: la densidad de una variable Uniform(0, θ ) no satisface las condiciones 1 y 3. En este caso, aunque la información de Fisher se puede calcular a partir de la definición, no tendrá las propiedades que normalmente se supone que tiene.

En términos de probabilidad

Como la probabilidad de θ dado X es siempre proporcional a la probabilidad f ( X ; θ ), sus logaritmos difieren necesariamente en una constante que es independiente de θ , y las derivadas de estos logaritmos con respecto a θ son necesariamente iguales. Por lo tanto, se puede sustituir en una probabilidad logarítmica l ( θ ; X ) en lugar de $log f (X; θ)$ en las definiciones de la información de Fisher.

Muestras de cualquier tamaño

El valor X puede representar una única muestra extraída de una única distribución o puede representar una colección de muestras extraídas de una colección de distribuciones. Si hay n muestras y las n distribuciones correspondientes son estadísticamente independientes , entonces la información de Fisher será necesariamente la suma de los valores de información de Fisher de una única muestra, uno para cada muestra única de su distribución. En particular, si las n distribuciones son independientes y se distribuyen de manera idéntica , entonces la información de Fisher será necesariamente n veces la información de Fisher de una única muestra de la distribución común. Dicho en otras palabras, la información de Fisher de las observaciones iid de una muestra de tamaño n de una población es igual al producto de n y la información de Fisher de una única observación de la misma población.

Derivación informal del límite de Cramér-Rao

El límite de Cramér–Rao ^[10]^[11] establece que la inversa de la información de Fisher es un límite inferior de la varianza de cualquier estimador insesgado de θ . Van Trees (1968) y Frieden (2004) proporcionan el siguiente método para derivar el límite de Cramér–Rao , un resultado que describe el uso de la información de Fisher.

De manera informal, comenzamos considerando un estimador imparcial . Matemáticamente, "imparcial" significa que ${\hat {\theta }}(X)$

\operatorname {E} \left[\left.{\hat {\theta }}(X)-\theta \,\,\right|\,\,\theta \right]=\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=0{\text{ regardless of the value of }}\theta .

Esta expresión es cero independientemente de θ , por lo que su derivada parcial con respecto a θ también debe ser cero. Por la regla del producto , esta derivada parcial también es igual a

0={\frac {\partial }{\partial \theta }}\int \left({\hat {\theta }}(x)-\theta \right)\,f(x;\theta )\,dx=\int \left({\hat {\theta }}(x)-\theta \right){\frac {\partial f}{\partial \theta }}\,dx-\int f\,dx.

Para cada θ , la función de verosimilitud es una función de densidad de probabilidad y, por lo tanto , . Al utilizar la regla de la cadena sobre la derivada parcial de y luego dividir y multiplicar por , se puede verificar que $\int f\,dx=1$ $\log f$ $f(x;\theta )$

{\frac {\partial f}{\partial \theta }}=f\,{\frac {\partial \log f}{\partial \theta }}.

Usando estos dos hechos anteriores, obtenemos

\int \left({\hat {\theta }}-\theta \right)f\,{\frac {\partial \log f}{\partial \theta }}\,dx=1.

Factorizando el integrando se obtiene

\int \left(\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right)\left({\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right)\,dx=1.

Elevando al cuadrado la expresión en la integral, la desigualdad de Cauchy-Schwarz da

1={\biggl (}\int \left[\left({\hat {\theta }}-\theta \right){\sqrt {f}}\right]\cdot \left[{\sqrt {f}}\,{\frac {\partial \log f}{\partial \theta }}\right]\,dx{\biggr )}^{2}\leq \left[\int \left({\hat {\theta }}-\theta \right)^{2}f\,dx\right]\cdot \left[\int \left({\frac {\partial \log f}{\partial \theta }}\right)^{2}f\,dx\right].

El segundo factor entre corchetes se define como la información de Fisher, mientras que el primer factor entre corchetes es el error cuadrático medio esperado del estimador . Al reordenar, la desigualdad nos dice que ${\hat {\theta }}$

\operatorname {Var} \left({\hat {\theta }}\right)\geq {\frac {1}{{\mathcal {I}}\left(\theta \right)}}.

En otras palabras, la precisión con la que podemos estimar θ está fundamentalmente limitada por la información de Fisher de la función de verosimilitud.

Alternativamente, la misma conclusión se puede obtener directamente de la desigualdad de Cauchy-Schwarz para las variables aleatorias , , aplicada a las variables aleatorias y , y observando que para estimadores insesgados tenemos $|\operatorname {Cov} (A,B)|^{2}\leq \operatorname {Var} (A)\operatorname {Var} (B)$ ${\hat {\theta }}(X)$ $\partial _{\theta }\log f(X;\theta )$ $\operatorname {Cov} [{\hat {\theta }}(X),\partial _{\theta }\log f(X;\theta )]=\int {\hat {\theta }}(x)\,\partial _{\theta }f(x;\theta )\,dx=\partial _{\theta }\operatorname {E} [{\hat {\theta }}]=1.$

Ejemplos

Experimento de Bernoulli de un solo parámetro

Un ensayo de Bernoulli es una variable aleatoria con dos resultados posibles, 0 y 1, donde 1 tiene una probabilidad de θ . Se puede pensar que el resultado está determinado por el lanzamiento de una moneda sesgada, con una probabilidad de cara (1) de θ y una probabilidad de cruz (0) de 1 − θ .

Sea X un ensayo de Bernoulli de una muestra de la distribución. La información de Fisher contenida en X puede calcularse como:

{\begin{aligned}{\mathcal {I}}(\theta )&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log \left(\theta ^{X}(1-\theta )^{1-X}\right)\right|\theta \right]\\[5pt]&=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta ^{2}}}\left(X\log \theta +(1-X)\log(1-\theta )\right)\,\,\right|\,\,\theta \right]\\[5pt]&=\operatorname {E} \left[\left.{\frac {X}{\theta ^{2}}}+{\frac {1-X}{(1-\theta )^{2}}}\,\,\right|\,\,\theta \right]\\[5pt]&={\frac {\theta }{\theta ^{2}}}+{\frac {1-\theta }{(1-\theta )^{2}}}\\[5pt]&={\frac {1}{\theta (1-\theta )}}.\end{aligned}}

Debido a que la información de Fisher es aditiva, la información de Fisher contenida en n ensayos de Bernoulli independientes es, por lo tanto,

{\mathcal {I}}(\theta )={\frac {n}{\theta (1-\theta )}}.

Si es uno de los resultados posibles de n ensayos de Bernoulli independientes y es el j -ésimo resultado del i- ésimo ensayo, entonces la probabilidad de está dada por: $x_{i}$ $2^{n}$ $x_{ij}$ $x_{i}$

p(x_{i},\theta )=\prod _{j=0}^{n}\theta ^{x_{ij}}(1-\theta )^{x_{ij}}

La media del i- ésimo ensayo es El valor esperado de la media de un ensayo es: $\mu _{i}=(1/n)\sum _{j=1}^{n}x_{ij}$

E(\mu )=\sum _{x_{i}}\mu _{i}\,p(x_{i},\theta )=\theta

donde la suma es sobre todos los resultados posibles del ensayo. El valor esperado del cuadrado de las medias es: $2^{n}$

E(\mu ^{2})=\sum _{x_{i}}\mu _{i}^{2}\,p(x_{i},\theta )={\frac {(1+(n-1)\theta )\theta }{n}}

Entonces la varianza en el valor de la media es:

E(\mu ^{2})-E(\mu )^{2}=(1/n)\theta (1-\theta )

Se observa que la información de Fisher es el recíproco de la varianza del número medio de éxitos en n ensayos de Bernoulli . Esto es generalmente cierto. En este caso, el límite de Cramér-Rao es una igualdad.

Estimarθdeincógnita∼ Berna (√θ)

Como otro ejemplo de juguete, considere una variable aleatoria con resultados posibles 0 y 1, con probabilidades y , respectivamente, para algún . Nuestro objetivo es realizar una estimación a partir de observaciones de . $X$ $p_{0}=1-{\sqrt {\theta }}$ $p_{1}={\sqrt {\theta }}$ $\theta \in [0,1]$ $\theta$ $X$

La información de Fisher se lee en este caso Esta expresión también se puede derivar directamente de la fórmula de cambio de reparametrización que se proporciona a continuación. De manera más general, para cualquier función suficientemente regular tal que , la información de Fisher a recuperar se calcula de manera similar como ${\begin{aligned}{\mathcal {I}}(\theta )&=\mathrm {E} \left[\left({\frac {\partial }{\partial \theta }}\log f(X;\theta )\right)^{2}{\Bigg |}\,\theta \right]\\&=(1-{\sqrt {\theta }})\left({\frac {-1}{2{\sqrt {\theta }}(1-{\sqrt {\theta }})}}\right)^{2}+{\sqrt {\theta }}\left({\frac {1}{2\theta }}\right)^{2}\\&={\frac {1}{4\theta }}\left({\frac {1}{1-{\sqrt {\theta }}}}+{\frac {1}{\sqrt {\theta }}}\right)\end{aligned}}.$ $f$ $f(\theta )\in [0,1]$ $\theta$ $X\sim \operatorname {Bern} (f(\theta ))$ ${\mathcal {I}}(\theta )=f'(\theta )^{2}\left({\frac {1}{1-f(\theta )}}+{\frac {1}{f(\theta )}}\right).$

Forma matricial

Cuando hay N parámetros, de modo que θ es un vector N × 1 , entonces la información de Fisher toma la forma de una matriz N × N. Esta matriz se llama matriz de información de Fisher (FIM) y tiene elementos típicos. $\theta ={\begin{bmatrix}\theta _{1}&\theta _{2}&\dots &\theta _{N}\end{bmatrix}}^{\textsf {T}},$

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=\operatorname {E} \left[\left.\left({\frac {\partial }{\partial \theta _{i}}}\log f(X;\theta )\right)\left({\frac {\partial }{\partial \theta _{j}}}\log f(X;\theta )\right)\,\,\right|\,\,\theta \right].

La FIM es una matriz semidefinida positiva N × N. Si es definida positiva, entonces define una métrica de Riemann ^[12] en el espacio de parámetros de N dimensiones . La geometría de información del tema utiliza esto para conectar la información de Fisher con la geometría diferencial y, en ese contexto, esta métrica se conoce como la métrica de información de Fisher .

Bajo ciertas condiciones de regularidad, la matriz de información de Fisher también puede escribirse como

{\bigl [}{\mathcal {I}}(\theta ){\bigr ]}_{i,j}=-\operatorname {E} \left[\left.{\frac {\partial ^{2}}{\partial \theta _{i}\,\partial \theta _{j}}}\log f(X;\theta )\,\,\right|\,\,\theta \right]\,.

El resultado es interesante por varios motivos:

Puede derivarse como el hessiano de la entropía relativa .
Se puede utilizar como una métrica de Riemann para definir la geometría de Fisher-Rao cuando es definida positiva. ^[13]
Puede entenderse como una métrica inducida a partir de la métrica euclidiana , después del cambio apropiado de variable.
En su forma de valor complejo, es la métrica del Estudio de Fubini .
Es la parte clave de la prueba del teorema de Wilks , que permite realizar estimaciones de la región de confianza para la estimación de máxima verosimilitud (para aquellas condiciones para las que se aplica) sin necesidad del principio de verosimilitud .
En los casos en que los cálculos analíticos de la FIM anterior son difíciles, es posible formar un promedio de estimaciones de Monte Carlo fáciles del hessiano de la función de log-verosimilitud negativa como una estimación de la FIM. ^[14]^[15]^[16] Las estimaciones pueden basarse en valores de la función de log-verosimilitud negativa o en el gradiente de la función de log-verosimilitud negativa; no se necesita ningún cálculo analítico del hessiano de la función de log-verosimilitud negativa.

Parámetros ortogonales de la información

Decimos que dos vectores de componentes de parámetros θ ₁ y θ ₂ son ortogonales a la información si la matriz de información de Fisher es diagonal en bloques, con estos componentes en bloques separados. ^[17] Los parámetros ortogonales son fáciles de manejar en el sentido de que sus estimaciones de máxima verosimilitud no están correlacionadas asintóticamente. Al considerar cómo analizar un modelo estadístico, se recomienda al modelador invertir algo de tiempo en buscar una parametrización ortogonal del modelo, en particular cuando el parámetro de interés es unidimensional, pero el parámetro molesto puede tener cualquier dimensión. ^[18]

Modelo estadístico singular

Si la matriz de información de Fisher es definida positiva para todo $θ$ , entonces se dice que el modelo estadístico correspondiente es regular ; de lo contrario, se dice que el modelo estadístico es singular . ^[19] Los ejemplos de modelos estadísticos singulares incluyen los siguientes: mezclas normales , mezclas binomiales , mezclas multinomiales , redes bayesianas , redes neuronales , funciones de base radial , modelos ocultos de Markov , gramáticas estocásticas libres de contexto , regresiones de rango reducido , máquinas de Boltzmann .

En el aprendizaje automático , si se diseña un modelo estadístico que extrae la estructura oculta de un fenómeno aleatorio, entonces naturalmente se vuelve singular. ^[20]

Distribución normal multivariante

La FIM para una distribución normal multivariada de N variables tiene una forma especial. Sea el vector de parámetros de dimensión K y el vector de variables normales aleatorias . Supongamos que los valores medios de estas variables aleatorias son , y sea la matriz de covarianza . Entonces, para , la entrada ( m , n ) de la FIM es: ^[21] $\,X\sim N\left(\mu (\theta ),\,\Sigma (\theta )\right)$ $\theta ={\begin{bmatrix}\theta _{1}&\dots &\theta _{K}\end{bmatrix}}^{\textsf {T}}$ $X={\begin{bmatrix}X_{1}&\dots &X_{N}\end{bmatrix}}^{\textsf {T}}$ $\,\mu (\theta )={\begin{bmatrix}\mu _{1}(\theta )&\dots &\mu _{N}(\theta )\end{bmatrix}}^{\textsf {T}}$ $\,\Sigma (\theta )$ $1\leq m,\,n\leq K$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}+{\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right),

donde denota la transpuesta de un vector, denota la traza de una matriz cuadrada , y: $(\cdot )^{\textsf {T}}$ $\operatorname {tr} (\cdot )$

{\begin{aligned}{\frac {\partial \mu }{\partial \theta _{m}}}&={\begin{bmatrix}{\dfrac {\partial \mu _{1}}{\partial \theta _{m}}}&{\dfrac {\partial \mu _{2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \mu _{N}}{\partial \theta _{m}}}\end{bmatrix}}^{\textsf {T}};\\[8pt]{\dfrac {\partial \Sigma }{\partial \theta _{m}}}&={\begin{bmatrix}{\dfrac {\partial \Sigma _{1,1}}{\partial \theta _{m}}}&{\dfrac {\partial \Sigma _{1,2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \Sigma _{1,N}}{\partial \theta _{m}}}\\[5pt]{\dfrac {\partial \Sigma _{2,1}}{\partial \theta _{m}}}&{\dfrac {\partial \Sigma _{2,2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \Sigma _{2,N}}{\partial \theta _{m}}}\\\vdots &\vdots &\ddots &\vdots \\{\dfrac {\partial \Sigma _{N,1}}{\partial \theta _{m}}}&{\dfrac {\partial \Sigma _{N,2}}{\partial \theta _{m}}}&\cdots &{\dfrac {\partial \Sigma _{N,N}}{\partial \theta _{m}}}\end{bmatrix}}.\end{aligned}}

Nótese que un caso especial, pero muy común, es aquel en el que , una constante. Entonces $\Sigma (\theta )=\Sigma$

{\mathcal {I}}_{m,n}={\frac {\partial \mu ^{\textsf {T}}}{\partial \theta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \theta _{n}}}.\

En este caso la matriz de información de Fisher puede identificarse con la matriz de coeficientes de la teoría de estimación de ecuaciones normales de mínimos cuadrados .

Otro caso especial ocurre cuando la media y la covarianza dependen de dos parámetros vectoriales diferentes, por ejemplo, β y θ . Esto es especialmente popular en el análisis de datos espaciales, que a menudo utiliza un modelo lineal con residuos correlacionados. En este caso, ^[22]

{\mathcal {I}}(\beta ,\theta )=\operatorname {diag} \left({\mathcal {I}}(\beta ),{\mathcal {I}}(\theta )\right)

dónde

{\begin{aligned}{\mathcal {I}}{(\beta )_{m,n}}&={\frac {\partial \mu ^{\textsf {T}}}{\partial \beta _{m}}}\Sigma ^{-1}{\frac {\partial \mu }{\partial \beta _{n}}},\\[5pt]{\mathcal {I}}{(\theta )_{m,n}}&={\frac {1}{2}}\operatorname {tr} \left(\Sigma ^{-1}{\frac {\partial \Sigma }{\partial \theta _{m}}}{\Sigma ^{-1}}{\frac {\partial \Sigma }{\partial \theta _{n}}}\right)\end{aligned}}

Propiedades

Regla de la cadena

De manera similar a la entropía o información mutua , la información de Fisher también posee una descomposición por regla de la cadena . En particular, si X e Y son variables aleatorias distribuidas conjuntamente, se deduce que: ^[23]

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y\mid X}(\theta ),

donde y es la información de Fisher de Y relativa a calculada con respecto a la densidad condicional de Y dado un valor específico X = x . ${\mathcal {I}}_{Y\mid X}(\theta )=\operatorname {E} _{X}\left[{\mathcal {I}}_{Y\mid X=x}(\theta )\right]$ ${\mathcal {I}}_{Y\mid X=x}(\theta )$ $\theta$

Como caso especial, si las dos variables aleatorias son independientes , la información obtenida por las dos variables aleatorias es la suma de la información de cada variable aleatoria por separado:

{\mathcal {I}}_{X,Y}(\theta )={\mathcal {I}}_{X}(\theta )+{\mathcal {I}}_{Y}(\theta ).

En consecuencia, la información en una muestra aleatoria de n observaciones independientes e idénticamente distribuidas es n veces la información en una muestra de tamaño 1.

F-divergencia

Dada una función convexa que es finita para todo , , y , (que podría ser infinita), define una f -divergencia . Entonces, si es estrictamente convexa en , entonces localmente en , la matriz de información de Fisher es una métrica, en el sentido de que ^[24] donde es la distribución parametrizada por . Es decir, es la distribución con función de densidad de probabilidad . $f:[0,\infty )\to (-\infty ,\infty ]$ $f(x)$ $x>0$ $f(1)=0$ $f(0)=\lim _{t\to 0^{+}}f(t)$ $D_{f}$ $f$ $1$ $\theta \in \Theta$ $(\delta \theta )^{T}I(\theta )(\delta \theta )={\frac {1}{f''(1)}}D_{f}(P_{\theta +\delta \theta }\parallel P_{\theta })$ $P_{\theta }$ $\theta$ $f(x;\theta )$

De esta forma, queda claro que la matriz de información de Fisher es una métrica de Riemann y varía correctamente ante un cambio de variables. (ver sección sobre Reparametrización).

Estadística suficiente

La información proporcionada por un estadístico suficiente es la misma que la de la muestra X . Esto se puede ver utilizando el criterio de factorización de Neyman para un estadístico suficiente. Si T ( X ) es suficiente para θ , entonces

f(X;\theta )=g(T(X),\theta )h(X)

para algunas funciones g y h . La independencia de h ( X ) de θ implica

{\frac {\partial }{\partial \theta }}\log \left[f(X;\theta )\right]={\frac {\partial }{\partial \theta }}\log \left[g(T(X);\theta )\right],

y la igualdad de información se deduce entonces de la definición de información de Fisher. De manera más general, si T = t ( X ) es una estadística , entonces

{\mathcal {I}}_{T}(\theta )\leq {\mathcal {I}}_{X}(\theta )

con igualdad si y sólo si T es una estadística suficiente . ^[25]

Reparametrización

La información de Fisher depende de la parametrización del problema. Si θ y η son dos parametrizaciones escalares de un problema de estimación, y θ es una función continuamente diferenciable de η , entonces

{\mathcal {I}}_{\eta }(\eta )={\mathcal {I}}_{\theta }(\theta (\eta ))\left({\frac {d\theta }{d\eta }}\right)^{2}

donde y son las medidas de información de Fisher de η y θ , respectivamente. ^[26] ${\mathcal {I}}_{\eta }$ ${\mathcal {I}}_{\theta }$

En el caso vectorial, supongamos que y son k -vectores que parametrizan un problema de estimación, y supongamos que es una función continuamente diferenciable de , entonces, ^[27] ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$ ${\boldsymbol {\theta }}$ ${\boldsymbol {\eta }}$

{\mathcal {I}}_{\boldsymbol {\eta }}({\boldsymbol {\eta }})={\boldsymbol {J}}^{\textsf {T}}{\mathcal {I}}_{\boldsymbol {\theta }}({\boldsymbol {\theta }}({\boldsymbol {\eta }})){\boldsymbol {J}}

donde el elemento ( i , j )ésimo de la matriz jacobiana k × k está definido por ${\boldsymbol {J}}$

J_{ij}={\frac {\partial \theta _{i}}{\partial \eta _{j}}},

¿Y dónde está la matriz transpuesta de? ${\boldsymbol {J}}^{\textsf {T}}$ ${\boldsymbol {J}}.$

En geometría de la información , esto se ve como un cambio de coordenadas en una variedad de Riemann , y las propiedades intrínsecas de la curvatura no cambian bajo diferentes parametrizaciones. En general, la matriz de información de Fisher proporciona una métrica de Riemann (más precisamente, la métrica de Fisher-Rao) para la variedad de estados termodinámicos, y se puede utilizar como una medida de complejidad geométrica de la información para una clasificación de transiciones de fase , por ejemplo, la curvatura escalar del tensor métrico termodinámico diverge en (y solo en) un punto de transición de fase. ^[28]

En el contexto termodinámico, la matriz de información de Fisher está directamente relacionada con la tasa de cambio en los parámetros de orden correspondientes . ^[29] En particular, dichas relaciones identifican transiciones de fase de segundo orden a través de divergencias de elementos individuales de la matriz de información de Fisher.

Desigualdad isoperimétrica

La matriz de información de Fisher desempeña un papel en una desigualdad como la desigualdad isoperimétrica . ^[30] De todas las distribuciones de probabilidad con una entropía dada, aquella cuya matriz de información de Fisher tiene la traza más pequeña es la distribución gaussiana. Esto es como cómo, de todos los conjuntos acotados con un volumen dado, la esfera tiene el área de superficie más pequeña.

La prueba implica tomar una variable aleatoria multivariante con función de densidad y agregar un parámetro de ubicación para formar una familia de densidades . Luego, por analogía con la fórmula de Minkowski-Steiner , el "área de superficie" de se define como $X$ $f$ $\{f(x-\theta )\mid \theta \in \mathbb {R} ^{n}\}$ $X$

S(X)=\lim _{\varepsilon \to 0}{\frac {e^{H(X+Z_{\varepsilon })}-e^{H(X)}}{\varepsilon }}

donde es una variable gaussiana con matriz de covarianza . El nombre "área de superficie" es adecuado porque la potencia de entropía es el volumen del "conjunto de soporte efectivo", ^[31] por lo que es la "derivada" del volumen del conjunto de soporte efectivo, de forma muy similar a la fórmula de Minkowski-Steiner. El resto de la prueba utiliza la desigualdad de potencia de entropía , que es como la desigualdad de Brunn-Minkowski . Se descubre que la traza de la matriz de información de Fisher es un factor de . $Z_{\varepsilon }$ $\varepsilon I$ $e^{H(X)}$ $S(X)$ $S(X)$

Aplicaciones

Diseño óptimo de experimentos

La información de Fisher se utiliza ampliamente en el diseño experimental óptimo . Debido a la reciprocidad de la varianza del estimador y la información de Fisher, minimizar la varianza corresponde a maximizar la información .

Cuando el modelo estadístico lineal (o linealizado ) tiene varios parámetros , la media del estimador de parámetros es un vector y su varianza es una matriz . La inversa de la matriz de varianzas se denomina "matriz de información". Debido a que la varianza del estimador de un vector de parámetros es una matriz, el problema de "minimizar la varianza" es complicado. Utilizando la teoría estadística , los estadísticos comprimen la matriz de información utilizando estadísticas de resumen de valores reales ; al ser funciones de valores reales, estos "criterios de información" se pueden maximizar.

Tradicionalmente, los estadísticos han evaluado estimadores y diseños considerando algún estadístico resumen de la matriz de covarianza (de un estimador insesgado), usualmente con valores reales positivos (como el determinante o la traza de la matriz ). Trabajar con números reales positivos trae varias ventajas: si el estimador de un solo parámetro tiene una varianza positiva, entonces la varianza y la información de Fisher son ambas números reales positivos; por lo tanto, son miembros del cono convexo de números reales no negativos (cuyos miembros distintos de cero tienen recíprocos en este mismo cono).

Para varios parámetros, las matrices de covarianza y las matrices de información son elementos del cono convexo de matrices simétricas no definidas negativamente en un espacio vectorial parcialmente ordenado , bajo el orden de Loewner (Löwner). Este cono es cerrado bajo la adición e inversión de matrices, así como bajo la multiplicación de números reales positivos y matrices. Una exposición de la teoría de matrices y el orden de Loewner aparece en Pukelsheim. ^[32]

Los criterios tradicionales de optimalidad son los invariantes de la matriz de información, en el sentido de la teoría de invariantes ; algebraicamente, los criterios tradicionales de optimalidad son funcionales de los valores propios de la matriz de información (de Fisher) (ver diseño óptimo ).

Prioridad de Jeffreys en estadística bayesiana

En las estadísticas bayesianas , la información de Fisher se utiliza para calcular la anterior de Jeffreys , que es una anterior estándar, no informativa para parámetros de distribución continua. ^[33]

Neurociencia computacional

La información de Fisher se ha utilizado para encontrar límites en la precisión de los códigos neuronales . En ese caso, X es típicamente la respuesta conjunta de muchas neuronas que representan una variable de baja dimensión θ (como un parámetro de estímulo ). En particular, se ha estudiado el papel de las correlaciones en el ruido de las respuestas neuronales. ^[34]

Epidemiología

Se utilizó la información de Fisher para estudiar qué tan informativas son las diferentes fuentes de datos para estimar el número de reproducción del SARS-CoV-2. ^[35]

Derivación de leyes físicas

La información de Fisher desempeña un papel central en un principio controvertido propuesto por Frieden como base de las leyes físicas, una afirmación que ha sido cuestionada. ^[36]

Aprendizaje automático

La información de Fisher se utiliza en técnicas de aprendizaje automático como la consolidación de peso elástico , ^[37] que reduce el olvido catastrófico en redes neuronales artificiales .

La información de Fisher se puede utilizar como una alternativa al hessiano de la función de pérdida en el entrenamiento de redes de descenso de gradiente de segundo orden. ^[38]

Discriminación de color

Utilizando una métrica de información de Fisher , da Fonseca et. al ^[39] investigaron el grado en el que las elipses de MacAdam (elipses de discriminación de color) pueden derivarse de las funciones de respuesta de los fotorreceptores de la retina.

Relación con la entropía relativa

La información de Fisher está relacionada con la entropía relativa . ^[40] La entropía relativa, o divergencia de Kullback–Leibler , entre dos distribuciones se puede escribir como $p$ $q$

KL(p:q)=\int p(x)\log {\frac {p(x)}{q(x)}}\,dx.

Ahora, considere una familia de distribuciones de probabilidad parametrizadas por . Entonces, la divergencia de Kullback–Leibler , entre dos distribuciones en la familia se puede escribir como $f(x;\theta )$ $\theta \in \Theta$

D(\theta ,\theta ')=KL(p({}\cdot {};\theta ):p({}\cdot {};\theta '))=\int f(x;\theta )\log {\frac {f(x;\theta )}{f(x;\theta ')}}\,dx.

Si es fijo, entonces la entropía relativa entre dos distribuciones de la misma familia se minimiza en . Para valores cercanos a , se puede desarrollar la expresión anterior en una serie hasta el segundo orden: $\theta$ $\theta '=\theta$ $\theta '$ $\theta$

D(\theta ,\theta ')={\frac {1}{2}}(\theta '-\theta )^{\textsf {T}}\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }(\theta '-\theta )+o\left((\theta '-\theta )^{2}\right)

Pero la derivada de segundo orden se puede escribir como

\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}D(\theta ,\theta ')\right)_{\theta '=\theta }=-\int f(x;\theta )\left({\frac {\partial ^{2}}{\partial \theta '_{i}\,\partial \theta '_{j}}}\log(f(x;\theta '))\right)_{\theta '=\theta }\,dx=[{\mathcal {I}}(\theta )]_{i,j}.

Así, la información de Fisher representa la curvatura de la entropía relativa de una distribución condicional con respecto a sus parámetros.

Historia

La información de Fisher fue discutida por varios estadísticos tempranos, en particular FY Edgeworth . ^[41] Por ejemplo, Savage ^[42] dice: "En ella [la información de Fisher], él [Fisher] fue anticipado en cierta medida (Edgeworth 1908–9 esp. 502, 507–8, 662, 677–8, 82–5 y referencias que él [Edgeworth] cita, incluyendo Pearson y Filon 1898 [. . .])". Hay una serie de fuentes históricas tempranas ^[43] y una serie de revisiones de este trabajo temprano. ^[44]^[45]^[46]

Véase también

Otras medidas empleadas en la teoría de la información :

Notas

^ Lehmann y Casella (1998), pág. 115.
^ Robert, Christian (2007). "Distribuciones previas no informativas". La elección bayesiana (2.ª ed.). Springer. pp. 127–141. ISBN 978-0-387-71598-8.
^ Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Nueva York: Springer. pp. 618–621. ISBN. 0-387-96307-3.
^ Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). "La validez de las expansiones posteriores basadas en el método de Laplace". En Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (eds.). Métodos bayesianos y de verosimilitud en estadística y econometría . Elsevier. págs. 473–488. ISBN 0-444-88376-2.
^ Frieden y Gatenby (2013).
^ Suba Rao. "Conferencias sobre inferencia estadística" (PDF) . Archivado desde el original (PDF) el 26 de septiembre de 2020. Consultado el 12 de abril de 2013 .
^ Pescador (1922).
^ Lehmann y Casella (1998), ecuación (2.5.16), Lema 5.3, pág. 116.
^ Schervish, Mark J. (1995). Teoría de la Estadística. Nueva York, Nueva York: Springer Nueva York. pag. 111.ISBN 978-1-4612-4250-5.OCLC 852790658 .
^ Cramér (1946).
^ Rao (1945).
^ Nielsen, Frank (2023). "Un método de aproximación simple para la distancia de Fisher-Rao entre distribuciones normales multivariadas". Entropy . 25 (4): 654. arXiv : 2302.08175 . Bibcode :2023Entrp..25..654N. doi : 10.3390/e25040654 . PMC 10137715 . PMID 37190442.
^ Nielsen, Frank (2013). "Límite inferior de Cramér-Rao y geometría de la información". Conectados al infinito II . Textos y lecturas en matemáticas. Vol. 67. págs. 18-37. arXiv : 1301.3578 . doi :10.1007/978-93-86279-56-9_2. ISBN . 978-93-80250-51-9.S2CID16759683 .
^ Spall, JC (2005). "Cálculo de Monte Carlo de la matriz de información de Fisher en entornos no estándar". Revista de estadística computacional y gráfica . 14 (4): 889–909. doi :10.1198/106186005X78800. S2CID 16090098.
^ Spall, JC (2008), "Métodos mejorados para la estimación de Monte Carlo de la matriz de información de Fisher", Actas de la Conferencia de Control Estadounidense , Seattle, WA, 11-13 de junio de 2008, págs. 2395-2400. https://doi.org/10.1109/ACC.2008.4586850
^ Das, S.; Spall, JC; Ghanem, R. (2010). "Cálculo eficiente de Monte Carlo de la matriz de información de Fisher utilizando información previa". Estadística computacional y análisis de datos . 54 (2): 272–289. doi :10.1016/j.csda.2009.09.018.
^ Barndorff-Nielsen, OE; Cox, DR (1994). Inferencia y asintótica . Chapman & Hall. ISBN 9780412494406.
^ Cox, DR; Reid, N. (1987). "Ortogonalidad de parámetros e inferencia condicional aproximada (con discusión)". J. Royal Statistical Soc. B . 49 : 1–39. doi :10.1111/j.2517-6161.1987.tb01422.x.
^ Watanabe, S. (2008), Accardi, L.; Freudenberg, W.; Ohya, M. (eds.), "Método geométrico algebraico en estimación estadística singular", Quantum Bio-Informatics , World Scientific : 325–336, Bibcode :2008qbi..conf..325W, doi :10.1142/9789812793171_0024, ISBN 978-981-279-316-4.
^ Watanabe, S (2013). "Un criterio de información bayesiano ampliamente aplicable". Revista de investigación en aprendizaje automático . 14 : 867–897.
^ Malagò, Luigi; Pistone, Giovanni (2015). "Geometría de la información de la distribución gaussiana en vista de la optimización estocástica". Actas de la XIII Conferencia de la ACM de 2015 sobre fundamentos de algoritmos genéticos . págs. 150–162. doi :10.1145/2725494.2725510. ISBN . 9781450334341.S2CID 693896 .
^ Mardia, KV; Marshall, RJ (1984). "Estimación de máxima verosimilitud de modelos para covarianza residual en regresión espacial". Biometrika . 71 (1): 135–46. doi :10.1093/biomet/71.1.135.
^ Zamir, R. (1998). "Una prueba de la desigualdad de información de Fisher mediante un argumento de procesamiento de datos". IEEE Transactions on Information Theory . 44 (3): 1246–1250. CiteSeerX 10.1.1.49.6628 . doi :10.1109/18.669301.
^ Polyanskiy, Yury (2017). "Apuntes de clase sobre teoría de la información, capítulo 29, ECE563 (UIUC)" (PDF) . Apuntes de clase sobre teoría de la información . Archivado (PDF) desde el original el 2022-05-24 . Consultado el 2022-05-24 .
^ Schervish, Mark J. (1995). Teoría de la Estadística . Springer-Verlag. pag. 113.
^ Lehmann y Casella (1998), ecuación (2.5.11).
^ Lehmann y Casella (1998), ecuación (2.6.16).
^ Janke, W.; Johnston, DA; Kenna, R. (2004). "Geometría de la información y transiciones de fase". Physica A . 336 (1–2): 181. arXiv : cond-mat/0401092 . Código Bibliográfico :2004PhyA..336..181J. doi :10.1016/j.physa.2004.01.023. S2CID 119085942.
^ Prokopenko, M.; Lizier, Joseph T.; Lizier, JT; Obst, O.; Wang, XR (2011). "Relacionar la información de Fisher con los parámetros de orden". Physical Review E . 84 (4): 041116. Bibcode :2011PhRvE..84d1116P. doi :10.1103/PhysRevE.84.041116. PMID 22181096. S2CID 18366894.
^ Costa, M.; Cover, T. (noviembre de 1984). "Sobre la similitud de la desigualdad de potencia de entropía y la desigualdad de Brunn-Minkowski". IEEE Transactions on Information Theory . 30 (6): 837–839. doi :10.1109/TIT.1984.1056983. ISSN 1557-9654.
^ Portada, Thomas M. (2006). Elementos de la teoría de la información. Joy A. Thomas (2.ª ed.). Hoboken, NJ: Wiley-Interscience. p. 256. ISBN 0-471-24195-4.OCLC 59879802 .
^ Pukelsheim, Friedrich (1993). Diseño óptimo de experimentos . Nueva York: Wiley. ISBN 978-0-471-61971-0.
^ Bernardo, Jose M.; Smith, Adrian FM (1994). Teoría bayesiana . Nueva York: John Wiley & Sons. ISBN 978-0-471-92416-6.
^ Abbott, Larry F.; Dayan, Peter (1999). "El efecto de la variabilidad correlacionada en la precisión de un código de población". Computación neuronal . 11 (1): 91–101. doi :10.1162/089976699300016827. PMID 9950724. S2CID 2958438.
^ Parag, KV; Donnelly, CA; Zarebski, AE (2022). "Cuantificación de la información en curvas epidémicas ruidosas". Nature Computational Science . 2 (9): 584–594. doi : 10.1038/s43588-022-00313-1 . hdl : 10044/1/100205 . PMID 38177483. S2CID 248811793.
^ Streater, RF (2007). Causas perdidas en la física y más allá de ella . Springer. pág. 69. ISBN 978-3-540-36581-5.
^ Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A.; Milan, Kieran; Quan, John; Ramalho, Tiago (28 de marzo de 2017). "Superar el olvido catastrófico en redes neuronales". Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. arXiv : 1612.00796 . Bibcode :2017PNAS..114.3521K. doi : 10.1073/pnas.1611835114 . ISSN 0027-8424. PMC 5380101. PMID 28292907 .
^ Martens, James (agosto de 2020). "Nuevos conocimientos y perspectivas sobre el método del gradiente natural". Revista de investigación en aprendizaje automático (21). arXiv : 1412.1193 .
^ da Fonseca, Maria; Samengo, In´es (1 de diciembre de 2016). "Derivación de la capacidad de discriminación cromática humana a partir de una noción de distancia en el espacio de color basada en la teoría de la información". Neural Computation . 28 (12): 2628–2655. arXiv : 1611.07272 . doi :10.1162/NECO_a_00903.
^ Gourieroux y Montfort (1995), página 87
^ Salvaje (1976).
^ Savage (1976), pág. 156.
^ Edgeworth (1908b);Edgeworth (1908c).
^ Pratt (1976).
^ Sigler (1978); Stigler (1986); Stigler (1999).
^ Hald (1998); Hald (1999).

Referencias

Cramér, Harald (1946). Métodos matemáticos de estadística . Serie matemática de Princeton. Princeton: Princeton University Press. ISBN 0691080046.
Edgeworth, FY (junio de 1908). "Sobre los errores probables de las constantes de frecuencia". Journal of the Royal Statistical Society . 71 (2): 381–397. doi :10.2307/2339461. JSTOR 2339461.
Edgeworth, FY (septiembre de 1908). "Sobre los errores probables de las constantes de frecuencia (cont.)". Journal of the Royal Statistical Society . 71 (3): 499–512. doi :10.2307/2339293. JSTOR 2339293.
Edgeworth, FY (diciembre de 1908). "Sobre los errores probables de las constantes de frecuencia (cont.)". Journal of the Royal Statistical Society . 71 (4): 651–678. doi :10.2307/2339378. JSTOR 2339378.
Fisher, RA (1922-01-01). "Sobre los fundamentos matemáticos de la estadística teórica". Philosophical Transactions of the Royal Society of London, Serie A . 222 (594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 .
Frieden, BR (2004). Ciencia a partir de información de Fisher: una unificación . Cambridge Univ. Press. ISBN 0-521-00911-1.
Frieden, B. Roy; Gatenby, Robert A. (2013). "Principio de máxima información de Fisher a partir de los axiomas de Hardy aplicado a sistemas estadísticos". Physical Review E . 88 (4): 042144. arXiv : 1405.0007 . Bibcode :2013PhRvE..88d2144F. doi :10.1103/PhysRevE.88.042144. PMC 4010149 . PMID 24229152.
Hald, A. (mayo de 1999). "Sobre la historia de la máxima verosimilitud en relación con la probabilidad inversa y los mínimos cuadrados". Ciencia estadística . 14 (2): 214–222. doi : 10.1214/ss/1009212248 . JSTOR 2676741.
Hald, A. (1998). Una historia de la estadística matemática desde 1750 hasta 1930. Nueva York: Wiley. ISBN 978-0-471-17912-2.
Lehmann, EL ; Casella, G. (1998). Teoría de la estimación puntual (2.ª ed.). Springer. ISBN 978-0-387-98502-2.
Le Cam, Lucien (1986). Métodos asintóticos en la teoría de decisiones estadísticas . Springer-Verlag. ISBN 978-0-387-96307-5.
Pratt, John W. (mayo de 1976). "FY Edgeworth y RA Fisher sobre la eficiencia de la estimación de máxima verosimilitud". Anales de estadística . 4 (3): 501–514. doi : 10.1214/aos/1176343457 . JSTOR 2958222.
Rao, C. Radhakrishna (1945). "Información y precisión alcanzable en la estimación de parámetros estadísticos". Avances en estadística . Springer Series in Statistics. Vol. 37. págs. 81–91. doi :10.1007/978-1-4612-0919-5_16. ISBN . 978-0-387-94037-3.S2CID117034671 . {{cite book}}: |journal=ignorado ( ayuda )
Savage, LJ (mayo de 1976). "Sobre la relectura de RA Fisher". Anales de Estadística . 4 (3): 441–500. doi : 10.1214/aos/1176343456 . JSTOR 2958221.
Schervish, Mark J. (1995). Teoría de la Estadística . Nueva York: Springer. ISBN 978-0-387-94546-0.
Stigler, SM (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Harvard University Press. ISBN 978-0-674-40340-6.^{[ página necesaria ]}
Stigler, SM (1978). "Francis Ysidro Edgeworth, estadístico" . Revista de la Royal Statistical Society, Serie A. 141 ( 3): 287–322. doi :10.2307/2344804. JSTOR 2344804.
Stigler, SM (1999). Estadísticas sobre la mesa: La historia de los conceptos y métodos estadísticos . Harvard University Press. ISBN 978-0-674-83601-3. ^{[ página necesaria ]}
Van Trees, HL (1968). Teoría de detección, estimación y modulación, parte I. Nueva York: Wiley. ISBN 978-0-471-09517-0.

[FOOTNOTELehmannCasella1998115-1] Lehmann y Casella (1998), pág. 115.

[2] Robert, Christian (2007). "Distribuciones previas no informativas". La elección bayesiana (2.ª ed.). Springer. pp. 127–141. ISBN 978-0-387-71598-8.

[3] Le Cam, Lucien (1986). Métodos asintóticos en la teoría de la decisión estadística . Nueva York: Springer. pp. 618–621. ISBN. 0-387-96307-3.

[4] Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). "La validez de las expansiones posteriores basadas en el método de Laplace". En Geisser, S.; Hodges, JS; Press, SJ; Zellner, A. (eds.). Métodos bayesianos y de verosimilitud en estadística y econometría . Elsevier. págs. 473–488. ISBN 0-444-88376-2.

[FOOTNOTEFriedenGatenby2013-5] Frieden y Gatenby (2013).

[SubaRao-6] Suba Rao. "Conferencias sobre inferencia estadística" (PDF) . Archivado desde el original (PDF) el 26 de septiembre de 2020. Consultado el 12 de abril de 2013 .

[FOOTNOTEFisher1922-7] Pescador (1922).

[FOOTNOTELehmannCasella1998eq._(2.5.16),_Lemma_5.3,_p.116-8] Lehmann y Casella (1998), ecuación (2.5.16), Lema 5.3, pág. 116.

[9] Schervish, Mark J. (1995). Teoría de la Estadística. Nueva York, Nueva York: Springer Nueva York. pag. 111.ISBN 978-1-4612-4250-5.OCLC 852790658 .

[FOOTNOTECramér1946-10] Cramér (1946).

[FOOTNOTERao1945-11] Rao (1945).

[12] Nielsen, Frank (2023). "Un método de aproximación simple para la distancia de Fisher-Rao entre distribuciones normales multivariadas". Entropy . 25 (4): 654. arXiv : 2302.08175 . Bibcode :2023Entrp..25..654N. doi : 10.3390/e25040654 . PMC 10137715 . PMID 37190442.

[13] Nielsen, Frank (2013). "Límite inferior de Cramér-Rao y geometría de la información". Conectados al infinito II . Textos y lecturas en matemáticas. Vol. 67. págs. 18-37. arXiv : 1301.3578 . doi :10.1007/978-93-86279-56-9_2. ISBN . 978-93-80250-51-9.S2CID16759683 .

[14] Spall, JC (2005). "Cálculo de Monte Carlo de la matriz de información de Fisher en entornos no estándar". Revista de estadística computacional y gráfica . 14 (4): 889–909. doi :10.1198/106186005X78800. S2CID 16090098.

[15] Spall, JC (2008), "Métodos mejorados para la estimación de Monte Carlo de la matriz de información de Fisher", Actas de la Conferencia de Control Estadounidense , Seattle, WA, 11-13 de junio de 2008, págs. 2395-2400. https://doi.org/10.1109/ACC.2008.4586850

[16] Das, S.; Spall, JC; Ghanem, R. (2010). "Cálculo eficiente de Monte Carlo de la matriz de información de Fisher utilizando información previa". Estadística computacional y análisis de datos . 54 (2): 272–289. doi :10.1016/j.csda.2009.09.018.

[17] Barndorff-Nielsen, OE; Cox, DR (1994). Inferencia y asintótica . Chapman & Hall. ISBN 9780412494406.

[18] Cox, DR; Reid, N. (1987). "Ortogonalidad de parámetros e inferencia condicional aproximada (con discusión)". J. Royal Statistical Soc. B . 49 : 1–39. doi :10.1111/j.2517-6161.1987.tb01422.x.

[19] Watanabe, S. (2008), Accardi, L.; Freudenberg, W.; Ohya, M. (eds.), "Método geométrico algebraico en estimación estadística singular", Quantum Bio-Informatics , World Scientific : 325–336, Bibcode :2008qbi..conf..325W, doi :10.1142/9789812793171_0024, ISBN 978-981-279-316-4.

[20] Watanabe, S (2013). "Un criterio de información bayesiano ampliamente aplicable". Revista de investigación en aprendizaje automático . 14 : 867–897.

[21] Malagò, Luigi; Pistone, Giovanni (2015). "Geometría de la información de la distribución gaussiana en vista de la optimización estocástica". Actas de la XIII Conferencia de la ACM de 2015 sobre fundamentos de algoritmos genéticos . págs. 150–162. doi :10.1145/2725494.2725510. ISBN . 9781450334341.S2CID 693896 .

[22] Mardia, KV; Marshall, RJ (1984). "Estimación de máxima verosimilitud de modelos para covarianza residual en regresión espacial". Biometrika . 71 (1): 135–46. doi :10.1093/biomet/71.1.135.

[23] Zamir, R. (1998). "Una prueba de la desigualdad de información de Fisher mediante un argumento de procesamiento de datos". IEEE Transactions on Information Theory . 44 (3): 1246–1250. CiteSeerX 10.1.1.49.6628 . doi :10.1109/18.669301.

[:02-24] Polyanskiy, Yury (2017). "Apuntes de clase sobre teoría de la información, capítulo 29, ECE563 (UIUC)" (PDF) . Apuntes de clase sobre teoría de la información . Archivado (PDF) desde el original el 2022-05-24 . Consultado el 2022-05-24 .

[Schervish-25] Schervish, Mark J. (1995). Teoría de la Estadística . Springer-Verlag. pag. 113.

[FOOTNOTELehmannCasella1998eq._(2.5.11)-26] Lehmann y Casella (1998), ecuación (2.5.11).

[FOOTNOTELehmannCasella1998eq._(2.6.16)-27] Lehmann y Casella (1998), ecuación (2.6.16).

[28] Janke, W.; Johnston, DA; Kenna, R. (2004). "Geometría de la información y transiciones de fase". Physica A . 336 (1–2): 181. arXiv : cond-mat/0401092 . Código Bibliográfico :2004PhyA..336..181J. doi :10.1016/j.physa.2004.01.023. S2CID 119085942.

[29] Prokopenko, M.; Lizier, Joseph T.; Lizier, JT; Obst, O.; Wang, XR (2011). "Relacionar la información de Fisher con los parámetros de orden". Physical Review E . 84 (4): 041116. Bibcode :2011PhRvE..84d1116P. doi :10.1103/PhysRevE.84.041116. PMID 22181096. S2CID 18366894.

[30] Costa, M.; Cover, T. (noviembre de 1984). "Sobre la similitud de la desigualdad de potencia de entropía y la desigualdad de Brunn-Minkowski". IEEE Transactions on Information Theory . 30 (6): 837–839. doi :10.1109/TIT.1984.1056983. ISSN 1557-9654.

[31] Portada, Thomas M. (2006). Elementos de la teoría de la información. Joy A. Thomas (2.ª ed.). Hoboken, NJ: Wiley-Interscience. p. 256. ISBN 0-471-24195-4.OCLC 59879802 .

[32] Pukelsheim, Friedrich (1993). Diseño óptimo de experimentos . Nueva York: Wiley. ISBN 978-0-471-61971-0.

[33] Bernardo, Jose M.; Smith, Adrian FM (1994). Teoría bayesiana . Nueva York: John Wiley & Sons. ISBN 978-0-471-92416-6.

[34] Abbott, Larry F.; Dayan, Peter (1999). "El efecto de la variabilidad correlacionada en la precisión de un código de población". Computación neuronal . 11 (1): 91–101. doi :10.1162/089976699300016827. PMID 9950724. S2CID 2958438.

[35] Parag, KV; Donnelly, CA; Zarebski, AE (2022). "Cuantificación de la información en curvas epidémicas ruidosas". Nature Computational Science . 2 (9): 584–594. doi : 10.1038/s43588-022-00313-1 . hdl : 10044/1/100205 . PMID 38177483. S2CID 248811793.

[36] Streater, RF (2007). Causas perdidas en la física y más allá de ella . Springer. pág. 69. ISBN 978-3-540-36581-5.

[37] Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A.; Milan, Kieran; Quan, John; Ramalho, Tiago (28 de marzo de 2017). "Superar el olvido catastrófico en redes neuronales". Actas de la Academia Nacional de Ciencias . 114 (13): 3521–3526. arXiv : 1612.00796 . Bibcode :2017PNAS..114.3521K. doi : 10.1073/pnas.1611835114 . ISSN 0027-8424. PMC 5380101. PMID 28292907 .

[Martens2020-38] Martens, James (agosto de 2020). "Nuevos conocimientos y perspectivas sobre el método del gradiente natural". Revista de investigación en aprendizaje automático (21). arXiv : 1412.1193 .

[Fonseca2016-39] Fonseca, Maria; Samengo, In´es (1 de diciembre de 2016). "Derivación de la capacidad de discriminación cromática humana a partir de una noción de distancia en el espacio de color basada en la teoría de la información". Neural Computation . 28 (12): 2628–2655. arXiv : 1611.07272 . doi :10.1162/NECO_a_00903.

[40] Gourieroux y Montfort (1995), página 87

[FOOTNOTESavage1976-41] Salvaje (1976).

[FOOTNOTESavage1976156-42] Savage (1976), pág. 156.

[FOOTNOTEEdgeworth1908bEdgeworth1908c-43] Edgeworth (1908b);Edgeworth (1908c).

[FOOTNOTEPratt1976-44] Pratt (1976).

[FOOTNOTEStigler1978Stigler1986Stigler1999-45] Sigler (1978); Stigler (1986); Stigler (1999).

[FOOTNOTEHald1998Hald1999-46] Hald (1998); Hald (1999).