Lema de Stein

Teorema de la teoría de la probabilidad

El lema de Stein , llamado así en honor a Charles Stein , es un teorema de la teoría de la probabilidad que es de interés principalmente por sus aplicaciones a la inferencia estadística —en particular, a la estimación de James-Stein y a los métodos empíricos de Bayes— y sus aplicaciones a la teoría de elección de cartera . [1] El teorema proporciona una fórmula para la covarianza de una variable aleatoria con el valor de una función de otra, cuando las dos variables aleatorias se distribuyen normalmente de forma conjunta .

Cabe señalar que el nombre "lema de Stein" también se utiliza comúnmente [2] para referirse a un resultado diferente en el área de las pruebas de hipótesis estadísticas , que conecta los exponentes de error en las pruebas de hipótesis con la divergencia de Kullback-Leibler . Este resultado también se conoce como lema de Chernoff-Stein [3] y no está relacionado con el lema analizado en este artículo.

Declaración

Supongamos que X es una variable aleatoria distribuida normalmente con una esperanza μ y una varianza σ 2 . Supongamos además que g es una función diferenciable para la que existen las dos esperanzas E( g ( X ) ( X − μ)) y E( g ′( X )) . (La existencia de la esperanza de cualquier variable aleatoria es equivalente a la finitud de la esperanza de su valor absoluto .) Entonces

mi ( gramo ( incógnita ) ( incógnita micras ) ) = σ 2 mi ( gramo " ( incógnita ) ) . {\displaystyle E{\bigl (}g(X)(X-\mu ){\bigr )}=\sigma ^{2}E{\bigl (}g'(X){\bigr )}.}

Multidimensional

En general, supongamos que X e Y se distribuyen normalmente de manera conjunta. Entonces

Cov ( gramo ( incógnita ) , Y ) = Cov ( incógnita , Y ) mi ( gramo " ( incógnita ) ) . {\displaystyle \operatorname {Cov} (g(X),Y)=\operatorname {Cov} (X,Y)E(g'(X)).}

Para un vector aleatorio gaussiano multivariado general se deduce que ( incógnita 1 , . . . , incógnita norte ) norte ( micras , Σ ) {\displaystyle (X_{1},...,X_{n})\sim N(\mu ,\Sigma )}

mi ( gramo ( incógnita ) ( incógnita micras ) ) = Σ mi ( gramo ( incógnita ) ) . {\displaystyle E{\bigl (}g(X)(X-\mu ){\bigr )}=\Sigma \cdot E{\bigl (}\nabla g(X){\bigr )}.}

De manera similar, cuando , micras = 0 {\displaystyle \mu = 0} mi [ i gramo ( incógnita ) ] = mi [ gramo ( incógnita ) ( Σ 1 incógnita ) i ] , mi [ i yo gramo ( incógnita ) ] = mi [ gramo ( incógnita ) ( ( Σ 1 incógnita ) i ( Σ 1 incógnita ) yo Σ i yo 1 ) ] {\displaystyle E[\partial _{i}g(X)]=E[g(X)(\Sigma ^{-1}X)_{i}],\quad E[\partial _{i}\partial _{j}g(X)]=E[g(X)((\Sigma ^{-1}X)_{i}(\Sigma ^{-1}X)_{j}-\Sigma _{ij}^{-1})]}

Descenso de gradiente

El lema de Stein se puede utilizar para estimar estocásticamente el gradiente: donde son muestras IID de la distribución normal estándar . Esta forma tiene aplicaciones en el descenso del gradiente variacional de Stein [4] y en el gradiente de política variacional de Stein [5] . mi o norte ( 0 , I ) ( gramo ( incógnita + Σ 1 / 2 o ) ) = Σ 1 / 2 mi o norte ( 0 , I ) ( gramo ( incógnita + Σ 1 / 2 o ) o ) Σ 1 / 2 1 norte i = 1 norte gramo ( incógnita + Σ 1 / 2 o i ) o i {\displaystyle \nabla E_{\epsilon \sim {\mathcal {N}}(0,I)}{\bigl (}g(x+\Sigma ^{1/2}\epsilon ){\bigr )}=\Sigma ^{-1/2}E_{\epsilon \sim {\mathcal {N}}(0,I)}{\bigl (}g(x+\Sigma ^{1/2}\epsilon )\epsilon {\bigr )}\approx \Sigma ^{-1/2}{\frac {1}{N}}\sum _{i=1}^{N}g(x+\Sigma ^{1/2}\epsilon _{i})\epsilon _{i}} o 1 , , o norte {\displaystyle \epsilon _{1},\puntos ,\epsilon _{N}} norte ( 0 , I ) {\displaystyle {\mathcal {N}}(0,I)}

Prueba

La función de densidad de probabilidad univariante para la distribución normal univariante con expectativa 0 y varianza 1 es

φ ( incógnita ) = 1 2 π mi incógnita 2 / 2 {\displaystyle \varphi (x)={1 \sobre {\sqrt {2\pi }}}e^{-x^{2}/2}}

Dado que obtenemos de la integración por partes : incógnita exp ( incógnita 2 / 2 ) d incógnita = exp ( incógnita 2 / 2 ) {\displaystyle \int x\exp(-x^{2}/2)\,dx=-\exp(-x^{2}/2)}

mi [ gramo ( incógnita ) incógnita ] = 1 2 π gramo ( incógnita ) incógnita exp ( incógnita 2 / 2 ) d incógnita = 1 2 π gramo " ( incógnita ) exp ( incógnita 2 / 2 ) d incógnita = mi [ gramo " ( incógnita ) ] {\displaystyle E[g(X)X]={\frac {1}{\sqrt {2\pi }}}\int g(x)x\exp(-x^{2}/2)\,dx={\frac {1}{\sqrt {2\pi }}}\int g'(x)\exp(-x^{2}/2)\,dx=E[g'(X)]} .

El caso de varianza general se sigue por sustitución . σ 2 {\displaystyle \sigma ^{2}}

Generalizaciones

El teorema de Isserlis se enuncia de forma equivalente como donde es un vector aleatorio normal multivariado de media cero . mi ( incógnita 1 F ( incógnita 1 , , incógnita norte ) ) = i = 1 norte Cov ( incógnita 1 , incógnita i ) mi ( incógnita i F ( incógnita 1 , , incógnita norte ) ) . {\displaystyle \operatorname {E} (X_{1}f(X_{1},\ldots ,X_{n}))=\sum _{i=1}^{n}\operatorname {Cov} (X_{1},X_{i})\operatorname {E} (\partial _{X_{i}}f(X_{1},\ldots ,X_{n})).} ( incógnita 1 , incógnita norte ) {\displaystyle (X_{1},\puntos X_{n})}

Supongamos que X está en una familia exponencial , es decir, X tiene la densidad

F η ( incógnita ) = exp ( η " yo ( incógnita ) O ( η ) ) yo ( incógnita ) . {\displaystyle f_{\eta }(x)=\exp(\eta 'T(x)-\Psi (\eta ))h(x).}

Supongamos que esta densidad tiene soporte donde podría ser y como , donde es cualquier función diferenciable tal que o si es finito. Entonces ( a , b ) {\estilo de visualización (a,b)} a , b {\estilo de visualización a,b} , {\displaystyle -\infty,\infty} incógnita a  o  b {\displaystyle x\rightarrow a{\text{ o }}b} exp ( η " yo ( incógnita ) ) yo ( incógnita ) gramo ( incógnita ) 0 {\displaystyle \exp(\eta 'T(x))h(x)g(x)\rightarrow 0} gramo {\estilo de visualización g} mi | gramo " ( incógnita ) | < {\displaystyle E|g'(X)|<\infty } exp ( η T ( x ) ) h ( x ) 0 {\displaystyle \exp(\eta 'T(x))h(x)\rightarrow 0} a , b {\displaystyle a,b}

E [ ( h ( X ) h ( X ) + η i T i ( X ) ) g ( X ) ] = E [ g ( X ) ] . {\displaystyle E\left[\left({\frac {h'(X)}{h(X)}}+\sum \eta _{i}T_{i}'(X)\right)\cdot g(X)\right]=-E[g'(X)].}

La derivación es la misma que el caso especial, es decir, la integración por partes.

Si solo sabemos que tiene soporte , entonces podría darse el caso de que pero . Para ver esto, simplemente ponga y con picos infinitos hacia el infinito pero aún integrables. Un ejemplo de este tipo podría ser adaptado de de modo que sea suave. X {\displaystyle X} R {\displaystyle \mathbb {R} } E | g ( X ) | <  and  E | g ( X ) | < {\displaystyle E|g(X)|<\infty {\text{ and }}E|g'(X)|<\infty } lim x f η ( x ) g ( x ) 0 {\displaystyle \lim _{x\rightarrow \infty }f_{\eta }(x)g(x)\not =0} g ( x ) = 1 {\displaystyle g(x)=1} f η ( x ) {\displaystyle f_{\eta }(x)} f ( x ) = { 1 x [ n , n + 2 n ) 0 otherwise {\displaystyle f(x)={\begin{cases}1&x\in [n,n+2^{-n})\\0&{\text{otherwise}}\end{cases}}} f {\displaystyle f}

También existen extensiones a distribuciones con contornos elípticos. [6] [7] [8]

Véase también

Referencias

  1. ^ Ingersoll, J., Teoría de la toma de decisiones financieras , Rowman y Littlefield, 1987: 13-14.
  2. ^ Csiszár, Imre; Körner, János (2011). Teoría de la información: teoremas de codificación para sistemas discretos sin memoria. Prensa de la Universidad de Cambridge. pag. 14.ISBN 9781139499989.
  3. ^ Thomas M. Cover, Joy A. Thomas (2006). Elementos de la teoría de la información. John Wiley & Sons, Nueva York. ISBN 9781118585771.
  4. ^ Liu, Qiang; Wang, Dilin (9 de septiembre de 2019). "Descenso de gradiente variacional de Stein: un algoritmo de inferencia bayesiano de propósito general". arXiv : 1608.04471 [stat.ML].
  5. ^ Liu, Yang; Ramachandran, Prajit; Liu, Qiang; Peng, Jian (7 de abril de 2017). "Gradiente de política variacional de Stein". arXiv : 1704.02399 [cs.LG].
  6. ^ Cellier, Dominique; Fourdrinier, Dominique; Robert, Christian (1989). "Estimadores robustos de contracción del parámetro de ubicación para distribuciones elípticamente simétricas". Journal of Multivariate Analysis . 29 (1): 39–52. doi :10.1016/0047-259X(89)90075-4.
  7. ^ Hamada, Mahmoud; Valdez, Emiliano A. (2008). "CAPM y fijación de precios de opciones con distribuciones de contorno elíptico". Revista de riesgos y seguros . 75 (2): 387–409. CiteSeerX 10.1.1.573.4715 . doi :10.1111/j.1539-6975.2008.00265.x. 
  8. ^ Landsman, Zinoviy; Nešlehová, Johanna (2008). "Lema de Stein para vectores aleatorios elípticos". Revista de análisis multivariado . 99 (5): 912––927. doi : 10.1016/j.jmva.2007.05.006 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Stein%27s_lemma&oldid=1258361276"