Teorema del límite central

Teorema fundamental en teoría de probabilidad y estadística

Teorema del límite central
TipoTeorema
CampoTeoría de la probabilidad
DeclaraciónLa suma escalada de una secuencia de variables aleatorias iid con varianza positiva finita converge en distribución a la distribución normal .
GeneralizacionesCLT de Lindeberg

En teoría de la probabilidad , el teorema del límite central ( TLC ) establece que, en condiciones apropiadas, la distribución de una versión normalizada de la media de la muestra converge a una distribución normal estándar . Esto se cumple incluso si las variables originales en sí mismas no se distribuyen normalmente . Existen varias versiones del TLC, cada una de las cuales se aplica en el contexto de diferentes condiciones.

El teorema es un concepto clave en la teoría de la probabilidad porque implica que los métodos probabilísticos y estadísticos que funcionan para distribuciones normales pueden aplicarse a muchos problemas que involucran otros tipos de distribuciones.

Este teorema ha sufrido muchos cambios durante el desarrollo formal de la teoría de la probabilidad. Las versiones anteriores del teorema datan de 1811, pero en su forma moderna no se enunciaron con precisión hasta 1920. [1]

En estadística , el CLT se puede expresar como: sea una muestra estadística de tamaño de una población con valor esperado (promedio) y varianza positiva finita , y sea la media de la muestra (que es en sí misma una variable aleatoria ). Entonces, el límite como de la distribución de es una distribución normal con media y varianza . [2] incógnita 1 , incógnita 2 , , incógnita norte {\displaystyle X_{1},X_{2},\puntos ,X_{n}} norte {\estilo de visualización n} micras {\displaystyle \mu } σ 2 {\displaystyle \sigma ^{2}} X ¯ n {\displaystyle {\bar {X}}_{n}} n {\displaystyle n\to \infty } ( X ¯ n μ ) σ n , {\displaystyle {\frac {({\bar {X}}_{n}-\mu )}{\frac {\sigma }{\sqrt {n}}}},} 0 {\displaystyle 0} 1 {\displaystyle 1}

En otras palabras, supongamos que se obtiene una muestra grande de observaciones , cada una de las cuales se produce aleatoriamente de una manera que no depende de los valores de las otras observaciones, y que se calcula el promedio ( media aritmética ) de los valores observados. Si este procedimiento se realiza muchas veces, dando como resultado una colección de promedios observados, el teorema del límite central dice que si el tamaño de la muestra fue lo suficientemente grande, la distribución de probabilidad de estos promedios se aproximará mucho a una distribución normal.

El teorema del límite central tiene varias variantes. En su forma común, las variables aleatorias deben ser independientes e idénticamente distribuidas (iid). Este requisito puede debilitarse; la convergencia de la media a la distribución normal también ocurre para distribuciones no idénticas o para observaciones no independientes si cumplen ciertas condiciones.

La primera versión de este teorema, que sostiene que la distribución normal puede utilizarse como una aproximación a la distribución binomial , es el teorema de De Moivre-Laplace .

Secuencias independientes

Cualquiera que sea la forma de la distribución poblacional, la distribución muestral tiende a ser gaussiana y su dispersión está dada por el teorema del límite central. [3]

CLT clásico

Sea una secuencia de variables aleatorias iid que tienen una distribución con valor esperado dado por y varianza finita dada por Supongamos que estamos interesados ​​en el promedio de la muestra. { X 1 , , X n } {\displaystyle \{X_{1},\ldots ,X_{n}}\} μ {\displaystyle \mu } σ 2 . {\displaystyle \sigma ^{2}.} X ¯ n X 1 + + X n n . {\displaystyle {\bar {X}}_{n}\equiv {\frac {X_{1}+\cdots +X_{n}}{n}}.}

Por la ley de los grandes números , el promedio de la muestra converge casi con seguridad (y por lo tanto también converge en probabilidad ) al valor esperado como μ {\displaystyle \mu } n . {\displaystyle n\to \infty .}

El teorema clásico del límite central describe el tamaño y la forma de distribución de las fluctuaciones estocásticas alrededor del número determinista durante esta convergencia. Más precisamente, establece que a medida que se hace más grande, la distribución de la diferencia entre el promedio de la muestra y su límite cuando se multiplica por el factor —es decir, — se acerca a la distribución normal con media y varianza. Para valores suficientemente grandes, la distribución de se acerca arbitrariamente a la distribución normal con media y varianza. μ {\displaystyle \mu } n {\displaystyle n} X ¯ n {\displaystyle {\bar {X}}_{n}} μ , {\displaystyle \mu ,} n {\displaystyle {\sqrt {n}}} n ( X ¯ n μ ) {\displaystyle {\sqrt {n}}({\bar {X}}_{n}-\mu )} 0 {\displaystyle 0} σ 2 . {\displaystyle \sigma ^{2}.} n , {\displaystyle n,} X ¯ n {\displaystyle {\bar {X}}_{n}} μ {\displaystyle \mu } σ 2 / n . {\displaystyle \sigma ^{2}/n.}

La utilidad del teorema es que la distribución de tiende a la normalidad independientemente de la forma de la distribución del individuo. Formalmente, el teorema puede enunciarse de la siguiente manera: n ( X ¯ n μ ) {\displaystyle {\sqrt {n}}({\bar {X}}_{n}-\mu )} X i . {\displaystyle X_{i}.}

Lindeberg–Lévy CLT  —  Supongamos que es una secuencia de variables aleatorias iid con y Entonces, a medida que se acerca al infinito, las variables aleatorias convergen en distribución a una normal : [4] X 1 , X 2 , X 3 {\displaystyle X_{1},X_{2},X_{3}\ldots } E [ X i ] = μ {\displaystyle \operatorname {E} [X_{i}]=\mu } Var [ X i ] = σ 2 < . {\displaystyle \operatorname {Var} [X_{i}]=\sigma ^{2}<\infty .} n {\displaystyle n} n ( X ¯ n μ ) {\displaystyle {\sqrt {n}}({\bar {X}}_{n}-\mu )} N ( 0 , σ 2 ) {\displaystyle {\mathcal {N}}(0,\sigma ^{2})} n ( X ¯ n μ ) d N ( 0 , σ 2 ) . {\displaystyle {\sqrt {n}}\left({\bar {X}}_{n}-\mu \right)\mathrel {\overset {d}{\longrightarrow }} {\mathcal {N}}\left(0,\sigma ^{2}\right).}

En el caso de convergencia en la distribución significa que las funciones de distribución acumuladas de convergen puntualmente a la función de distribución acumulada de la distribución: para cada número real donde es la función de distribución acumulada normal estándar evaluada en La convergencia es uniforme en en el sentido de que donde denota el límite superior mínimo (o supremo ) del conjunto. [5] σ > 0 , {\displaystyle \sigma >0,} n ( X ¯ n μ ) {\displaystyle {\sqrt {n}}({\bar {X}}_{n}-\mu )} N ( 0 , σ 2 ) {\displaystyle {\mathcal {N}}(0,\sigma ^{2})} z , {\displaystyle z,} lim n P [ n ( X ¯ n μ ) z ] = lim n P [ n ( X ¯ n μ ) σ z σ ] = Φ ( z σ ) , {\displaystyle \lim _{n\to \infty }\mathbb {P} \left[{\sqrt {n}}({\bar {X}}_{n}-\mu )\leq z\right]=\lim _{n\to \infty }\mathbb {P} \left[{\frac {{\sqrt {n}}({\bar {X}}_{n}-\mu )}{\sigma }}\leq {\frac {z}{\sigma }}\right]=\Phi \left({\frac {z}{\sigma }}\right),} Φ ( z ) {\displaystyle \Phi (z)} z . {\displaystyle z.} z {\displaystyle z} lim n sup z R | P [ n ( X ¯ n μ ) z ] Φ ( z σ ) | = 0   , {\displaystyle \lim _{n\to \infty }\;\sup _{z\in \mathbb {R} }\;\left|\mathbb {P} \left[{\sqrt {n}}({\bar {X}}_{n}-\mu )\leq z\right]-\Phi \left({\frac {z}{\sigma }}\right)\right|=0~,} sup {\displaystyle \sup }

CLT de Lyapunov

En esta variante del teorema del límite central, las variables aleatorias deben ser independientes, pero no necesariamente idénticamente distribuidas. El teorema también requiere que las variables aleatorias tengan momentos de cierto orden y que la tasa de crecimiento de estos momentos esté limitada por la condición de Lyapunov que se indica a continuación. X i {\textstyle X_{i}} | X i | {\textstyle \left|X_{i}\right|} ( 2 + δ ) {\textstyle (2+\delta )}

CLT de Lyapunov [6]  —  Supongamos que es una secuencia de variables aleatorias independientes, cada una con un valor esperado y una varianza finitos . Definir { X 1 , , X n , } {\textstyle \{X_{1},\ldots ,X_{n},\ldots \}} μ i {\textstyle \mu _{i}} σ i 2 {\textstyle \sigma _{i}^{2}} s n 2 = i = 1 n σ i 2 . {\displaystyle s_{n}^{2}=\sum _{i=1}^{n}\sigma _{i}^{2}.}

Si para algún , se cumple la condición de Lyapunov , entonces una suma de converge en distribución a una variable aleatoria normal estándar, como tiende a infinito: δ > 0 {\textstyle \delta >0} lim n 1 s n 2 + δ i = 1 n E [ | X i μ i | 2 + δ ] = 0 {\displaystyle \lim _{n\to \infty }\;{\frac {1}{s_{n}^{2+\delta }}}\,\sum _{i=1}^{n}\operatorname {E} \left[\left|X_{i}-\mu _{i}\right|^{2+\delta }\right]=0} X i μ i s n {\textstyle {\frac {X_{i}-\mu _{i}}{s_{n}}}} n {\textstyle n} 1 s n i = 1 n ( X i μ i ) d N ( 0 , 1 ) . {\displaystyle {\frac {1}{s_{n}}}\,\sum _{i=1}^{n}\left(X_{i}-\mu _{i}\right)\mathrel {\overset {d}{\longrightarrow }} {\mathcal {N}}(0,1).}

En la práctica, normalmente es más fácil comprobar el estado de Lyapunov . δ = 1 {\textstyle \delta =1}

Si una secuencia de variables aleatorias satisface la condición de Lyapunov, también satisface la condición de Lindeberg. Sin embargo, la implicación inversa no se cumple.

Lindeberg (-Feller) CLT

En el mismo contexto y con la misma notación que arriba, la condición de Lyapunov puede reemplazarse por la siguiente más débil (de Lindeberg en 1920).

Supongamos que para cada donde es la función indicadora . Entonces la distribución de las sumas estandarizadas converge hacia la distribución normal estándar . ε > 0 {\textstyle \varepsilon >0} lim n 1 s n 2 i = 1 n E [ ( X i μ i ) 2 1 { | X i μ i | > ε s n } ] = 0 {\displaystyle \lim _{n\to \infty }{\frac {1}{s_{n}^{2}}}\sum _{i=1}^{n}\operatorname {E} \left[(X_{i}-\mu _{i})^{2}\cdot \mathbf {1} _{\left\{\left|X_{i}-\mu _{i}\right|>\varepsilon s_{n}\right\}}\right]=0} 1 { } {\textstyle \mathbf {1} _{\{\ldots \}}} 1 s n i = 1 n ( X i μ i ) {\displaystyle {\frac {1}{s_{n}}}\sum _{i=1}^{n}\left(X_{i}-\mu _{i}\right)} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)}

CLT multidimensional

Las pruebas que utilizan funciones características se pueden extender a casos en los que cada individuo es un vector aleatorio en , con vector de media y matriz de covarianza (entre los componentes del vector), y estos vectores aleatorios son independientes y se distribuyen de forma idéntica. El teorema del límite central multidimensional establece que cuando se escalan, las sumas convergen a una distribución normal multivariada . [7] La ​​suma de estos vectores se realiza componente por componente. X i {\textstyle \mathbf {X} _{i}} R k {\textstyle \mathbb {R} ^{k}} μ = E [ X i ] {\textstyle {\boldsymbol {\mu }}=\operatorname {E} [\mathbf {X} _{i}]} Σ {\textstyle \mathbf {\Sigma } }

Para que sean vectores aleatorios independientes, la suma de los vectores aleatorios es y su media es Por lo tanto, i = 1 , 2 , 3 , , {\displaystyle i=1,2,3,\ldots ,} X i = [ X i ( 1 ) X i ( k ) ] {\displaystyle \mathbf {X} _{i}={\begin{bmatrix}X_{i}^{(1)}\\\vdots \\X_{i}^{(k)}\end{bmatrix}}} X 1 , , X n {\displaystyle \mathbf {X} _{1},\ldots ,\mathbf {X} _{n}} i = 1 n X i = [ X 1 ( 1 ) X 1 ( k ) ] + [ X 2 ( 1 ) X 2 ( k ) ] + + [ X n ( 1 ) X n ( k ) ] = [ i = 1 n X i ( 1 ) i = 1 n X i ( k ) ] {\displaystyle \sum _{i=1}^{n}\mathbf {X} _{i}={\begin{bmatrix}X_{1}^{(1)}\\\vdots \\X_{1}^{(k)}\end{bmatrix}}+{\begin{bmatrix}X_{2}^{(1)}\\\vdots \\X_{2}^{(k)}\end{bmatrix}}+\cdots +{\begin{bmatrix}X_{n}^{(1)}\\\vdots \\X_{n}^{(k)}\end{bmatrix}}={\begin{bmatrix}\sum _{i=1}^{n}X_{i}^{(1)}\\\vdots \\\sum _{i=1}^{n}X_{i}^{(k)}\end{bmatrix}}} X ¯ n = [ X ¯ i ( 1 ) X ¯ i ( k ) ] = 1 n i = 1 n X i . {\displaystyle \mathbf {{\bar {X}}_{n}} ={\begin{bmatrix}{\bar {X}}_{i}^{(1)}\\\vdots \\{\bar {X}}_{i}^{(k)}\end{bmatrix}}={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {X} _{i}.} 1 n i = 1 n [ X i E ( X i ) ] = 1 n i = 1 n ( X i μ ) = n ( X ¯ n μ ) . {\displaystyle {\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}\left[\mathbf {X} _{i}-\operatorname {E} \left(\mathbf {X} _{i}\right)\right]={\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}(\mathbf {X} _{i}-{\boldsymbol {\mu }})={\sqrt {n}}\left({\overline {\mathbf {X} }}_{n}-{\boldsymbol {\mu }}\right).}

El teorema del límite central multivariado establece que cuando la matriz de covarianza es igual a n ( X ¯ n μ ) d N k ( 0 , Σ ) , {\displaystyle {\sqrt {n}}\left({\overline {\mathbf {X} }}_{n}-{\boldsymbol {\mu }}\right)\mathrel {\overset {d}{\longrightarrow }} {\mathcal {N}}_{k}(0,{\boldsymbol {\Sigma }}),} Σ {\displaystyle {\boldsymbol {\Sigma }}} Σ = [ Var ( X 1 ( 1 ) ) Cov ( X 1 ( 1 ) , X 1 ( 2 ) ) Cov ( X 1 ( 1 ) , X 1 ( 3 ) ) Cov ( X 1 ( 1 ) , X 1 ( k ) ) Cov ( X 1 ( 2 ) , X 1 ( 1 ) ) Var ( X 1 ( 2 ) ) Cov ( X 1 ( 2 ) , X 1 ( 3 ) ) Cov ( X 1 ( 2 ) , X 1 ( k ) ) Cov ( X 1 ( 3 ) , X 1 ( 1 ) ) Cov ( X 1 ( 3 ) , X 1 ( 2 ) ) Var ( X 1 ( 3 ) ) Cov ( X 1 ( 3 ) , X 1 ( k ) ) Cov ( X 1 ( k ) , X 1 ( 1 ) ) Cov ( X 1 ( k ) , X 1 ( 2 ) ) Cov ( X 1 ( k ) , X 1 ( 3 ) ) Var ( X 1 ( k ) ) ]   . {\displaystyle {\boldsymbol {\Sigma }}={\begin{bmatrix}{\operatorname {Var} \left(X_{1}^{(1)}\right)}&\operatorname {Cov} \left(X_{1}^{(1)},X_{1}^{(2)}\right)&\operatorname {Cov} \left(X_{1}^{(1)},X_{1}^{(3)}\right)&\cdots &\operatorname {Cov} \left(X_{1}^{(1)},X_{1}^{(k)}\right)\\\operatorname {Cov} \left(X_{1}^{(2)},X_{1}^{(1)}\right)&\operatorname {Var} \left(X_{1}^{(2)}\right)&\operatorname {Cov} \left(X_{1}^{(2)},X_{1}^{(3)}\right)&\cdots &\operatorname {Cov} \left(X_{1}^{(2)},X_{1}^{(k)}\right)\\\operatorname {Cov} \left(X_{1}^{(3)},X_{1}^{(1)}\right)&\operatorname {Cov} \left(X_{1}^{(3)},X_{1}^{(2)}\right)&\operatorname {Var} \left(X_{1}^{(3)}\right)&\cdots &\operatorname {Cov} \left(X_{1}^{(3)},X_{1}^{(k)}\right)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\operatorname {Cov} \left(X_{1}^{(k)},X_{1}^{(1)}\right)&\operatorname {Cov} \left(X_{1}^{(k)},X_{1}^{(2)}\right)&\operatorname {Cov} \left(X_{1}^{(k)},X_{1}^{(3)}\right)&\cdots &\operatorname {Var} \left(X_{1}^{(k)}\right)\\\end{bmatrix}}~.}

El teorema del límite central multivariado se puede demostrar utilizando el teorema de Cramér-Wold . [7]

La tasa de convergencia viene dada por el siguiente resultado de tipo Berry-Esseen :

Teorema [8]  —  Sean vectores aleatorios independientes , cada uno con media cero. Escriba y suponga que es invertible. Sea una gaussiana de dimensión con la misma media y la misma matriz de covarianza que . Entonces, para todos los conjuntos convexos , donde es una constante universal, , y denota la norma euclidiana en . X 1 , , X n , {\displaystyle X_{1},\dots ,X_{n},\dots } R d {\displaystyle \mathbb {R} ^{d}} S = i = 1 n X i {\displaystyle S=\sum _{i=1}^{n}X_{i}} Σ = Cov [ S ] {\displaystyle \Sigma =\operatorname {Cov} [S]} Z N ( 0 , Σ ) {\displaystyle Z\sim {\mathcal {N}}(0,\Sigma )} d {\displaystyle d} S {\displaystyle S} U R d {\displaystyle U\subseteq \mathbb {R} ^{d}} | P [ S U ] P [ Z U ] | C d 1 / 4 γ   , {\displaystyle \left|\mathbb {P} [S\in U]-\mathbb {P} [Z\in U]\right|\leq C\,d^{1/4}\gamma ~,} C {\displaystyle C} γ = i = 1 n E [ Σ 1 / 2 X i 2 3 ] {\displaystyle \gamma =\sum _{i=1}^{n}\operatorname {E} \left[\left\|\Sigma ^{-1/2}X_{i}\right\|_{2}^{3}\right]} 2 {\displaystyle \|\cdot \|_{2}} R d {\displaystyle \mathbb {R} ^{d}}

Se desconoce si el factor es necesario. [9] d 1 / 4 {\textstyle d^{1/4}}

El teorema del límite central generalizado

El Teorema del Límite Central Generalizado (GCLT) fue un esfuerzo de varios matemáticos ( Berstein , Lindeberg , Lévy , Feller , Kolmogorov y otros) durante el período de 1920 a 1937. [10] La primera prueba completa publicada del GCLT fue en 1937 por Paul Lévy en francés. [11] Una versión en inglés de la prueba completa del GCLT está disponible en la traducción del libro de Gnedenko y Kolmogorov de 1954. [12]

La declaración del GCLT es la siguiente: [13]

Una variable aleatoria no degenerada Z es α -estable para algún 0 < α ≤ 2 si y solo si existe una secuencia independiente, idénticamente distribuida, de variables aleatorias X 1 , X 2 , X 3 , ... y constantes a n > 0, b n ∈ ℝ con
a n ( X 1 + ... + X n ) − b nZ .
Aquí → significa que la secuencia de sumas de variables aleatorias converge en distribución; es decir, las distribuciones correspondientes satisfacen F n ( y ) → F ( y ) en todos los puntos de continuidad de F.

En otras palabras, si las sumas de variables aleatorias independientes e idénticamente distribuidas convergen en una distribución hacia algún Z , entonces Z debe ser una distribución estable .

Procesos dependientes

CLT bajo dependencia débil

Una generalización útil de una secuencia de variables aleatorias independientes e idénticamente distribuidas es un proceso aleatorio de mezcla en tiempo discreto; "mezcla" significa, en términos generales, que las variables aleatorias que se encuentran alejadas temporalmente entre sí son casi independientes. En la teoría ergódica y la teoría de la probabilidad se utilizan varios tipos de mezcla. Véase especialmente la mezcla fuerte (también llamada mezcla α) definida por donde es el denominado coeficiente de mezcla fuerte . α ( n ) 0 {\textstyle \alpha (n)\to 0} α ( n ) {\textstyle \alpha (n)}

Una formulación simplificada del teorema del límite central bajo mezcla fuerte es: [14]

Teorema  —  Supóngase que es estacionaria y se mezcla con y que y . Denotemos , entonces el límite existe, y si entonces converge en distribución a . { X 1 , , X n , } {\textstyle \{X_{1},\ldots ,X_{n},\ldots \}} α {\displaystyle \alpha } α n = O ( n 5 ) {\textstyle \alpha _{n}=O\left(n^{-5}\right)} E [ X n ] = 0 {\textstyle \operatorname {E} [X_{n}]=0} E [ X n 12 ] < {\textstyle \operatorname {E} [X_{n}^{12}]<\infty } S n = X 1 + + X n {\textstyle S_{n}=X_{1}+\cdots +X_{n}} σ 2 = lim n E ( S n 2 ) n {\displaystyle \sigma ^{2}=\lim _{n\rightarrow \infty }{\frac {\operatorname {E} \left(S_{n}^{2}\right)}{n}}} σ 0 {\textstyle \sigma \neq 0} S n σ n {\textstyle {\frac {S_{n}}{\sigma {\sqrt {n}}}}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)}

De hecho, donde la serie converge absolutamente. σ 2 = E ( X 1 2 ) + 2 k = 1 E ( X 1 X 1 + k ) , {\displaystyle \sigma ^{2}=\operatorname {E} \left(X_{1}^{2}\right)+2\sum _{k=1}^{\infty }\operatorname {E} \left(X_{1}X_{1+k}\right),}

La suposición no se puede omitir, ya que la normalidad asintótica falla para donde hay otra secuencia estacionaria . σ 0 {\textstyle \sigma \neq 0} X n = Y n Y n 1 {\textstyle X_{n}=Y_{n}-Y_{n-1}} Y n {\textstyle Y_{n}}

Hay una versión más fuerte del teorema: [15] la suposición se reemplaza con , y la suposición se reemplaza con E [ X n 12 ] < {\textstyle \operatorname {E} \left[X_{n}^{12}\right]<\infty } E [ | X n | 2 + δ ] < {\textstyle \operatorname {E} \left[{\left|X_{n}\right|}^{2+\delta }\right]<\infty } α n = O ( n 5 ) {\textstyle \alpha _{n}=O\left(n^{-5}\right)} n α n δ 2 ( 2 + δ ) < . {\displaystyle \sum _{n}\alpha _{n}^{\frac {\delta }{2(2+\delta )}}<\infty .}

La existencia de tales teorías garantiza la conclusión. Para un tratamiento enciclopédico de los teoremas límite en condiciones de mezcla, véase (Bradley 2007). δ > 0 {\textstyle \delta >0}

Diferencia de martingala CLT

Teorema  :  Sea una martingala la que satisfaga M n {\textstyle M_{n}}

  • 1 n k = 1 n E [ ( M k M k 1 ) 2 M 1 , , M k 1 ] 1 {\displaystyle {\frac {1}{n}}\sum _{k=1}^{n}\operatorname {E} \left[\left(M_{k}-M_{k-1}\right)^{2}\mid M_{1},\dots ,M_{k-1}\right]\to 1} en probabilidad cuando n → ∞ ,
  • para cada ε > 0 , cuando n → ∞ , 1 n k = 1 n E [ ( M k M k 1 ) 2 1 [ | M k M k 1 | > ε n ] ] 0 {\displaystyle {\frac {1}{n}}\sum _{k=1}^{n}{\operatorname {E} \left[\left(M_{k}-M_{k-1}\right)^{2}\mathbf {1} \left[|M_{k}-M_{k-1}|>\varepsilon {\sqrt {n}}\right]\right]}\to 0}

luego converge en distribución a como . [16] [17] M n n {\textstyle {\frac {M_{n}}{\sqrt {n}}}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)} n {\textstyle n\to \infty }

Observaciones

Prueba de la CLT clásica

El teorema del límite central tiene una prueba que utiliza funciones características . [18] Es similar a la prueba de la ley (débil) de los grandes números .

Supongamos que son variables aleatorias independientes e idénticamente distribuidas, cada una con media y varianza finita . La suma tiene media y varianza . Considere la variable aleatoria donde en el último paso definimos las nuevas variables aleatorias , cada una con media cero y varianza unitaria ( ). La función característica de está dada por donde en el último paso usamos el hecho de que todas las están idénticamente distribuidas. La función característica de es, por el teorema de Taylor , donde es " notación o minúscula " para alguna función de que tiende a cero más rápidamente que . Por el límite de la función exponencial ( ), la función característica de es igual a { X 1 , , X n , } {\textstyle \{X_{1},\ldots ,X_{n},\ldots \}} μ {\textstyle \mu } σ 2 {\textstyle \sigma ^{2}} X 1 + + X n {\textstyle X_{1}+\cdots +X_{n}} n μ {\textstyle n\mu } n σ 2 {\textstyle n\sigma ^{2}} Z n = X 1 + + X n n μ n σ 2 = i = 1 n X i μ n σ 2 = i = 1 n 1 n Y i , {\displaystyle Z_{n}={\frac {X_{1}+\cdots +X_{n}-n\mu }{\sqrt {n\sigma ^{2}}}}=\sum _{i=1}^{n}{\frac {X_{i}-\mu }{\sqrt {n\sigma ^{2}}}}=\sum _{i=1}^{n}{\frac {1}{\sqrt {n}}}Y_{i},} Y i = X i μ σ {\textstyle Y_{i}={\frac {X_{i}-\mu }{\sigma }}} var ( Y ) = 1 {\textstyle \operatorname {var} (Y)=1} Z n {\textstyle Z_{n}} φ Z n ( t ) = φ i = 1 n 1 n Y i ( t )   =   φ Y 1 ( t n ) φ Y 2 ( t n ) φ Y n ( t n )   =   [ φ Y 1 ( t n ) ] n , {\displaystyle \varphi _{Z_{n}}\!(t)=\varphi _{\sum _{i=1}^{n}{{\frac {1}{\sqrt {n}}}Y_{i}}}\!(t)\ =\ \varphi _{Y_{1}}\!\!\left({\frac {t}{\sqrt {n}}}\right)\varphi _{Y_{2}}\!\!\left({\frac {t}{\sqrt {n}}}\right)\cdots \varphi _{Y_{n}}\!\!\left({\frac {t}{\sqrt {n}}}\right)\ =\ \left[\varphi _{Y_{1}}\!\!\left({\frac {t}{\sqrt {n}}}\right)\right]^{n},} Y i {\textstyle Y_{i}} Y 1 {\textstyle Y_{1}} φ Y 1 ( t n ) = 1 t 2 2 n + o ( t 2 n ) , ( t n ) 0 {\displaystyle \varphi _{Y_{1}}\!\left({\frac {t}{\sqrt {n}}}\right)=1-{\frac {t^{2}}{2n}}+o\!\left({\frac {t^{2}}{n}}\right),\quad \left({\frac {t}{\sqrt {n}}}\right)\to 0} o ( t 2 / n ) {\textstyle o(t^{2}/n)} t {\textstyle t} t 2 / n {\textstyle t^{2}/n} e x = lim n ( 1 + x n ) n {\textstyle e^{x}=\lim _{n\to \infty }\left(1+{\frac {x}{n}}\right)^{n}} Z n {\displaystyle Z_{n}} φ Z n ( t ) = ( 1 t 2 2 n + o ( t 2 n ) ) n e 1 2 t 2 , n . {\displaystyle \varphi _{Z_{n}}(t)=\left(1-{\frac {t^{2}}{2n}}+o\left({\frac {t^{2}}{n}}\right)\right)^{n}\rightarrow e^{-{\frac {1}{2}}t^{2}},\quad n\to \infty .}

Todos los términos de orden superior se anulan en el límite . El lado derecho es igual a la función característica de una distribución normal estándar , lo que implica a través del teorema de continuidad de Lévy que la distribución de se aproximará a . Por lo tanto, el promedio de la muestra es tal que converge a la distribución normal , de la cual se desprende el teorema del límite central. n {\textstyle n\to \infty } N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)} Z n {\textstyle Z_{n}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)} n {\textstyle n\to \infty } X ¯ n = X 1 + + X n n {\displaystyle {\bar {X}}_{n}={\frac {X_{1}+\cdots +X_{n}}{n}}} n σ ( X ¯ n μ ) = Z n {\displaystyle {\frac {\sqrt {n}}{\sigma }}({\bar {X}}_{n}-\mu )=Z_{n}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)}

Convergencia al límite

El teorema del límite central sólo proporciona una distribución asintótica . Como aproximación para un número finito de observaciones, proporciona una aproximación razonable sólo cuando está cerca del pico de la distribución normal; requiere una cantidad muy grande de observaciones para llegar a las colas. [ cita requerida ]

La convergencia en el teorema del límite central es uniforme porque la función de distribución acumulativa limitante es continua. Si el tercer momento central existe y es finito, entonces la velocidad de convergencia es al menos del orden de (véase el teorema de Berry-Esseen ). El método de Stein [19] puede utilizarse no solo para demostrar el teorema del límite central, sino también para proporcionar límites a las tasas de convergencia para métricas seleccionadas. [20] E [ ( X 1 μ ) 3 ] {\textstyle \operatorname {E} \left[(X_{1}-\mu )^{3}\right]} 1 / n {\textstyle 1/{\sqrt {n}}}

La convergencia a la distribución normal es monótona, en el sentido de que la entropía aumenta monótonamente hasta la de la distribución normal. [21] Z n {\textstyle Z_{n}}

El teorema del límite central se aplica en particular a las sumas de variables aleatorias discretas independientes e idénticamente distribuidas . Una suma de variables aleatorias discretas sigue siendo una variable aleatoria discreta , de modo que nos enfrentamos a una secuencia de variables aleatorias discretas cuya función de distribución de probabilidad acumulada converge hacia una función de distribución de probabilidad acumulada correspondiente a una variable continua (es decir, la de la distribución normal ). Esto significa que si construimos un histograma de las realizaciones de la suma de n variables discretas independientes idénticas, la curva lineal por partes que une los centros de las caras superiores de los rectángulos que forman el histograma converge hacia una curva gaussiana cuando n tiende al infinito; esta relación se conoce como teorema de De Moivre-Laplace . El artículo sobre la distribución binomial detalla dicha aplicación del teorema del límite central en el caso simple de una variable discreta que toma solo dos valores posibles.

Conceptos erróneos comunes

Los estudios han demostrado que el teorema del límite central está sujeto a varios conceptos erróneos comunes pero graves, algunos de los cuales aparecen en libros de texto ampliamente utilizados. [22] [23] [24] Estos incluyen:

  • La creencia errónea de que el teorema se aplica al muestreo aleatorio de cualquier variable, en lugar de a los valores medios (o sumas) de variables aleatorias iid extraídas de una población mediante muestreo repetido. Es decir, el teorema supone que el muestreo aleatorio produce una distribución de muestreo formada a partir de diferentes valores de medias (o sumas) de dichas variables aleatorias.
  • La creencia errónea de que el teorema garantiza que el muestreo aleatorio conduce a la aparición de una distribución normal para muestras suficientemente grandes de cualquier variable aleatoria, independientemente de la distribución de la población. En realidad, dicho muestreo reproduce asintóticamente las propiedades de la población, un resultado intuitivo respaldado por el teorema de Glivenko-Cantelli .
  • La creencia errónea de que el teorema conduce a una buena aproximación de una distribución normal para tamaños de muestra mayores que 30, [25] lo que permite inferencias confiables independientemente de la naturaleza de la población. En realidad, esta regla empírica no tiene justificación válida y puede conducir a inferencias seriamente erróneas. Véase la prueba Z para ver dónde se cumple la aproximación.

Relación con la ley de los grandes números

La ley de los grandes números , así como el teorema del límite central, son soluciones parciales a un problema general: "¿Cuál es el comportamiento límite de S n cuando n tiende al infinito?" En el análisis matemático, las series asintóticas son una de las herramientas más populares que se emplean para abordar estas cuestiones.

Supongamos que tenemos una expansión asintótica de : f ( n ) {\textstyle f(n)} f ( n ) = a 1 φ 1 ( n ) + a 2 φ 2 ( n ) + O ( φ 3 ( n ) ) ( n ) . {\displaystyle f(n)=a_{1}\varphi _{1}(n)+a_{2}\varphi _{2}(n)+O{\big (}\varphi _{3}(n){\big )}\qquad (n\to \infty ).}

Dividiendo ambas partes por φ 1 ( n ) y tomando el límite se obtendrá un 1 , el coeficiente del término de mayor orden en la expansión, que representa la tasa a la que f ( n ) cambia en su término principal. lim n f ( n ) φ 1 ( n ) = a 1 . {\displaystyle \lim _{n\to \infty }{\frac {f(n)}{\varphi _{1}(n)}}=a_{1}.}

De manera informal, se puede decir: " f ( n ) crece aproximadamente como 1 φ 1 ( n ) ". Tomando la diferencia entre f ( n ) y su aproximación y luego dividiendo por el siguiente término en la expansión, llegamos a una afirmación más refinada sobre f ( n ) : lim n f ( n ) a 1 φ 1 ( n ) φ 2 ( n ) = a 2 . {\displaystyle \lim _{n\to \infty }{\frac {f(n)-a_{1}\varphi _{1}(n)}{\varphi _{2}(n)}}=a_{2}.}

Aquí se puede decir que la diferencia entre la función y su aproximación crece aproximadamente como 2 φ 2 ( n ) . La idea es que dividir la función por funciones normalizadoras apropiadas y observar el comportamiento límite del resultado puede decirnos mucho sobre el comportamiento límite de la función original en sí.

De manera informal, algo similar sucede cuando se estudia la suma, S n , de variables aleatorias independientes distribuidas de manera idéntica, X 1 , ..., X n , en la teoría de probabilidad clásica. [ cita requerida ] Si cada X i tiene una media finita μ , entonces, por la ley de los grandes números, S n/norteμ . [26] Si además cada X i tiene varianza finita σ 2 , entonces por el teorema del límite central, donde ξ se distribuye como N (0, σ 2 ) . Esto proporciona valores de las dos primeras constantes en la expansión informal S n n μ n ξ , {\displaystyle {\frac {S_{n}-n\mu }{\sqrt {n}}}\to \xi ,} S n μ n + ξ n . {\displaystyle S_{n}\approx \mu n+\xi {\sqrt {n}}.}

En el caso en que las X i no tengan media o varianza finita, la convergencia de la suma desplazada y reescalada también puede ocurrir con diferentes factores de centrado y escala: o informalmente S n a n b n Ξ , {\displaystyle {\frac {S_{n}-a_{n}}{b_{n}}}\rightarrow \Xi ,} S n a n + Ξ b n . {\displaystyle S_{n}\approx a_{n}+\Xi b_{n}.}

Las distribuciones Ξ que pueden surgir de esta manera se denominan estables . [27] Claramente, la distribución normal es estable, pero también hay otras distribuciones estables, como la distribución de Cauchy , para las que la media o la varianza no están definidas. El factor de escala b n puede ser proporcional a n c , para cualquier c1/2 ; también puede multiplicarse por una función de n que varía lentamente . [28] [29]

La ley del logaritmo iterado especifica lo que sucede "entre" la ley de los grandes números y el teorema del límite central. En concreto, dice que la función normalizadora n log log n , de tamaño intermedio entre n de la ley de los grandes números y n del teorema del límite central, proporciona un comportamiento limitante no trivial.

Enunciados alternativos del teorema

Funciones de densidad

La densidad de la suma de dos o más variables independientes es la convolución de sus densidades (si estas densidades existen). Por lo tanto, el teorema del límite central puede interpretarse como una afirmación sobre las propiedades de las funciones de densidad bajo convolución: la convolución de un número de funciones de densidad tiende a la densidad normal a medida que el número de funciones de densidad aumenta sin límite. Estos teoremas requieren hipótesis más sólidas que las formas del teorema del límite central dadas anteriormente. Los teoremas de este tipo a menudo se denominan teoremas del límite local. Véase Petrov [30] para un teorema del límite local particular para sumas de variables aleatorias independientes e idénticamente distribuidas .

Funciones características

Dado que la función característica de una convolución es el producto de las funciones características de las densidades involucradas, el teorema del límite central tiene otra reformulación: el producto de las funciones características de varias funciones de densidad se acerca a la función característica de la densidad normal a medida que la cantidad de funciones de densidad aumenta sin límite, en las condiciones establecidas anteriormente. En concreto, se debe aplicar un factor de escala adecuado al argumento de la función característica.

Se puede hacer una afirmación equivalente acerca de las transformadas de Fourier , ya que la función característica es esencialmente una transformada de Fourier.

Calcular la varianza

Sea S n la suma de n variables aleatorias. Muchos teoremas del límite central proporcionan condiciones tales que S n / Var( S n ) converge en distribución a N (0,1) (la distribución normal con media 0, varianza 1) cuando n → ∞ . En algunos casos, es posible encontrar una constante σ 2 y una función f(n) tales que S n /(σ n⋅f ( n ) ) converge en distribución a N (0,1) cuando n → ∞ .

Lema [31]  —  Supongamos que es una secuencia de variables aleatorias de valor real y estrictamente estacionarias con para todos , , y . Construir X 1 , X 2 , {\displaystyle X_{1},X_{2},\dots } E ( X i ) = 0 {\displaystyle \operatorname {E} (X_{i})=0} i {\displaystyle i} g : [ 0 , 1 ] R {\displaystyle g:[0,1]\to \mathbb {R} } S n = i = 1 n g ( i n ) X i {\displaystyle S_{n}=\sum _{i=1}^{n}g\left({\tfrac {i}{n}}\right)X_{i}} σ 2 = E ( X 1 2 ) + 2 i = 1 E ( X 1 X 1 + i ) {\displaystyle \sigma ^{2}=\operatorname {E} (X_{1}^{2})+2\sum _{i=1}^{\infty }\operatorname {E} (X_{1}X_{1+i})}

  1. Si es absolutamente convergente, , y entonces como donde . i = 1 E ( X 1 X 1 + i ) {\displaystyle \sum _{i=1}^{\infty }\operatorname {E} (X_{1}X_{1+i})} | 0 1 g ( x ) g ( x ) d x | < {\displaystyle \left|\int _{0}^{1}g(x)g'(x)\,dx\right|<\infty } 0 < 0 1 ( g ( x ) ) 2 d x < {\displaystyle 0<\int _{0}^{1}(g(x))^{2}dx<\infty } V a r ( S n ) / ( n γ n ) σ 2 {\displaystyle \mathrm {Var} (S_{n})/(n\gamma _{n})\to \sigma ^{2}} n {\displaystyle n\to \infty } γ n = 1 n i = 1 n ( g ( i n ) ) 2 {\displaystyle \gamma _{n}={\frac {1}{n}}\sum _{i=1}^{n}\left(g\left({\tfrac {i}{n}}\right)\right)^{2}}
  2. Si además y converge en distribución a como entonces también converge en distribución a como . σ > 0 {\displaystyle \sigma >0} S n / V a r ( S n ) {\displaystyle S_{n}/{\sqrt {\mathrm {Var} (S_{n})}}} N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)} n {\displaystyle n\to \infty } S n / ( σ n γ n ) {\displaystyle S_{n}/(\sigma {\sqrt {n\gamma _{n}}})} N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)} n {\displaystyle n\to \infty }

Extensiones

Productos de variables aleatorias positivas

El logaritmo de un producto es simplemente la suma de los logaritmos de los factores. Por lo tanto, cuando el logaritmo de un producto de variables aleatorias que toman solo valores positivos se acerca a una distribución normal, el producto en sí se acerca a una distribución log-normal . Muchas magnitudes físicas (especialmente la masa o la longitud, que son una cuestión de escala y no pueden ser negativas) son productos de diferentes factores aleatorios , por lo que siguen una distribución log-normal. Esta versión multiplicativa del teorema del límite central a veces se denomina ley de Gibrat .

Mientras que el teorema del límite central para sumas de variables aleatorias requiere la condición de varianza finita, el teorema correspondiente para productos requiere la condición correspondiente de que la función de densidad sea integrable al cuadrado. [32]

Más allá del marco clásico

La normalidad asintótica, es decir, la convergencia a la distribución normal después de un cambio de escala y un cambio de escala adecuados, es un fenómeno mucho más general que el marco clásico tratado anteriormente, es decir, las sumas de variables aleatorias independientes (o vectores). De vez en cuando se revelan nuevos marcos, pero por ahora no hay un marco unificador único.

Cuerpo convexo

Teorema  —  Existe una secuencia ε n ↓ 0 para la cual se cumple lo siguiente. Sea n ≥ 1 y sean las variables aleatorias X 1 , ..., X n con una densidad conjunta log-cóncava f tal que f ( x 1 , ..., x n ) = f (| x 1 |, ..., | x n |) para todos los x 1 , ..., x n y E( X 2k
) = 1
para todos los k = 1, ..., n . Entonces la distribución de es ε n -cercana a en la distancia de variación total . [33] X 1 + + X n n {\displaystyle {\frac {X_{1}+\cdots +X_{n}}{\sqrt {n}}}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)}

Estas dos distribuciones ε n -cercanas tienen densidades (de hecho, densidades log-cóncavas), por lo que la distancia de varianza total entre ellas es la integral del valor absoluto de la diferencia entre las densidades. La convergencia en la variación total es más fuerte que la convergencia débil.

Un ejemplo importante de una densidad logarítmica-cóncava es una función que es constante dentro de un cuerpo convexo dado y que se desvanece fuera de él; corresponde a la distribución uniforme en el cuerpo convexo, lo que explica el término "teorema del límite central para cuerpos convexos".

Otro ejemplo: f ( x 1 , ..., x n ) = const · exp(−(| x 1 | α + ⋯ + | x n | α ) β ) donde α > 1 y αβ > 1 . Si β = 1 entonces f ( x 1 , ..., x n ) se factoriza en const · exp (−| x 1 | α ) … exp(−| x n | α ), lo que significa que X 1 , ..., X n son independientes. En general, sin embargo, son dependientes.

La condición f ( x 1 , ..., x n ) = f (| x 1 |, ..., | x n |) asegura que X 1 , ..., X n son de media cero y no están correlacionados ; [ cita requerida ] aún así, no necesitan ser independientes, ni siquiera independientes por pares . [ cita requerida ] Por cierto, la independencia por pares no puede reemplazar a la independencia en el teorema del límite central clásico. [34]

Aquí tenemos un resultado tipo Berry–Esseen .

Teorema  —  Sea X 1 , ..., X n satisfacen los supuestos del teorema anterior, entonces [35] para todo a < b ; aquí C es una constante universal (absoluta) . Además, para cada c 1 , ..., c nR tal que c | P ( a X 1 + + X n n b ) 1 2 π a b e 1 2 t 2 d t | C n {\displaystyle \left|\mathbb {P} \left(a\leq {\frac {X_{1}+\cdots +X_{n}}{\sqrt {n}}}\leq b\right)-{\frac {1}{\sqrt {2\pi }}}\int _{a}^{b}e^{-{\frac {1}{2}}t^{2}}\,dt\right|\leq {\frac {C}{n}}} 2
1
+ ⋯ + c2
n
= 1
, | P ( a c 1 X 1 + + c n X n b ) 1 2 π a b e 1 2 t 2 d t | C ( c 1 4 + + c n 4 ) . {\displaystyle \left|\mathbb {P} \left(a\leq c_{1}X_{1}+\cdots +c_{n}X_{n}\leq b\right)-{\frac {1}{\sqrt {2\pi }}}\int _{a}^{b}e^{-{\frac {1}{2}}t^{2}}\,dt\right|\leq C\left(c_{1}^{4}+\dots +c_{n}^{4}\right).}

La distribución de X 1 + ⋯ + X n/√n no necesita ser aproximadamente normal (de hecho, puede ser uniforme). [36] Sin embargo, la distribución de c 1 X 1 + ⋯ + c n X n es cercana a(en la distancia de variación total) para la mayoría de los vectores ( c 1 , ..., c n ) de acuerdo con la distribución uniforme en la esfera c N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)} 2
1
+ ⋯ + c2
n
= 1
.

Serie trigonométrica lacunar

Teorema ( SalemZygmund )  —  Sea U una variable aleatoria distribuida uniformemente en (0,2π) , y X k = r k cos( n k U + a k ) , donde

  • n k satisfacen la condición de lacunaridad: existe q > 1 tal que n k + 1qn k para todo k ,
  • r k son tales que r 1 2 + r 2 2 + =  and  r k 2 r 1 2 + + r k 2 0 , {\displaystyle r_{1}^{2}+r_{2}^{2}+\cdots =\infty \quad {\text{ and }}\quad {\frac {r_{k}^{2}}{r_{1}^{2}+\cdots +r_{k}^{2}}}\to 0,}
  • 0 ≤ a k < 2π .

Entonces [37] [38] converge en distribución a . X 1 + + X k r 1 2 + + r k 2 {\displaystyle {\frac {X_{1}+\cdots +X_{k}}{\sqrt {r_{1}^{2}+\cdots +r_{k}^{2}}}}} N ( 0 , 1 2 ) {\textstyle {\mathcal {N}}{\big (}0,{\frac {1}{2}}{\big )}}

Politopos gaussianos

Teorema  —  Sean A 1 , ..., A n puntos aleatorios independientes en el plano R 2, cada uno con una distribución normal estándar bidimensional. Sea K n la envoltura convexa de estos puntos y X n el área de K n. Entonces [39] converge en distribución a cuando n tiende a infinito. X n E ( X n ) Var ( X n ) {\displaystyle {\frac {X_{n}-\operatorname {E} (X_{n})}{\sqrt {\operatorname {Var} (X_{n})}}}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)}

Lo mismo ocurre en todas las dimensiones mayores que 2.

El politopo K n se llama politopo aleatorio gaussiano.

Un resultado similar se aplica al número de vértices (del politopo gaussiano), al número de aristas y, de hecho, a las caras de todas las dimensiones. [40]

Funciones lineales de matrices ortogonales

Una función lineal de una matriz M es una combinación lineal de sus elementos (con coeficientes dados), M ↦ tr( AM ) donde A es la matriz de los coeficientes; ver Trace (álgebra lineal)#Producto interno .

Se dice que una matriz ortogonal aleatoria está distribuida uniformemente si su distribución es la medida de Haar normalizada en el grupo ortogonal O( n , R ) ; ver Matriz de rotación#Matrices de rotación aleatorias uniformes .

Teorema  —  Sea M una matriz aleatoria ortogonal n × n distribuida uniformemente, y A una matriz fija n × n tal que tr( AA *) = n , y sea X = tr( AM ) . Entonces [41] la distribución de X es cercana a en la métrica de variación total hasta [ aclaración necesaria ] N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)} 2 3/n - 1 .

Subsecuencias

Teorema  —  Sean las variables aleatorias X 1 , X 2 , ... ∈ L 2 (Ω) tales que X n → 0 débilmente en L 2 (Ω) y X
norte
→ 1
débilmente en L 1 (Ω) . Entonces existen enteros n 1 < n 2 < ⋯ tales que convergen en distribución a cuando k tiende a infinito. [42] X n 1 + + X n k k {\displaystyle {\frac {X_{n_{1}}+\cdots +X_{n_{k}}}{\sqrt {k}}}} N ( 0 , 1 ) {\textstyle {\mathcal {N}}(0,1)}

Paseo aleatorio sobre una red cristalina

El teorema del límite central se puede establecer para el recorrido aleatorio simple en una red cristalina (un gráfico de recubrimiento abeliano de pliegue infinito sobre un gráfico finito) y se utiliza para el diseño de estructuras cristalinas. [43] [44]

Aplicaciones y ejemplos

Un ejemplo sencillo del teorema del límite central es el lanzamiento de muchos dados idénticos e imparciales. La distribución de la suma (o promedio) de los números lanzados se aproximará bien mediante una distribución normal. Dado que las cantidades del mundo real suelen ser la suma equilibrada de muchos eventos aleatorios no observados, el teorema del límite central también proporciona una explicación parcial de la prevalencia de la distribución de probabilidad normal. También justifica la aproximación de las estadísticas de muestras grandes a la distribución normal en experimentos controlados.

Otra simulación que utiliza la distribución binomial. Se generaron 0 y 1 aleatorios y luego se calcularon sus medias para tamaños de muestra que van desde 1 a 2048. Nótese que a medida que aumenta el tamaño de la muestra, las colas se vuelven más delgadas y la distribución se vuelve más concentrada alrededor de la media.

Regresión

El análisis de regresión , y en particular los mínimos cuadrados ordinarios , especifica que una variable dependiente depende, según alguna función, de una o más variables independientes , con un término de error aditivo . Varios tipos de inferencia estadística sobre la regresión suponen que el término de error se distribuye normalmente. Esta suposición se puede justificar suponiendo que el término de error es en realidad la suma de muchos términos de error independientes; incluso si los términos de error individuales no se distribuyen normalmente, por el teorema del límite central su suma se puede aproximar bien mediante una distribución normal.

Otras ilustraciones

Dada su importancia para la estadística, existen varios artículos y paquetes informáticos que demuestran la convergencia involucrada en el teorema del límite central. [45]

Historia

El matemático holandés Henk Tijms escribe: [46]

El teorema del límite central tiene una historia interesante. La primera versión de este teorema fue postulada por el matemático francés Abraham de Moivre , quien, en un notable artículo publicado en 1733, utilizó la distribución normal para aproximar la distribución del número de caras resultantes de muchos lanzamientos de una moneda normal. Este hallazgo se adelantó mucho a su tiempo y estuvo casi olvidado hasta que el famoso matemático francés Pierre-Simon Laplace lo rescató de la oscuridad en su monumental obra Théorie analytique des probabilités , que se publicó en 1812. Laplace amplió el hallazgo de De Moivre al aproximar la distribución binomial con la distribución normal. Pero, al igual que en el caso de De Moivre, el hallazgo de Laplace recibió poca atención en su propia época. La importancia del teorema central del límite no se percibió hasta finales del siglo XIX, cuando en 1901 el matemático ruso Aleksandr Lyapunov lo definió en términos generales y demostró con precisión cómo funcionaba matemáticamente. Hoy en día, el teorema central del límite se considera el soberano no oficial de la teoría de la probabilidad.

Sir Francis Galton describió el Teorema del Límite Central de esta manera: [47]

No conozco nada que pueda impresionar tanto a la imaginación como la maravillosa forma de orden cósmico expresada por la "Ley de la Frecuencia del Error". Los griegos habrían personificado y deificado la ley si la hubieran conocido. Reina con serenidad y en total anonimato, en medio de la más salvaje confusión. Cuanto más grande es la multitud y mayor la aparente anarquía, más perfecto es su dominio. Es la ley suprema de la Irracionalidad. Siempre que se toma en la mano una gran muestra de elementos caóticos y se los ordena por orden de magnitud, se demuestra que una insospechada y bellísima forma de regularidad ha estado latente todo el tiempo.

El término "teorema del límite central" (en alemán: "zentraler Grenzwertsatz") fue utilizado por primera vez por George Pólya en 1920 en el título de un artículo. [48] [49] Pólya se refirió al teorema como "central" debido a su importancia en la teoría de la probabilidad. Según Le Cam, la escuela francesa de probabilidad interpreta la palabra central en el sentido de que "describe el comportamiento del centro de la distribución en oposición a sus colas". [49] El resumen del artículo Sobre el teorema del límite central del cálculo de probabilidad y el problema de los momentos de Pólya [48] en 1920 se traduce de la siguiente manera.

La aparición de la densidad de probabilidad gaussiana 1 = e x 2 en experimentos repetidos, en errores de medición que resultan de la combinación de muchos y muy pequeños errores elementales, en procesos de difusión, etc., se puede explicar, como es bien sabido, por el mismo teorema del límite, que desempeña un papel central en el cálculo de probabilidades. El verdadero descubridor de este teorema del límite se llama Laplace; es probable que su demostración rigurosa la haya dado por primera vez Tschebyscheff y su formulación más precisa se puede encontrar, hasta donde yo sé, en un artículo de Liapounoff . ...

Hald ofrece un relato exhaustivo de la historia del teorema, detallando el trabajo fundacional de Laplace, así como las contribuciones de Cauchy , Bessel y Poisson . [50] Hans Fischer ofrece dos relatos históricos, uno que cubre el desarrollo desde Laplace hasta Cauchy, el segundo las contribuciones de von Mises , Pólya , Lindeberg , Lévy y Cramér durante la década de 1920. [51] Le Cam describe un período alrededor de 1935. [49] Bernstein [52] presenta una discusión histórica centrada en el trabajo de Pafnuty Chebyshev y sus estudiantes Andrey Markov y Aleksandr Lyapunov que llevaron a las primeras demostraciones del CLT en un contexto general.

Una nota curiosa a pie de página sobre la historia del Teorema del Límite Central es que una prueba de un resultado similar al Teorema del Límite Central de Lindeberg de 1922 fue el tema de la disertación de beca de Alan Turing de 1934 para el King's College de la Universidad de Cambridge . Sólo después de presentar el trabajo Turing se enteró de que ya había sido demostrada. En consecuencia, la disertación de Turing no se publicó. [53]

Véase también

Notas

  1. ^ Fischer (2011), p.  [ página necesaria ] .
  2. ^ Montgomery, Douglas C.; Runger, George C. (2014). Estadística aplicada y probabilidad para ingenieros (6.ª ed.). Wiley. pág. 241. ISBN 9781118539712.
  3. ^ Rouaud, Mathieu (2013). Probabilidad, estadística y estimación (PDF) . pág. 10. Archivado (PDF) desde el original el 9 de octubre de 2022.
  4. ^ Billingsley (1995), pág. 357.
  5. ^ Bauer (2001), pág. 199, Teorema 30.13.
  6. ^ Billingsley (1995), pág. 362.
  7. ^ ab van der Vaart, AW (1998). Estadística asintótica . Nueva York, NY: Cambridge University Press. ISBN 978-0-521-49603-2. Número de serie LCCN  98015176.
  8. ^ O'Donnell, Ryan (2014). «Teorema 5.38». Archivado desde el original el 8 de abril de 2019. Consultado el 18 de octubre de 2017 .
  9. ^ Bentkus, V. (2005). "Un límite de tipo Lyapunov en ". Theory Probab. Appl . 49 (2): 311–323. doi :10.1137/S0040585X97981123. R d {\displaystyle \mathbb {R} ^{d}}
  10. ^ Le Cam, L. (febrero de 1986). "El teorema del límite central en torno a 1935". Ciencia estadística . 1 (1): 78–91. JSTOR  2245503.
  11. ^ Levy, Paul (1937). Theorie de l'addition des variables aleatoires [Teoría de la combinación de variables impredecibles] . París: Gauthier-Villars.
  12. ^ Gnedenko, Boris Vladimirovich; Kologorov, Andreĭ Nikolaevich; Doob, Joseph L.; Hsu, Pao-Lu (1968). Distribuciones límite para sumas de variables aleatorias independientes . Reading, MA: Addison-Wesley.
  13. ^ Nolan, John P. (2020). Distribuciones estables univariadas, modelos para datos de cola pesada. Springer Series en investigación de operaciones e ingeniería financiera. Suiza: Springer. doi :10.1007/978-3-030-52915-4. ISBN 978-3-030-52914-7.S2CID226648987  .
  14. ^ Billingsley (1995), Teorema 27.4.
  15. ^ Durrett (2004), Sec. 7.7(c), Teorema 7.8.
  16. ^ Durrett (2004), Sec. 7.7, Teorema 7.4.
  17. ^ Billingsley (1995), Teorema 35.12.
  18. ^ Lemons, Don (2003). Introducción a los procesos estocásticos en física. Johns Hopkins University Press. doi :10.56021/9780801868665. ISBN 9780801876387. Recuperado el 11 de agosto de 2016 .
  19. ^ Stein, C. (1972). "Un límite para el error en la aproximación normal a la distribución de una suma de variables aleatorias dependientes". Actas del Sexto Simposio de Berkeley sobre Estadística Matemática y Probabilidad . 6 (2): 583–602. MR  0402873. Zbl  0278.60026.
  20. ^ Chen, LHY; Goldstein, L.; Shao, QM (2011). Aproximación normal por el método de Stein . Springer. ISBN 978-3-642-15006-7.
  21. ^ Artstein, S. ; Ball, K. ; Barthe, F. ; Naor, A. (2004). "Solución del problema de Shannon sobre la monotonía de la entropía". Revista de la Sociedad Americana de Matemáticas . 17 (4): 975–982. doi : 10.1090/S0894-0347-04-00459-X .
  22. ^ Brewer, JK (1985). "Libros de texto de estadística del comportamiento: ¿fuente de mitos y conceptos erróneos?". Journal of Educational Statistics . 10 (3): 252–268. doi :10.3102/10769986010003252. S2CID  119611584.
  23. ^ Yu, C.; Behrens, J.; Spencer, A. Identificación de conceptos erróneos en el teorema del límite central y conceptos relacionados, conferencia de la Asociación Estadounidense de Investigación Educativa , 19 de abril de 1995
  24. ^ Sotos, AEC; Vanhoof, S.; Van den Noortgate, W.; Onghena, P. (2007). "Concepciones erróneas de los estudiantes sobre la inferencia estadística: una revisión de la evidencia empírica de la investigación sobre la educación en estadística". Educational Research Review . 2 (2): 98–113. doi :10.1016/j.edurev.2007.04.001.
  25. ^ "Distribución de la media de la muestra (vídeo) | Khan Academy". 2 de junio de 2023. Archivado desde el original el 2 de junio de 2023. Consultado el 8 de octubre de 2023 .
  26. ^ Rosenthal, Jeffrey Seth (2000). Una primera mirada a la teoría rigurosa de la probabilidad . World Scientific. Teorema 5.3.4, pág. 47. ISBN 981-02-4322-7.
  27. ^ Johnson, Oliver Thomas (2004). Teoría de la información y el teorema del límite central . Imperial College Press. pág. 88. ISBN 1-86094-473-6.
  28. ^ Uchaikin, Vladimir V.; Zolotarev, VM (1999). Azar y estabilidad: distribuciones estables y sus aplicaciones . VSP. págs. 61–62. ISBN 90-6764-301-7.
  29. ^ Borodin, AN; Ibragimov, IA; Sudakov, VN (1995). Teoremas límite para funcionales de paseos aleatorios . Librería AMS. Teorema 1.1, pág. 8. ISBN 0-8218-0438-3.
  30. ^ Petrov, VV (1976). Sumas de variables aleatorias independientes. Nueva York-Heidelberg: Springer-Verlag. cap. 7. ISBN 9783642658099.
  31. ^ Hew, Patrick Chisan (2017). "Distribución asintótica de recompensas acumuladas por procesos de renovación alternados". Statistics and Probability Letters . 129 : 355–359. doi :10.1016/j.spl.2017.06.027.
  32. ^ Rempala, G.; Wesolowski, J. (2002). "Asintótica de productos de sumas y estadísticos U" (PDF) . Comunicaciones electrónicas en probabilidad . 7 : 47–54. doi : 10.1214/ecp.v7-1046 .
  33. ^ Klartag (2007), Teorema 1.2.
  34. ^ Durrett (2004), Sección 2.4, Ejemplo 4.5.
  35. ^ Klartag (2008), Teorema 1.
  36. ^ Klartag (2007), Teorema 1.1.
  37. ^ Zygmund, Antoni (2003) [1959]. Series trigonométricas . Cambridge University Press. vol. II, secc. XVI.5, Teorema 5-5. ISBN 0-521-89053-5.
  38. ^ Gaposhkin (1966), Teorema 2.1.13.
  39. ^ Bárány & Vu (2007), Teorema 1.1.
  40. ^ Bárány & Vu (2007), Teorema 1.2.
  41. ^ Meckes, Elizabeth (2008). "Funciones lineales en los grupos de matrices clásicas". Transactions of the American Mathematical Society . 360 (10): 5355–5366. arXiv : math/0509441 . doi :10.1090/S0002-9947-08-04444-9. S2CID  11981408.
  42. ^ Gaposhkin (1966), Sec. 1.5.
  43. ^ Kotani, M.; Sunada, Toshikazu (2003). Geometría espectral de redes cristalinas . Vol. 338. Contemporary Math. págs. 271–305. ISBN. 978-0-8218-4269-0.
  44. ^ Sunada, Toshikazu (2012). Cristalografía topológica: con vistas al análisis geométrico discreto . Encuestas y tutoriales en ciencias matemáticas aplicadas. Vol. 6. Springer. ISBN 978-4-431-54177-6.
  45. ^ Marasinghe, M.; Meeker, W.; Cook, D.; Shin, TS (agosto de 1994). Uso de gráficos y simulación para enseñar conceptos estadísticos . Reunión anual de la Asociación Estadounidense de Estadísticos, Toronto, Canadá.
  46. ^ Henk, Tijms (2004). Entender la probabilidad: las reglas del azar en la vida cotidiana . Cambridge: Cambridge University Press. pág. 169. ISBN 0-521-54036-4.
  47. ^ Galton, F. (1889). Herencia natural. pág. 66.
  48. ^ ab Pólya, George (1920). "Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem" [Sobre el teorema del límite central del cálculo de probabilidades y el problema de los momentos]. Mathematische Zeitschrift (en alemán). 8 (3–4): 171–181. doi :10.1007/BF01206525. S2CID  123063388.
  49. ^ abc Le Cam, Lucien (1986). "El teorema del límite central en torno a 1935". Ciencia estadística . 1 (1): 78–91. doi : 10.1214/ss/1177013818 .
  50. ^ Hald, Andreas (22 de abril de 1998). Una historia de la estadística matemática desde 1750 hasta 1930 (PDF) . Wiley. Capítulo 17. ISBN. 978-0471179122. Archivado (PDF) del original el 9 de octubre de 2022.
  51. ^ Fischer (2011), Capítulo 2; Capítulo 5.2.
  52. ^ Bernstein, SN (1945). "Sobre el trabajo de PL Chebyshev en la teoría de la probabilidad". En Bernstein., SN (ed.). Nauchnoe Nasledie PL Chebysheva. Vypusk Pervyi: Matematika [ El legado científico de PL Chebyshev. Parte I: Matemáticas ] (en ruso). Moscú y Leningrado: Academiya Nauk SSSR. pág. 174.
  53. ^ Zabell, SL (1995). "Alan Turing y el teorema del límite central". American Mathematical Monthly . 102 (6): 483–494. doi :10.1080/00029890.1995.12004608.
  54. ^ Jørgensen, Bent (1997). La teoría de los modelos de dispersión . Chapman & Hall. ISBN 978-0412997112.

Referencias

  • Bárány, Imre ; Vu, Van (2007). "Teoremas del límite central para politopos gaussianos". Anales de probabilidad . 35 (4). Instituto de Estadística Matemática: 1593–1621. arXiv : math/0610192 . doi :10.1214/009117906000000791. S2CID  9128253.
  • Bauer, Heinz (2001). Teoría de la medida y la integración . Berlín: de Gruyter. ISBN 3110167190.
  • Billingsley, Patrick (1995). Probabilidad y medida (3.ª ed.). John Wiley & Sons. ISBN 0-471-00710-2.
  • Bradley, Richard (2005). "Propiedades básicas de condiciones de mezcla fuertes. Una encuesta y algunas preguntas abiertas". Probability Surveys . 2 : 107–144. arXiv : math/0511078 . Bibcode :2005math.....11078B. doi :10.1214/154957805100000104. S2CID  8395267.
  • Bradley, Richard (2007). Introducción a las condiciones de mezcla fuertes (1.ª ed.). Heber City, UT: Kendrick Press. ISBN 978-0-9740427-9-4.
  • Dinov, Ivo; Christou, Nicolas; Sanchez, Juana (2008). "Teorema del límite central: nueva aplicación SOCR y actividad de demostración". Journal of Statistics Education . 16 (2). ASA: 1–15. doi :10.1080/10691898.2008.11889560. PMC  3152447 . PMID  21833159. Archivado desde el original el 2016-03-03 . Consultado el 2008-08-23 .
  • Durrett, Richard (2004). Probabilidad: teoría y ejemplos (3.ª ed.). Cambridge University Press. ISBN 0521765390.
  • Fischer, Hans (2011). Una historia del teorema del límite central: de la teoría de probabilidad clásica a la moderna (PDF) . Fuentes y estudios en la historia de las matemáticas y las ciencias físicas. Nueva York: Springer. doi :10.1007/978-0-387-87857-7. ISBN 978-0-387-87856-0. MR  2743162. Zbl  1226.60004. Archivado (PDF) del original el 31 de octubre de 2017.
  • Gaposhkin, VF (1966). "Series lacunares y funciones independientes". Encuestas matemáticas rusas . 21 (6): 1–82. Código Bibliográfico :1966RuMaS..21....1G. doi :10.1070/RM1966v021n06ABEH001196. S2CID  250833638..
  • Klartag, Bo'az (2007). "Un teorema de límite central para conjuntos convexos". Inventiones Mathematicae . 168 (1): 91–131. arXiv : math/0605014 . Código Bibliográfico :2007InMat.168...91K. doi :10.1007/s00222-006-0028-8. S2CID  119169773.
  • Klartag, Bo'az (2008). "Una desigualdad de tipo Berry–Esseen para cuerpos convexos con una base incondicional". Teoría de la probabilidad y campos relacionados . 145 (1–2): 1–33. arXiv : 0705.0832 . doi :10.1007/s00440-008-0158-6. S2CID  10163322.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Central_limit_theorem&oldid=1249127911#Lyapunov_CLT"