Ley de los grandes números

Los promedios de ensayos repetidos convergen al valor esperado
Una ilustración de la ley de los grandes números utilizando una serie particular de tiradas de un solo dado . A medida que aumenta la cantidad de tiradas en esta serie, el promedio de los valores de todos los resultados se acerca a 3,5. Aunque cada serie mostraría una forma distintiva en una pequeña cantidad de tiradas (a la izquierda), en una gran cantidad de tiradas (a la derecha) las formas serían extremadamente similares.

En teoría de probabilidad , la ley de los grandes números ( LLN ) es una ley matemática que establece que el promedio de los resultados obtenidos de un gran número de muestras aleatorias independientes converge al valor verdadero, si existe. [1] Más formalmente, la LLN establece que dada una muestra de valores independientes e idénticamente distribuidos, la media de la muestra converge a la media verdadera .

El LLN es importante porque garantiza resultados estables a largo plazo para los promedios de algunos eventos aleatorios . [1] [2] Por ejemplo, mientras que un casino puede perder dinero en un solo giro de la ruleta , sus ganancias tenderán hacia un porcentaje predecible a lo largo de una gran cantidad de giros. Cualquier racha ganadora de un jugador eventualmente será superada por los parámetros del juego. Es importante destacar que la ley se aplica (como indica el nombre) solo cuando se considera una gran cantidad de observaciones. No existe ningún principio de que una pequeña cantidad de observaciones coincidirá con el valor esperado o de que una racha de un valor será inmediatamente "equilibrada" por los demás (ver la falacia del jugador ).

La LLN sólo se aplica al promedio de los resultados obtenidos a partir de ensayos repetidos y afirma que este promedio converge al valor esperado; no afirma que la suma de n resultados se acerca al valor esperado multiplicado por n a medida que n aumenta.

A lo largo de su historia, muchos matemáticos han perfeccionado esta ley. Hoy en día, el LLN se utiliza en muchos campos, entre ellos la estadística, la teoría de la probabilidad, la economía y los seguros. [3]

Ejemplos

Por ejemplo, si se lanza un dado de seis caras, se obtiene uno de los números 1, 2, 3, 4, 5 o 6, cada uno con la misma probabilidad . Por lo tanto, el valor esperado del promedio de los lanzamientos es:

1 + 2 + 3 + 4 + 5 + 6 6 = 3.5 {\displaystyle {\frac {1+2+3+4+5+6}{6}}=3.5}

Según la ley de los grandes números, si se lanza una gran cantidad de dados de seis caras, el promedio de sus valores (a veces llamado media de la muestra ) se acercará a 3,5 y la precisión aumentará a medida que se lancen más dados.

De la ley de los grandes números se desprende que la probabilidad empírica de éxito en una serie de ensayos de Bernoulli convergerá a la probabilidad teórica. Para una variable aleatoria de Bernoulli , el valor esperado es la probabilidad teórica de éxito, y el promedio de n de dichas variables (suponiendo que sean independientes e idénticamente distribuidas (iid) ) es precisamente la frecuencia relativa.

Esta imagen ilustra la convergencia de las frecuencias relativas con sus probabilidades teóricas. La probabilidad de sacar una bola roja de un saco es de 0,4 y la de una bola negra es de 0,6. El gráfico de la izquierda muestra la frecuencia relativa de sacar una bola negra y el gráfico de la derecha muestra la frecuencia relativa de sacar una bola roja, ambas a lo largo de 10.000 ensayos. A medida que aumenta el número de ensayos, las frecuencias relativas se aproximan a sus respectivas probabilidades teóricas, lo que demuestra la Ley de los Grandes Números.

Por ejemplo, un lanzamiento de moneda justo es un ensayo de Bernoulli. Cuando se lanza una moneda justa una vez, la probabilidad teórica de que el resultado sea cara es igual a 12 . Por lo tanto, de acuerdo con la ley de los grandes números, la proporción de caras en una "gran" cantidad de lanzamientos de moneda "debería ser" aproximadamente 12 . En particular, la proporción de caras después de n lanzamientos casi seguramente convergerá a 12 a medida que n se acerque al infinito.

Aunque la proporción de caras (y cruces) se acerca a 12 , es casi seguro que la diferencia absoluta en el número de caras y cruces se hará grande a medida que el número de lanzamientos se hace grande. Es decir, la probabilidad de que la diferencia absoluta sea un número pequeño se acerca a cero a medida que el número de lanzamientos se hace grande. Además, es casi seguro que la relación entre la diferencia absoluta y el número de lanzamientos se acercará a cero. Intuitivamente, la diferencia esperada crece, pero a un ritmo más lento que el número de lanzamientos.

Otro buen ejemplo de LLN es el método de Monte Carlo . Estos métodos son una amplia clase de algoritmos computacionales que se basan en muestreos aleatorios repetidos para obtener resultados numéricos. Cuanto mayor sea el número de repeticiones, mejor suele ser la aproximación. La razón por la que este método es importante es principalmente que, a veces, es difícil o imposible utilizar otros enfoques. [4]

Limitación

El promedio de los resultados obtenidos a partir de un gran número de ensayos puede no converger en algunos casos. Por ejemplo, el promedio de n resultados tomados de la distribución de Cauchy o algunas distribuciones de Pareto (α<1) no convergerá a medida que n se hace más grande; la razón son las colas pesadas . [5] La distribución de Cauchy y la distribución de Pareto representan dos casos: la distribución de Cauchy no tiene una expectativa, [6] mientras que la expectativa de la distribución de Pareto ( α <1) es infinita. [7] Una forma de generar el ejemplo distribuido por Cauchy es donde los números aleatorios son iguales a la tangente de un ángulo distribuido uniformemente entre −90° y +90°. [8] La mediana es cero, pero el valor esperado no existe, y de hecho el promedio de n de tales variables tiene la misma distribución que una de esas variables. No converge en probabilidad hacia cero (o cualquier otro valor) a medida que n tiende a infinito.

Y si los ensayos contienen un sesgo de selección , típico del comportamiento económico/racional humano, la ley de los grandes números no ayuda a resolver el sesgo. Incluso si se aumenta el número de ensayos, el sesgo de selección persiste.

Historia

La difusión es un ejemplo de la ley de los grandes números. Inicialmente, hay moléculas de soluto en el lado izquierdo de una barrera (línea magenta) y ninguna en el lado derecho. La barrera se elimina y el soluto se difunde para llenar todo el recipiente.
  • Arriba: Con una sola molécula, el movimiento parece ser bastante aleatorio.
  • Centro: Con más moléculas, hay claramente una tendencia a que el soluto llene el recipiente de manera cada vez más uniforme, pero también hay fluctuaciones aleatorias.
  • Abajo: Con una enorme cantidad de moléculas de soluto (demasiadas para verlas), la aleatoriedad prácticamente ha desaparecido: el soluto parece moverse de manera uniforme y sistemática desde áreas de alta concentración a áreas de baja concentración. En situaciones realistas, los químicos pueden describir la difusión como un fenómeno macroscópico determinista (ver las leyes de Fick ), a pesar de su naturaleza aleatoria subyacente.

El matemático italiano Gerolamo Cardano (1501-1576) afirmó sin pruebas que la precisión de las estadísticas empíricas tiende a mejorar con el número de ensayos. [9] [3] Esto se formalizó luego como una ley de los grandes números. Una forma especial del LLN (para una variable aleatoria binaria) fue demostrada por primera vez por Jacob Bernoulli . [10] [3] Le llevó más de 20 años desarrollar una prueba matemática suficientemente rigurosa que se publicó en su Ars Conjectandi ( El arte de conjeturar ) en 1713. Lo llamó su "Teorema de Oro", pero se conoció generalmente como " Teorema de Bernoulli ". Esto no debe confundirse con el principio de Bernoulli , llamado así por el sobrino de Jacob Bernoulli, Daniel Bernoulli . En 1837, SD Poisson lo describió con más detalle bajo el nombre de "la loi des grands nombres" ("la ley de los grandes números"). [11] [12] [3] Posteriormente se conoció con ambos nombres, pero el más frecuentemente utilizado es el de "ley de los grandes números".

Después de que Bernoulli y Poisson publicaran sus trabajos, otros matemáticos también contribuyeron al refinamiento de la ley, incluyendo a Chebyshev , [13] Markov , Borel , Cantelli , Kolmogorov y Khinchin . [3] Markov demostró que la ley puede aplicarse a una variable aleatoria que no tiene una varianza finita bajo algún otro supuesto más débil, y Khinchin demostró en 1929 que si la serie consiste en variables aleatorias independientes idénticamente distribuidas, es suficiente que exista el valor esperado para que la ley débil de los grandes números sea verdadera. [14] [15] Estos estudios posteriores han dado lugar a dos formas destacadas de la LLN. Una se llama ley "débil" y la otra ley "fuerte", en referencia a dos modos diferentes de convergencia de las medias de la muestra acumulada al valor esperado; en particular, como se explica a continuación, la forma fuerte implica la débil. [14]

Formularios

Hay dos versiones diferentes de la ley de los grandes números que se describen a continuación. Se denominan ley fuerte de los grandes números y ley débil de los grandes números . [16] [1] Enunciada para el caso en el que X 1 , X 2 , ... es una secuencia infinita de variables aleatorias integrables de Lebesgue independientes e idénticamente distribuidas (iid) con valor esperado E( X 1 ) = E( X 2 ) = ... = μ , ambas versiones de la ley establecen que el promedio de la muestra

X ¯ n = 1 n ( X 1 + + X n ) {\displaystyle {\overline {X}}_{n}={\frac {1}{n}}(X_{1}+\cdots +X_{n})}

converge al valor esperado:

X ¯ n μ as   n . {\displaystyle {\overline {X}}_{n}\to \mu \quad {\textrm {as}}\ n\to \infty .} ( 1 )

(La integrabilidad de Lebesgue de X j significa que el valor esperado E( X j ) existe de acuerdo con la integración de Lebesgue y es finito. No significa que la medida de probabilidad asociada sea absolutamente continua con respecto a la medida de Lebesgue ).

Los textos introductorios de probabilidad a menudo suponen además una varianza finita idéntica (para todos los ) y ninguna correlación entre variables aleatorias. En ese caso, la varianza del promedio de n variables aleatorias es Var ( X i ) = σ 2 {\displaystyle \operatorname {Var} (X_{i})=\sigma ^{2}} i {\displaystyle i}

Var ( X ¯ n ) = Var ( 1 n ( X 1 + + X n ) ) = 1 n 2 Var ( X 1 + + X n ) = n σ 2 n 2 = σ 2 n . {\displaystyle \operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.}

que puede utilizarse para acortar y simplificar las pruebas. Esta suposición de varianza finita no es necesaria . Una varianza grande o infinita hará que la convergencia sea más lenta, pero el LLN se cumple de todos modos. [17]

La independencia mutua de las variables aleatorias puede reemplazarse por independencia por pares [18] o intercambiabilidad [19] en ambas versiones de la ley.

La diferencia entre la versión fuerte y la débil tiene que ver con el modo de convergencia que se afirma. Para la interpretación de estos modos, véase Convergencia de variables aleatorias .

Ley débil

Simulación que ilustra la ley de los grandes números. En cada cuadro, se lanza una moneda que es roja por un lado y azul por el otro, y se agrega un punto en la columna correspondiente. Un gráfico circular muestra la proporción de rojo y azul hasta el momento. Observe que, si bien la proporción varía significativamente al principio, se acerca al 50 % a medida que aumenta el número de intentos.

La ley débil de los grandes números (también llamada ley de Khinchin ) establece que dada una colección de muestras independientes e idénticamente distribuidas (iid) de una variable aleatoria con media finita, la media de la muestra converge en probabilidad al valor esperado [20].

X ¯ n   P   μ when   n . {\displaystyle {\overline {X}}_{n}\ {\overset {P}{\rightarrow }}\ \mu \qquad {\textrm {when}}\ n\to \infty .} ( 2 )

Es decir, para cualquier número positivo ε ,

lim n Pr ( | X ¯ n μ | < ε ) = 1. {\displaystyle \lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1.}

Interpretando este resultado, la ley débil establece que para cualquier margen especificado distinto de cero ( ε ), por pequeño que sea, con una muestra suficientemente grande habrá una probabilidad muy alta de que el promedio de las observaciones esté cerca del valor esperado; es decir, dentro del margen.

Como se mencionó anteriormente, la ley débil se aplica en el caso de variables aleatorias iid, pero también se aplica en algunos otros casos. Por ejemplo, la varianza puede ser diferente para cada variable aleatoria en la serie, manteniendo constante el valor esperado. Si las varianzas están acotadas, entonces se aplica la ley, como lo demostró Chebyshev en 1867. (Si los valores esperados cambian durante la serie, entonces podemos simplemente aplicar la ley a la desviación promedio de los respectivos valores esperados. La ley entonces establece que esto converge en probabilidad a cero.) De hecho, la prueba de Chebyshev funciona siempre que la varianza del promedio de los primeros n valores tienda a cero cuando n tiende a infinito. [15] Como ejemplo, supongamos que cada variable aleatoria en la serie sigue una distribución gaussiana (distribución normal) con media cero, pero con varianza igual a , que no está acotada. En cada etapa, el promedio se distribuirá normalmente (como el promedio de un conjunto de variables distribuidas normalmente). La varianza de la suma es igual a la suma de las varianzas, que es asintótica a . Por lo tanto, la varianza del promedio es asintótica a y tiende a cero. 2 n / log ( n + 1 ) {\displaystyle 2n/\log(n+1)} n 2 / log n {\displaystyle n^{2}/\log n} 1 / log n {\displaystyle 1/\log n}

También hay ejemplos de la ley débil que se aplica incluso cuando el valor esperado no existe.

Ley fuerte

La ley fuerte de los grandes números (también llamada ley de Kolmogorov ) establece que el promedio de la muestra converge casi con seguridad al valor esperado [21]

X ¯ n   a.s.   μ when   n . {\displaystyle {\overline {X}}_{n}\ {\overset {\text{a.s.}}{\longrightarrow }}\ \mu \qquad {\textrm {when}}\ n\to \infty .} ( 3 )

Eso es,

Pr ( lim n X ¯ n = μ ) = 1. {\displaystyle \Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1.}

Esto significa que la probabilidad de que, a medida que el número de ensayos n tiende a infinito, el promedio de las observaciones converja al valor esperado es igual a uno. La prueba moderna de la ley fuerte es más compleja que la de la ley débil y se basa en pasar a una subsecuencia apropiada. [17]

La ley fuerte de los grandes números puede considerarse en sí misma un caso especial del teorema ergódico puntual . Esta visión justifica la interpretación intuitiva del valor esperado (solo para la integración de Lebesgue) de una variable aleatoria cuando se muestrea repetidamente como el "promedio de largo plazo".

La ley 3 se denomina ley fuerte porque las variables aleatorias que convergen fuertemente (casi con seguridad) tienen la garantía de converger débilmente (en probabilidad). Sin embargo, se sabe que la ley débil se cumple en ciertas condiciones en las que la ley fuerte no se cumple y, en ese caso, la convergencia es solo débil (en probabilidad). Consulte las diferencias entre la ley débil y la ley fuerte.

La ley fuerte se aplica a variables aleatorias independientes distribuidas de forma idéntica que tienen un valor esperado (como la ley débil). Esto fue demostrado por Kolmogorov en 1930. También puede aplicarse en otros casos. Kolmogorov también demostró, en 1933, que si las variables son independientes e idénticamente distribuidas, entonces para que la media converja casi con seguridad en algo (esto puede considerarse otra afirmación de la ley fuerte), es necesario que tengan un valor esperado (y entonces, por supuesto, la media convergerá casi con seguridad en ese valor). [22]

Si los sumandos son independientes pero no están distribuidos idénticamente, entonces

X ¯ n E [ X ¯ n ]   a.s.   0 , {\displaystyle {\overline {X}}_{n}-\operatorname {E} {\big [}{\overline {X}}_{n}{\big ]}\ {\overset {\text{a.s.}}{\longrightarrow }}\ 0,} ( 2 )

siempre que cada X k tenga un segundo momento finito y

k = 1 1 k 2 Var [ X k ] < . {\displaystyle \sum _{k=1}^{\infty }{\frac {1}{k^{2}}}\operatorname {Var} [X_{k}]<\infty .}

Esta afirmación se conoce como la ley fuerte de Kolmogorov , véase, por ejemplo, Sen y Singer (1993, Teorema 2.3.10).

Diferencias entre la ley débil y la ley fuerte

La ley débil establece que para un valor grande especificado de n , es probable que el promedio esté cerca de μ . [23] Por lo tanto, deja abierta la posibilidad de que esto ocurra un número infinito de veces, aunque a intervalos poco frecuentes. (No necesariamente para todos los n ). X ¯ n {\displaystyle {\overline {X}}_{n}} | X ¯ n μ | > ε {\displaystyle |{\overline {X}}_{n}-\mu |>\varepsilon } | X ¯ n μ | 0 {\displaystyle |{\overline {X}}_{n}-\mu |\neq 0}

La ley fuerte muestra que esto casi seguramente no ocurrirá. No implica que con probabilidad 1, tengamos que para cualquier ε > 0 la desigualdad se cumple para todos los n suficientemente grandes , ya que la convergencia no es necesariamente uniforme en el conjunto donde se cumple. [24] | X ¯ n μ | < ε {\displaystyle |{\overline {X}}_{n}-\mu |<\varepsilon }

La ley fuerte no se cumple en los casos siguientes, pero sí la ley débil. [25] [26]

  1. Sea X una variable aleatoria distribuida exponencialmente con parámetro 1. La variable aleatoria no tiene valor esperado según la integración de Lebesgue, pero utilizando la convergencia condicional e interpretando la integral como una integral de Dirichlet , que es una integral de Riemann impropia , podemos decir: sin ( X ) e X X 1 {\displaystyle \sin(X)e^{X}X^{-1}} E ( sin ( X ) e X X ) =   x = 0 sin ( x ) e x x e x d x = π 2 {\displaystyle E\left({\frac {\sin(X)e^{X}}{X}}\right)=\ \int _{x=0}^{\infty }{\frac {\sin(x)e^{x}}{x}}e^{-x}dx={\frac {\pi }{2}}}
  2. Sea X una variable aleatoria distribuida geométricamente con probabilidad 0,5. La variable aleatoria no tiene un valor esperado en el sentido convencional porque la serie infinita no es absolutamente convergente, pero utilizando la convergencia condicional, podemos decir: 2 X ( 1 ) X X 1 {\displaystyle 2^{X}(-1)^{X}X^{-1}} E ( 2 X ( 1 ) X X ) =   x = 1 2 x ( 1 ) x x 2 x = ln ( 2 ) {\displaystyle E\left({\frac {2^{X}(-1)^{X}}{X}}\right)=\ \sum _{x=1}^{\infty }{\frac {2^{x}(-1)^{x}}{x}}2^{-x}=-\ln(2)}
  3. Si la función de distribución acumulativa de una variable aleatoria es entonces no tiene valor esperado, pero la ley débil es verdadera. [27] [28] { 1 F ( x ) = e 2 x ln ( x ) , x e F ( x ) = e 2 x ln ( x ) , x e {\displaystyle {\begin{cases}1-F(x)&={\frac {e}{2x\ln(x)}},&x\geq e\\F(x)&={\frac {e}{-2x\ln(-x)}},&x\leq -e\end{cases}}}
  4. Sea X k más o menos (empezando en un k suficientemente grande para que el denominador sea positivo) con probabilidad 12 para cada uno. [22] La varianza de X k es entonces la ley fuerte de Kolmogorov no se aplica porque la suma parcial en su criterio hasta k  =  n es asintótica a y esta no tiene límites. Si reemplazamos las variables aleatorias con variables gaussianas que tengan las mismas varianzas, es decir , entonces el promedio en cualquier punto también se distribuirá normalmente. El ancho de la distribución del promedio tenderá hacia cero (desviación estándar asintótica a ), pero para un ε dado , hay una probabilidad que no va a cero con n , mientras que el promedio en algún momento después del n º ensayo volverá a ε . Dado que el ancho de la distribución del promedio no es cero, debe tener un límite inferior positivo p ( ε ), lo que significa que hay una probabilidad de al menos p ( ε ) de que el promedio alcance ε después de n ensayos. Ocurrirá con probabilidad p ( ε )/2 antes de algún m que depende de n . Pero incluso después de m , todavía hay una probabilidad de al menos p ( ε ) de que ocurra. (Esto parece indicar que p ( ε )=1 y el promedio alcanzará ε un número infinito de veces.) k / log log log k {\textstyle {\sqrt {k/\log \log \log k}}} k / log log log k . {\displaystyle k/\log \log \log k.} log n / log log log n {\displaystyle \log n/\log \log \log n} k / log log log k {\textstyle {\sqrt {k/\log \log \log k}}} 1 / 2 log log log n {\textstyle 1/{\sqrt {2\log \log \log n}}}

Leyes uniformes de grandes números

Hay extensiones de la ley de grandes números a colecciones de estimadores, donde la convergencia es uniforme sobre la colección; de ahí el nombre de ley uniforme de grandes números .

Supongamos que f ( x , θ ) es una función definida para θ ∈ Θ y continua en θ . Entonces, para cualquier θ fijo , la secuencia { f ( X 1 , θ ), f ( X 2 , θ ), ...} será una secuencia de variables aleatorias independientes e idénticamente distribuidas, de modo que la media muestral de esta secuencia converge en probabilidad a E[ f ( X , θ )]. Esta es la convergencia puntual (en θ ).

Un ejemplo particular de una ley uniforme de grandes números establece las condiciones bajo las cuales la convergencia ocurre uniformemente en θ . Si [29] [30]

  1. Θ es compacto,
  2. f ( x , θ ) es continua en cada θ ∈ Θ para casi todos los x , y es una función medible de x en cada θ .
  3. existe una función dominante d ( x ) tal que E[ d ( X )] < ∞, y f ( x , θ ) d ( x ) for all   θ Θ . {\displaystyle \left\|f(x,\theta )\right\|\leq d(x)\quad {\text{for all}}\ \theta \in \Theta .}

Entonces E[ f ( X , θ )] es continua en θ , y

sup θ Θ 1 n i = 1 n f ( X i , θ ) E [ f ( X , θ ) ] P   0. {\displaystyle \sup _{\theta \in \Theta }\left\|{\frac {1}{n}}\sum _{i=1}^{n}f(X_{i},\theta )-\operatorname {E} [f(X,\theta )]\right\|{\overset {\mathrm {P} }{\rightarrow }}\ 0.}

Este resultado es útil para derivar la consistencia de una gran clase de estimadores (ver Estimador de extremo ).

Ley de Borel para los grandes números

La ley de los grandes números de Borel , llamada así por Émile Borel , establece que si un experimento se repite un gran número de veces, independientemente bajo condiciones idénticas, entonces la proporción de veces que se espera que ocurra cualquier evento específico es aproximadamente igual a la probabilidad de ocurrencia del evento en cualquier ensayo particular; cuanto mayor sea el número de repeticiones, mejor tiende a ser la aproximación. Más precisamente, si E denota el evento en cuestión, p su probabilidad de ocurrencia y N n ( E ) el número de veces que E ocurre en los primeros n ensayos, entonces con probabilidad uno, [31] N n ( E ) n p  as  n . {\displaystyle {\frac {N_{n}(E)}{n}}\to p{\text{ as }}n\to \infty .}

Este teorema hace rigurosa la noción intuitiva de probabilidad como la frecuencia relativa esperada a largo plazo de ocurrencia de un evento. Es un caso especial de varias leyes más generales de los grandes números en la teoría de la probabilidad.

Desigualdad de Chebyshev . Sea X una variable aleatoria con un valor esperado finito μ y una varianza finita distinta de cero σ 2 . Entonces, para cualquier número real k > 0 ,

Pr ( | X μ | k σ ) 1 k 2 . {\displaystyle \Pr(|X-\mu |\geq k\sigma )\leq {\frac {1}{k^{2}}}.}

Prueba de la ley débil

Dado X 1 , X 2 , ... una secuencia infinita de variables aleatorias iid con valor esperado finito , nos interesa la convergencia del promedio de la muestra E ( X 1 ) = E ( X 2 ) = = μ < {\displaystyle E(X_{1})=E(X_{2})=\cdots =\mu <\infty }

X ¯ n = 1 n ( X 1 + + X n ) . {\displaystyle {\overline {X}}_{n}={\tfrac {1}{n}}(X_{1}+\cdots +X_{n}).}

La ley débil de los grandes números establece:

X ¯ n   P   μ when   n . {\displaystyle {\overline {X}}_{n}\ {\overset {P}{\rightarrow }}\ \mu \qquad {\textrm {when}}\ n\to \infty .} ( 2 )

Demostración utilizando la desigualdad de Chebyshev asumiendo varianza finita

Esta prueba utiliza el supuesto de varianza finita (para todos los ). La independencia de las variables aleatorias implica que no hay correlación entre ellas, y tenemos que Var ( X i ) = σ 2 {\displaystyle \operatorname {Var} (X_{i})=\sigma ^{2}} i {\displaystyle i}

Var ( X ¯ n ) = Var ( 1 n ( X 1 + + X n ) ) = 1 n 2 Var ( X 1 + + X n ) = n σ 2 n 2 = σ 2 n . {\displaystyle \operatorname {Var} ({\overline {X}}_{n})=\operatorname {Var} ({\tfrac {1}{n}}(X_{1}+\cdots +X_{n}))={\frac {1}{n^{2}}}\operatorname {Var} (X_{1}+\cdots +X_{n})={\frac {n\sigma ^{2}}{n^{2}}}={\frac {\sigma ^{2}}{n}}.}

La media común μ de la secuencia es la media del promedio de la muestra:

E ( X ¯ n ) = μ . {\displaystyle E({\overline {X}}_{n})=\mu .}

Usando la desigualdad de Chebyshev se obtienen los siguientes resultados: X ¯ n {\displaystyle {\overline {X}}_{n}}

P ( | X ¯ n μ | ε ) σ 2 n ε 2 . {\displaystyle \operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\leq {\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.}

Esto puede usarse para obtener lo siguiente:

P ( | X ¯ n μ | < ε ) = 1 P ( | X ¯ n μ | ε ) 1 σ 2 n ε 2 . {\displaystyle \operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|<\varepsilon )=1-\operatorname {P} (\left|{\overline {X}}_{n}-\mu \right|\geq \varepsilon )\geq 1-{\frac {\sigma ^{2}}{n\varepsilon ^{2}}}.}

A medida que n se acerca al infinito, la expresión se acerca a 1. Y por definición de convergencia en probabilidad , hemos obtenido

X ¯ n   P   μ when   n . {\displaystyle {\overline {X}}_{n}\ {\overset {P}{\rightarrow }}\ \mu \qquad {\textrm {when}}\ n\to \infty .} ( 2 )

Demostración mediante convergencia de funciones características

Por el teorema de Taylor para funciones complejas , la función característica de cualquier variable aleatoria, X , con media finita μ, se puede escribir como

φ X ( t ) = 1 + i t μ + o ( t ) , t 0. {\displaystyle \varphi _{X}(t)=1+it\mu +o(t),\quad t\rightarrow 0.}

Todos los X 1 , X 2 , ... tienen la misma función característica, por lo que simplemente denotaremos esto φ X .

Entre las propiedades básicas de las funciones características se encuentran:

φ 1 n X ( t ) = φ X ( t n ) and φ X + Y ( t ) = φ X ( t ) φ Y ( t ) {\displaystyle \varphi _{{\frac {1}{n}}X}(t)=\varphi _{X}({\tfrac {t}{n}})\quad {\text{and}}\quad \varphi _{X+Y}(t)=\varphi _{X}(t)\varphi _{Y}(t)\quad } si X e Y son independientes.

Estas reglas se pueden utilizar para calcular la función característica de en términos de φ X : X ¯ n {\displaystyle {\overline {X}}_{n}}

φ X ¯ n ( t ) = [ φ X ( t n ) ] n = [ 1 + i μ t n + o ( t n ) ] n e i t μ , as n . {\displaystyle \varphi _{{\overline {X}}_{n}}(t)=\left[\varphi _{X}\left({t \over n}\right)\right]^{n}=\left[1+i\mu {t \over n}+o\left({t \over n}\right)\right]^{n}\,\rightarrow \,e^{it\mu },\quad {\text{as}}\quad n\to \infty .}

El límite e itμ es la función característica de la variable aleatoria constante μ, y por lo tanto, por el teorema de continuidad de Lévy , converge en distribución a μ: X ¯ n {\displaystyle {\overline {X}}_{n}}

X ¯ n D μ for n . {\displaystyle {\overline {X}}_{n}\,{\overset {\mathcal {D}}{\rightarrow }}\,\mu \qquad {\text{for}}\qquad n\to \infty .}

μ es una constante, lo que implica que la convergencia en la distribución a μ y la convergencia en la probabilidad a μ son equivalentes (ver Convergencia de variables aleatorias ). Por lo tanto,

X ¯ n   P   μ when   n . {\displaystyle {\overline {X}}_{n}\ {\overset {P}{\rightarrow }}\ \mu \qquad {\textrm {when}}\ n\to \infty .} ( 2 )

Esto demuestra que la media de la muestra converge en probabilidad a la derivada de la función característica en el origen, siempre que esta última exista.

Prueba de la ley fuerte

Damos una prueba relativamente simple de la ley fuerte bajo los supuestos de que son iid , , , y . X i {\displaystyle X_{i}} E [ X i ] =: μ < {\displaystyle {\mathbb {E} }[X_{i}]=:\mu <\infty } Var ( X i ) = σ 2 < {\displaystyle \operatorname {Var} (X_{i})=\sigma ^{2}<\infty } E [ X i 4 ] =: τ < {\displaystyle {\mathbb {E} }[X_{i}^{4}]=:\tau <\infty }

Observemos primero que sin pérdida de generalidad podemos suponer que al centrar. En este caso, la ley fuerte dice que μ = 0 {\displaystyle \mu =0}

Pr ( lim n X ¯ n = 0 ) = 1 , {\displaystyle \Pr \!\left(\lim _{n\to \infty }{\overline {X}}_{n}=0\right)=1,} o Es equivalente a demostrar que Nótese que y por lo tanto para demostrar la ley fuerte necesitamos demostrar que para cada , tenemos Definir los eventos , y si podemos demostrar que entonces el Lema de Borel-Cantelli implica el resultado. Así que estimemos . Pr ( ω : lim n S n ( ω ) n = 0 ) = 1. {\displaystyle \Pr \left(\omega :\lim _{n\to \infty }{\frac {S_{n}(\omega )}{n}}=0\right)=1.} Pr ( ω : lim n S n ( ω ) n 0 ) = 0 , {\displaystyle \Pr \left(\omega :\lim _{n\to \infty }{\frac {S_{n}(\omega )}{n}}\neq 0\right)=0,} lim n S n ( ω ) n 0 ϵ > 0 , | S n ( ω ) n | ϵ   infinitely often , {\displaystyle \lim _{n\to \infty }{\frac {S_{n}(\omega )}{n}}\neq 0\iff \exists \epsilon >0,\left|{\frac {S_{n}(\omega )}{n}}\right|\geq \epsilon \ {\mbox{infinitely often}},} ϵ > 0 {\displaystyle \epsilon >0} Pr ( ω : | S n ( ω ) | n ϵ  infinitely often ) = 0. {\displaystyle \Pr \left(\omega :|S_{n}(\omega )|\geq n\epsilon {\mbox{ infinitely often}}\right)=0.} A n = { ω : | S n | n ϵ } {\displaystyle A_{n}=\{\omega :|S_{n}|\geq n\epsilon \}} n = 1 Pr ( A n ) < , {\displaystyle \sum _{n=1}^{\infty }\Pr(A_{n})<\infty ,} Pr ( A n ) {\displaystyle \Pr(A_{n})}

Calculamos Primero afirmamos que cada término de la forma donde todos los subíndices son distintos, debe tener esperanza cero. Esto se debe a que por independencia, y el último término es cero --- y de manera similar para los otros términos. Por lo tanto, los únicos términos en la suma con esperanza distinta de cero son y . Dado que están distribuidos de manera idéntica, todos estos son iguales y, además , . E [ S n 4 ] = E [ ( i = 1 n X i ) 4 ] = E [ 1 i , j , k , l n X i X j X k X l ] . {\displaystyle {\mathbb {E} }[S_{n}^{4}]={\mathbb {E} }\left[\left(\sum _{i=1}^{n}X_{i}\right)^{4}\right]={\mathbb {E} }\left[\sum _{1\leq i,j,k,l\leq n}X_{i}X_{j}X_{k}X_{l}\right].} X i 3 X j , X i 2 X j X k , X i X j X k X l {\displaystyle X_{i}^{3}X_{j},X_{i}^{2}X_{j}X_{k},X_{i}X_{j}X_{k}X_{l}} E [ X i 3 X j ] = E [ X i 3 ] E [ X j ] {\displaystyle {\mathbb {E} }[X_{i}^{3}X_{j}]={\mathbb {E} }[X_{i}^{3}]{\mathbb {E} }[X_{j}]} E [ X i 4 ] {\displaystyle {\mathbb {E} }[X_{i}^{4}]} E [ X i 2 X j 2 ] {\displaystyle {\mathbb {E} }[X_{i}^{2}X_{j}^{2}]} X i {\displaystyle X_{i}} E [ X i 2 X j 2 ] = ( E [ X i 2 ] ) 2 {\displaystyle {\mathbb {E} }[X_{i}^{2}X_{j}^{2}]=({\mathbb {E} }[X_{i}^{2}])^{2}}

Hay términos de la forma y términos de la forma , y por lo tanto Nótese que el lado derecho es un polinomio cuadrático en , y como tal existe un tal que para suficientemente grande. Según Markov, para suficientemente grande, y por lo tanto esta serie es sumable. Dado que esto es válido para cualquier , hemos establecido el LIN fuerte. n {\displaystyle n} E [ X i 4 ] {\displaystyle {\mathbb {E} }[X_{i}^{4}]} 3 n ( n 1 ) {\displaystyle 3n(n-1)} ( E [ X i 2 ] ) 2 {\displaystyle ({\mathbb {E} }[X_{i}^{2}])^{2}} E [ S n 4 ] = n τ + 3 n ( n 1 ) σ 4 . {\displaystyle {\mathbb {E} }[S_{n}^{4}]=n\tau +3n(n-1)\sigma ^{4}.} n {\displaystyle n} C > 0 {\displaystyle C>0} E [ S n 4 ] C n 2 {\displaystyle {\mathbb {E} }[S_{n}^{4}]\leq Cn^{2}} n {\displaystyle n} Pr ( | S n | n ϵ ) 1 ( n ϵ ) 4 E [ S n 4 ] C ϵ 4 n 2 , {\displaystyle \Pr(|S_{n}|\geq n\epsilon )\leq {\frac {1}{(n\epsilon )^{4}}}{\mathbb {E} }[S_{n}^{4}]\leq {\frac {C}{\epsilon ^{4}n^{2}}},} n {\displaystyle n} ϵ > 0 {\displaystyle \epsilon >0}


Etemadi dio otra prueba. [32]

Para una prueba sin el supuesto adicional de un cuarto momento finito, véase la Sección 22 de Billingsley. [33]

Consecuencias

La ley de los grandes números proporciona una expectativa de una distribución desconocida a partir de una realización de la secuencia, pero también cualquier característica de la distribución de probabilidad . [1] Al aplicar la ley de los grandes números de Borel , se podría obtener fácilmente la función de masa de probabilidad. Para cada evento en la función de masa de probabilidad objetiva, se podría aproximar la probabilidad de ocurrencia del evento con la proporción de veces que ocurre cualquier evento especificado. Cuanto mayor sea el número de repeticiones, mejor será la aproximación. En cuanto al caso continuo: , para h positiva pequeña. Por lo tanto, para n grande: C = ( a h , a + h ] {\displaystyle C=(a-h,a+h]}

N n ( C ) n p = P ( X C ) = a h a + h f ( x ) d x 2 h f ( a ) {\displaystyle {\frac {N_{n}(C)}{n}}\thickapprox p=P(X\in C)=\int _{a-h}^{a+h}f(x)\,dx\thickapprox 2hf(a)}

Con este método, se puede cubrir todo el eje x con una cuadrícula (con un tamaño de cuadrícula de 2h) y obtener un gráfico de barras llamado histograma .

Aplicaciones

Una aplicación del LLN es el importante método de aproximación conocido como el método de Monte Carlo [3] , que utiliza un muestreo aleatorio de números para aproximar resultados numéricos. El algoritmo para calcular una integral de f(x) en un intervalo [a,b] es el siguiente: [3]

  1. Simular variables aleatorias uniformes X 1 , X 2 , ..., X n lo cual se puede hacer usando un software, y usar una tabla de números aleatorios que dé U 1 , U 2 , ..., U n variables aleatorias independientes e idénticamente distribuidas (iid) en [0,1]. Entonces sea X i = a+(b - a)U i para i= 1, 2, ..., n. Entonces X 1 , X 2 , ..., X n son variables aleatorias uniformes independientes e idénticamente distribuidas en [a, b].
  2. Evaluar f(X 1 ), f(X 2 ), ..., f(X n )
  3. Tome el promedio de f(X 1 ), f(X 2 ), ..., f(X n ) calculando y luego por la Ley Fuerte de Grandes Números, esto converge a = = ( b a ) f ( X 1 ) + f ( X 2 ) + . . . + f ( X n ) n {\displaystyle (b-a){\tfrac {f(X_{1})+f(X_{2})+...+f(X_{n})}{n}}} ( b a ) E ( f ( X 1 ) ) {\displaystyle (b-a)E(f(X_{1}))} ( b a ) a b f ( x ) 1 b a d x {\displaystyle (b-a)\int _{a}^{b}f(x){\tfrac {1}{b-a}}{dx}} a b f ( x ) d x {\displaystyle \int _{a}^{b}f(x){dx}}

Podemos encontrar la integral de en [-1,2]. El uso de métodos tradicionales para calcular esta integral es muy difícil, por lo que se puede utilizar aquí el método de Monte Carlo. [3] Utilizando el algoritmo anterior, obtenemos f ( x ) = c o s 2 ( x ) x 3 + 1 {\displaystyle f(x)=cos^{2}(x){\sqrt {x^{3}+1}}}

1 2 f ( x ) d x {\displaystyle \int _{-1}^{2}f(x){dx}} = 0,905 cuando n=25

y

1 2 f ( x ) d x {\displaystyle \int _{-1}^{2}f(x){dx}} = 1,028 cuando n=250

Observamos que a medida que n aumenta, el valor numérico también aumenta. Cuando obtenemos los resultados reales para la integral obtenemos

1 2 f ( x ) d x {\displaystyle \int _{-1}^{2}f(x){dx}} = 1.000194

Cuando se utilizó el LLN, la aproximación de la integral fue más cercana a su valor real y, por lo tanto, más precisa. [3]

Otro ejemplo es la integración de f(x) = en [0,1]. [34] Utilizando el método de Monte Carlo y el LLN, podemos ver que a medida que aumenta el número de muestras, el valor numérico se acerca a 0,4180233. [34] e x 1 e 1 {\displaystyle {\frac {e^{x}-1}{e-1}}}

Véase también

Notas

  1. ^ abcd Dekking, Michel (2005). Una introducción moderna a la probabilidad y la estadística . Springer. págs. 181–190. ISBN 9781852338961.
  2. ^ Yao, Kai; Gao, Jinwu (2016). "Ley de los grandes números para variables aleatorias inciertas". IEEE Transactions on Fuzzy Systems . 24 (3): 615–621. doi :10.1109/TFUZZ.2015.2466080. ISSN  1063-6706. S2CID  2238905.
  3. ^ abcdefghi Sedor, Kelly. "La ley de los grandes números y sus aplicaciones" (PDF) .
  4. ^ Kroese, Dirk P.; Brereton, Tim; Taimre, Thomas; Botev, Zdravko I. (2014). "Por qué el método de Monte Carlo es tan importante hoy en día". Wiley Interdisciplinary Reviews: Computational Statistics . 6 (6): 386–392. doi :10.1002/wics.1314. S2CID  18521840.
  5. ^ Dekking, Michel, ed. (2005). Una introducción moderna a la probabilidad y la estadística: entender por qué y cómo . Textos de Springer sobre estadística. Londres [Heidelberg]: Springer. p. 187. ISBN 978-1-85233-896-1.
  6. ^ Dekking, Michel (2005). Una introducción moderna a la probabilidad y la estadística . Springer. pp. 92. ISBN 9781852338961.
  7. ^ Dekking, Michel (2005). Una introducción moderna a la probabilidad y la estadística . Springer. pp. 63. ISBN 9781852338961.
  8. ^ Pitman, EJG; Williams, EJ (1967). "Funciones distribuidas de Cauchy de las variables de Cauchy". Anales de estadística matemática . 38 (3): 916–918. doi : 10.1214/aoms/1177698885 . ISSN  0003-4851. JSTOR  2239008.
  9. ^ Mlodinow, L. (2008). El paseo del borracho . Nueva York: Random House. pág. 50.
  10. ^ Bernoulli, Jakob (1713). "4". Ars Conjectandi: Usum & Applicationem Praecedentis Doctrinae in Civilibus, Moralibus & Oeconomicis (en latín). Traducido por Sheynin, Óscar.
  11. ^ Poisson nombra la "ley de los grandes números" ( la loi des grands nombres ) en: Poisson, SD (1837). Probabilité des jugements en matière criminelle et en matière civile, précédées des règles générales du calcul des probabilitiés (en francés). París, Francia: Bachelier. pag. 7.Intenta una prueba de la ley en dos partes en las páginas 139-143 y 277 y siguientes.
  12. ^ Hacking, Ian (1983). "Grietas en el concepto de determinismo en el siglo XIX". Revista de la historia de las ideas . 44 (3): 455–475. doi :10.2307/2709176. JSTOR  2709176.
  13. ^ Chebichef, P. (1846). "Démonstration élémentaire d'une proposition générale de la théorie des probabilités". Journal für die reine und angewandte Mathematik (en francés). 1846 (33): 259–267. doi :10.1515/crll.1846.33.259. S2CID  120850863.
  14. ^ desde Seneta 2013.
  15. ^ de Yuri Prohorov . "Ley de los grandes números". Enciclopedia de Matemáticas . EMS Press.
  16. ^ Bhattacharya, Rabi; Lin, Lizhen; Patrangenaru, Victor (2016). Un curso de estadística matemática y teoría de muestras grandes . Springer Texts in Statistics. Nueva York, NY: Springer New York. doi :10.1007/978-1-4939-4032-5. ISBN . 978-1-4939-4030-1.
  17. ^ ab "La ley fuerte de los grandes números: novedades". Terrytao.wordpress.com. 19 de junio de 2008. Consultado el 9 de junio de 2012 .
  18. ^ Etemadi, Nueva Zelanda (1981). "Una prueba elemental de la ley fuerte de los grandes números". Wahrscheinlichkeitstheorie Verw Gebiete . 55 (1): 119-122. doi : 10.1007/BF01013465 . S2CID  122166046.
  19. ^ Kingman, JFC (abril de 1978). "Usos de la intercambiabilidad". Anales de probabilidad . 6 (2). doi : 10.1214/aop/1176995566 . ISSN  0091-1798.
  20. ^ Loève 1977, Capítulo 1.4, pág. 14
  21. ^ Loève 1977, Capítulo 17.3, pág. 251
  22. ^ de Yuri Prokhorov. "Ley fuerte de los grandes números". Enciclopedia de Matemáticas .
  23. ^ "¿Qué es la ley de los grandes números? (Definición) | Built In". builtin.com . Consultado el 20 de octubre de 2023 .
  24. ^ Ross (2009)
  25. ^ Lehmann, Erich L.; Romano, Joseph P. (30 de marzo de 2006). La ley débil converge a una constante. Springer. ISBN 9780387276052.
  26. ^ Dguvl Hun Hong; Sung Ho Lee (1998). "Una nota sobre la ley débil de los grandes números para variables aleatorias intercambiables" (PDF) . Comunicaciones de la Sociedad Matemática Coreana . 13 (2): 385–391. Archivado desde el original (PDF) el 2016-07-01 . Consultado el 28 de junio de 2014 .
  27. ^ Mukherjee, Sayan. "Ley de los grandes números" (PDF) . Archivado desde el original (PDF) el 2013-03-09 . Consultado el 2014-06-28 .
  28. ^ J. Geyer, Charles. "Ley de los grandes números" (PDF) .
  29. ^ Newey y McFadden 1994, Lema 2.4
  30. ^ Jennrich, Robert I. (1969). "Propiedades asintóticas de estimadores de mínimos cuadrados no lineales". Anales de estadística matemática . 40 (2): 633–643. doi : 10.1214/aoms/1177697731 .
  31. ^ Wen, Liu (1991). "Una técnica analítica para demostrar la ley fuerte de Borel para los grandes números". The American Mathematical Monthly . 98 (2): 146–148. doi :10.2307/2323947. JSTOR  2323947.
  32. ^ Etemadi, Nasrollah (1981). "Una prueba elemental de la ley fuerte de los grandes números". Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete . 55 . Saltador: 119-122. doi : 10.1007/BF01013465 . S2CID  122166046.
  33. ^ Billingsley, Patrick (1979). Probabilidad y medida .
  34. ^ de Reiter, Detlev (2008), Fehske, H.; Schneider, R.; Weiße, A. (eds.), "El método de Monte Carlo, una introducción", Computational Many-Particle Physics , Lecture Notes in Physics, vol. 739, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 63–78, doi :10.1007/978-3-540-74686-7_3, ISBN 978-3-540-74685-0, consultado el 8 de diciembre de 2023

Referencias

  • Grimmett, GR; Stirzaker, DR (1992). Probabilidad y procesos aleatorios (2.ª ed.). Oxford: Clarendon Press. ISBN 0-19-853665-8.
  • Durrett, Richard (1995). Probabilidad: teoría y ejemplos (2.ª ed.). Duxbury Press.
  • Martín Jacobsen (1992). Videregående Sandsynlighedsregning [ Teoría avanzada de la probabilidad ] (en danés) (3ª ed.). Copenhague: HCØ-tryk. ISBN 87-91180-71-6.
  • Loève, Michel (1977). Teoría de la probabilidad 1 (4ª ed.). Springer.
  • Newey, Whitney K.; McFadden, Daniel (1994). "36". Estimación de muestras grandes y prueba de hipótesis . Manual de econometría. Vol. IV. Elsevier Science. págs. 2111–2245.
  • Ross, Sheldon (2009). Un primer curso de probabilidad (8.ª ed.). Prentice Hall. ISBN 978-0-13-603313-4.
  • Sen, P. K; Singer, JM (1993). Métodos de muestras grandes en estadística . Chapman & Hall.
  • Seneta, Eugenio (2013). "Una historia del tricentenario de la ley de los grandes números". Bernoulli . 19 (4): 1088-1121. arXiv : 1309.6488 . doi :10.3150/12-BEJSP12. S2CID  88520834.
  • "Ley de los grandes números", Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
  • Weisstein, Eric W. "Ley débil de los grandes números". MathWorld .
  • Weisstein, Eric W. "Ley fuerte de los grandes números". MathWorld .
  • Animaciones para la Ley de Grandes Números de Yihui Xie usando el paquete R animation
  • El director ejecutivo de Apple, Tim Cook, dijo algo que haría estremecer a los estadísticos. "No creemos en leyes como las leyes de los grandes números. Creo que es una especie de dogma antiguo que inventó alguien [...]", dijo Tim Cook y añadió: "Sin embargo, la ley de los grandes números no tiene nada que ver con las grandes empresas, los grandes ingresos o las grandes tasas de crecimiento. La ley de los grandes números es un concepto fundamental en la teoría de la probabilidad y la estadística, que vincula las probabilidades teóricas que podemos calcular con los resultados reales de los experimentos que realizamos empíricamente". Business Insider lo explicó
Retrieved from "https://en.wikipedia.org/w/index.php?title=Law_of_large_numbers&oldid=1247824830"