Convergencia de variables aleatorias

Nociones de convergencia probabilística aplicadas a la estimación y al análisis asintótico

En teoría de la probabilidad , existen varias nociones diferentes de convergencia de secuencias de variables aleatorias , incluidas la convergencia en probabilidad , la convergencia en distribución y la convergencia casi segura . Las diferentes nociones de convergencia capturan diferentes propiedades sobre la secuencia, y algunas nociones de convergencia son más fuertes que otras. Por ejemplo, la convergencia en distribución nos informa sobre la distribución límite de una secuencia de variables aleatorias. Esta es una noción más débil que la convergencia en probabilidad, que nos informa sobre el valor que tomará una variable aleatoria, en lugar de solo sobre la distribución.

El concepto es importante en la teoría de la probabilidad y sus aplicaciones a la estadística y los procesos estocásticos . Los mismos conceptos se conocen en matemáticas más generales como convergencia estocástica y formalizan la idea de que a veces se puede esperar que ciertas propiedades de una secuencia de eventos esencialmente aleatorios o impredecibles se estabilicen en un comportamiento que es esencialmente inmutable cuando se estudian elementos lo suficientemente avanzados en la secuencia. Las diferentes nociones posibles de convergencia se relacionan con la forma en que se puede caracterizar dicho comportamiento: dos comportamientos fácilmente comprensibles son que la secuencia finalmente toma un valor constante y que los valores en la secuencia continúan cambiando pero pueden describirse mediante una distribución de probabilidad inmutable.

Fondo

La "convergencia estocástica" formaliza la idea de que a veces se puede esperar que una secuencia de eventos esencialmente aleatorios o impredecibles se asiente en un patrón. El patrón puede ser, por ejemplo,

  • Convergencia en el sentido clásico hacia un valor fijo, que quizás provenga de un evento aleatorio.
  • Una similitud creciente de resultados con lo que produciría una función puramente determinista
  • Una preferencia creciente hacia un determinado resultado
  • Una creciente "aversión" a alejarse demasiado de un determinado resultado
  • Que la distribución de probabilidad que describe el próximo resultado puede volverse cada vez más similar a una determinada distribución

Algunos patrones menos obvios y más teóricos podrían ser:

  • Que la serie formada al calcular el valor esperado de la distancia del resultado a un valor particular puede converger a 0
  • Que la varianza de la variable aleatoria que describe el próximo evento se hace cada vez más pequeña.

Estos otros tipos de patrones que pueden surgir se reflejan en los diferentes tipos de convergencia estocástica que se han estudiado.

Si bien la discusión anterior se ha relacionado con la convergencia de una sola serie a un valor límite, la noción de la convergencia de dos series entre sí también es importante, pero esto se maneja fácilmente estudiando la secuencia definida como la diferencia o la relación de las dos series.

Por ejemplo, si el promedio de n variables aleatorias independientes , todas con la misma media y varianza finitas , viene dado por Y i ,   i = 1 , , norte {\displaystyle Y_{i},\ i=1,\puntos ,n}

incógnita norte = 1 norte i = 1 norte Y i , {\displaystyle X_{n}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}\,,}

entonces, como tiende a infinito, converge en probabilidad (ver abajo) a la media común , , de las variables aleatorias . Este resultado se conoce como la ley débil de los grandes números . Otras formas de convergencia son importantes en otros teoremas útiles, incluido el teorema del límite central . norte {\estilo de visualización n} incógnita norte Estilo de visualización X_{n}} micras {\estilo de visualización \mu} Y i {\displaystyle Y_{i}}

A lo largo de lo que sigue, suponemos que es una secuencia de variables aleatorias, y es una variable aleatoria, y todas ellas están definidas en el mismo espacio de probabilidad . ( incógnita norte ) {\estilo de visualización (X_{n})} incógnita {\estilo de visualización X} ( Ohmio , F , PAG ) {\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )}

Convergencia en la distribución

Ejemplos de convergencia en la distribución
Fábrica de dados
Supongamos que se acaba de construir una nueva fábrica de dados. Los primeros dados salen bastante sesgados, debido a imperfecciones en el proceso de producción. El resultado de lanzar cualquiera de ellos seguirá una distribución marcadamente diferente de la distribución uniforme deseada .

A medida que se mejora la fábrica, los dados se vuelven cada vez menos cargados y los resultados de lanzar un dado recién producido seguirán la distribución uniforme cada vez más de cerca.
Lanzar monedas
Sea X n la fracción de caras que salen después de lanzar una moneda no sesgada n veces. Entonces X 1 tiene la distribución de Bernoulli con un valor esperado μ = 0,5 y una varianza σ 2 = 0,25 . Las variables aleatorias subsiguientes X 2 , X 3 , ... se distribuirán todas binomialmente .

A medida que n se hace más grande, esta distribución gradualmente comenzará a tomar forma cada vez más similar a la curva de campana de la distribución normal. Si desplazamos y reescalamos X n apropiadamente, entonces estará convergiendo en distribución a la normal estándar, el resultado que se desprende del célebre teorema del límite central . O norte = norte σ ( incógnita norte micras ) {\displaystyle \scriptstyle Z_{n}={\frac {\sqrt {n}}{\sigma }}(X_{n}-\mu )}
Ejemplo gráfico
Supóngase que { X i } es una secuencia iid de variables aleatorias uniformes U (−1, 1) . Sean sus sumas (normalizadas). Entonces, según el teorema del límite central , la distribución de Z n se aproxima a la normal N (0, O norte = 1 norte i = 1 norte incógnita i {\displaystyle \scriptstyle Z_{n}={\scriptscriptstyle {\frac {1}{\sqrt {n}}}}\sum _{i=1}^{n}X_{i}} 1/3) distribución . Esta convergencia se muestra en la imagen: a medida que n aumenta, la forma de la función de densidad de probabilidad se acerca cada vez más a la curva gaussiana.

En términos generales, con este modo de convergencia, cada vez esperamos más ver que el siguiente resultado de una secuencia de experimentos aleatorios se modela cada vez mejor mediante una distribución de probabilidad dada . Más precisamente, la distribución de la variable aleatoria asociada en la secuencia se acerca arbitrariamente a una distribución fija especificada.

La convergencia en distribución es la forma más débil de convergencia que se suele analizar, ya que está implícita en todos los demás tipos de convergencia mencionados en este artículo. Sin embargo, la convergencia en distribución se utiliza con mucha frecuencia en la práctica; la mayoría de las veces surge de la aplicación del teorema del límite central .

Definición

Se dice que una secuencia de variables aleatorias de valor real , con funciones de distribución acumulativa , converge en distribución , o converge débilmente , o converge en ley a una variable aleatoria X con función de distribución acumulativa F si incógnita 1 , incógnita 2 , {\displaystyle X_{1},X_{2},\lpuntos} F 1 , F 2 , {\displaystyle F_{1},F_{2},\ldots}

límite norte F norte ( incógnita ) = F ( incógnita ) , {\displaystyle \lim _{n\to \infty }F_{n}(x)=F(x),}

para cada número en el que es continua . incógnita R {\displaystyle x\in \mathbb {R}} F {\estilo de visualización F}

El requisito de que sólo se consideren los puntos de continuidad de es esencial. Por ejemplo, si se distribuyen uniformemente en intervalos , entonces esta secuencia converge en distribución a la variable aleatoria degenerada . De hecho, para todos cuando , y para todos cuando . Sin embargo, para esta variable aleatoria límite , aunque para todos . Por lo tanto, la convergencia de las funciones de distribución acumuladas falla en el punto donde es discontinua. F {\estilo de visualización F} incógnita norte Estilo de visualización X_{n}} ( 0 , 1 norte ) {\displaystyle \left(0,{\frac {1}{n}}\right)} incógnita = 0 {\estilo de visualización X=0} F norte ( incógnita ) = 0 Estilo de visualización F_{n}(x)=0 norte {\estilo de visualización n} incógnita 0 {\displaystyle x\leq 0} F norte ( incógnita ) = 1 Estilo de visualización F_{n}(x)=1 incógnita 1 norte {\displaystyle x\geq {\frac {1}{n}}} norte > 0 {\estilo de visualización n>0} F ( 0 ) = 1 {\displaystyle F(0)=1} F norte ( 0 ) = 0 Estilo de visualización F_{n}(0)=0} norte {\estilo de visualización n} incógnita = 0 {\displaystyle x=0} F {\estilo de visualización F}

La convergencia en la distribución puede denotarse como

incógnita norte   d   incógnita ,     incógnita norte   D   incógnita ,     incógnita norte   yo   incógnita ,     incógnita norte   d   yo incógnita , incógnita norte incógnita ,     incógnita norte incógnita ,     yo ( incógnita norte ) yo ( incógnita ) , {\displaystyle {\begin{aligned}{}&X_{n}\ \xrightarrow {d} \ X,\ \ X_{n}\ \xrightarrow {\mathcal {D}} \ X,\ \ X_{n}\ \xrightarrow {\mathcal {L}} \ X,\ \ X_{n}\ \xrightarrow {d} \ {\mathcal {L}}_{X},\\&X_{n}\rightsquigarrow X,\ \ X_{n}\Rightarrow X,\ \ {\mathcal {L}}(X_{n})\to {\mathcal {L}}(X),\\\end{aligned}}} ( 1 )

donde es la ley (distribución de probabilidad) de X . Por ejemplo, si X es normal estándar podemos escribir . yo incógnita {\displaystyle \scriptstyle {\mathcal {L}}_{X}} incógnita norte d norte ( 0 , 1 ) {\displaystyle X_{n}\,{\xrightarrow {d}}\,{\mathcal {N}}(0,\,1)}

Para los vectores aleatorios, la convergencia en la distribución se define de manera similar. Decimos que esta secuencia converge en la distribución a un k -vector aleatorio X si { incógnita 1 , incógnita 2 , } R a {\displaystyle \left\{X_{1},X_{2},\puntos \right\}\subconjunto \mathbb {R} ^{k}}

límite norte PAG ( incógnita norte A ) = PAG ( incógnita A ) {\displaystyle \lim _{n\to \infty }\mathbb {P} (X_{n}\en A)=\mathbb {P} (X\en A)}

para cada cual que es un conjunto de continuidad de X . A R a {\displaystyle A\subconjunto \mathbb {R} ^{k}}

La definición de convergencia en la distribución puede extenderse desde los vectores aleatorios a elementos aleatorios más generales en espacios métricos arbitrarios , e incluso a las “variables aleatorias” que no son mensurables, una situación que ocurre, por ejemplo, en el estudio de procesos empíricos . Esta es la “convergencia débil de leyes sin leyes definidas”, excepto de manera asintótica. [1]

En este caso es preferible el término convergencia débil (ver convergencia débil de medidas ), y decimos que una secuencia de elementos aleatorios { X n } converge débilmente a X (denotado como X nX ) si

mi yo ( incógnita norte ) mi yo ( incógnita ) {\displaystyle \mathbb {E} ^{*}h(X_{n})\to \mathbb {E} \,h(X)}

para todas las funciones acotadas continuas h . [2] Aquí E* denota la expectativa externa , es decir la expectativa de una “función medible más pequeña g que domine h ( X n ) ”.

Propiedades

  • Dado que , la convergencia en la distribución significa que la probabilidad de que X n esté en un rango dado es aproximadamente igual a la probabilidad de que el valor de X esté en ese rango, siempre que n sea suficientemente grande . F ( a ) = PAG ( incógnita a ) {\displaystyle F(a)=\mathbb {P} (X\leq a)}
  • En general, la convergencia en la distribución no implica que la secuencia de funciones de densidad de probabilidad correspondientes también converja. Como ejemplo, se pueden considerar variables aleatorias con densidades f n ( x ) = (1 + cos(2 πnx )) 1 (0,1) . Estas variables aleatorias convergen en la distribución a una U uniforme (0, 1), mientras que sus densidades no convergen en absoluto. [3]
  • El lema del acrónimo proporciona varias definiciones equivalentes de convergencia en la distribución. Aunque estas definiciones son menos intuitivas, se utilizan para demostrar una serie de teoremas estadísticos. El lema establece que { X n } converge en la distribución a X si y solo si alguna de las siguientes afirmaciones es verdadera: [5]
    • PAG ( incógnita norte incógnita ) PAG ( incógnita incógnita ) {\displaystyle \mathbb {P}(X_{n}\leq x)\to \mathbb {P}(X\leq x)} para todos los puntos de continuidad de ; incógnita PAG ( incógnita incógnita ) {\displaystyle x\mapsto \mathbb {P} (X\leq x)}
    • mi F ( incógnita norte ) mi F ( incógnita ) {\displaystyle \mathbb {E} f(X_{n})\to \mathbb {E} f(X)} para todas las funciones continuas y acotadas ( donde denota el operador de valor esperado ); F {\estilo de visualización f} mi {\displaystyle \mathbb {E}}
    • mi F ( incógnita norte ) mi F ( incógnita ) {\displaystyle \mathbb {E} f(X_{n})\to \mathbb {E} f(X)} para todas las funciones de Lipschitz acotadas ; F {\estilo de visualización f}
    • límite información mi F ( incógnita norte ) mi F ( incógnita ) {\displaystyle \lim \inf \mathbb {E} f(X_{n})\geq \mathbb {E} f(X)} para todas las funciones continuas no negativas ; F {\estilo de visualización f}
    • límite información PAG ( incógnita norte GRAMO ) PAG ( incógnita GRAMO ) {\displaystyle \lim \inf \mathbb {P} (X_{n}\en G)\geq \mathbb {P} (X\en G)} para cada conjunto abierto ; GRAMO {\estilo de visualización G}
    • límite sorber PAG ( incógnita norte F ) PAG ( incógnita F ) {\displaystyle \lim \sup \mathbb {P} (X_{n}\en F)\leq \mathbb {P} (X\en F)} para cada conjunto cerrado ; F {\estilo de visualización F}
    • PAG ( incógnita norte B ) PAG ( incógnita B ) {\displaystyle \mathbb {P}(X_{n}\en B)\to \mathbb {P}(X\en B)} para todos los conjuntos de continuidad de variables aleatorias ; B {\estilo de visualización B} incógnita {\estilo de visualización X}
    • apoyo de lima mi F ( incógnita norte ) mi F ( incógnita ) {\displaystyle \limsup \mathbb {E} f(X_{n})\leq \mathbb {E} f(X)} para cada función semicontinua superior acotada por encima; [ cita requerida ] F {\estilo de visualización f}
    • información de límite mi F ( incógnita norte ) mi F ( incógnita ) {\displaystyle \liminf \mathbb {E} f(X_{n})\geq \mathbb {E} f(X)} para cada función semicontinua inferior acotada por debajo. [ cita requerida ] f {\displaystyle f}
  • El teorema de aplicación continua establece que para una función continua g , si la secuencia { X n } converge en distribución a X , entonces { g ( X n )} converge en distribución a g ( X ) .
    • Obsérvese, sin embargo, que la convergencia en la distribución de { X n } a X y de { Y n } a Y en general no implica convergencia en la distribución de { X n + Y n } a X + Y o de { X n Y n } a XY .
  • Teorema de continuidad de Lévy : La secuencia { X n } converge en distribución a X si y sólo si la secuencia de funciones características correspondientes { φ n } converge puntualmente a la función característica φ de X.
  • La convergencia en la distribución se puede medir mediante la métrica de Lévy-Prokhorov .
  • Un vínculo natural con la convergencia en la distribución es el teorema de representación de Skorokhod .

Convergencia en probabilidad

Ejemplos de convergencia en probabilidad
Altura de una persona
Consideremos el siguiente experimento. Primero, escojamos una persona al azar en la calle. Sea X su altura, que es ex ante una variable aleatoria. Luego pidamos a otras personas que estimen esta altura a simple vista. Sea X n el promedio de las primeras n respuestas. Entonces (siempre que no haya un error sistemático ) por la ley de los grandes números , la secuencia X n convergerá en probabilidad a la variable aleatoria X .
Predicción de la generación de números aleatorios
Supongamos que un generador de números aleatorios genera un número de punto flotante pseudoaleatorio entre 0 y 1. Sea la variable aleatoria X la distribución de posibles resultados del algoritmo. Debido a que el número pseudoaleatorio se genera de manera determinista, su siguiente valor no es verdaderamente aleatorio. Supongamos que, a medida que observamos una secuencia de números generados aleatoriamente, podemos deducir un patrón y hacer predicciones cada vez más precisas sobre cuál será el siguiente número generado aleatoriamente. Sea X n nuestra estimación del valor del siguiente número aleatorio después de observar los primeros n números aleatorios. A medida que aprendemos el patrón y nuestras estimaciones se vuelven más precisas, no solo la distribución de X n convergerá a la distribución de X , sino que los resultados de X n convergerán a los resultados de X .

La idea básica detrás de este tipo de convergencia es que la probabilidad de un resultado “inusual” se hace cada vez más pequeña a medida que avanza la secuencia.

El concepto de convergencia en probabilidad se utiliza con mucha frecuencia en estadística. Por ejemplo, un estimador se denomina consistente si converge en probabilidad a la cantidad que se está estimando. La convergencia en probabilidad es también el tipo de convergencia que establece la ley débil de los grandes números .

Definición

Una secuencia { X n } de variables aleatorias converge en probabilidad hacia la variable aleatoria X si para todo ε > 0

lim n P ( | X n X | > ε ) = 0. {\displaystyle \lim _{n\to \infty }\mathbb {P} {\big (}|X_{n}-X|>\varepsilon {\big )}=0.}

Más explícitamente, sea P n ( ε ) la probabilidad de que X n esté fuera de la bola de radio ε centrada en  X . Entonces se dice que X n converge en probabilidad a X si para cualquier ε > 0 y cualquier δ  > 0 existe un número N (que puede depender de ε y δ ) tal que para todo n  ≥  N , P n ( ε ) <  δ (la definición de límite).

Obsérvese que para que se cumpla la condición, no es posible que para cada n las variables aleatorias X y X n sean independientes (y por lo tanto la convergencia en probabilidad es una condición de las funciones de distribución acumuladas, a diferencia de la convergencia en distribución, que es una condición de las funciones de distribución acumuladas individuales), a menos que X sea determinista, como en el caso de la ley débil de los grandes números. Al mismo tiempo, el caso de una X determinista no puede, siempre que el valor determinista sea un punto de discontinuidad (no aislado), ser manejado por la convergencia en distribución, donde los puntos de discontinuidad deben ser excluidos explícitamente.

La convergencia en probabilidad se denota agregando la letra p sobre una flecha que indica convergencia, o utilizando el operador de límite de probabilidad "plim":

X n   p   X ,     X n   P   X ,     plim n X n = X . {\displaystyle X_{n}\ \xrightarrow {p} \ X,\ \ X_{n}\ \xrightarrow {P} \ X,\ \ {\underset {n\to \infty }{\operatorname {plim} }}\,X_{n}=X.} ( 2 )

Para elementos aleatorios { X n } en un espacio métrico separable ( S , d ) , la convergencia en probabilidad se define de manera similar por [6]

ε > 0 , P ( d ( X n , X ) ε ) 0. {\displaystyle \forall \varepsilon >0,\mathbb {P} {\big (}d(X_{n},X)\geq \varepsilon {\big )}\to 0.}

Propiedades

  • La convergencia en probabilidad implica convergencia en distribución. [prueba]
  • En la dirección opuesta, la convergencia en la distribución implica convergencia en la probabilidad cuando la variable aleatoria límite X es una constante. [prueba]
  • La convergencia en probabilidad no implica una convergencia casi segura. [prueba]
  • El teorema de aplicación continua establece que para cada función continua , si , entonces también  . g {\displaystyle g} X n p X {\textstyle X_{n}\xrightarrow {p} X} g ( X n ) p g ( X ) {\textstyle g(X_{n})\xrightarrow {p} g(X)}
  • La convergencia en probabilidad define una topología en el espacio de variables aleatorias sobre un espacio de probabilidad fijo. Esta topología es metrizable mediante la métrica de Ky Fan : [7] o alternativamente mediante esta métrica d ( X , Y ) = inf { ε > 0 :   P ( | X Y | > ε ) ε } {\displaystyle d(X,Y)=\inf \!{\big \{}\varepsilon >0:\ \mathbb {P} {\big (}|X-Y|>\varepsilon {\big )}\leq \varepsilon {\big \}}} d ( X , Y ) = E [ min ( | X Y | , 1 ) ] . {\displaystyle d(X,Y)=\mathbb {E} \left[\min(|X-Y|,1)\right].}

Contraejemplos

No toda secuencia de variables aleatorias que converge a otra variable aleatoria en la distribución también converge en probabilidad a esa variable aleatoria. Como ejemplo, considere una secuencia de variables aleatorias normales estándar y una segunda secuencia . Observe que la distribución de es igual a la distribución de para todos , pero: X n {\displaystyle X_{n}} Y n = ( 1 ) n X n {\displaystyle Y_{n}=(-1)^{n}X_{n}} Y n {\displaystyle Y_{n}} X n {\displaystyle X_{n}} n {\displaystyle n} P ( | X n Y n | ϵ ) = P ( | X n | | ( 1 ( 1 ) n ) | ϵ ) {\displaystyle P(|X_{n}-Y_{n}|\geq \epsilon )=P(|X_{n}|\cdot |(1-(-1)^{n})|\geq \epsilon )}

que no converge a . Por lo tanto, no tenemos convergencia en probabilidad. 0 {\displaystyle 0}

Convergencia casi segura

Ejemplos de convergencia casi segura
Ejemplo 1
Consideremos un animal de alguna especie de vida corta. Registramos la cantidad de alimento que este animal consume por día. Esta secuencia de números será impredecible, pero podemos estar bastante seguros de que un día el número será cero y permanecerá así para siempre.
Ejemplo 2
Consideremos a un hombre que lanza siete monedas todas las mañanas. Cada tarde, dona una libra a una organización benéfica por cada cara que sale. Sin embargo, la primera vez que el resultado es cruz, dejará de hacerlo de forma permanente.

Sean X 1 , X 2 , … las cantidades diarias que la organización benéfica recibió de él.

Podemos estar casi seguros de que un día esta cantidad será cero y permanecerá en cero para siempre después de eso.

Sin embargo, cuando consideramos cualquier número finito de días, existe una probabilidad distinta de cero de que la condición de terminación no ocurra.

Este es el tipo de convergencia estocástica que es más similar a la convergencia puntual conocida a partir del análisis real elemental .

Definición

Decir que la secuencia X n converge casi con seguridad o casi en todas partes o con probabilidad 1 o fuertemente hacia X significa que P ( lim n X n = X ) = 1. {\displaystyle \mathbb {P} \!\left(\lim _{n\to \infty }\!X_{n}=X\right)=1.}

Esto significa que los valores de X n se aproximan al valor de X , en el sentido de que los eventos para los cuales X n no converge a X tienen probabilidad 0 (ver Casi con seguridad ). Usando el espacio de probabilidad y el concepto de variable aleatoria como una función de Ω a R , esto es equivalente a la afirmación ( Ω , F , P ) {\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )} P ( ω Ω : lim n X n ( ω ) = X ( ω ) ) = 1. {\displaystyle \mathbb {P} {\Bigl (}\omega \in \Omega :\lim _{n\to \infty }X_{n}(\omega )=X(\omega ){\Bigr )}=1.}

Utilizando la noción de límite superior de una secuencia de conjuntos , la convergencia casi segura también puede definirse de la siguiente manera: P ( lim sup n { ω Ω : | X n ( ω ) X ( ω ) | > ε } ) = 0 for all ε > 0. {\displaystyle \mathbb {P} {\Bigl (}\limsup _{n\to \infty }{\bigl \{}\omega \in \Omega :|X_{n}(\omega )-X(\omega )|>\varepsilon {\bigr \}}{\Bigr )}=0\quad {\text{for all}}\quad \varepsilon >0.}

La convergencia casi segura se denota a menudo añadiendo las letras así sobre una flecha que indica convergencia:

X n a . s . X . {\displaystyle {\overset {}{X_{n}\,{\xrightarrow {\mathrm {a.s.} }}\,X.}}} ( 3 )

Para elementos aleatorios genéricos { X n } en un espacio métrico , la convergencia casi seguramente se define de manera similar: ( S , d ) {\displaystyle (S,d)} P ( ω Ω : d ( X n ( ω ) , X ( ω ) ) n 0 ) = 1 {\displaystyle \mathbb {P} {\Bigl (}\omega \in \Omega \colon \,d{\big (}X_{n}(\omega ),X(\omega ){\big )}\,{\underset {n\to \infty }{\longrightarrow }}\,0{\Bigr )}=1}

Propiedades

  • La convergencia casi segura implica convergencia en probabilidad (según el lema de Fatou ) y, por lo tanto, implica convergencia en distribución. Es el concepto de convergencia que se utiliza en la ley fuerte de los grandes números .
  • El concepto de convergencia casi segura no proviene de una topología en el espacio de variables aleatorias. Esto significa que no existe una topología en el espacio de variables aleatorias tal que las secuencias que convergen casi con seguridad sean exactamente las secuencias que convergen con respecto a esa topología. En particular, no existe una métrica de convergencia casi segura.

Contraejemplos

Consideremos una secuencia de variables aleatorias independientes tales que y . Para ello tenemos que converge a , por lo tanto, en probabilidad. { X n } {\displaystyle \{X_{n}\}} P ( X n = 1 ) = 1 n {\displaystyle P(X_{n}=1)={\frac {1}{n}}} P ( X n = 0 ) = 1 1 n {\displaystyle P(X_{n}=0)=1-{\frac {1}{n}}} 0 < ε < 1 / 2 {\displaystyle 0<\varepsilon <1/2} P ( | X n | ε ) = 1 n {\displaystyle P(|X_{n}|\geq \varepsilon )={\frac {1}{n}}} 0 {\displaystyle 0} X n 0 {\displaystyle X_{n}\to 0}

Como y los eventos son independientes, el segundo lema de Borel-Cantelli asegura que, por lo tanto, la secuencia no converge a casi todas partes (de hecho, el conjunto en el que esta secuencia no converge tiene probabilidad ). n 1 P ( X n = 1 ) {\displaystyle \sum _{n\geq 1}P(X_{n}=1)\to \infty } { X n = 1 } {\displaystyle \{X_{n}=1\}} P ( lim sup n { X n = 1 } ) = 1 {\displaystyle P(\limsup _{n}\{X_{n}=1\})=1} { X n } {\displaystyle \{X_{n}\}} 0 {\displaystyle 0} 0 {\displaystyle 0} 1 {\displaystyle 1}

Convergencia segura o convergencia puntual

Decir que la secuencia de variables aleatorias ( X n ) definida sobre el mismo espacio de probabilidad (es decir, un proceso aleatorio ) converge con seguridad o en todas partes o puntualmente hacia X significa

ω Ω :   lim n X n ( ω ) = X ( ω ) , {\displaystyle \forall \omega \in \Omega \colon \ \lim _{n\to \infty }X_{n}(\omega )=X(\omega ),}

donde Ω es el espacio muestral del espacio de probabilidad subyacente sobre el que se definen las variables aleatorias.

Se trata de la noción de convergencia puntual de una secuencia de funciones extendida a una secuencia de variables aleatorias (nótese que las variables aleatorias en sí mismas son funciones).

{ ω Ω : lim n X n ( ω ) = X ( ω ) } = Ω . {\displaystyle \left\{\omega \in \Omega :\lim _{n\to \infty }X_{n}(\omega )=X(\omega )\right\}=\Omega .}

La convergencia segura de una variable aleatoria implica todos los demás tipos de convergencia mencionados anteriormente, pero no hay ninguna ventaja en la teoría de la probabilidad al utilizar la convergencia segura en comparación con el uso de la convergencia casi segura. La diferencia entre los dos solo existe en conjuntos con probabilidad cero. Por eso, el concepto de convergencia segura de variables aleatorias se utiliza muy raramente.

Convergencia en la media

Dado un número real r ≥ 1 , decimos que la secuencia X n converge en la r -ésima media (o en la L r -norma ) hacia la variable aleatoria X , si existen los r -ésimos momentos absolutos (| X n | r ) y (| X | r ) de X n y X , y E {\displaystyle \mathbb {E} } E {\displaystyle \mathbb {E} }

lim n E ( | X n X | r ) = 0 , {\displaystyle \lim _{n\to \infty }\mathbb {E} \left(|X_{n}-X|^{r}\right)=0,}

donde el operador E denota el valor esperado . La convergencia en la media r -ésima nos dice que la esperanza de la potencia r -ésima de la diferencia entre y converge a cero. X n {\displaystyle X_{n}} X {\displaystyle X}

Este tipo de convergencia a menudo se denota agregando la letra L r sobre una flecha que indica convergencia:

X n L r X . {\displaystyle {\overset {}{X_{n}\,{\xrightarrow {L^{r}}}\,X.}}} ( 4 )

Los casos más importantes de convergencia en la media r -ésima son:

  • Cuando X n converge en media r -ésima a X para r = 1, decimos que X n converge en media a X .
  • Cuando X n converge en la media r -ésima a X para r = 2, decimos que X n converge en el cuadrado medio (o en la media cuadrática ) a X .

La convergencia en la media r -ésima, para r ≥ 1, implica convergencia en probabilidad (por la desigualdad de Markov ). Además, si r > s ≥ 1, la convergencia en la media r -ésima implica convergencia en la media s -ésima. Por lo tanto, la convergencia en el cuadrado medio implica convergencia en la media.

Además,

X n L r X lim n E [ | X n | r ] = E [ | X | r ] . {\displaystyle {\overset {}{X_{n}\xrightarrow {L^{r}} X}}\quad \Rightarrow \quad \lim _{n\to \infty }\mathbb {E} [|X_{n}|^{r}]=\mathbb {E} [|X|^{r}].}

Lo inverso no es necesariamente cierto, pero es cierto si (según una versión más general del lema de Scheffé ). X n p X {\displaystyle {\overset {}{X_{n}\,\xrightarrow {p} \,X}}}

Propiedades

Siempre que el espacio de probabilidad esté completo :

  • Si y , entonces casi con seguridad . X n   p   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{p}}}\ X} X n   p   Y {\displaystyle X_{n}\ {\xrightarrow {\overset {}{p}}}\ Y} X = Y {\displaystyle X=Y}
  • Si y , entonces casi con seguridad. X n   a.s.   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{\text{a.s.}}}}\ X} X n   a.s.   Y {\displaystyle X_{n}\ {\xrightarrow {\overset {}{\text{a.s.}}}}\ Y} X = Y {\displaystyle X=Y}
  • Si y , entonces casi con seguridad. X n   L r   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ X} X n   L r   Y {\displaystyle X_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ Y} X = Y {\displaystyle X=Y}
  • Si y , entonces (para cualesquiera números reales a y b ) y . X n   p   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{p}}}\ X} Y n   p   Y {\displaystyle Y_{n}\ {\xrightarrow {\overset {}{p}}}\ Y} a X n + b Y n   p   a X + b Y {\displaystyle aX_{n}+bY_{n}\ {\xrightarrow {\overset {}{p}}}\ aX+bY} X n Y n p   X Y {\displaystyle X_{n}Y_{n}{\xrightarrow {\overset {}{p}}}\ XY}
  • Si y , entonces (para cualesquiera números reales a y b ) y . X n   a.s.   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{\text{a.s.}}}}\ X} Y n   a.s.   Y {\displaystyle Y_{n}\ {\xrightarrow {\overset {}{\text{a.s.}}}}\ Y} a X n + b Y n   a.s.   a X + b Y {\displaystyle aX_{n}+bY_{n}\ {\xrightarrow {\overset {}{\text{a.s.}}}}\ aX+bY} X n Y n a.s.   X Y {\displaystyle X_{n}Y_{n}{\xrightarrow {\overset {}{\text{a.s.}}}}\ XY}
  • Si y , entonces (para cualesquiera números reales a y b ). X n   L r   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ X} Y n   L r   Y {\displaystyle Y_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ Y} a X n + b Y n   L r   a X + b Y {\displaystyle aX_{n}+bY_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ aX+bY}
  • Ninguna de las afirmaciones anteriores es cierta en lo que respecta a la convergencia en la distribución.

La cadena de implicaciones entre las diversas nociones de convergencia se indica en sus respectivas secciones. Son, utilizando la notación de flechas:

L s s > r 1 L r a.s. p d {\displaystyle {\begin{matrix}{\xrightarrow {\overset {}{L^{s}}}}&{\underset {s>r\geq 1}{\Rightarrow }}&{\xrightarrow {\overset {}{L^{r}}}}&&\\&&\Downarrow &&\\{\xrightarrow {\text{a.s.}}}&\Rightarrow &{\xrightarrow {p}}&\Rightarrow &{\xrightarrow {d}}\end{matrix}}}

Estas propiedades, junto con una serie de otros casos especiales, se resumen en la siguiente lista:

  • La convergencia casi segura implica convergencia en probabilidad: [8] [prueba]
    X n   a.s.   X X n   p   X {\displaystyle X_{n}\ {\xrightarrow {\text{a.s.}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {\overset {}{p}}}\ X}
  • La convergencia en probabilidad implica que existe una subsecuencia que casi seguramente converge: [9] ( n k ) {\displaystyle (n_{k})}
    X n   p   X X n k   a.s.   X {\displaystyle X_{n}\ \xrightarrow {\overset {}{p}} \ X\quad \Rightarrow \quad X_{n_{k}}\ \xrightarrow {\text{a.s.}} \ X}
  • La convergencia en probabilidad implica convergencia en distribución: [8] [prueba]
    X n   p   X X n   d   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{p}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {\overset {}{d}}}\ X}
  • La convergencia en la media de orden r implica convergencia en probabilidad:
    X n   L r   X X n   p   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {\overset {}{p}}}\ X}
  • La convergencia en la media de orden r -ésimo implica convergencia en la media de orden inferior, asumiendo que ambos órdenes son mayores o iguales a uno:
    X n   L r   X X n   L s   X , {\displaystyle X_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ X\quad \Rightarrow \quad X_{n}\ {\xrightarrow {\overset {}{L^{s}}}}\ X,} siempre que rs ≥ 1.
  • Si X n converge en distribución a una constante c , entonces X n converge en probabilidad a c : [8] [prueba]
    X n   d   c X n   p   c , {\displaystyle X_{n}\ {\xrightarrow {\overset {}{d}}}\ c\quad \Rightarrow \quad X_{n}\ {\xrightarrow {\overset {}{p}}}\ c,} siempre que c sea una constante.
  • Si X n converge en distribución a X y la diferencia entre X n e Y n converge en probabilidad a cero, entonces Y n también converge en distribución a X : [8] [prueba]
    X n   d   X ,     | X n Y n |   p   0   Y n   d   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{d}}}\ X,\ \ |X_{n}-Y_{n}|\ {\xrightarrow {\overset {}{p}}}\ 0\ \quad \Rightarrow \quad Y_{n}\ {\xrightarrow {\overset {}{d}}}\ X}
  • Si X n converge en distribución a X e Y n converge en distribución a una constante c , entonces el vector conjunto ( X nY n ) converge en distribución a ⁠ ⁠ ( X , c ) {\displaystyle (X,c)} : [8] [prueba]
    X n   d   X ,     Y n   d   c   ( X n , Y n )   d   ( X , c ) {\displaystyle X_{n}\ {\xrightarrow {\overset {}{d}}}\ X,\ \ Y_{n}\ {\xrightarrow {\overset {}{d}}}\ c\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {\overset {}{d}}}\ (X,c)} siempre que c sea una constante.
    Nótese que la condición de que Y n converge a una constante es importante, si convergiera a una variable aleatoria Y entonces no podríamos concluir que ( X nY n ) converge a ⁠ ⁠ ( X , Y ) {\displaystyle (X,Y)} .
  • Si X n converge en probabilidad a X e Y n converge en probabilidad a Y , entonces el vector conjunto ( X nY n ) converge en probabilidad a ( XY ) : [8] [prueba]
    X n   p   X ,     Y n   p   Y   ( X n , Y n )   p   ( X , Y ) {\displaystyle X_{n}\ {\xrightarrow {\overset {}{p}}}\ X,\ \ Y_{n}\ {\xrightarrow {\overset {}{p}}}\ Y\ \quad \Rightarrow \quad (X_{n},Y_{n})\ {\xrightarrow {\overset {}{p}}}\ (X,Y)}
  • Si X n converge en probabilidad a X , y si P (| X n | ≤ b ) = 1 para todo n y algún b , entonces X n converge en la media r ésima a X para todo r ≥ 1 . En otras palabras, si X n converge en probabilidad a X y todas las variables aleatorias X n están casi seguramente acotadas por arriba y por abajo, entonces X n converge a X también en cualquier media r ésima. [10]
  • Representación casi segura . Por lo general, la convergencia en la distribución no implica convergencia casi segura. Sin embargo, para una secuencia dada { X n } que converge en la distribución a X 0 siempre es posible encontrar un nuevo espacio de probabilidad (Ω, F , P) y variables aleatorias { Y n , n = 0, 1, ...} definidas en él de manera que Y n sea igual en distribución a X n para cada n ≥ 0 , e Y n converge a Y 0 casi seguramente. [11] [12]
  • Si para todo ε > 0,
    n P ( | X n X | > ε ) < , {\displaystyle \sum _{n}\mathbb {P} \left(|X_{n}-X|>\varepsilon \right)<\infty ,}
    entonces decimos que X n converge casi completamente , o casi con probabilidad hacia X . Cuando X n converge casi completamente hacia X entonces también converge casi con seguridad a X . En otras palabras, si X n converge en probabilidad a X suficientemente rápido (es decir, la secuencia anterior de probabilidades de cola es sumable para todo ε > 0 ), entonces X n también converge casi con seguridad a X . Esta es una implicación directa del lema de Borel-Cantelli .
  • Si S n es una suma de n variables aleatorias independientes reales:
    S n = X 1 + + X n {\displaystyle S_{n}=X_{1}+\cdots +X_{n}\,}
    Entonces S n converge casi con seguridad si y sólo si S n converge en probabilidad. La prueba se puede encontrar en la página 126 (Teorema 5.3.4) del libro de Kai Lai Chung . [13]
    Sin embargo, para una secuencia de variables aleatorias mutuamente independientes, la convergencia en probabilidad no implica una convergencia casi segura. [14]
  • El teorema de convergencia dominada proporciona condiciones suficientes para que la convergencia sea casi segura, lo que implica una convergencia L 1 :
X n a.s. X | X n | < Y E [ Y ] < } X n L 1 X {\displaystyle \left.{\begin{matrix}X_{n}\xrightarrow {\overset {}{\text{a.s.}}} X\\|X_{n}|<Y\\\mathbb {E} [Y]<\infty \end{matrix}}\right\}\quad \Rightarrow \quad X_{n}\xrightarrow {L^{1}} X} ( 5 )
  • Una condición necesaria y suficiente para la convergencia L 1 es y la secuencia ( X n ) es uniformemente integrable . X n P X {\displaystyle X_{n}{\xrightarrow {\overset {}{P}}}X}
  • Si , los siguientes son equivalentes [15] X n   p   X {\displaystyle X_{n}\ \xrightarrow {\overset {}{p}} \ X}
    • X n   L r   X {\displaystyle X_{n}\ {\xrightarrow {\overset {}{L^{r}}}}\ X} ,
    • E [ | X n | r ] E [ | X | r ] < {\displaystyle \mathbb {E} [|X_{n}|^{r}]\rightarrow \mathbb {E} [|X|^{r}]<\infty } ,
    • { | X n | r } {\displaystyle \{|X_{n}|^{r}\}} es uniformemente integrable .

Véase también

Notas

  1. ^ Bickel y col. 1998, A.8, página 475
  2. ^ van der Vaart y Wellner 1996, pág. 4
  3. ^ Romano y Siegel 1985, Ejemplo 5.26
  4. ^ Durrett, Rick (2010). Probabilidad: teoría y ejemplos . pág. 84.
  5. ^ van der Vaart 1998, Lema 2.2
  6. ^ Dudley 2002, Capítulo 9.2, página 287
  7. ^ Dudley 2002, pág. 289
  8. ^ abcdef van der Vaart 1998, Teorema 2.7
  9. ^ Gut, Allan (2005). Probabilidad: un curso de posgrado . Teorema 3.4: Springer. ISBN 978-0-387-22833-4.{{cite book}}: CS1 maint: location (link)
  10. ^ Grimmett y Stirzaker 2020, pág. 354
  11. ^ van der Vaart 1998, Tesis 2.19
  12. ^ Fristedt y Gray 1997, Teorema 14.5
  13. ^ Chung, Kai-lai (2001). Un curso de teoría de la probabilidad . pág. 126.
  14. ^ "Pruebas de convergencia de variables aleatorias". Wikipedia . Consultado el 23 de septiembre de 2024 .
  15. ^ "Análisis real: generalización del lema de Scheffe utilizando solo la convergencia en probabilidad". Mathematics Stack Exchange . Consultado el 12 de marzo de 2022 .

Referencias

  • Bickel, Peter J.; Klaassen, Chris AJ; Ritov, Ya'acov; Wellner, Jon A. (1998). Estimación eficiente y adaptativa para modelos semiparamétricos . Nueva York: Springer-Verlag. ISBN 978-0-387-98473-5.
  • Billingsley, Patrick (1986). Probabilidad y medida . Serie Wiley sobre probabilidad y estadística matemática (2.ª ed.). Wiley.
  • Billingsley, Patrick (1999). Convergencia de medidas de probabilidad (2.ª ed.). John Wiley & Sons. pp. 1–28. ISBN 978-0-471-19745-4.
  • Dudley, RM (2002). Análisis real y probabilidad . Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-80972-6.
  • Fristedt, Bert; Gray, Lawrence (1997). Un enfoque moderno de la teoría de la probabilidad . Nueva York: Springer Science+Business Media. doi :10.1007/978-1-4899-2837-5. ISBN 978-1-4899-2837-5.
  • Grimmett, GR; Stirzaker, DR (1992). Probabilidad y procesos aleatorios (2.ª ed.). Clarendon Press, Oxford. pp. 271–285. ISBN 978-0-19-853665-9.
  • Jacobsen, M. (1992). Videregående Sandsynlighedsregning (Teoría de la probabilidad avanzada) (3ª ed.). HCØ-tryk, Copenhague. págs. 18-20. ISBN 978-87-91180-71-2.
  • Ledoux, Michel; Talagrand, Michel (1991). Probabilidad en espacios de Banach . Berlín: Springer-Verlag. pp. xii+480. ISBN 978-3-540-52013-9. Sr.  1102015.
  • Romano, Joseph P.; Siegel, Andrew F. (1985). Contraejemplos en probabilidad y estadística . Gran Bretaña: Chapman & Hall. ISBN 978-0-412-98901-8.
  • Grimmett, Geoffrey R.; Stirzaker, David R. (2020). Probabilidad y procesos aleatorios (4.ª ed.). Oxford University Press. ISBN 978-0-198-84760-1.
  • van der Vaart, Aad W .; Wellner, Jon A. (1996). Convergencia débil y procesos empíricos . Nueva York: Springer-Verlag. ISBN 978-0-387-94640-5.
  • van der Vaart, Aad W. (1998). Estadísticas asintóticas . Nueva York: Cambridge University Press. ISBN 978-0-521-49603-2.
  • Williams, D. (1991). Probabilidad con martingalas . Cambridge University Press. ISBN 978-0-521-40605-5.
  • Wong, E.; Hájek, B. (1985). Procesos estocásticos en sistemas de ingeniería . Nueva York: Springer–Verlag.
  • Zitkovic, Gordan (17 de noviembre de 2013). "Conferencia 7: Convergencia débil" (PDF) .

Este artículo incorpora material del artículo de Citizendium "Convergencia estocástica", que se encuentra bajo la licencia Creative Commons Attribution-ShareAlike 3.0 Unported pero no bajo la GFDL .

Retrieved from "https://en.wikipedia.org/w/index.php?title=Convergence_of_random_variables&oldid=1247765257#Convergence_in_probability"