Nociones de convergencia probabilística aplicadas a la estimación y al análisis asintótico
En teoría de la probabilidad , existen varias nociones diferentes de convergencia de secuencias de variables aleatorias , incluidas la convergencia en probabilidad , la convergencia en distribución y la convergencia casi segura . Las diferentes nociones de convergencia capturan diferentes propiedades sobre la secuencia, y algunas nociones de convergencia son más fuertes que otras. Por ejemplo, la convergencia en distribución nos informa sobre la distribución límite de una secuencia de variables aleatorias. Esta es una noción más débil que la convergencia en probabilidad, que nos informa sobre el valor que tomará una variable aleatoria, en lugar de solo sobre la distribución.
El concepto es importante en la teoría de la probabilidad y sus aplicaciones a la estadística y los procesos estocásticos . Los mismos conceptos se conocen en matemáticas más generales como convergencia estocástica y formalizan la idea de que a veces se puede esperar que ciertas propiedades de una secuencia de eventos esencialmente aleatorios o impredecibles se estabilicen en un comportamiento que es esencialmente inmutable cuando se estudian elementos lo suficientemente avanzados en la secuencia. Las diferentes nociones posibles de convergencia se relacionan con la forma en que se puede caracterizar dicho comportamiento: dos comportamientos fácilmente comprensibles son que la secuencia finalmente toma un valor constante y que los valores en la secuencia continúan cambiando pero pueden describirse mediante una distribución de probabilidad inmutable.
Fondo
La "convergencia estocástica" formaliza la idea de que a veces se puede esperar que una secuencia de eventos esencialmente aleatorios o impredecibles se asiente en un patrón. El patrón puede ser, por ejemplo,
Convergencia en el sentido clásico hacia un valor fijo, que quizás provenga de un evento aleatorio.
Una similitud creciente de resultados con lo que produciría una función puramente determinista
Una preferencia creciente hacia un determinado resultado
Una creciente "aversión" a alejarse demasiado de un determinado resultado
Que la distribución de probabilidad que describe el próximo resultado puede volverse cada vez más similar a una determinada distribución
Algunos patrones menos obvios y más teóricos podrían ser:
Que la serie formada al calcular el valor esperado de la distancia del resultado a un valor particular puede converger a 0
Que la varianza de la variable aleatoria que describe el próximo evento se hace cada vez más pequeña.
Estos otros tipos de patrones que pueden surgir se reflejan en los diferentes tipos de convergencia estocástica que se han estudiado.
Si bien la discusión anterior se ha relacionado con la convergencia de una sola serie a un valor límite, la noción de la convergencia de dos series entre sí también es importante, pero esto se maneja fácilmente estudiando la secuencia definida como la diferencia o la relación de las dos series.
entonces, como tiende a infinito, converge en probabilidad (ver abajo) a la media común , , de las variables aleatorias . Este resultado se conoce como la ley débil de los grandes números . Otras formas de convergencia son importantes en otros teoremas útiles, incluido el teorema del límite central .
A lo largo de lo que sigue, suponemos que es una secuencia de variables aleatorias, y es una variable aleatoria, y todas ellas están definidas en el mismo espacio de probabilidad .
Convergencia en la distribución
Ejemplos de convergencia en la distribución
Fábrica de dados
Supongamos que se acaba de construir una nueva fábrica de dados. Los primeros dados salen bastante sesgados, debido a imperfecciones en el proceso de producción. El resultado de lanzar cualquiera de ellos seguirá una distribución marcadamente diferente de la distribución uniforme deseada .
A medida que se mejora la fábrica, los dados se vuelven cada vez menos cargados y los resultados de lanzar un dado recién producido seguirán la distribución uniforme cada vez más de cerca.
Lanzar monedas
Sea X n la fracción de caras que salen después de lanzar una moneda no sesgada n veces. Entonces X 1 tiene la distribución de Bernoulli con un valor esperado μ = 0,5 y una varianza σ 2 = 0,25 . Las variables aleatorias subsiguientes X 2 , X 3 , ... se distribuirán todas binomialmente .
A medida que n se hace más grande, esta distribución gradualmente comenzará a tomar forma cada vez más similar a la curva de campana de la distribución normal. Si desplazamos y reescalamos X n apropiadamente, entonces estará convergiendo en distribución a la normal estándar, el resultado que se desprende del célebre teorema del límite central .
Ejemplo gráfico
Supóngase que { X i } es una secuencia iid de variables aleatorias uniformes U (−1, 1) . Sean sus sumas (normalizadas). Entonces, según el teorema del límite central , la distribución de Z n se aproxima a la normal N (0, 1/3) distribución . Esta convergencia se muestra en la imagen: a medida que n aumenta, la forma de la función de densidad de probabilidad se acerca cada vez más a la curva gaussiana.
En términos generales, con este modo de convergencia, cada vez esperamos más ver que el siguiente resultado de una secuencia de experimentos aleatorios se modela cada vez mejor mediante una distribución de probabilidad dada . Más precisamente, la distribución de la variable aleatoria asociada en la secuencia se acerca arbitrariamente a una distribución fija especificada.
La convergencia en distribución es la forma más débil de convergencia que se suele analizar, ya que está implícita en todos los demás tipos de convergencia mencionados en este artículo. Sin embargo, la convergencia en distribución se utiliza con mucha frecuencia en la práctica; la mayoría de las veces surge de la aplicación del teorema del límite central .
El requisito de que sólo se consideren los puntos de continuidad de es esencial. Por ejemplo, si se distribuyen uniformemente en intervalos , entonces esta secuencia converge en distribución a la variable aleatoria degenerada . De hecho, para todos cuando , y para todos cuando . Sin embargo, para esta variable aleatoria límite , aunque para todos . Por lo tanto, la convergencia de las funciones de distribución acumuladas falla en el punto donde es discontinua.
La convergencia en la distribución puede denotarse como
( 1 )
donde es la ley (distribución de probabilidad) de X . Por ejemplo, si X es normal estándar podemos escribir .
Para los vectores aleatorios, la convergencia en la distribución se define de manera similar. Decimos que esta secuencia converge en la distribución a un k -vector aleatorio X si
La definición de convergencia en la distribución puede extenderse desde los vectores aleatorios a elementos aleatorios más generales en espacios métricos arbitrarios , e incluso a las “variables aleatorias” que no son mensurables, una situación que ocurre, por ejemplo, en el estudio de procesos empíricos . Esta es la “convergencia débil de leyes sin leyes definidas”, excepto de manera asintótica. [1]
En este caso es preferible el término convergencia débil (ver convergencia débil de medidas ), y decimos que una secuencia de elementos aleatorios { X n } converge débilmente a X (denotado como X n ⇒ X ) si
para todas las funciones acotadas continuas h . [2] Aquí E* denota la expectativa externa , es decir la expectativa de una “función medible más pequeña g que domine h ( X n ) ”.
Propiedades
Dado que , la convergencia en la distribución significa que la probabilidad de que X n esté en un rango dado es aproximadamente igual a la probabilidad de que el valor de X esté en ese rango, siempre que n sea suficientemente grande .
En general, la convergencia en la distribución no implica que la secuencia de funciones de densidad de probabilidad correspondientes también converja. Como ejemplo, se pueden considerar variables aleatorias con densidades f n ( x ) = (1 + cos(2 πnx )) 1 (0,1) . Estas variables aleatorias convergen en la distribución a una U uniforme (0, 1), mientras que sus densidades no convergen en absoluto. [3]
Sin embargo, según el teorema de Scheffé , la convergencia de las funciones de densidad de probabilidad implica convergencia en la distribución. [4]
El lema del acrónimo proporciona varias definiciones equivalentes de convergencia en la distribución. Aunque estas definiciones son menos intuitivas, se utilizan para demostrar una serie de teoremas estadísticos. El lema establece que { X n } converge en la distribución a X si y solo si alguna de las siguientes afirmaciones es verdadera: [5]
El teorema de aplicación continua establece que para una función continua g , si la secuencia { X n } converge en distribución a X , entonces { g ( X n )} converge en distribución a g ( X ) .
Obsérvese, sin embargo, que la convergencia en la distribución de { X n } a X y de { Y n } a Y en general no implica convergencia en la distribución de { X n + Y n } a X + Y o de { X n Y n } a XY .
Consideremos el siguiente experimento. Primero, escojamos una persona al azar en la calle. Sea X su altura, que es ex ante una variable aleatoria. Luego pidamos a otras personas que estimen esta altura a simple vista. Sea X n el promedio de las primeras n respuestas. Entonces (siempre que no haya un error sistemático ) por la ley de los grandes números , la secuencia X n convergerá en probabilidad a la variable aleatoria X .
Predicción de la generación de números aleatorios
Supongamos que un generador de números aleatorios genera un número de punto flotante pseudoaleatorio entre 0 y 1. Sea la variable aleatoria X la distribución de posibles resultados del algoritmo. Debido a que el número pseudoaleatorio se genera de manera determinista, su siguiente valor no es verdaderamente aleatorio. Supongamos que, a medida que observamos una secuencia de números generados aleatoriamente, podemos deducir un patrón y hacer predicciones cada vez más precisas sobre cuál será el siguiente número generado aleatoriamente. Sea X n nuestra estimación del valor del siguiente número aleatorio después de observar los primeros n números aleatorios. A medida que aprendemos el patrón y nuestras estimaciones se vuelven más precisas, no solo la distribución de X n convergerá a la distribución de X , sino que los resultados de X n convergerán a los resultados de X .
La idea básica detrás de este tipo de convergencia es que la probabilidad de un resultado “inusual” se hace cada vez más pequeña a medida que avanza la secuencia.
El concepto de convergencia en probabilidad se utiliza con mucha frecuencia en estadística. Por ejemplo, un estimador se denomina consistente si converge en probabilidad a la cantidad que se está estimando. La convergencia en probabilidad es también el tipo de convergencia que establece la ley débil de los grandes números .
Definición
Una secuencia { X n } de variables aleatorias converge en probabilidad hacia la variable aleatoria X si para todo ε > 0
Más explícitamente, sea P n ( ε ) la probabilidad de que X n esté fuera de la bola de radio ε centrada en X . Entonces se dice que X n converge en probabilidad a X si para cualquier ε > 0 y cualquier δ > 0 existe un número N (que puede depender de ε y δ ) tal que para todo n ≥ N , P n ( ε ) < δ (la definición de límite).
Obsérvese que para que se cumpla la condición, no es posible que para cada n las variables aleatorias X y X n sean independientes (y por lo tanto la convergencia en probabilidad es una condición de las funciones de distribución acumuladas, a diferencia de la convergencia en distribución, que es una condición de las funciones de distribución acumuladas individuales), a menos que X sea determinista, como en el caso de la ley débil de los grandes números. Al mismo tiempo, el caso de una X determinista no puede, siempre que el valor determinista sea un punto de discontinuidad (no aislado), ser manejado por la convergencia en distribución, donde los puntos de discontinuidad deben ser excluidos explícitamente.
La convergencia en probabilidad se denota agregando la letra p sobre una flecha que indica convergencia, o utilizando el operador de límite de probabilidad "plim":
( 2 )
Para elementos aleatorios { X n } en un espacio métrico separable ( S , d ) , la convergencia en probabilidad se define de manera similar por [6]
Propiedades
La convergencia en probabilidad implica convergencia en distribución. [prueba]
En la dirección opuesta, la convergencia en la distribución implica convergencia en la probabilidad cuando la variable aleatoria límite X es una constante. [prueba]
La convergencia en probabilidad no implica una convergencia casi segura. [prueba]
La convergencia en probabilidad define una topología en el espacio de variables aleatorias sobre un espacio de probabilidad fijo. Esta topología es metrizable mediante la métrica de Ky Fan : [7] o alternativamente mediante esta métrica
Contraejemplos
No toda secuencia de variables aleatorias que converge a otra variable aleatoria en la distribución también converge en probabilidad a esa variable aleatoria. Como ejemplo, considere una secuencia de variables aleatorias normales estándar y una segunda secuencia . Observe que la distribución de es igual a la distribución de para todos , pero:
que no converge a . Por lo tanto, no tenemos convergencia en probabilidad.
Convergencia casi segura
Ejemplos de convergencia casi segura
Ejemplo 1
Consideremos un animal de alguna especie de vida corta. Registramos la cantidad de alimento que este animal consume por día. Esta secuencia de números será impredecible, pero podemos estar bastante seguros de que un día el número será cero y permanecerá así para siempre.
Ejemplo 2
Consideremos a un hombre que lanza siete monedas todas las mañanas. Cada tarde, dona una libra a una organización benéfica por cada cara que sale. Sin embargo, la primera vez que el resultado es cruz, dejará de hacerlo de forma permanente.
Sean X 1 , X 2 , … las cantidades diarias que la organización benéfica recibió de él.
Podemos estar casi seguros de que un día esta cantidad será cero y permanecerá en cero para siempre después de eso.
Sin embargo, cuando consideramos cualquier número finito de días, existe una probabilidad distinta de cero de que la condición de terminación no ocurra.
Decir que la secuencia X n converge casi con seguridad o casi en todas partes o con probabilidad 1 o fuertemente hacia X significa que
Esto significa que los valores de X n se aproximan al valor de X , en el sentido de que los eventos para los cuales X n no converge a X tienen probabilidad 0 (ver Casi con seguridad ). Usando el espacio de probabilidad y el concepto de variable aleatoria como una función de Ω a R , esto es equivalente a la afirmación
La convergencia casi segura implica convergencia en probabilidad (según el lema de Fatou ) y, por lo tanto, implica convergencia en distribución. Es el concepto de convergencia que se utiliza en la ley fuerte de los grandes números .
El concepto de convergencia casi segura no proviene de una topología en el espacio de variables aleatorias. Esto significa que no existe una topología en el espacio de variables aleatorias tal que las secuencias que convergen casi con seguridad sean exactamente las secuencias que convergen con respecto a esa topología. En particular, no existe una métrica de convergencia casi segura.
Contraejemplos
Consideremos una secuencia de variables aleatorias independientes tales que y . Para ello tenemos que converge a , por lo tanto, en probabilidad.
Como y los eventos son independientes, el segundo lema de Borel-Cantelli asegura que, por lo tanto, la secuencia no converge a casi todas partes (de hecho, el conjunto en el que esta secuencia no converge tiene probabilidad ).
Se trata de la noción de convergencia puntual de una secuencia de funciones extendida a una secuencia de variables aleatorias (nótese que las variables aleatorias en sí mismas son funciones).
La convergencia segura de una variable aleatoria implica todos los demás tipos de convergencia mencionados anteriormente, pero no hay ninguna ventaja en la teoría de la probabilidad al utilizar la convergencia segura en comparación con el uso de la convergencia casi segura. La diferencia entre los dos solo existe en conjuntos con probabilidad cero. Por eso, el concepto de convergencia segura de variables aleatorias se utiliza muy raramente.
Convergencia en la media
Dado un número real r ≥ 1 , decimos que la secuencia X n converge en la r -ésima media (o en la L r -norma ) hacia la variable aleatoria X , si existen los r -ésimos momentos absolutos (| X n | r ) y (| X | r ) de X n y X , y
donde el operador E denota el valor esperado . La convergencia en la media r -ésima nos dice que la esperanza de la potencia r -ésima de la diferencia entre y converge a cero.
Este tipo de convergencia a menudo se denota agregando la letra L r sobre una flecha que indica convergencia:
( 4 )
Los casos más importantes de convergencia en la media r -ésima son:
Cuando X n converge en media r -ésima a X para r = 1, decimos que X n converge en media a X .
Cuando X n converge en la media r -ésima a X para r = 2, decimos que X n converge en el cuadrado medio (o en la media cuadrática ) a X .
La convergencia en la media r -ésima, para r ≥ 1, implica convergencia en probabilidad (por la desigualdad de Markov ). Además, si r > s ≥ 1, la convergencia en la media r -ésima implica convergencia en la media s -ésima. Por lo tanto, la convergencia en el cuadrado medio implica convergencia en la media.
Además,
Lo inverso no es necesariamente cierto, pero es cierto si (según una versión más general del lema de Scheffé ).
Propiedades
Siempre que el espacio de probabilidad esté completo :
Si y , entonces (para cualesquiera números reales a y b ) y .
Si y , entonces (para cualesquiera números reales a y b ) y .
Si y , entonces (para cualesquiera números reales a y b ).
Ninguna de las afirmaciones anteriores es cierta en lo que respecta a la convergencia en la distribución.
La cadena de implicaciones entre las diversas nociones de convergencia se indica en sus respectivas secciones. Son, utilizando la notación de flechas:
Estas propiedades, junto con una serie de otros casos especiales, se resumen en la siguiente lista:
La convergencia casi segura implica convergencia en probabilidad: [8] [prueba]
La convergencia en probabilidad implica que existe una subsecuencia que casi seguramente converge: [9]
La convergencia en probabilidad implica convergencia en distribución: [8] [prueba]
La convergencia en la media de orden r implica convergencia en probabilidad:
La convergencia en la media de orden r -ésimo implica convergencia en la media de orden inferior, asumiendo que ambos órdenes son mayores o iguales a uno:
siempre que r ≥ s ≥ 1.
Si X n converge en distribución a una constante c , entonces X n converge en probabilidad a c : [8] [prueba]
siempre que c sea una constante.
Si X n converge en distribución a X y la diferencia entre X n e Y n converge en probabilidad a cero, entonces Y n también converge en distribución a X : [8] [prueba]
Si X n converge en distribución a X e Y n converge en distribución a una constante c , entonces el vector conjunto ( X n , Y n ) converge en distribución a : [8] [prueba]
siempre que c sea una constante.
Nótese que la condición de que Y n converge a una constante es importante, si convergiera a una variable aleatoria Y entonces no podríamos concluir que ( X n , Y n ) converge a .
Si X n converge en probabilidad a X e Y n converge en probabilidad a Y , entonces el vector conjunto ( X n , Y n ) converge en probabilidad a ( X , Y ) : [8] [prueba]
Si X n converge en probabilidad a X , y si P (| X n | ≤ b ) = 1 para todo n y algún b , entonces X n converge en la media r ésima a X para todo r ≥ 1 . En otras palabras, si X n converge en probabilidad a X y todas las variables aleatorias X n están casi seguramente acotadas por arriba y por abajo, entonces X n converge a X también en cualquier media r ésima. [10]
Representación casi segura . Por lo general, la convergencia en la distribución no implica convergencia casi segura. Sin embargo, para una secuencia dada { X n } que converge en la distribución a X 0 siempre es posible encontrar un nuevo espacio de probabilidad (Ω, F , P) y variables aleatorias { Y n , n = 0, 1, ...} definidas en él de manera que Y n sea igual en distribución a X n para cada n ≥ 0 , e Y n converge a Y 0 casi seguramente. [11] [12]
Si para todo ε > 0,
entonces decimos que X n converge casi completamente , o casi con probabilidad hacia X . Cuando X n converge casi completamente hacia X entonces también converge casi con seguridad a X . En otras palabras, si X n converge en probabilidad a X suficientemente rápido (es decir, la secuencia anterior de probabilidades de cola es sumable para todo ε > 0 ), entonces X n también converge casi con seguridad a X . Esta es una implicación directa del lema de Borel-Cantelli .
Si S n es una suma de n variables aleatorias independientes reales:
Entonces S n converge casi con seguridad si y sólo si S n converge en probabilidad. La prueba se puede encontrar en la página 126 (Teorema 5.3.4) del libro de Kai Lai Chung . [13]
Sin embargo, para una secuencia de variables aleatorias mutuamente independientes, la convergencia en probabilidad no implica una convergencia casi segura. [14]
El teorema de convergencia dominada proporciona condiciones suficientes para que la convergencia sea casi segura, lo que implica una convergencia L 1 :
( 5 )
Una condición necesaria y suficiente para la convergencia L 1 es y la secuencia ( X n ) es uniformemente integrable .
Proceso estocástico continuo : la cuestión de la continuidad de un proceso estocástico es esencialmente una cuestión de convergencia, y muchos de los mismos conceptos y relaciones utilizados anteriormente se aplican a la cuestión de la continuidad.
^ Durrett, Rick (2010). Probabilidad: teoría y ejemplos . pág. 84.
^ van der Vaart 1998, Lema 2.2
^ Dudley 2002, Capítulo 9.2, página 287
^ Dudley 2002, pág. 289
^ abcdef van der Vaart 1998, Teorema 2.7
^ Gut, Allan (2005). Probabilidad: un curso de posgrado . Teorema 3.4: Springer. ISBN978-0-387-22833-4.{{cite book}}: CS1 maint: location (link)
^ Grimmett y Stirzaker 2020, pág. 354
^ van der Vaart 1998, Tesis 2.19
^ Fristedt y Gray 1997, Teorema 14.5
^ Chung, Kai-lai (2001). Un curso de teoría de la probabilidad . pág. 126.
^ "Pruebas de convergencia de variables aleatorias". Wikipedia . Consultado el 23 de septiembre de 2024 .
^ "Análisis real: generalización del lema de Scheffe utilizando solo la convergencia en probabilidad". Mathematics Stack Exchange . Consultado el 12 de marzo de 2022 .
Referencias
Bickel, Peter J.; Klaassen, Chris AJ; Ritov, Ya'acov; Wellner, Jon A. (1998). Estimación eficiente y adaptativa para modelos semiparamétricos . Nueva York: Springer-Verlag. ISBN978-0-387-98473-5.
Billingsley, Patrick (1986). Probabilidad y medida . Serie Wiley sobre probabilidad y estadística matemática (2.ª ed.). Wiley.
Billingsley, Patrick (1999). Convergencia de medidas de probabilidad (2.ª ed.). John Wiley & Sons. pp. 1–28. ISBN978-0-471-19745-4.
Dudley, RM (2002). Análisis real y probabilidad . Cambridge, Reino Unido: Cambridge University Press. ISBN978-0-521-80972-6.
Fristedt, Bert; Gray, Lawrence (1997). Un enfoque moderno de la teoría de la probabilidad . Nueva York: Springer Science+Business Media. doi :10.1007/978-1-4899-2837-5. ISBN978-1-4899-2837-5.
Grimmett, GR; Stirzaker, DR (1992). Probabilidad y procesos aleatorios (2.ª ed.). Clarendon Press, Oxford. pp. 271–285. ISBN978-0-19-853665-9.
Jacobsen, M. (1992). Videregående Sandsynlighedsregning (Teoría de la probabilidad avanzada) (3ª ed.). HCØ-tryk, Copenhague. págs. 18-20. ISBN978-87-91180-71-2.