Convergencia de medidas

Concepto matemático

En matemáticas , más específicamente en la teoría de la medida , existen varias nociones de convergencia de medidas . Para tener una idea general intuitiva de lo que se entiende por convergencia de medidas , considere una secuencia de medidas $μ n$ en un espacio, que comparten una colección común de conjuntos mensurables. Tal secuencia podría representar un intento de construir aproximaciones "cada vez mejores" a una medida deseada $μ$ que es difícil de obtener directamente. El significado de "cada vez mejor" está sujeto a todas las advertencias habituales para tomar límites ; para cualquier tolerancia de error $ε > 0,$ requerimos que haya $N$ suficientemente grande para que $n \geq N$ para asegurar que la "diferencia" entre $μ n$ y $μ$ sea menor que $ε$ . Varias nociones de convergencia especifican con precisión lo que la palabra "diferencia" debería significar en esa descripción; estas nociones no son equivalentes entre sí y varían en fuerza.

A continuación se describen tres de las nociones más comunes de convergencia.

Descripciones informales

Esta sección intenta proporcionar una descripción intuitiva aproximada de tres nociones de convergencia, utilizando terminología desarrollada en cursos de cálculo ; esta sección es necesariamente imprecisa e inexacta, y el lector debe consultar las aclaraciones formales en las secciones posteriores. En particular, las descripciones aquí no abordan la posibilidad de que la medida de algunos conjuntos pueda ser infinita, o que el espacio subyacente pueda exhibir un comportamiento patológico, y se necesitan suposiciones técnicas adicionales para algunas de las afirmaciones. Sin embargo, las afirmaciones en esta sección son todas correctas si $μ n$ es una secuencia de medidas de probabilidad en un espacio polaco .

Las diversas nociones de convergencia formalizan la afirmación de que el "valor promedio" de cada función "suficientemente buena" debe converger: $\int f\,d\mu _{n}\to \int f\,d\mu$

Para formalizar esto se requiere una especificación cuidadosa del conjunto de funciones bajo consideración y cuán uniforme debe ser la convergencia.

La noción de convergencia débil requiere que esta convergencia tenga lugar para cada función acotada continua $f$ . Esta noción trata la convergencia para diferentes funciones $f$ independientemente una de otra, es decir, diferentes funciones $f$ pueden requerir diferentes valores de $N \leq n$ para aproximarse igualmente bien (por lo tanto, la convergencia no es uniforme en $f$ ).

La noción de convergencia de conjuntos formaliza la afirmación de que la medida de cada conjunto medible debe converger: $\mu _{n}(A)\to \mu (A)$

Nuevamente, no se requiere uniformidad sobre el conjunto $A.$ Intuitivamente, considerando integrales de funciones 'buenas', esta noción proporciona más uniformidad que la convergencia débil. De hecho, al considerar secuencias de medidas con variación uniformemente acotada en un espacio polaco , la convergencia por conjuntos implica la convergencia para cualquier función medible acotada $f$ ^[^{cita requerida}^] . Como antes, esta convergencia no es uniforme en $f$ . ${\textstyle \int f\,d\mu _{n}\to \int f\,d\mu }$

La noción de convergencia de variación total formaliza la afirmación de que la medida de todos los conjuntos mensurables debe converger uniformemente , es decir, para cada $ε > 0$ existe $N$ tal que para cada $n$ $>$ $N$ y para cada conjunto medible $A$ . Como antes, esto implica convergencia de integrales contra funciones mensurables acotadas, pero esta vez la convergencia es uniforme para todas las funciones acotadas por cualquier constante fija. $|\mu _ {n}(A)-\mu (A)|<\varepsilon$

Convergencia de variación total de medidas

Esta es la noción más fuerte de convergencia que se muestra en esta página y se define de la siguiente manera. Sea un espacio medible . La distancia de variación total entre dos medidas (positivas) $μ$ y $ν$ está dada por $(X,{\mathcal {F}})$

\left\|\mu -\nu \right\|_{\text{TV}}=\sup _{f}\left\{\int _{X}f\,d\mu -\int _{X}f\,d\nu \right\}.

Aquí se toma el supremo sobre $f$ que abarca el conjunto de todas las funciones mensurables de $X$ a $[-1, 1]$ . Esto contrasta, por ejemplo, con la métrica de Wasserstein , donde la definición es de la misma forma, pero se toma el supremo sobre $f$ que abarca el conjunto de funciones mensurables de $X$ a $[-1, 1]$ que tienen constante de Lipschitz como máximo 1; y también en contraste con la métrica de Radon , donde se toma el supremo sobre $f$ que abarca el conjunto de funciones continuas de $X$ a $[-1, 1]$ . En el caso en que $X$ sea un espacio polaco , la métrica de variación total coincide con la métrica de Radon.

Si $μ$ y $ν$ son ambas medidas de probabilidad , entonces la distancia de variación total también está dada por

\left\|\mu -\nu \right\|_{\text{TV}}=2\cdot \sup _{A\in {\mathcal {F}}}|\mu (A)-\nu (A)|.

La equivalencia entre estas dos definiciones puede considerarse un caso particular de la dualidad Monge-Kantorovich . De las dos definiciones anteriores se desprende claramente que la distancia de variación total entre las medidas de probabilidad siempre está entre 0 y 2.

Para ilustrar el significado de la distancia de variación total, considere el siguiente experimento mental. Suponga que se nos dan dos medidas de probabilidad $μ$ y $ν$ , así como una variable aleatoria $X$ . Sabemos que $X$ tiene ley $μ$ o $ν$ pero no sabemos cuál de las dos. Suponga que estas dos medidas tienen probabilidades previas de 0,5 cada una de ser la verdadera ley de $X$ . Supongamos ahora que se nos da una sola muestra distribuida de acuerdo con la ley de $X$ y que luego se nos pide que adivinemos cuál de las dos distribuciones describe esa ley. La cantidad

{2+\|\mu -\nu \|_{\text{TV}} \sobre 4}

Luego proporciona un límite superior preciso para la probabilidad previa de que nuestra suposición sea correcta.

Dada la definición anterior de distancia de variación total, se dice que una secuencia $μ n$ de medidas definidas en el mismo espacio de medidas converge a una medida $μ$ en distancia de variación total si para cada $ε > 0$ , existe una $N$ tal que para todo $n > N$ , se tiene que ^[1]

\|\mu _ {n}-\mu \|_{\text{TV}}<\varepsilon .

Convergencia de medidas por conjuntos

Para un espacio medible , se dice que una secuencia $μ$ $n$ converge en forma de conjunto a un límite $μ$ si $(X,{\mathcal {F}})$

\lim _{n\to \infty }\mu _{n}(A)=\mu (A)

para cada conjunto . $A\in {\mathcal {F}}$

Las notaciones de flecha típicas son y . $\mu _{n}\xrightarrow {sw} \mu$ $\mu _{n}\xrightarrow {s} \mu$

Por ejemplo, como consecuencia del lema de Riemann-Lebesgue , la secuencia $μ n$ de medidas en el intervalo $[-1, 1]$ dada por $μ n (dx) = (1 + sin(nx)) dx$ converge en conjunto a la medida de Lebesgue, pero no converge en variación total.

En un contexto teórico o probabilístico de medición, la convergencia por conjuntos suele denominarse convergencia fuerte (en contraposición a convergencia débil). Esto puede generar cierta ambigüedad porque, en el análisis funcional, la convergencia fuerte suele referirse a la convergencia con respecto a una norma.

Débil convergencia de medidas

En matemáticas y estadística , la convergencia débil es uno de los muchos tipos de convergencia relacionados con la convergencia de medidas . Depende de una topología en el espacio subyacente y, por lo tanto, no es una noción puramente teórica de medidas.

Existen varias definiciones equivalentes de convergencia débil de una secuencia de medidas, algunas de las cuales son (aparentemente) más generales que otras. La equivalencia de estas condiciones se conoce a veces como el teorema de Portmanteau . ^[2]

Definición. Sea un espacio métrico con su álgebra de Borel . Se dice que una secuencia acotada de medidas de probabilidad positivas en converge débilmente a una medida de probabilidad (denotada ) si se cumple alguna de las siguientes condiciones equivalentes (aquí denota expectativa o norma con respecto a , mientras que denota expectativa o norma con respecto a ): ${\estilo de visualización S}$ ${\estilo de visualización \sigma}$ ${\estilo de visualización \Sigma}$ $P_{n}\,(n=1,2,\puntos )$ ${\estilo de visualización (S,\Sigma)}$ ${\estilo de visualización P}$ $P_{n}\Flecha derecha P$ $\operatorname {E} _{n}$ $Estilo de visualización L^{1}}$ $Estilo de visualización P_{n}$ $\nombre del operador {E}$ $Estilo de visualización L^{1}}$ ${\estilo de visualización P}$

$\nombre del operador {E} _{n}[f]\to \nombre del operador {E} [f]$ para todas las funciones continuas y acotadas ; ${\estilo de visualización f}$
$\nombre del operador {E} _{n}[f]\to \nombre del operador {E} [f]$ para todas las funciones acotadas y de Lipschitz ; ${\estilo de visualización f}$
$\limsup \operatorname {E} _ {n}[f]\leq \operatorname {E} [f]$ para cada función semicontinua superior acotada desde arriba; ${\estilo de visualización f}$
$\liminf \operatorname {E} _ {n}[f]\geq \operatorname {E} [f]$ para toda función semicontinua inferior acotada desde abajo; ${\estilo de visualización f}$
$\limsup P_{n}(C)\leq P(C)$ para todos los conjuntos cerrados de espacio ; ${\estilo de visualización C}$ ${\estilo de visualización S}$
$\liminf P_{n}(U)\geq P(U)$ para todos los conjuntos abiertos de espacio ; ${\estilo de visualización U}$ ${\estilo de visualización S}$
$\lim P_{n}(A)=P(A)$ para todos los conjuntos de continuidad de medida . ${\estilo de visualización A}$ ${\estilo de visualización P}$

En el caso de su topología habitual, si y denotan las funciones de distribución acumulativa de las medidas y , respectivamente, entonces converge débilmente a si y solo si para todos los puntos en los que es continua. $S\equiv \mathbf {R}$ $Estilo de visualización F_{n}$ $F$ $P_{n}$ $P$ $P_{n}$ $P$ $\lim _{n\to \infty }F_{n}(x)=F(x)$ $x\in \mathbf {R}$ $F$

Por ejemplo, la secuencia donde la medida de Dirac se encuentra en converge débilmente a la medida de Dirac ubicada en 0 (si las consideramos como medidas en con la topología habitual), pero no converge en conjunto. Esto es intuitivamente claro: solo sabemos que está "cerca" de debido a la topología de . $P_{n}$ $1/n$ $\mathbf {R}$ $1/n$ $0$ $\mathbf {R}$

Esta definición de convergencia débil se puede extender a cualquier espacio topológico metrizable . También define una topología débil en , el conjunto de todas las medidas de probabilidad definidas en . La topología débil se genera a partir de la siguiente base de conjuntos abiertos: $S$ ${\mathcal {P}}(S)$ $(S,\Sigma )$

\left\{\ U_{\varphi ,x,\delta }\ \left|\quad \varphi :S\to \mathbf {R} {\text{ is bounded and continuous, }}x\in \mathbf {R} {\text{ and }}\delta >0\ \right.\right\},

dónde

U_{\varphi ,x,\delta }:=\left\{\ \mu \in {\mathcal {P}}(S)\ \left|\quad \left|\int _{S}\varphi \,\mathrm {d} \mu -x\right|<\delta \ \right.\right\}.

Si también es separable , entonces es metrizable y separable, por ejemplo, mediante la métrica de Lévy-Prokhorov . Si también es compacto o polaco , entonces lo es . $S$ ${\mathcal {P}}(S)$ $S$ ${\mathcal {P}}(S)$

Si es separable, se integra naturalmente en el conjunto (cerrado) de medidas de Dirac , y su envoltura convexa es densa . $S$ ${\mathcal {P}}(S)$

Hay muchas "notaciones de flecha" para este tipo de convergencia: las más utilizadas son , , y . $P_{n}\Rightarrow P$ $P_{n}\rightharpoonup P$ $P_{n}\xrightarrow {w} P$ $P_{n}\xrightarrow {\mathcal {D}} P$

Convergencia débil de variables aleatorias

Sea un espacio de probabilidad y X un espacio métrico. Si X _n : Ω → X es una secuencia de variables aleatorias , entonces se dice que X _n converge débilmente (o en distribución o en ley ) a la variable aleatoria X : Ω → X cuando n → ∞ si la secuencia de medidas de empuje hacia adelante ( X _n ) _∗ ( P ) converge débilmente a X _∗ ( P ) en el sentido de convergencia débil de medidas en X , como se definió anteriormente. $(\Omega ,{\mathcal {F}},\mathbb {P} )$

Comparación con convergencia vaga

Sea un espacio métrico (por ejemplo o ). Los siguientes espacios de funciones de prueba se utilizan comúnmente en la convergencia de medidas de probabilidad. ^[3] $X$ $\mathbb {R}$ $[0,1]$

$C_{c}(X)$ la clase de funciones continuas que se desvanecen fuera de un conjunto compacto. $f$
$C_{0}(X)$ la clase de funciones continuas tales que $f$ $\lim _{|x|\rightarrow \infty }f(x)=0$
$C_{B}(X)$ la clase de funciones continuas acotadas

Tenemos . Además, es el cierre de con respecto a la convergencia uniforme. ^[3] $C_{c}\subset C_{0}\subset C_{B}\subset C$ $C_{0}$ $C_{c}$

Convergencia vaga

Una secuencia de medidas converge vagamente a una medida si para todo , . $\left(\mu _{n}\right)_{n\in \mathbb {N} }$ $\mu$ $f\in C_{c}(X)$ $\int _{X}f\,d\mu _{n}\rightarrow \int _{X}f\,d\mu$

Convergencia débil

Una secuencia de medidas converge débilmente a una medida si para todo , . $\left(\mu _{n}\right)_{n\in \mathbb {N} }$ $\mu$ $f\in C_{B}(X)$ $\int _{X}f\,d\mu _{n}\rightarrow \int _{X}f\,d\mu$

En general, estas dos nociones de convergencia no son equivalentes.

En un contexto de probabilidad, la convergencia vaga y la convergencia débil de las medidas de probabilidad son equivalentes suponiendo que la estrechez es . Es decir, una secuencia ajustada de medidas de probabilidad converge vagamente a una medida de probabilidad si y solo si converge débilmente a . $(\mu _{n})_{n\in \mathbb {N} }$ $\mu$ $(\mu _{n})_{n\in \mathbb {N} }$ $\mu$

El límite débil de una secuencia de medidas de probabilidad, siempre que exista, es una medida de probabilidad. En general, si no se supone que exista estrechez, una secuencia de medidas de probabilidad (o subprobabilidad) puede no necesariamente converger vagamente a una medida de probabilidad verdadera, sino más bien a una medida de subprobabilidad (una medida tal que ). ^[3] Por lo tanto, no se garantiza que una secuencia de medidas de probabilidad tal que donde no se especifica que sea una medida de probabilidad implique convergencia débil. $\mu (X)\leq 1$ $(\mu _{n})_{n\in \mathbb {N} }$ $\mu _{n}{\overset {v}{\to }}\mu$ $\mu$

Convergencia débil de medidas como ejemplo de convergencia débil*

A pesar de tener el mismo nombre que la convergencia débil en el contexto del análisis funcional, la convergencia débil de medidas es en realidad un ejemplo de convergencia débil-*. Las definiciones de convergencia débil y convergencia débil-* utilizadas en el análisis funcional son las siguientes:

Sea un espacio vectorial topológico o espacio de Banach. $V$

Una secuencia en converge débilmente a si como para todos . Se escribe como . $x_{n}$ $V$ $x$ $\varphi \left(x_{n}\right)\rightarrow \varphi (x)$ $n\to \infty$ $\varphi \in V^{*}$ $x_{n}\mathrel {\stackrel {w}{\rightarrow }} x$ $n\to \infty$
Una secuencia de converge en la topología débil-* a siempre que para todo . Es decir, la convergencia ocurre en el sentido puntual. En este caso, se escribe como . $\varphi _{n}\in V^{*}$ $\varphi$ $\varphi _{n}(x)\rightarrow \varphi (x)$ $x\in V$ $\varphi _{n}\mathrel {\stackrel {w^{*}}{\rightarrow }} \varphi$ $n\to \infty$

Para ilustrar cómo la convergencia débil de medidas es un ejemplo de convergencia débil-*, damos un ejemplo en términos de convergencia vaga (ver arriba). Sea un espacio de Hausdorff localmente compacto. Por el teorema de representación de Riesz , el espacio de medidas de Radon es isomorfo a un subespacio del espacio de funcionales lineales continuos en . Por lo tanto, para cada medida de Radon , existe un funcional lineal tal que para todo . Aplicando la definición de convergencia débil-* en términos de funcionales lineales, se obtiene la caracterización de convergencia vaga de medidas. Para compacto , , por lo que en este caso la convergencia débil de medidas es un caso especial de convergencia débil-*. $X$ $M(X)$ $C_{0}(X)$ $\mu _{n}\in M(X)$ $\varphi _{n}\in C_{0}(X)^{*}$ $\varphi _{n}(f)=\int _{X}f\,d\mu _{n}$ $f\in C_{0}(X)$ $X$ $C_{0}(X)=C_{B}(X)$

Véase también

Notas y referencias

^ Madras, Neil; Sezer, Deniz (25 de febrero de 2011). "Límites cuantitativos para la convergencia de cadenas de Markov: Wasserstein y distancias de variación total". Bernoulli . 16 (3): 882–908. arXiv : 1102.5245 . doi :10.3150/09-BEJ238. S2CID 88518773.
^ Klenke, Achim (2006). Teoría de la probabilidad . Springer-Verlag. ISBN 978-1-84800-047-6.
^ abc Chung, Kai Lai (1974). Un curso de teoría de la probabilidad. Internet Archive. Nueva York, Academic Press. pp. 84–99. ISBN 978-0-12-174151-8.

Lectura adicional

Ambrosio, L., Gigli, N. y Savaré, G. (2005). Flujos de gradiente en espacios métricos y en el espacio de medidas de probabilidad . Basilea: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7.{{cite book}}: CS1 maint: multiple names: authors list (link)
Billingsley, Patrick (1995). Probabilidad y medida . Nueva York, NY: John Wiley & Sons, Inc. ISBN 0-471-00710-2.
Billingsley, Patrick (1999). Convergencia de medidas de probabilidad . Nueva York, NY: John Wiley & Sons, Inc. ISBN 0-471-19745-9.

[1] Madras, Neil; Sezer, Deniz (25 de febrero de 2011). "Límites cuantitativos para la convergencia de cadenas de Markov: Wasserstein y distancias de variación total". Bernoulli . 16 (3): 882–908. arXiv : 1102.5245 . doi :10.3150/09-BEJ238. S2CID 88518773.

[2] Klenke, Achim (2006). Teoría de la probabilidad . Springer-Verlag. ISBN 978-1-84800-047-6.

[:0-3] Chung, Kai Lai (1974). Un curso de teoría de la probabilidad. Internet Archive. Nueva York, Academic Press. pp. 84–99. ISBN 978-0-12-174151-8.