Teorema de Glivenko-Cantelli

Teoría de la probabilidad
El diagrama de la izquierda ilustra el teorema de Glivenko-Cantelli para distribuciones uniformes. El diagrama de la derecha ilustra el teorema de Donsker-Skorokhod-Kolmogorov.
El mismo diagrama para distribuciones normales

En la teoría de la probabilidad , el teorema de Glivenko-Cantelli (a veces denominado Teorema Fundamental de Estadística ), llamado así por Valery Ivanovich Glivenko y Francesco Paolo Cantelli , describe el comportamiento asintótico de la función de distribución empírica a medida que crece el número de observaciones independientes e idénticamente distribuidas . [1] Específicamente, la función de distribución empírica converge de manera uniforme a la función de distribución verdadera casi con seguridad .

La convergencia uniforme de medidas empíricas más generales se convierte en una propiedad importante de las clases de funciones o conjuntos de Glivenko-Cantelli . [2] Las clases de Glivenko-Cantelli surgen en la teoría de Vapnik-Chervonenkis , con aplicaciones en el aprendizaje automático . Se pueden encontrar aplicaciones en econometría haciendo uso de estimadores M.

Declaración

Supongamos que son variables aleatorias independientes e idénticamente distribuidas en con una función de distribución acumulativa común . La función de distribución empírica para se define por incógnita 1 , incógnita 2 , {\displaystyle X_{1},X_{2},\puntos} R {\displaystyle \mathbb {R}} F ( incógnita ) {\estilo de visualización F(x)} incógnita 1 , , incógnita norte {\displaystyle X_{1},\puntos ,X_{n}}

F norte ( incógnita ) = 1 norte i = 1 norte I [ incógnita i , ) ( incógnita ) = 1 norte   | {   i   incógnita i incógnita ,   1 i norte } | {\displaystyle F_{n}(x)={\frac {1}{n}}\sum _{i=1}^{n}I_{[X_{i},\infty )}(x)={\frac {1}{n}}\ {\bigl |}\left\{\ i\ \mid X_{i}\leq x,\ 1\leq i\leq n\right\}{\bigr |}}

donde es la función indicadora del conjunto Para cada (fijo) es una secuencia de variables aleatorias que convergen a casi con seguridad por la ley fuerte de los grandes números . Glivenko y Cantelli reforzaron este resultado al demostrar la convergencia uniforme de a I do {\displaystyle I_{C}}   do   . {\estilo de visualización \ C~.}   incógnita   , {\estilo de visualización \ x\ ,}   F norte ( incógnita )   {\displaystyle \ F_{n}(x)\ } F ( incógnita ) {\estilo de visualización F(x)}   F norte   {\displaystyle \ F_{n}\ }   F   . {\estilo de visualización \ F~.}

Teorema

" F norte F " = sorber incógnita R | F norte ( incógnita ) F ( incógnita ) | 0 {\displaystyle \|F_{n}-F\|_{\infty }=\sup _{x\in \mathbb {R}} {\bigl |}F_{n}(x)-F(x){\bigr |}\longrightarrow 0} casi con toda seguridad. [3] (p 265)

Este teorema se origina con Valery Glivenko [4] y Francesco Cantelli [ 5] en 1933.

Observaciones
  • Si es un proceso ergódico estacionario , entonces converge casi con seguridad a El teorema de Glivenko-Cantelli proporciona un modo de convergencia más fuerte que este en el caso iid .   incógnita norte   {\displaystyle \ X_{n}\ } F norte ( incógnita ) Estilo de visualización F_{n}(x)}   F ( incógnita ) = mi [ 1 incógnita 1 incógnita ]   . {\displaystyle \ F(x)=\nombredeloperador {\mathbb {E} } {\bigl [}1_{X_{1}\leq x}{\bigr ]}~.}
  • Un resultado de convergencia uniforme aún más fuerte para la función de distribución empírica está disponible en la forma de un tipo extendido de ley del logaritmo iterado . [3] (p 268) Véanse las propiedades asintóticas de la función de distribución empírica para este y otros resultados relacionados.

Prueba

Para simplificar, considere un caso de variable aleatoria continua . Fije de modo que para . Ahora, para todos existe tal que . incógnita {\estilo de visualización X} = incógnita 0 < incógnita 1 < < incógnita metro 1 < incógnita metro = {\displaystyle -\infty =x_{0}<x_{1}<\cdots <x_{m-1}<x_{m}=\infty } F ( incógnita yo ) F ( incógnita yo 1 ) = 1 metro {\displaystyle F(x_{j})-F(x_{j-1})={\frac {1}{m}}} yo = 1 , , metro {\displaystyle j=1,\puntos ,m} incógnita R {\displaystyle x\in \mathbb {R}} yo { 1 , , metro } {\displaystyle j\en \{1,\puntos ,m\}} incógnita [ incógnita yo 1 , incógnita yo ] {\displaystyle x\en [x_{j-1},x_{j}]}

F norte ( incógnita ) F ( incógnita ) F norte ( incógnita yo ) F ( incógnita yo 1 ) = F norte ( incógnita yo ) F ( incógnita yo ) + 1 metro , F norte ( incógnita ) F ( incógnita ) F norte ( incógnita yo 1 ) F ( incógnita yo ) = F norte ( incógnita yo 1 ) F ( incógnita yo 1 ) 1 metro . {\displaystyle {\begin{aligned}F_{n}(x)-F(x)&\leq F_{n}(x_{j})-F(x_{j-1})=F_{n}( x_{j})-F(x_{j})+{\frac {1}{m}},\\F_{n}(x)-F(x)&\geq F_{n}(x_{j) -1})-F(x_{j})=F_{n}(x_{j-1})-F(x_{j-1})-{\frac {1}{m}}.\end{ alineado}}}

Por lo tanto,

" F norte F " = sorber incógnita R | F norte ( incógnita ) F ( incógnita ) | máximo yo { 1 , , metro } | F norte ( incógnita yo ) F ( incógnita yo ) | + 1 metro . {\displaystyle \|F_{n}-F\|_{\infty }=\sup _{x\in \mathbb {R} }|F_{n}(x)-F(x)|\leq \max _{j\in \{1,\dots ,m\}}|F_{n}(x_{j})-F(x_{j})|+{\frac {1}{m}}.}

Dado que, por la ley fuerte de los grandes números, podemos garantizar que para cualquier número entero positivo y cualquier número entero tal que , podemos encontrar tal que para todo , tenemos . Combinado con el resultado anterior, esto implica además que , que es la definición de convergencia casi segura. máximo yo { 1 , , metro } | F norte ( incógnita yo ) F ( incógnita yo ) | 0  como {\textstyle \max _{j\in \{1,\dots ,m\}}|F_{n}(x_{j})-F(x_{j})|\to 0{\text{ como}}} mi {\textstyle \varepsilon} metro {\textstyle m} 1 / metro < mi {\textstyle 1/m<\varepsilon} norte {\textstyle N} norte norte {\displaystyle n\geq N} máximo yo { 1 , , metro } | F norte ( incógnita yo ) F ( incógnita yo ) | mi 1 / metro  como {\textstyle \max _{j\in \{1,\dots ,m\}}|F_{n}(x_{j})-F(x_{j})|\leq \varepsilon -1/m{\text{ como}}} " F norte F " mi  como {\textstyle \|F_{n}-F\|_{\infty }\leq \varepsilon {\text{ as}}}

Medidas empíricas

Se puede generalizar la función de distribución empírica reemplazando el conjunto por un conjunto arbitrario C de una clase de conjuntos para obtener una medida empírica indexada por conjuntos. ( , incógnita ] {\displaystyle (-\infty ,x]} do {\displaystyle {\mathcal {C}}} do do . {\displaystyle C\in {\mathcal {C}}.}

PAG norte ( do ) = 1 norte i = 1 norte I do ( incógnita i ) , do do {\displaystyle P_{n}(C)={\frac {1}{n}}\sum _{i=1}^{n}I_{C}(X_{i}),C\in {\mathcal {C}}}

¿Dónde está la función indicadora de cada conjunto ? I C ( x ) {\displaystyle I_{C}(x)} C {\displaystyle C}

Una generalización adicional es el mapa inducido por sobre funciones reales mensurables f , que se da por P n {\displaystyle P_{n}}

f P n f = S f d P n = 1 n i = 1 n f ( X i ) , f F . {\displaystyle f\mapsto P_{n}f=\int _{S}f\,dP_{n}={\frac {1}{n}}\sum _{i=1}^{n}f(X_{i}),f\in {\mathcal {F}}.}

Entonces se convierte en una propiedad importante de estas clases si la ley fuerte de los grandes números se cumple uniformemente en o . F {\displaystyle {\mathcal {F}}} C {\displaystyle {\mathcal {C}}}

Clase Glivenko-Cantelli

Consideremos un conjunto con un álgebra sigma de subconjuntos de Borel A y una medida de probabilidad para una clase de subconjuntos,   S   {\displaystyle \ {\mathcal {S}}\ }   P   . {\displaystyle \ \mathbb {P} ~.}

C { C : C  is measurable subset of  S } {\displaystyle {\mathcal {C}}\subset {\bigl \{}C:C{\text{ is measurable subset of }}{\mathcal {S}}{\bigr \}}}

y una clase de funciones

F { f : S R , f  is measurable   } {\displaystyle {\mathcal {F}}\subset {\bigl \{}f:{\mathcal {S}}\to \mathbb {R} ,f{\mbox{ is measurable}}\ {\bigr \}}}

definir variables aleatorias

P n P C = sup C C | P n ( C ) P ( C ) | {\displaystyle {\bigl \|}\mathbb {P} _{n}-\mathbb {P} {\bigr \|}_{\mathcal {C}}=\sup _{C\in {\mathcal {C}}}{\bigl |}\mathbb {P} _{n}(C)-\mathbb {P} (C){\bigr |}}
P n P F = sup f F | P n f P f | {\displaystyle {\bigl \|}\mathbb {P} _{n}-\mathbb {P} {\bigr \|}_{\mathcal {F}}=\sup _{f\in {\mathcal {F}}}{\bigl |}\mathbb {P} _{n}f-\mathbb {P} f{\bigr |}}

donde es la medida empírica, es el mapa correspondiente, y   P n ( C )   {\displaystyle \ \mathbb {P} _{n}(C)\ }   P n f   {\displaystyle \ \mathbb {P} _{n}f\ }

  P f = S f   d P   , {\displaystyle \ \mathbb {P} f=\int _{\mathcal {S}}f\ \mathrm {d} \mathbb {P} \ ,} suponiendo que exista.

Definiciones

  • Una clase se denomina clase Glivenko-Cantelli (o clase GC , o a veces clase GC fuerte ) con respecto a una medida de probabilidad P si   C   {\displaystyle \ {\mathcal {C}}\ }
  P n P C 0   {\displaystyle \ {\bigl \|}\mathbb {P} _{n}-\mathbb {P} {\bigr \|}_{\mathcal {C}}\to 0\ } casi seguro como   n   . {\displaystyle \ n\to \infty ~.}
  • Una clase es una clase Glivenko-Cantelli débil con respecto a P si, en cambio, satisface la condición más débil   C   {\displaystyle \ {\mathcal {C}}\ }
  P n P C 0   {\displaystyle \ {\bigl \|}\mathbb {P} _{n}-\mathbb {P} {\bigr \|}_{\mathcal {C}}\to 0\ } en probabilidad como   n   . {\displaystyle \ n\to \infty ~.}
  • Una clase se denomina clase universal Glivenko-Cantelli si es una clase GC con respecto a cualquier medida de probabilidad en . P {\displaystyle \mathbb {P} } ( S , A ) {\displaystyle ({\mathcal {S}},A)}
  • Una clase es una clase Glivenko-Cantelli uniforme débil si la convergencia ocurre uniformemente sobre todas las medidas de probabilidad en : Para cada , P {\displaystyle \mathbb {P} } ( S , A ) {\displaystyle ({\mathcal {S}},A)} ε > 0 {\displaystyle \varepsilon >0}
  sup P P ( S , A ) Pr ( P n P C > ε ) 0   {\displaystyle \ \sup _{\mathbb {P} \in \mathbb {P} ({\mathcal {S}},A)}\Pr \left({\bigl \|}\mathbb {P} _{n}-\mathbb {P} {\bigr \|}_{\mathcal {C}}>\varepsilon \right)\to 0\ } como   n   . {\displaystyle \ n\to \infty ~.}
  • Una clase es una clase Glivenko-Cantelli uniforme (fuerte) si satisface la condición más fuerte de que para cada , ε > 0 {\displaystyle \varepsilon >0}
  sup P P ( S , A ) Pr ( sup m n P m P C > ε ) 0   {\displaystyle \ \sup _{\mathbb {P} \in \mathbb {P} ({\mathcal {S}},A)}\Pr \left(\sup _{m\geq n}{\bigl \|}\mathbb {P} _{m}-\mathbb {P} {\bigr \|}_{\mathcal {C}}>\varepsilon \right)\to 0\ } como   n   . {\displaystyle \ n\to \infty ~.}

Las clases de funciones de Glivenko-Cantelli (así como sus formas uniformes y universales) se definen de manera similar, reemplazando todas las instancias de con . C {\displaystyle {\mathcal {C}}} F {\displaystyle {\mathcal {F}}}

Las versiones débiles y fuertes de las diversas propiedades de Glivenko-Cantelli suelen coincidir en determinadas condiciones de regularidad. La siguiente definición suele aparecer en tales condiciones de regularidad:

  • Una clase de funciones es Suslin admisible en imágenes si existe un espacio de Suslin y una sobreyección tales que la función es medible . F {\displaystyle {\mathcal {F}}} Ω {\displaystyle \Omega } T : Ω F {\displaystyle T:\Omega \rightarrow {\mathcal {F}}} ( x , y ) [ T ( y ) ] ( x ) {\displaystyle (x,y)\mapsto [T(y)](x)} X × Ω {\displaystyle {\mathcal {X}}\times \Omega }
  • Una clase de conjuntos mensurables es Suslin admisible en imágenes si la clase de funciones es Suslin admisible en imágenes, donde denota la función indicadora para el conjunto . C {\displaystyle {\mathcal {C}}} { 1 C C C } {\displaystyle \{\mathbf {1} _{C}\mid C\in {\mathcal {C}}\}} 1 C {\displaystyle \mathbf {1} _{C}} C {\displaystyle C}


Teoremas

Los dos teoremas siguientes proporcionan condiciones suficientes para que las versiones débil y fuerte de la propiedad de Glivenko-Cantelli sean equivalentes.

Teorema ( Talagrand , 1987) [6]

Sea una clase de funciones integrables y defina . Entonces las siguientes son equivalentes: F {\displaystyle {\mathcal {F}}} P {\displaystyle \mathbb {P} } F 0 = { f P f f F } {\displaystyle {\mathcal {F}}_{0}=\{f-\mathbb {P} f\mid f\in {\mathcal {F}}\}}
  • F {\displaystyle {\mathcal {F}}} es una clase débil de Glivenko-Cantelli y está dominada por una función integrable F 0 {\displaystyle {\mathcal {F}}_{0}}
  • F {\displaystyle {\mathcal {F}}} es una clase de Glivenko-Cantelli


Teorema ( Dudley , Giné y Zinn, 1991) [7]

Supongamos que una clase de función está acotada. Supongamos también que el conjunto es Suslin admisible en imágenes. Entonces es una clase Glivenko-Cantelli uniforme débil si y solo si es una clase Glivenko-Cantelli uniforme fuerte. F {\displaystyle {\mathcal {F}}} F 0 = { f inf f f F } {\displaystyle {\mathcal {F}}_{0}=\{f-\inf f\mid f\in {\mathcal {F}}\}} F {\displaystyle {\mathcal {F}}}

El siguiente teorema es fundamental para el aprendizaje estadístico de las tareas de clasificación binaria.

Teorema ( Vapnik y Chervonenkis , 1968) [8]

Bajo ciertas condiciones de consistencia, una clase universalmente medible de conjuntos es una clase Glivenko-Cantelli uniforme si y sólo si es una clase Vapnik-Chervonenkis .   C   {\displaystyle \ {\mathcal {C}}\ }

Existen diversas condiciones de consistencia para la equivalencia de clases uniformes de Glivenko-Cantelli y Vapnik-Chervonenkis. En particular, cualquiera de las siguientes condiciones para una clase es suficiente: [9] C {\displaystyle {\mathcal {C}}}

  • C {\displaystyle {\mathcal {C}}} Es una imagen admisible de Suslin.
  • C {\displaystyle {\mathcal {C}}} es universalmente separable : existe un subconjunto contable de tal que cada conjunto puede escribirse como el límite puntual de conjuntos en . C 0 {\displaystyle {\mathcal {C_{0}}}} C {\displaystyle {\mathcal {C}}} C C {\displaystyle C\in {\mathcal {C}}} C 0 {\displaystyle {\mathcal {C}}_{0}}

Ejemplos

  • Sea y . El teorema clásico de Glivenko-Cantelli implica que esta clase es una clase GC universal. Además, por el teorema de Kolmogorov , S = R {\displaystyle S=\mathbb {R} } C = { ( , t ] : t R } {\displaystyle {\mathcal {C}}=\{(-\infty ,t]:t\in {\mathbb {R} }\}}
sup P P ( S , A ) P n P C n 1 / 2 {\displaystyle \sup _{P\in {\mathcal {P}}(S,A)}\|P_{n}-P\|_{\mathcal {C}}\sim n^{-1/2}} , es decir, es de clase uniforme Glivenko-Cantelli. C {\displaystyle {\mathcal {C}}}
  • Sea P una medida de probabilidad no atómica en S y una clase de todos los subconjuntos finitos en S . Como , , , tenemos que y por lo tanto no es una clase GC con respecto a P . C {\displaystyle {\mathcal {C}}} A n = { X 1 , , X n } C {\displaystyle A_{n}=\{X_{1},\ldots ,X_{n}\}\in {\mathcal {C}}} P ( A n ) = 0 {\displaystyle P(A_{n})=0} P n ( A n ) = 1 {\displaystyle P_{n}(A_{n})=1} P n P C = 1 {\displaystyle \|P_{n}-P\|_{\mathcal {C}}=1} C {\displaystyle {\mathcal {C}}}

Véase también

Referencias

  1. ^ Howard G. Tucker (1959). "Una generalización del teorema de Glivenko-Cantelli". Anales de estadística matemática . 30 (3): 828–830. doi : 10.1214/aoms/1177706212 . JSTOR  2237422.
  2. ^ van der Vaart, AW (1998). Estadísticas asintóticas . Prensa de la Universidad de Cambridge. pag. 279.ISBN 978-0-521-78450-4.
  3. ^ ab van der Vaart, AW (1998). Estadísticas asintóticas . Prensa de la Universidad de Cambridge. ISBN 978-0-521-78450-4.
  4. ^ Glivenko, V. (1933). "Sulla determinazione empirica delle leggi di probabilità". Giorn. Ist. Italiano. Attuari (en italiano). 4 : 92–99.
  5. ^ Cantelli, FP (1933). "Sulla determinazione empirica delle leggi di probabilità". Giorn. Ist. Italiano. Attuari . 4 : 421–424.
  6. ^ Talagrand, M. (1987). "El problema de Glivenko-Cantelli". Anales de probabilidad . 15 : 837–870. doi :10.1214/AOP/1176992069.
  7. ^ Dudley, Richard M. ; Giné, Eva; Zinn, Joel C. (1991). "Clases de Glivenko-Cantelli uniformes y universales". Journal of Theoretical Probability . 4 : 485–510. doi :10.1007/BF01210321.
  8. ^ Vapnik, VN ; Chervonenkis, A.Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos con sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264–280. doi :10.1137/1116025.
  9. ^ Pestov, Vladimir (2011). "Capacidad de aprendizaje de PAC versus dimensión VC: una nota al pie de un resultado básico del aprendizaje estadístico". Conferencia conjunta internacional de 2011 sobre redes neuronales . págs. 1141–1145. arXiv : 1104.2097 . doi :10.1109/IJCNN.2011.6033352.

Lectura adicional

Retrieved from "https://en.wikipedia.org/w/index.php?title=Glivenko–Cantelli_theorem&oldid=1219972505"