En estadística , la suficiencia es una propiedad de una estadística calculada sobre un conjunto de datos de muestra en relación con un modelo paramétrico del conjunto de datos. Una estadística suficiente contiene toda la información que proporciona el conjunto de datos sobre los parámetros del modelo. Está estrechamente relacionada con los conceptos de estadística auxiliar , que no contiene información sobre los parámetros del modelo, y de estadística completa, que solo contiene información sobre los parámetros y ninguna información auxiliar.
Un concepto relacionado es el de suficiencia lineal , que es más débil que la suficiencia pero se puede aplicar en algunos casos donde no hay una estadística suficiente, aunque está restringido a estimadores lineales. [1] La función de estructura de Kolmogorov trata con datos finitos individuales; la noción relacionada allí es la estadística suficiente algorítmica.
El concepto se debe a Sir Ronald Fisher en 1920. [2] Stephen Stigler señaló en 1973 que el concepto de suficiencia había caído en desuso en las estadísticas descriptivas debido a la fuerte dependencia de un supuesto de la forma distributiva (véase el teorema de Pitman-Koopman-Darmois a continuación), pero seguía siendo muy importante en el trabajo teórico. [3]
Fondo
En términos generales, dado un conjunto de datos independientes distribuidos de manera idéntica y condicionados a un parámetro desconocido , una estadística suficiente es una función cuyo valor contiene toda la información necesaria para calcular cualquier estimación del parámetro (por ejemplo, una estimación de máxima verosimilitud ). Debido al teorema de factorización (ver más abajo), para una estadística suficiente , la densidad de probabilidad se puede escribir como . A partir de esta factorización, se puede ver fácilmente que la estimación de máxima verosimilitud de interactuará con solo a través de . Normalmente, la estadística suficiente es una función simple de los datos, por ejemplo, la suma de todos los puntos de datos.
En términos más generales, el "parámetro desconocido" puede representar un vector de cantidades desconocidas o puede representar todo lo que se desconoce o no está completamente especificado en el modelo. En tal caso, la estadística suficiente puede ser un conjunto de funciones, denominada estadística suficiente conjunta . Normalmente, hay tantas funciones como parámetros. Por ejemplo, para una distribución gaussiana con media y varianza desconocidas , la estadística suficiente conjunta, a partir de la cual se pueden estimar las estimaciones de máxima verosimilitud de ambos parámetros, consta de dos funciones, la suma de todos los puntos de datos y la suma de todos los puntos de datos al cuadrado (o, de manera equivalente, la media y la varianza de la muestra ).
En otras palabras, la distribución de probabilidad conjunta de los datos es condicionalmente independiente del parámetro dado el valor del estadístico suficiente para el parámetro . Tanto el estadístico como el parámetro subyacente pueden ser vectores.
Definición matemática
Una estadística t = T ( X ) es suficiente para el parámetro subyacente θ precisamente si la distribución de probabilidad condicional de los datos X , dada la estadística t = T ( X ), no depende del parámetro θ . [4]
Alternativamente, se puede decir que la estadística T ( X ) es suficiente para θ si, para todas las distribuciones previas en θ , la información mutua entre θ y T(X) es igual a la información mutua entre θ y X . [5] En otras palabras, la desigualdad de procesamiento de datos se convierte en una igualdad:
Ejemplo
Por ejemplo, la media de la muestra es suficiente para la media ( μ ) de una distribución normal con varianza conocida. Una vez que se conoce la media de la muestra, no se puede obtener más información sobre μ a partir de la muestra misma. Por otro lado, para una distribución arbitraria, la mediana no es suficiente para la media: incluso si se conoce la mediana de la muestra, conocer la muestra misma proporcionaría más información sobre la media de la población. Por ejemplo, si las observaciones que son menores que la mediana son solo ligeramente menores, pero las observaciones que exceden la mediana la exceden por una cantidad grande, entonces esto tendría una influencia en la inferencia sobre la media de la población.
Teorema de factorización de Fisher-Neyman
El teorema de factorización de Fisher o criterio de factorización proporciona una caracterización conveniente de una estadística suficiente. Si la función de densidad de probabilidad es ƒ θ ( x ), entonces T es suficiente para θ si y solo si se pueden encontrar funciones no negativas g y h tales que
es decir, la densidad ƒ se puede factorizar en un producto tal que un factor, h , no depende de θ y el otro factor, que sí depende de θ , depende de x solo a través de T ( x ). Halmos y Savage dieron una prueba general de esto [6] y el teorema a veces se conoce como el teorema de factorización de Halmos-Savage. [7] Las pruebas a continuación manejan casos especiales, pero se puede dar una prueba general alternativa en la misma línea. [8] En muchos casos simples, la función de densidad de probabilidad está completamente especificada por y , y (ver Ejemplos).
Es fácil ver que si F ( t ) es una función biunívoca y T es un estadístico suficiente, entonces F ( T ) es un estadístico suficiente. En particular, podemos multiplicar un estadístico suficiente por una constante distinta de cero y obtener otro estadístico suficiente.
Interpretación del principio de verosimilitud
Una implicación del teorema es que cuando se utiliza la inferencia basada en la probabilidad, dos conjuntos de datos que arrojan el mismo valor para la estadística suficiente T ( X ) siempre arrojarán las mismas inferencias sobre θ . Según el criterio de factorización, la dependencia de la probabilidad con respecto a θ solo se da en conjunción con T ( X ). Como esta es la misma en ambos casos, la dependencia con respecto a θ también será la misma, lo que dará lugar a inferencias idénticas.
Prueba
Debido a Hogg y Craig. [9] Sea , una muestra aleatoria de una distribución que tiene la función de densidad de probabilidad f ( x , θ ) para ι < θ < δ . Sea Y 1 = u 1 ( X 1 , X 2 , ..., X n ) un estadístico cuya función de densidad de probabilidad es g 1 ( y 1 ; θ ). Lo que queremos demostrar es que Y 1 = u 1 ( X 1 , X 2 , ..., X n ) es un estadístico suficiente para θ si y solo si, para alguna función H ,
Primero, supongamos que
Realizaremos la transformación y i = u i ( x 1 , x 2 , ..., x n ), para i = 1, ..., n , teniendo funciones inversas x i = w i ( y 1 , y 2 , ..., y n ), para i = 1, ..., n , y jacobiano . Por lo tanto,
El miembro de la izquierda es la función de densidad de probabilidad conjunta g ( y 1 , y 2 , ..., y n ; θ) de Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). En el miembro de la derecha, es la función de densidad de probabilidad de , por lo que es el cociente de y ; es decir, es la función de densidad de probabilidad condicional de dado .
Pero , y por lo tanto , se dio para no depender de . Dado que no se introdujo en la transformación y, en consecuencia, tampoco en el jacobiano , se sigue que no depende de y que es una estadística suficiente para .
Lo inverso se demuestra tomando:
donde no depende de porque depende solo de , que son independientes de cuando está condicionada por , una estadística suficiente por hipótesis. Ahora divida ambos miembros por el valor absoluto del jacobiano no nulo y reemplace por las funciones en . Esto da como resultado
donde es el jacobiano con reemplazado por su valor en términos de . El miembro de la izquierda es necesariamente la función de densidad de probabilidad conjunta de . Dado que , y por lo tanto , no depende de , entonces
es una función que no depende de .
Otra prueba
Una prueba más sencilla e ilustrativa es la siguiente, aunque se aplica sólo en el caso discreto.
Usamos la notación abreviada para denotar la densidad de probabilidad conjunta de por . Como es una función de , tenemos , siempre que y cero en caso contrario. Por lo tanto:
siendo la última igualdad verdadera según la definición de estadísticas suficientes. Por lo tanto, con y .
Por el contrario, si , tenemos
Con la primera igualdad por la definición de pdf para múltiples variables , la segunda por la observación anterior, la tercera por hipótesis y la cuarta porque la suma no ha terminado .
Sea la densidad de probabilidad condicional de un valor dado . Luego podemos derivar una expresión explícita para esto:
La primera igualdad se obtiene por definición de densidad de probabilidad condicional, la segunda por la observación anterior, la tercera por la igualdad demostrada anteriormente y la cuarta por simplificación. Esta expresión no depende de y, por lo tanto, es una estadística suficiente. [10]
Suficiencia mínima
Una estadística suficiente es mínimamente suficiente si puede representarse como una función de cualquier otra estadística suficiente. En otras palabras, S ( X ) es mínimamente suficiente si y solo si [11]
S ( X ) es suficiente, y
Si T ( X ) es suficiente, entonces existe una función f tal que S ( X ) = f ( T ( X )).
Intuitivamente, una estadística mínima suficiente captura de manera más eficiente toda la información posible sobre el parámetro θ .
Una caracterización útil de la suficiencia mínima es que cuando existe la densidad f θ , S ( X ) es mínimamente suficiente si y solo si [ cita necesaria ]
es independiente de θ : S ( x ) = S ( y )
Esto se desprende del teorema de factorización de Fisher expuesto anteriormente.
Bahadur (1954) demostró un caso en el que no existe una estadística mínima suficiente. [12] Sin embargo, en condiciones moderadas, siempre existe una estadística mínima suficiente. En particular, en el espacio euclidiano, estas condiciones siempre se cumplen si las variables aleatorias (asociadas con ) son todas discretas o todas continuas.
Si existe una estadística mínima suficiente, y este suele ser el caso, entonces toda estadística completa suficiente es necesariamente mínima suficiente [13] (nótese que esta afirmación no excluye un caso patológico en el que exista una estadística completa suficiente pero no haya una estadística mínima suficiente). Si bien es difícil encontrar casos en los que no exista una estadística mínima suficiente, no es tan difícil encontrar casos en los que no exista una estadística completa.
La colección de razones de verosimilitud para , es una estadística mínima suficiente si el espacio de parámetros es discreto .
Ejemplos
Distribución de Bernoulli
Si X 1 , ...., X n son variables aleatorias independientes distribuidas según Bernoulli con valor esperado p , entonces la suma T ( X ) = X 1 + ... + X n es una estadística suficiente para p (aquí 'éxito' corresponde a X i = 1 y 'fracaso' a X i = 0; por lo que T es el número total de éxitos)
Esto se ve considerando la distribución de probabilidad conjunta:
Como las observaciones son independientes, esto se puede escribir como
y, juntando potencias de p y 1 − p , se obtiene
que satisface el criterio de factorización, siendo h ( x ) = 1 simplemente una constante.
Nótese la característica crucial: el parámetro desconocido p interactúa con los datos x sólo a través de la estadística T ( x ) = Σ x i .
Si X 1 , ...., X n son independientes y están uniformemente distribuidas en el intervalo [0, θ ], entonces T ( X ) = max( X 1 , ..., X n ) es suficiente para θ — el máximo de la muestra es una estadística suficiente para el máximo de la población.
Para ver esto, considere la función de densidad de probabilidad conjunta de X ( X 1 ,..., X n ). Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales.
donde 1 { ... } es la función indicadora . Por lo tanto, la densidad toma la forma requerida por el teorema de factorización de Fisher-Neyman, donde h ( x ) = 1 {min{ x i }≥0} , y el resto de la expresión es una función de solo θ y T ( x ) = max{ x i }.
Si son independientes y se distribuyen uniformemente en el intervalo (donde y son parámetros desconocidos), entonces es una estadística bidimensional suficiente para .
Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir
La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando
Dado que no depende del parámetro y depende solo de la función
El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para .
Distribución de Poisson
Si X 1 , ...., X n son independientes y tienen una distribución de Poisson con parámetro λ , entonces la suma T ( X ) = X 1 + ... + X n es un estadístico suficiente para λ .
Para ver esto, considere la distribución de probabilidad conjunta:
Como las observaciones son independientes, esto se puede escribir como
que puede escribirse como
lo que demuestra que se cumple el criterio de factorización, donde h ( x ) es el recíproco del producto de los factoriales. Nótese que el parámetro λ interactúa con los datos solo a través de su suma T ( X ).
Distribución normal
Si son independientes y se distribuyen normalmente con valor esperado (un parámetro) y varianza finita conocida , entonces
es una estadística suficiente para
Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir
La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando
Dado que no depende del parámetro y depende solo de la función
El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para .
Si se desconoce y dado que , la probabilidad anterior se puede reescribir como
El teorema de factorización de Fisher-Neyman todavía se cumple e implica que es una estadística conjunta suficiente para .
Distribución exponencial
Si son independientes y se distribuyen exponencialmente con valor esperado θ (un parámetro positivo de valor real desconocido), entonces es una estadística suficiente para θ.
Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir
La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando
Dado que no depende del parámetro y depende solo de la función
El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para .
Distribución gamma
Si son independientes y se distribuyen como , donde y son parámetros desconocidos de una distribución Gamma , entonces es una estadística bidimensional suficiente para .
Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir
La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando
Dado que no depende del parámetro y depende solo de la función
El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para
Teorema de Rao-Blackwell
La suficiencia encuentra una aplicación útil en el teorema de Rao-Blackwell , que establece que si g ( X ) es cualquier tipo de estimador de θ , entonces típicamente la esperanza condicional de g ( X ) dada la estadística suficiente T ( X ) es un mejor estimador de θ (en el sentido de tener una varianza menor) , y nunca es peor. A veces uno puede construir muy fácilmente un estimador muy rudimentario g ( X ), y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.
Familia exponencial
Según el teorema de Pitman-Koopman-Darmois, entre las familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se está estimando, solo en las familias exponenciales hay un estadístico suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra. Intuitivamente, esto indica que las familias de distribuciones no exponenciales en la línea real requieren estadísticos no paramétricos para capturar completamente la información de los datos.
En términos menos concisos, supongamos que hay variables aleatorias reales independientes distribuidas de forma idéntica cuya distribución se sabe que está en alguna familia de distribuciones de probabilidad, parametrizada por , que satisface ciertas condiciones técnicas de regularidad, entonces esa familia es una familia exponencial si y solo si hay una estadística suficiente con valor n cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n . [14]
Este teorema muestra que la existencia de una estadística suficiente, de dimensión finita y con valores vectoriales reales, restringe drásticamente las posibles formas de una familia de distribuciones en la línea real .
Cuando los parámetros o las variables aleatorias ya no tienen valores reales, la situación es más compleja. [15]
Otros tipos de suficiencia
Suficiencia bayesiana
Una formulación alternativa de la condición de que un estadístico sea suficiente, establecida en un contexto bayesiano, involucra las distribuciones posteriores obtenidas utilizando el conjunto de datos completo y utilizando únicamente un estadístico. Por lo tanto, el requisito es que, para casi cada x ,
De manera más general, sin asumir un modelo paramétrico, podemos decir que la estadística T es suficientemente predictiva si
Resulta que esta "suficiencia bayesiana" es una consecuencia de la formulación anterior, [16] sin embargo no son directamente equivalentes en el caso de dimensión infinita. [17] Hay disponible una variedad de resultados teóricos para la suficiencia en un contexto bayesiano. [18]
Suficiencia lineal
Un concepto llamado "suficiencia lineal" se puede formular en un contexto bayesiano, [19] y de manera más general. [20] Primero defina el mejor predictor lineal de un vector Y basado en X como . Entonces una estadística lineal T ( x ) es linealmente suficiente [21] si
^ Dodge, Y. (2003) — entrada para suficiencia lineal
^ Fisher, RA (1922). "Sobre los fundamentos matemáticos de la estadística teórica". Philosophical Transactions of the Royal Society A . 222 (594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM 48.1280.02. JSTOR 91208.
^ Stigler, Stephen (diciembre de 1973). "Estudios en la historia de la probabilidad y la estadística. XXXII: Laplace, Fisher y el descubrimiento del concepto de suficiencia". Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR 2334992. MR 0326872.
^ Casella, George; Berger, Roger L. (2002). Inferencia estadística, 2.ª ed . Duxbury Press.
^ Portada, Thomas M. (2006). Elementos de la teoría de la información . Joy A. Thomas (2.ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. pág. 36. ISBN0-471-24195-4.OCLC 59879802 .
^ Halmos, PR; Savage, LJ (1949). "Aplicación del teorema de Radon-Nikodym a la teoría de estadísticas suficientes". Anales de estadística matemática . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN 0003-4851.
^ "Teorema de factorización - Enciclopedia de Matemáticas". encyclopediaofmath.org . Consultado el 7 de septiembre de 2022 .
^ Taraldsen, G. (2022). "El teorema de factorización para suficiencia". Preimpresión . doi :10.13140/RG.2.2.15068.87687.
^ Hogg, Robert V.; Craig, Allen T. (1995). Introducción a la estadística matemática . Prentice Hall. ISBN978-0-02-355722-4.
^ "El teorema de factorización de Fisher-Neyman".Página web en Connexions (cnx.org)
^ Dodge (2003) — entrada para estadísticas mínimas suficientes
^ Lehmann y Casella (1998), Teoría de la estimación puntual , 2.ª edición, Springer, pág. 37
^ Lehmann y Casella (1998), Teoría de la estimación puntual , 2.ª edición, Springer, página 42
^ Tikochinsky, Y.; Tishby, NZ; Levine, RD (1984-11-01). "Enfoque alternativo a la inferencia de máxima entropía". Physical Review A . 30 (5): 2638–2644. Bibcode :1984PhRvA..30.2638T. doi :10.1103/physreva.30.2638. ISSN 0556-2791.
^ Andersen, Erling Bernhard (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . 65 (331): 1248–1255. doi :10.1080/01621459.1970.10481160. ISSN 0162-1459.
^ Blackwell, D. ; Ramamoorthi, RV (1982). "Una estadística bayesiana pero no clásicamente suficiente". Anales de estadística . 10 (3): 1025–1026. doi : 10.1214/aos/1176345895 . MR 0663456. Zbl 0485.62004.
^ Nogales, AG; Oyola, JA; Pérez, P. (2000). "Sobre la independencia condicional y la relación entre suficiencia e invariancia desde el punto de vista bayesiano". Statistics & Probability Letters . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. MR 1731351. Zbl 0964.62003.
^ Goldstein, M.; O'Hagan, A. (1996). "Suficiencia lineal bayesiana y sistemas de evaluaciones posteriores de expertos". Revista de la Royal Statistical Society . Serie B. 58 (2): 301–316. JSTOR 2345978.
^ Godambe, VP (1966). "Un nuevo enfoque para el muestreo a partir de poblaciones finitas. II Distribución libre de suficiencia". Revista de la Royal Statistical Society . Serie B. 28 (2): 320–328. JSTOR 2984375.
^ Witting, T. (1987). "La propiedad lineal de Markov en la teoría de la credibilidad". Boletín ASTIN . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .