Estimador M

Clase de estimadores estadísticos

En estadística , los estimadores M son una amplia clase de estimadores de extremos para los cuales la función objetivo es un promedio de muestra. ^[1] Tanto los mínimos cuadrados no lineales como la estimación de máxima verosimilitud son casos especiales de estimadores M. La definición de estimadores M fue motivada por la estadística robusta , que contribuyó con nuevos tipos de estimadores M. ^{[ cita requerida ]} Sin embargo, los estimadores M no son inherentemente robustos, como queda claro por el hecho de que incluyen estimadores de máxima verosimilitud, que en general no son robustos. El procedimiento estadístico de evaluar un estimador M en un conjunto de datos se llama estimación M.

En términos más generales, un estimador M puede definirse como un cero de una función de estimación . ^[2]^[3]^[4]^[5]^[6]^[7] Esta función de estimación es a menudo la derivada de otra función estadística. Por ejemplo, una estimación de máxima verosimilitud es el punto donde la derivada de la función de verosimilitud con respecto al parámetro es cero; por lo tanto, un estimador de máxima verosimilitud es un punto crítico de la función de puntuación . ^[8] En muchas aplicaciones, estos estimadores M pueden considerarse como características de estimación de la población.

Motivación histórica

El método de mínimos cuadrados es un estimador M prototípico, ya que el estimador se define como un mínimo de la suma de los cuadrados de los residuos.

Otro estimador M popular es la estimación de máxima verosimilitud. Para una familia de funciones de densidad de probabilidad f parametrizadas por θ , se calcula un estimador de máxima verosimilitud de θ para cada conjunto de datos maximizando la función de verosimilitud en el espacio de parámetros { θ } . Cuando las observaciones son independientes y se distribuyen de manera idéntica, una estimación de máxima verosimilitud satisface ${\sombrero {\theta }}$

{\widehat {\theta }}=\arg \max _{\displaystyle \theta }{\left(\prod _{i=1}^{n}f(x_{i},\theta )\right)}\,\!

o, equivalentemente,

{\widehat {\theta }}=\arg \min _{\displaystyle \theta }{\left(\sum _{i=1}^{n}-\log {(f(x_{i},\theta ))}\right)}.\,\!

Los estimadores de máxima verosimilitud tienen propiedades óptimas en el límite de infinitas observaciones bajo condiciones bastante generales, pero pueden estar sesgados y no ser los estimadores más eficientes para muestras finitas.

Definición

En 1964, Peter J. Huber propuso generalizar la estimación de máxima verosimilitud a la minimización de

\sum _{i=1}^{n}\rho (x_{i},\theta ),\,\!

donde ρ es una función con ciertas propiedades (ver más abajo). Las soluciones

{\hat {\theta }}=\arg \min _{\displaystyle \theta }\left(\sum _{i=1}^{n}\rho (x_{i},\theta )\right)\,\!

se denominan estimadores M ("M" por "maximum probability-type" (Huber, 1981, página 43)); otros tipos de estimadores robustos incluyen estimadores L , estimadores R y estimadores S. Los estimadores de máxima verosimilitud (MLE) son, por tanto, un caso especial de estimadores M. Con un reescalado adecuado, los estimadores M son casos especiales de estimadores de extremos (en los que se pueden utilizar funciones más generales de las observaciones).

La función ρ, o su derivada, ψ, se puede elegir de tal manera que proporcione al estimador propiedades deseables (en términos de sesgo y eficiencia) cuando los datos realmente provienen de la distribución asumida, y un comportamiento "no malo" cuando los datos se generan a partir de un modelo que es, en cierto sentido, cercano a la distribución asumida.

Tipos

Los estimadores M son soluciones, θ , que minimizan

\sum _{i=1}^{n}\rho (x_{i},\theta ).\,\!

Esta minimización siempre se puede realizar directamente. A menudo es más sencillo derivar con respecto a θ y resolver la raíz de la derivada. Cuando esta derivación es posible, se dice que el estimador M es de tipo ψ . En caso contrario, se dice que el estimador M es de tipo ρ .

En la mayoría de los casos prácticos, los estimadores M son de tipo ψ.

tipo ρ

Para un entero positivo r , sean y espacios de medida. es un vector de parámetros. Un estimador M de tipo ρ se define mediante una función medible . Asigna una distribución de probabilidad al valor (si existe) que minimiza : $({\mathcal {X}},\Sigma )$ $(\Theta \subconjunto \mathbb {R} ^{r},S)$ $\theta \en \Theta$ ${\estilo de visualización T}$ $\rho :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R}$ ${\estilo de visualización F}$ ${\mathcal {X}}$ $T(F)\en \Theta$ $\int _{\mathcal {X}}\rho (x,\theta )dF(x)$

T(F):=\arg \min _{\theta \in \Theta }\int _{\mathcal {X}}\rho (x,\theta )dF(x)

Por ejemplo, para el estimador de máxima verosimilitud , , donde . $\rho(x,\theta)=-\log(f(x,\theta))$ $f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}$

tipo ψ

Si es diferenciable con respecto a , el cálculo de suele ser mucho más sencillo. Un estimador M de T de tipo ψ se define mediante una función medible . Asigna una distribución de probabilidad F al valor (si existe) que resuelve la ecuación vectorial: $\rho$ $\theta$ ${\widehat {\theta }}$ $\psi :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R} ^{r}$ ${\mathcal {X}}$ $T(F)\in \Theta$

\int _{\mathcal {X}}\psi (x,\theta )\,dF(x)=0

\int _{\mathcal {X}}\psi (x,T(F))\,dF(x)=0

Por ejemplo, para el estimador de máxima verosimilitud , , donde denota la transposición del vector u y . $\psi (x,\theta )=\left({\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{1}}},\dots ,{\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{p}}}\right)^{\mathrm {T} }$ $u^{\mathrm {T} }$ $f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}$

Un estimador de este tipo no es necesariamente un estimador M de tipo ρ, pero si ρ tiene una primera derivada continua con respecto a , entonces una condición necesaria para que un estimador M de tipo ψ sea un estimador M de tipo ρ es . Las definiciones anteriores se pueden extender fácilmente a muestras finitas. $\theta$ $\psi (x,\theta )=\nabla _{\theta }\rho (x,\theta )$

Si la función ψ disminuye hasta cero a medida que , el estimador se denomina redescendente . Estos estimadores tienen algunas propiedades adicionales deseables, como el rechazo total de valores atípicos importantes. $x\rightarrow \pm \infty$

Cálculo

Para muchas opciones de ρ o ψ, no existe una solución en forma cerrada y se requiere un enfoque iterativo para el cálculo. Es posible utilizar algoritmos de optimización de funciones estándar, como Newton-Raphson . Sin embargo, en la mayoría de los casos se puede realizar un algoritmo de ajuste de mínimos cuadrados reponderado iterativamente ; este suele ser el método preferido.

Para algunas opciones de ψ, en concreto, funciones redescendentes , la solución puede no ser única. La cuestión es especialmente relevante en problemas multivariados y de regresión. Por tanto, es necesario tener cuidado para garantizar que se elijan buenos puntos de partida. Son habituales los puntos de partida robustos , como la mediana como estimación de la ubicación y la desviación absoluta mediana como estimación univariante de la escala.

Parámetros de concentración

En el cálculo de estimadores M, a veces resulta útil reescribir la función objetivo de modo que se reduzca la dimensión de los parámetros. El procedimiento se denomina “concentración” o “perfilado”. Entre los ejemplos en los que la concentración de parámetros aumenta la velocidad de cálculo se incluyen los modelos de regresiones aparentemente no relacionadas (SUR). ^[9] Consideremos el siguiente problema de estimación M:

({\hat {\beta }}_{n},{\hat {\gamma }}_{n}):=\arg \max _{\beta ,\gamma }\textstyle \sum _{i=1}^{N}\displaystyle q(w_{i},\beta ,\gamma )

Suponiendo la diferenciabilidad de la función q , el estimador M resuelve las condiciones de primer orden:

\sum _{i=1}^{N}\triangledown _{\beta }\,q(w_{i},\beta ,\gamma )=0

\sum _{i=1}^{N}\triangledown _{\gamma }\,q(w_{i},\beta ,\gamma )=0

Ahora, si podemos resolver la segunda ecuación para γ en términos de y , la segunda ecuación se convierte en: $W:=(w_{1},w_{2},..,w_{N})$ $\beta$

\sum _{i=1}^{N}\triangledown _{\gamma }\,q(w_{i},\beta ,g(W,\beta ))=0

donde g es , hay alguna función que encontrar. Ahora, podemos reescribir la función objetivo original únicamente en términos de β insertando la función g en el lugar de . Como resultado, hay una reducción en el número de parámetros. $\gamma$

La posibilidad de llevar a cabo este procedimiento depende de los problemas particulares que se presenten. Sin embargo, cuando es posible, la concentración de parámetros puede facilitar en gran medida el cálculo. Por ejemplo, al estimar el modelo SUR de 6 ecuaciones con 5 variables explicativas en cada ecuación por Máxima Verosimilitud, el número de parámetros disminuye de 51 a 30. ^[9]

A pesar de su característica atractiva en el cálculo, la concentración de parámetros tiene una utilidad limitada para derivar propiedades asintóticas del estimador M. ^[10] La presencia de W en cada sumando de la función objetivo dificulta la aplicación de la ley de los grandes números y el teorema del límite central .

Propiedades

Distribución

Se puede demostrar que los estimadores M se distribuyen normalmente de forma asintótica. Por lo tanto, se pueden utilizar métodos de tipo Wald para construir intervalos de confianza y pruebas de hipótesis. Sin embargo, dado que la teoría es asintótica, con frecuencia será sensato comprobar la distribución, tal vez examinando la distribución de permutación o bootstrap .

Función de influencia

La función de influencia de un estimador M de tipo es proporcional a su función definitoria. $\psi$ $\psi$

Sea T un estimador M de tipo ψ y G una distribución de probabilidad para la cual se define . Su función de influencia IF es $T(G)$

\operatorname {IF} (x;T,G)=-{\frac {\psi (x,T(G))}{\int \left[{\frac {\partial \psi (y,\theta )}{\partial \theta }}\right]f(y)\mathrm {d} y}}

Suponiendo que existe la función de densidad , se puede encontrar una prueba de esta propiedad de los estimadores M en Huber (1981, Sección 3.2). $f(y)$

Aplicaciones

Se pueden construir estimadores M para parámetros de ubicación y parámetros de escala en entornos univariados y multivariados, además de usarse en regresión robusta.

Ejemplos

Significar

Sea ( X ₁ , ..., X _n ) un conjunto de variables aleatorias independientes, idénticamente distribuidas , con distribución F .

Si definimos

\rho (x,\theta )={\frac {(x-\theta )^{2}}{2}},\,\!

Observamos que esto se minimiza cuando θ es la media de las X. Por lo tanto, la media es un estimador M de tipo ρ, con esta función ρ.

Como esta función ρ es continuamente diferenciable en θ , la media es también un estimador M de tipo ψ para ψ( x , θ ) = θ − x .

Mediana

Para la estimación mediana de ( X ₁ , ..., X _n ), en cambio podemos definir la función ρ como

\rho (x,\theta )=|x-\theta |

y de manera similar, la función ρ se minimiza cuando θ es la mediana de las X s.

Si bien esta función ρ no es diferenciable en θ , el estimador M de tipo ψ, que es el subgradiente de la función ρ, se puede expresar como

\psi (x,\theta )=\operatorname {sgn}(x-\theta )

y

\psi (x,\theta )={\begin{cases}\{-1\},&{\mbox{if }}x-\theta <0\\\{1\},&{\mbox{if }}x-\theta >0\\\left[-1,1\right],&{\mbox{if }}x-\theta =0\end{cases}}

^{[ aclaración necesaria ]}

Condiciones suficientes para la consistencia estadística

Los estimadores M son consistentes bajo varios conjuntos de condiciones. Un conjunto típico de supuestos es que la clase de funciones satisface una ley uniforme de grandes números y que el máximo está bien separado. Específicamente, dado un objetivo empírico y poblacional , respectivamente, como : $M_{n},M:\Theta \rightarrow \mathbb {R}$ $n\rightarrow \infty$

$\sup _{\theta \in \Theta }|M_{n}(\theta )-M(\theta )|{\stackrel {p}{\rightarrow }}0$ y para cada : $\epsilon >0$ $\sup _{\theta :d(\theta ,\theta ^{*})\geq \epsilon }M(\theta )<M(\theta ^{*})$

donde es una función de distancia y es el óptimo, entonces la estimación M es consistente. ^[11] $d:\Theta \times \Theta \rightarrow \mathbb {R}$ $\theta ^{*}$

La restricción de convergencia uniforme no es necesariamente necesaria; un conjunto alternativo de supuestos es considerar en cambio la convergencia puntual ( en probabilidad ) de las funciones objetivo. Además, suponga que cada una de las tiene una derivada continua con exactamente un cero o tiene una derivada que no es decreciente y es asintóticamente de orden . Finalmente, suponga que el máximo está bien separado. Entonces la estimación M es consistente. ^[12] $M_{n}$ $o_{p}(1)$ $\theta ^{*}$

Véase también

Referencias

^ Hayashi, Fumio (2000). "Estimadores de extremos". Econometría . Princeton University Press. ISBN 0-691-01018-8.
^ Vidyadhar P. Godambe , editor. Estimating functions , volumen 7 de Oxford Statistical Science Series. The Clarendon Press, Oxford University Press, Nueva York, 1991.
^ Christopher C. Heyde. Cuasi-verosimilitud y su aplicación: un enfoque general para la estimación óptima de parámetros . Springer Series in Statistics. Springer-Verlag, Nueva York, 1997.
^ DL McLeish y Christopher G. Small. La teoría y las aplicaciones de las funciones de inferencia estadística , volumen 44 de Lecture Notes in Statistics. Springer-Verlag, Nueva York, 1988.
^ Parimal Mukhopadhyay. Introducción a la estimación de funciones . Alpha Science International, Ltd, 2004.
^ Christopher G. Small y Jinfang Wang. Métodos numéricos para ecuaciones de estimación no lineales , volumen 29 de Oxford Statistical Science Series. The Clarendon Press Oxford University Press, Nueva York, 2003.
^ Sara A. van de Geer . Procesos empíricos en estimación M: aplicaciones de la teoría de procesos empíricos, volumen 6 de Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, Cambridge, 2000.
^ Ferguson, Thomas S. (1982). "Una estimación de máxima verosimilitud inconsistente". Revista de la Asociación Estadounidense de Estadística . 77 (380): 831–834. doi :10.1080/01621459.1982.10477894. JSTOR 2287314.
^ ab Giles, DE (10 de julio de 2012). "Concentración o perfilado de la función de verosimilitud".
^ Wooldridge, JM (2001). Análisis econométrico de datos de sección transversal y de panel . Cambridge, Mass.: MIT Press. ISBN 0-262-23219-7.
^ Vaart AW van der. Estadísticas asintóticas. Prensa de la Universidad de Cambridge; 1998.
^ Vaart AW van der. Estadísticas asintóticas. Prensa de la Universidad de Cambridge; 1998.

Lectura adicional

Andersen, Robert (2008). Métodos modernos para la regresión robusta . Aplicaciones cuantitativas en las ciencias sociales. Vol. 152. Los Ángeles, CA: Sage Publications. ISBN 978-1-4129-4072-6.
Godambe, VP (1991). Estimación de funciones . Oxford Statistical Science Series. Vol. 7. Nueva York: Clarendon Press. ISBN 978-0-19-852228-7.
Heyde, Christopher C. (1997). Heyde, Christopher C (ed.). Cuasi-verosimilitud y su aplicación: un enfoque general para la estimación óptima de parámetros . Springer Series in Statistics. Nueva York: Springer. doi :10.1007/b98823. ISBN 978-0-387-98225-0.
Huber, Peter J. (2009). Estadísticas robustas (2.ª ed.). Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN 978-0-470-12990-6.
Hoaglin, David C.; Frederick Mosteller; John W. Tukey (1983). Entender el análisis de datos robusto y exploratorio . Hoboken, NJ: John Wiley & Sons Inc. ISBN 0-471-09777-2.
McLeish, DL; Christopher G. Small (1989). La teoría y las aplicaciones de las funciones de inferencia estadística . Apuntes de clase sobre estadística. Vol. 44. Nueva York: Springer. ISBN 978-0-387-96720-2.
Mukhopadhyay, Parimal (2004). Introducción a la estimación de funciones . Harrow, Reino Unido: Alpha Science International, Ltd. ISBN 978-1-84265-163-6.
Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007), "Sección 15.7. Estimación robusta", Recetas numéricas: el arte de la computación científica (3.ª ed.), Nueva York: Cambridge University Press, ISBN 978-0-521-88068-8
Serfling, Robert J. (2002). Teoremas de aproximación de las estadísticas matemáticas . Serie Wiley en probabilidad y estadística matemática. Hoboken, NJ: John Wiley & Sons Inc. ISBN 978-0-471-21927-9.
Shapiro, Alexander (2000). "Sobre la asintótica de estimadores M locales restringidos". Anales de Estadística . 28 (3): 948–960. CiteSeerX 10.1.1.69.2288 . doi :10.1214/aos/1015952006. JSTOR 2674061. MR 1792795.
Small, Christopher G.; Jinfang Wang (2003). Métodos numéricos para ecuaciones de estimación no lineales . Oxford Statistical Science Series. Vol. 29. Nueva York: Oxford University Press. ISBN 978-0-19-850688-1.
van de Geer, Sara A. (2000). Procesos empíricos en estimación M: aplicaciones de la teoría de procesos empíricos . Cambridge Series in Statistical and Probabilistic Mathematics. Vol. 6. Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-65002-1.
Wilcox, RR (2003). Aplicación de técnicas estadísticas contemporáneas . San Diego, CA: Academic Press. pp. 55–79.
Wilcox, RR (2012). Introducción a la estimación robusta y prueba de hipótesis, 3.ª edición . San Diego, CA: Academic Press.

Enlaces externos

Estimadores M: una introducción al tema por Zhengyou Zhang

[1] Hayashi, Fumio (2000). "Estimadores de extremos". Econometría . Princeton University Press. ISBN 0-691-01018-8.

[2] Vidyadhar P. Godambe , editor. Estimating functions , volumen 7 de Oxford Statistical Science Series. The Clarendon Press, Oxford University Press, Nueva York, 1991.

[3] Christopher C. Heyde. Cuasi-verosimilitud y su aplicación: un enfoque general para la estimación óptima de parámetros . Springer Series in Statistics. Springer-Verlag, Nueva York, 1997.

[4] DL McLeish y Christopher G. Small. La teoría y las aplicaciones de las funciones de inferencia estadística , volumen 44 de Lecture Notes in Statistics. Springer-Verlag, Nueva York, 1988.

[5] Parimal Mukhopadhyay. Introducción a la estimación de funciones . Alpha Science International, Ltd, 2004.

[6] Christopher G. Small y Jinfang Wang. Métodos numéricos para ecuaciones de estimación no lineales , volumen 29 de Oxford Statistical Science Series. The Clarendon Press Oxford University Press, Nueva York, 2003.

[7] Sara A. van de Geer . Procesos empíricos en estimación M: aplicaciones de la teoría de procesos empíricos, volumen 6 de Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, Cambridge, 2000.

[8] Ferguson, Thomas S. (1982). "Una estimación de máxima verosimilitud inconsistente". Revista de la Asociación Estadounidense de Estadística . 77 (380): 831–834. doi :10.1080/01621459.1982.10477894. JSTOR 2287314.

[Giles2012-9] Giles, DE (10 de julio de 2012). "Concentración o perfilado de la función de verosimilitud".

[10] Wooldridge, JM (2001). Análisis econométrico de datos de sección transversal y de panel . Cambridge, Mass.: MIT Press. ISBN 0-262-23219-7.

[11] Vaart AW van der. Estadísticas asintóticas. Prensa de la Universidad de Cambridge; 1998.

[12] Vaart AW van der. Estadísticas asintóticas. Prensa de la Universidad de Cambridge; 1998.