Mínimos cuadrados generalizados

Técnica de estimación estadística

En estadística , los mínimos cuadrados generalizados (GLS) son un método utilizado para estimar los parámetros desconocidos en un modelo de regresión lineal . Se utiliza cuando hay una cantidad distinta de cero de correlación entre los residuos en el modelo de regresión. Los GLS se emplean para mejorar la eficiencia estadística y reducir el riesgo de extraer inferencias erróneas, en comparación con los métodos de mínimos cuadrados convencionales y mínimos cuadrados ponderados . Fue descrito por primera vez por Alexander Aitken en 1935. [1]

Requiere el conocimiento de la matriz de covarianza de los residuos. Si no se conoce, la estimación de la matriz de covarianza proporciona el método de mínimos cuadrados generalizados factibles (FGLS). Sin embargo, FGLS ofrece menos garantías de mejora.

Método

En los modelos de regresión lineal estándar , se observan datos en n unidades estadísticas con k  − 1 valores predictores y un valor de respuesta cada uno. { y i , x i j } i = 1 , , n , j = 2 , , k {\displaystyle \{y_{i},x_{ij}\}_{i=1,\dots ,n,j=2,\dots ,k}}

Los valores de respuesta se colocan en un vector y los valores predictores se colocan en la matriz de diseño , donde cada fila es un vector de las variables predictoras (incluida una constante) para el punto de datos. y ( y 1 y n ) , {\displaystyle \mathbf {y} \equiv {\begin{pmatrix}y_{1}\\\vdots \\y_{n}\end{pmatrix}},} X ( 1 x 12 x 13 x 1 k 1 x 22 x 23 x 2 k 1 x n 2 x n 3 x n k ) , {\displaystyle \mathbf {X} \equiv {\begin{pmatrix}1&x_{12}&x_{13}&\cdots &x_{1k}\\1&x_{22}&x_{23}&\cdots &x_{2k}\\\vdots &\vdots &\vdots &\ddots &\vdots \\1&x_{n2}&x_{n3}&\cdots &x_{nk}\end{pmatrix}},} k {\displaystyle k} i {\displaystyle i}

El modelo supone que la media condicional de dado es una función lineal de y que la varianza condicional del término de error dado es una matriz de covarianza no singular conocida , . Es decir, donde es un vector de constantes desconocidas, llamadas "coeficientes de regresión", que se estiman a partir de los datos. y {\displaystyle \mathbf {y} } X {\displaystyle \mathbf {X} } X {\displaystyle \mathbf {X} } X {\displaystyle \mathbf {X} } Ω {\displaystyle \mathbf {\Omega } } y = X β + ε , E [ ε X ] = 0 , Cov [ ε X ] = Ω , {\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\quad \operatorname {E} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]=0,\quad \operatorname {Cov} [{\boldsymbol {\varepsilon }}\mid \mathbf {X} ]={\boldsymbol {\Omega }},} β R k {\displaystyle {\boldsymbol {\beta }}\in \mathbb {R} ^{k}}

Si es una estimación candidata para , entonces el vector residual para es . El método de mínimos cuadrados generalizados estima minimizando la longitud de Mahalanobis al cuadrado de este vector residual: que es equivalente a que es un problema de programación cuadrática . El punto estacionario de la función objetivo ocurre cuando por lo que el estimador es La cantidad se conoce como matriz de precisión (o matriz de dispersión ), una generalización de la matriz de ponderación diagonal . b {\displaystyle \mathbf {b} } β {\displaystyle {\boldsymbol {\beta }}} b {\displaystyle \mathbf {b} } y X b {\displaystyle \mathbf {y} -\mathbf {X} \mathbf {b} } β {\displaystyle {\boldsymbol {\beta }}} β ^ = argmin b ( y X b ) T Ω 1 ( y X b ) = argmin b y T Ω 1 y + ( X b ) T Ω 1 X b y T Ω 1 X b ( X b ) T Ω 1 y , {\displaystyle {\begin{aligned}{\hat {\boldsymbol {\beta }}}&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} )\\&={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -\mathbf {y} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -(\mathbf {X} \mathbf {b} )^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} \,,\end{aligned}}} β ^ = argmin b y T Ω 1 y + b T X T Ω 1 X b 2 b T X T Ω 1 y , {\displaystyle {\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmin} }}\,\mathbf {y} ^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}\mathbf {y} +\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \mathbf {b} -2\mathbf {b} ^{\mathrm {T} }\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} ,} 2 X T Ω 1 X b 2 X T Ω 1 y = 0 , {\displaystyle 2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} {\mathbf {b} }-2\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} =0,} β ^ = ( X T Ω 1 X ) 1 X T Ω 1 y . {\displaystyle {\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathrm {T} }\mathbf {\Omega } ^{-1}\mathbf {y} .} Ω 1 {\displaystyle \mathbf {\Omega } ^{-1}}

Propiedades

El estimador GLS es insesgado , consistente , eficiente y asintóticamente normal , y GLS es equivalente a aplicar mínimos cuadrados ordinarios (MCO) a una versión transformada linealmente de los datos. Esto se puede ver al factorizar utilizando un método como la descomposición de Cholesky . Al multiplicar por la izquierda ambos lados de por se obtiene un modelo lineal equivalente: En este modelo, , donde es la matriz identidad . Luego, se puede estimar de manera eficiente al aplicar MCO a los datos transformados, lo que requiere minimizar el objetivo, Esta transformación estandariza de manera efectiva la escala de y descorrelaciona los errores. Cuando se utiliza MCO en datos con errores homocedásticos , se aplica el teorema de Gauss-Markov , por lo que la estimación GLS es el mejor estimador lineal insesgado para . E [ β ^ X ] = β , and Cov [ β ^ X ] = ( X T Ω 1 X ) 1 . {\displaystyle \operatorname {E} [{\hat {\boldsymbol {\beta }}}\mid \mathbf {X} ]={\boldsymbol {\beta }},\quad {\text{and}}\quad \operatorname {Cov} [{\hat {\boldsymbol {\beta }}}\mid \mathbf {X} ]=(\mathbf {X} ^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}\mathbf {X} )^{-1}.} Ω = C C T {\displaystyle \mathbf {\Omega } =\mathbf {C} \mathbf {C} ^{\mathrm {T} }} y = X β + ε {\displaystyle \mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}} C 1 {\displaystyle \mathbf {C} ^{-1}} y = X β + ε , where y = C 1 y , X = C 1 X , ε = C 1 ε . {\displaystyle \mathbf {y} ^{*}=\mathbf {X} ^{*}{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}^{*},\quad {\text{where}}\quad \mathbf {y} ^{*}=\mathbf {C} ^{-1}\mathbf {y} ,\quad \mathbf {X} ^{*}=\mathbf {C} ^{-1}\mathbf {X} ,\quad {\boldsymbol {\varepsilon }}^{*}=\mathbf {C} ^{-1}{\boldsymbol {\varepsilon }}.} Var [ ε X ] = C 1 Ω ( C 1 ) T = I {\displaystyle \operatorname {Var} [{\boldsymbol {\varepsilon }}^{*}\mid \mathbf {X} ]=\mathbf {C} ^{-1}\mathbf {\Omega } \left(\mathbf {C} ^{-1}\right)^{\mathrm {T} }=\mathbf {I} } I {\displaystyle \mathbf {I} } β {\displaystyle {\boldsymbol {\beta }}} ( y X β ) T ( y X β ) = ( y X b ) T Ω 1 ( y X b ) . {\displaystyle \left(\mathbf {y} ^{*}-\mathbf {X} ^{*}{\boldsymbol {\beta }}\right)^{\mathrm {T} }(\mathbf {y} ^{*}-\mathbf {X} ^{*}{\boldsymbol {\beta }})=(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }\,\mathbf {\Omega } ^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} ).} β {\displaystyle {\boldsymbol {\beta }}}

Mínimos cuadrados ponderados

Un caso especial de GLS, llamado mínimos cuadrados ponderados (WLS), ocurre cuando todas las entradas fuera de la diagonal de Ω son 0. Esta situación surge cuando las varianzas de los valores observados son desiguales o cuando hay heterocedasticidad , pero no existen correlaciones entre las varianzas observadas. El peso para la unidad i es proporcional al recíproco de la varianza de la respuesta para la unidad i . [2]

Derivación por estimación de máxima verosimilitud

Los mínimos cuadrados ordinarios se pueden interpretar como una estimación de máxima verosimilitud con la previa de que los errores son independientes y se distribuyen normalmente con media cero y varianza común. En GLS, la previa se generaliza al caso en que los errores pueden no ser independientes y pueden tener varianzas diferentes . Para parámetros de ajuste dados , se supone que la función de densidad de probabilidad condicional de los errores es: Por el teorema de Bayes , En GLS, se toma una previa uniforme (impropia) para , y como es una distribución marginal, no depende de . Por lo tanto, la probabilidad logarítmica es donde los términos ocultos son aquellos que no dependen de , y es la verosimilitud logarítmica . La estimación a posteriori máxima (MAP) es entonces la estimación de máxima verosimilitud (MLE), que es equivalente al problema de optimización anterior, b {\displaystyle \mathbf {b} } p ( ε | b ) = 1 ( 2 π ) n det Ω exp ( 1 2 ε T Ω 1 ε ) . {\displaystyle p({\boldsymbol {\varepsilon }}|\mathbf {b} )={\frac {1}{\sqrt {(2\pi )^{n}\det {\boldsymbol {\Omega }}}}}\exp \left(-{\frac {1}{2}}{\boldsymbol {\varepsilon }}^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}{\boldsymbol {\varepsilon }}\right).} p ( b | ε ) = p ( ε | b ) p ( b ) p ( ε ) . {\displaystyle p(\mathbf {b} |{\boldsymbol {\varepsilon }})={\frac {p({\boldsymbol {\varepsilon }}|\mathbf {b} )p(\mathbf {b} )}{p({\boldsymbol {\varepsilon }})}}.} p ( b ) {\displaystyle p(\mathbf {b} )} p ( ε ) {\displaystyle p({\boldsymbol {\varepsilon }})} b {\displaystyle \mathbf {b} } log p ( b | ε ) = log p ( ε | b ) + = 1 2 ε T Ω 1 ε + , {\displaystyle \log p(\mathbf {b} |{\boldsymbol {\varepsilon }})=\log p({\boldsymbol {\varepsilon }}|\mathbf {b} )+\cdots =-{\frac {1}{2}}{\boldsymbol {\varepsilon }}^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}{\boldsymbol {\varepsilon }}+\cdots ,} b {\displaystyle \mathbf {b} } log p ( ε | b ) {\displaystyle \log p({\boldsymbol {\varepsilon }}|\mathbf {b} )} β ^ = argmax b p ( b | ε ) = argmax b log p ( b | ε ) = argmax b log p ( ε | b ) , {\displaystyle {\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmax} }}\;p(\mathbf {b} |{\boldsymbol {\varepsilon }})={\underset {\mathbf {b} }{\operatorname {argmax} }}\;\log p(\mathbf {b} |{\boldsymbol {\varepsilon }})={\underset {\mathbf {b} }{\operatorname {argmax} }}\;\log p({\boldsymbol {\varepsilon }}|\mathbf {b} ),}

donde el problema de optimización ha sido reescrito utilizando el hecho de que el logaritmo es una función estrictamente creciente y la propiedad de que el argumento que resuelve un problema de optimización es independiente de los términos en la función objetivo que no involucran dichos términos. Sustituyendo por , y X b {\displaystyle \mathbf {y} -\mathbf {X} \mathbf {b} } ε {\displaystyle {\boldsymbol {\varepsilon }}} β ^ = argmin b 1 2 ( y X b ) T Ω 1 ( y X b ) . {\displaystyle {\hat {\boldsymbol {\beta }}}={\underset {\mathbf {b} }{\operatorname {argmin} }}\;{\frac {1}{2}}(\mathbf {y} -\mathbf {X} \mathbf {b} )^{\mathrm {T} }{\boldsymbol {\Omega }}^{-1}(\mathbf {y} -\mathbf {X} \mathbf {b} ).}

Mínimos cuadrados generalizados factibles

Si se desconoce la covarianza de los errores , se puede obtener una estimación consistente de , digamos , [3] utilizando una versión implementable de GLS conocida como el estimador de mínimos cuadrados generalizados factibles ( FGLS ). Ω {\displaystyle \Omega } Ω {\displaystyle \Omega } Ω ^ {\displaystyle {\widehat {\Omega }}}

En FGLS, el modelado se realiza en dos etapas:

  1. El modelo se estima mediante MCO u otro estimador consistente (pero ineficiente), y los residuos se utilizan para construir un estimador consistente de la matriz de covarianza de errores (para hacerlo, a menudo es necesario examinar el modelo agregando restricciones adicionales; por ejemplo, si los errores siguen un proceso de series de tiempo, un estadístico generalmente necesita algunas suposiciones teóricas sobre este proceso para garantizar que esté disponible un estimador consistente).
  2. Luego, utilizando el estimador consistente de la matriz de covarianza de los errores, se pueden implementar las ideas del GLS.

Mientras que el GLS es más eficiente que el MCO en condiciones de heterocedasticidad (también escrito heterocedasticidad) o autocorrelación , esto no es cierto para el FGLS. El estimador factible es asintóticamente más eficiente (siempre que la matriz de covarianza de errores se estime de manera consistente), pero para una muestra de tamaño pequeño a mediano, puede ser en realidad menos eficiente que el MCO. Es por esto que algunos autores prefieren usar MCO y reformular sus inferencias simplemente considerando un estimador alternativo para la varianza del estimador robusto a la heterocedasticidad o la autocorrelación serial. Sin embargo, para muestras grandes, se prefiere el FGLS sobre el MCO en condiciones de heterocedasticidad o correlación serial. [3] [4] Una nota de advertencia es que el estimador FGLS no siempre es consistente. Un caso en el que el FGLS puede ser inconsistente es si hay efectos fijos específicos del individuo. [5]

En general, este estimador tiene propiedades diferentes a las del GLS. Para muestras grandes (es decir, asintóticamente), todas las propiedades son (en condiciones apropiadas) comunes con respecto al GLS, pero para muestras finitas, las propiedades de los estimadores del FGLS son desconocidas: varían drásticamente con cada modelo particular y, como regla general, sus distribuciones exactas no se pueden derivar analíticamente. Para muestras finitas, el FGLS puede ser menos eficiente que el MCO en algunos casos. Por lo tanto, si bien el GLS puede hacerse factible, no siempre es prudente aplicar este método cuando la muestra es pequeña. Un método utilizado para mejorar la precisión de los estimadores en muestras finitas es iterar; es decir, tomar los residuos del FGLS para actualizar el estimador de covarianza de errores y luego actualizar la estimación del FGLS, aplicando la misma idea de manera iterativa hasta que los estimadores varíen menos que cierta tolerancia. Sin embargo, este método no necesariamente mejora mucho la eficiencia del estimador si la muestra original era pequeña.

Una opción razonable cuando las muestras no son demasiado grandes es aplicar MCO pero descartar el estimador de varianza clásico.

σ 2 ( X T X ) 1 {\displaystyle \sigma ^{2}*(X^{\operatorname {T} }X)^{-1}}

(lo cual es inconsistente en este marco) y en su lugar utilizar un estimador HAC (Heteroscedasticity and Autocorrelation Consistent). En el contexto de la autocorrelación, se puede utilizar el estimador Newey-West , y en contextos heterocedásticos, se puede utilizar en su lugar el estimador Eicker-White . Este enfoque es mucho más seguro y es el camino apropiado a seguir a menos que la muestra sea grande, donde "grande" es a veces un tema resbaladizo (por ejemplo, si la distribución de error es asimétrica, la muestra requerida será mucho más grande).

El estimador de mínimos cuadrados ordinarios (MCO) se calcula mediante:

β ^ OLS = ( X T X ) 1 X T y {\displaystyle {\widehat {\beta }}_{\text{OLS}}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y}

y se construyen estimaciones de los residuos . u ^ j = ( Y X β ^ OLS ) j {\displaystyle {\widehat {u}}_{j}=(Y-X{\widehat {\beta }}_{\text{OLS}})_{j}}

Para simplificar, considere el modelo para errores heterocedásticos y no autocorrelacionados. Suponga que la matriz de varianza-covarianza del vector de error es diagonal o, equivalentemente, que los errores de observaciones distintas no están correlacionados. Entonces, cada entrada diagonal puede estimarse mediante los residuos ajustados, por lo que puede construirse mediante: Ω {\displaystyle \Omega } u ^ j {\displaystyle {\widehat {u}}_{j}} Ω ^ O L S {\displaystyle {\widehat {\Omega }}_{OLS}}

Ω ^ OLS = diag ( σ ^ 1 2 , σ ^ 2 2 , , σ ^ n 2 ) . {\displaystyle {\widehat {\Omega }}_{\text{OLS}}=\operatorname {diag} ({\widehat {\sigma }}_{1}^{2},{\widehat {\sigma }}_{2}^{2},\dots ,{\widehat {\sigma }}_{n}^{2}).}

Es importante notar que los residuos al cuadrado no pueden utilizarse en la expresión anterior, sino que se necesita un estimador de las varianzas de los errores. Para ello, se puede utilizar un modelo de heterocedasticidad paramétrico o un estimador no paramétrico.

Estimar utilizando [4] mínimos cuadrados ponderados : β F G L S 1 {\displaystyle \beta _{FGLS1}} Ω ^ OLS {\displaystyle {\widehat {\Omega }}_{\text{OLS}}}

β ^ F G L S 1 = ( X T Ω ^ OLS 1 X ) 1 X T Ω ^ OLS 1 y {\displaystyle {\widehat {\beta }}_{FGLS1}=(X^{\operatorname {T} }{\widehat {\Omega }}_{\text{OLS}}^{-1}X)^{-1}X^{\operatorname {T} }{\widehat {\Omega }}_{\text{OLS}}^{-1}y}

El procedimiento puede iterarse. La primera iteración viene dada por:

u ^ F G L S 1 = Y X β ^ F G L S 1 {\displaystyle {\widehat {u}}_{FGLS1}=Y-X{\widehat {\beta }}_{FGLS1}}
Ω ^ F G L S 1 = diag ( σ ^ F G L S 1 , 1 2 , σ ^ F G L S 1 , 2 2 , , σ ^ F G L S 1 , n 2 ) {\displaystyle {\widehat {\Omega }}_{FGLS1}=\operatorname {diag} ({\widehat {\sigma }}_{FGLS1,1}^{2},{\widehat {\sigma }}_{FGLS1,2}^{2},\dots ,{\widehat {\sigma }}_{FGLS1,n}^{2})}
β ^ F G L S 2 = ( X T Ω ^ F G L S 1 1 X ) 1 X T Ω ^ F G L S 1 1 y {\displaystyle {\widehat {\beta }}_{FGLS2}=(X^{\operatorname {T} }{\widehat {\Omega }}_{FGLS1}^{-1}X)^{-1}X^{\operatorname {T} }{\widehat {\Omega }}_{FGLS1}^{-1}y}

Esta estimación se puede iterar hasta la convergencia. Ω ^ {\displaystyle {\widehat {\Omega }}}

En condiciones de regularidad, el estimador FGLS (o el estimador de sus iteraciones, si se realiza un número finito de iteraciones) se distribuye asintóticamente como:

n ( β ^ F G L S β )   d   N ( 0 , V ) {\displaystyle {\sqrt {n}}({\hat {\beta }}_{FGLS}-\beta )\ \xrightarrow {d} \ {\mathcal {N}}\!\left(0,\,V\right)}

¿Dónde está el tamaño de la muestra y? n {\displaystyle n}

V = p - l i m ( X T Ω 1 X / n ) {\displaystyle V=\operatorname {p-lim} (X^{\operatorname {T} }\Omega ^{-1}X/n)}

donde significa límite en probabilidad . p-lim {\displaystyle {\text{p-lim}}}

Véase también

Referencias

  1. ^ Aitken, AC (1935). "Sobre mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society de Edimburgo . 55 : 42–48. doi :10.1017/s0370164600014346.
  2. ^ Strutz, T. (2016). Ajuste de datos e incertidumbre (Una introducción práctica a los mínimos cuadrados ponderados y más allá) . Springer Vieweg. ISBN 978-3-658-11455-8., capítulo 3
  3. ^ ab Baltagi, BH (2008). Econometría (4ª ed.). Nueva York: Springer.
  4. ^ ab Greene, WH (2003). Análisis econométrico (5.ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
  5. ^ Hansen, Christian B. (2007). "Inferencia de mínimos cuadrados generalizados en modelos de panel y multinivel con correlación serial y efectos fijos". Journal of Econometrics . 140 (2): 670–694. doi :10.1016/j.jeconom.2006.07.011.

Lectura adicional

  • Amemiya, Takeshi (1985). "Teoría generalizada de mínimos cuadrados". Econometría avanzada . Harvard University Press. ISBN 0-674-00560-0.
  • Johnston, John (1972). "Mínimos cuadrados generalizados". Métodos econométricos (segunda edición). Nueva York: McGraw-Hill. págs. 208–242.
  • Kmenta, Jan (1986). "Modelo de regresión lineal generalizada y sus aplicaciones". Elements of Econometrics (segunda edición). Nueva York: Macmillan. págs. 607–650. ISBN 0-472-10886-7.
  • Beck, Nathaniel; Katz, Jonathan N. (septiembre de 1995). "Qué hacer (y no hacer) con datos de series temporales de corte transversal". American Political Science Review . 89 (3): 634–647. doi :10.2307/2082979. ISSN  1537-5943. JSTOR  2082979. S2CID  63222945.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Generalized_least_squares&oldid=1255213458"