Requiere el conocimiento de la matriz de covarianza de los residuos. Si no se conoce, la estimación de la matriz de covarianza proporciona el método de mínimos cuadrados generalizados factibles (FGLS). Sin embargo, FGLS ofrece menos garantías de mejora.
Los valores de respuesta se colocan en un vector
y los valores predictores se colocan en la matriz de diseño ,
donde cada fila es un vector de las variables predictoras (incluida una constante) para el punto de datos.
El modelo supone que la media condicional de dado es una función lineal de y que la varianza condicional del término de error dado es una matriz de covarianza no singular conocida , . Es decir,
donde es un vector de constantes desconocidas, llamadas "coeficientes de regresión", que se estiman a partir de los datos.
Si es una estimación candidata para , entonces el vector residual para es . El método de mínimos cuadrados generalizados estima minimizando la longitud de Mahalanobis al cuadrado de este vector residual: que es equivalente a que es un problema de programación cuadrática . El punto estacionario de la función objetivo ocurre cuando por lo que el estimador es La cantidad se conoce como matriz de precisión (o matriz de dispersión ), una generalización de la matriz de ponderación diagonal .
Propiedades
El estimador GLS es insesgado , consistente , eficiente y asintóticamente normal , y GLS es equivalente a aplicar mínimos cuadrados ordinarios (MCO) a una versión transformada linealmente de los datos. Esto se puede ver al factorizar utilizando un método como la descomposición de Cholesky . Al multiplicar por la izquierda ambos lados de por se obtiene un modelo lineal equivalente: En este modelo, , donde es la matriz identidad . Luego, se puede estimar de manera eficiente al aplicar MCO a los datos transformados, lo que requiere minimizar el objetivo,
Esta transformación estandariza de manera efectiva la escala de y descorrelaciona los errores. Cuando se utiliza MCO en datos con errores homocedásticos , se aplica el teorema de Gauss-Markov , por lo que la estimación GLS es el mejor estimador lineal insesgado para .
Mínimos cuadrados ponderados
Un caso especial de GLS, llamado mínimos cuadrados ponderados (WLS), ocurre cuando todas las entradas fuera de la diagonal de Ω son 0. Esta situación surge cuando las varianzas de los valores observados son desiguales o cuando hay heterocedasticidad , pero no existen correlaciones entre las varianzas observadas. El peso para la unidad i es proporcional al recíproco de la varianza de la respuesta para la unidad i . [2]
donde el problema de optimización ha sido reescrito utilizando el hecho de que el logaritmo es una función estrictamente creciente y la propiedad de que el argumento que resuelve un problema de optimización es independiente de los términos en la función objetivo que no involucran dichos términos. Sustituyendo por ,
Mínimos cuadrados generalizados factibles
Si se desconoce la covarianza de los errores , se puede obtener una estimación consistente de , digamos , [3] utilizando una versión implementable de GLS conocida como el estimador de mínimos cuadrados generalizados factibles ( FGLS ).
En FGLS, el modelado se realiza en dos etapas:
El modelo se estima mediante MCO u otro estimador consistente (pero ineficiente), y los residuos se utilizan para construir un estimador consistente de la matriz de covarianza de errores (para hacerlo, a menudo es necesario examinar el modelo agregando restricciones adicionales; por ejemplo, si los errores siguen un proceso de series de tiempo, un estadístico generalmente necesita algunas suposiciones teóricas sobre este proceso para garantizar que esté disponible un estimador consistente).
Luego, utilizando el estimador consistente de la matriz de covarianza de los errores, se pueden implementar las ideas del GLS.
Mientras que el GLS es más eficiente que el MCO en condiciones de heterocedasticidad (también escrito heterocedasticidad) o autocorrelación , esto no es cierto para el FGLS. El estimador factible es asintóticamente más eficiente (siempre que la matriz de covarianza de errores se estime de manera consistente), pero para una muestra de tamaño pequeño a mediano, puede ser en realidad menos eficiente que el MCO. Es por esto que algunos autores prefieren usar MCO y reformular sus inferencias simplemente considerando un estimador alternativo para la varianza del estimador robusto a la heterocedasticidad o la autocorrelación serial. Sin embargo, para muestras grandes, se prefiere el FGLS sobre el MCO en condiciones de heterocedasticidad o correlación serial. [3] [4] Una nota de advertencia es que el estimador FGLS no siempre es consistente. Un caso en el que el FGLS puede ser inconsistente es si hay efectos fijos específicos del individuo. [5]
En general, este estimador tiene propiedades diferentes a las del GLS. Para muestras grandes (es decir, asintóticamente), todas las propiedades son (en condiciones apropiadas) comunes con respecto al GLS, pero para muestras finitas, las propiedades de los estimadores del FGLS son desconocidas: varían drásticamente con cada modelo particular y, como regla general, sus distribuciones exactas no se pueden derivar analíticamente. Para muestras finitas, el FGLS puede ser menos eficiente que el MCO en algunos casos. Por lo tanto, si bien el GLS puede hacerse factible, no siempre es prudente aplicar este método cuando la muestra es pequeña. Un método utilizado para mejorar la precisión de los estimadores en muestras finitas es iterar; es decir, tomar los residuos del FGLS para actualizar el estimador de covarianza de errores y luego actualizar la estimación del FGLS, aplicando la misma idea de manera iterativa hasta que los estimadores varíen menos que cierta tolerancia. Sin embargo, este método no necesariamente mejora mucho la eficiencia del estimador si la muestra original era pequeña.
Una opción razonable cuando las muestras no son demasiado grandes es aplicar MCO pero descartar el estimador de varianza clásico.
(lo cual es inconsistente en este marco) y en su lugar utilizar un estimador HAC (Heteroscedasticity and Autocorrelation Consistent). En el contexto de la autocorrelación, se puede utilizar el estimador Newey-West , y en contextos heterocedásticos, se puede utilizar en su lugar el estimador Eicker-White . Este enfoque es mucho más seguro y es el camino apropiado a seguir a menos que la muestra sea grande, donde "grande" es a veces un tema resbaladizo (por ejemplo, si la distribución de error es asimétrica, la muestra requerida será mucho más grande).
Para simplificar, considere el modelo para errores heterocedásticos y no autocorrelacionados. Suponga que la matriz de varianza-covarianza del vector de error es diagonal o, equivalentemente, que los errores de observaciones distintas no están correlacionados. Entonces, cada entrada diagonal puede estimarse mediante los residuos ajustados, por lo que puede construirse mediante:
Es importante notar que los residuos al cuadrado no pueden utilizarse en la expresión anterior, sino que se necesita un estimador de las varianzas de los errores. Para ello, se puede utilizar un modelo de heterocedasticidad paramétrico o un estimador no paramétrico.
El procedimiento puede iterarse. La primera iteración viene dada por:
Esta estimación se puede iterar hasta la convergencia.
En condiciones de regularidad, el estimador FGLS (o el estimador de sus iteraciones, si se realiza un número finito de iteraciones) se distribuye asintóticamente como:
^ Aitken, AC (1935). "Sobre mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society de Edimburgo . 55 : 42–48. doi :10.1017/s0370164600014346.
^ Strutz, T. (2016). Ajuste de datos e incertidumbre (Una introducción práctica a los mínimos cuadrados ponderados y más allá) . Springer Vieweg. ISBN978-3-658-11455-8., capítulo 3
^ ab Baltagi, BH (2008). Econometría (4ª ed.). Nueva York: Springer.
^ ab Greene, WH (2003). Análisis econométrico (5.ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
^ Hansen, Christian B. (2007). "Inferencia de mínimos cuadrados generalizados en modelos de panel y multinivel con correlación serial y efectos fijos". Journal of Econometrics . 140 (2): 670–694. doi :10.1016/j.jeconom.2006.07.011.
Lectura adicional
Amemiya, Takeshi (1985). "Teoría generalizada de mínimos cuadrados". Econometría avanzada . Harvard University Press. ISBN0-674-00560-0.
Johnston, John (1972). "Mínimos cuadrados generalizados". Métodos econométricos (segunda edición). Nueva York: McGraw-Hill. págs. 208–242.
Kmenta, Jan (1986). "Modelo de regresión lineal generalizada y sus aplicaciones". Elements of Econometrics (segunda edición). Nueva York: Macmillan. págs. 607–650. ISBN0-472-10886-7.
Beck, Nathaniel; Katz, Jonathan N. (septiembre de 1995). "Qué hacer (y no hacer) con datos de series temporales de corte transversal". American Political Science Review . 89 (3): 634–647. doi :10.2307/2082979. ISSN 1537-5943. JSTOR 2082979. S2CID 63222945.