En estadística y en particular en análisis de regresión , el apalancamiento es una medida de qué tan lejos están los valores de la variable independiente de una observación de los de las otras observaciones. Los puntos de alto apalancamiento , si los hay, son valores atípicos con respecto a las variables independientes . Es decir, los puntos de alto apalancamiento no tienen puntos vecinos en el espacio, donde es el número de variables independientes en un modelo de regresión. Esto hace que sea probable que el modelo ajustado pase cerca de una observación de alto apalancamiento. [1] Por lo tanto, los puntos de alto apalancamiento tienen el potencial de causar grandes cambios en las estimaciones de los parámetros cuando se eliminan, es decir, de ser puntos influyentes . Aunque un punto influyente normalmente tendrá un alto apalancamiento, un punto de alto apalancamiento no es necesariamente un punto influyente. El apalancamiento normalmente se define como los elementos diagonales de la matriz de sombrero .
Definición e interpretaciones
Consideremos el modelo de regresión lineal , . Es decir, , donde, es la matriz de diseño cuyas filas corresponden a las observaciones y cuyas columnas corresponden a las variables independientes o explicativas. El puntaje de apalancamiento para la observación independiente se da como:
, el elemento diagonal de la matriz de ortoproyección ( también conocida como matriz de sombrero) .
Por lo tanto, la puntuación de apalancamiento puede considerarse como la distancia "ponderada" entre la media de s (véase su relación con la distancia de Mahalanobis). También puede interpretarse como el grado en que el valor medido (dependiente) (es decir, ) influye en el valor ajustado (predicho) (es decir, ): matemáticamente,
.
Por lo tanto, el puntaje de apalancamiento también se conoce como autosensibilidad o autoinfluencia de la observación. [2] Usando el hecho de que (es decir, la predicción es una ortoproyección de sobre el espacio de rango de ) en la expresión anterior, obtenemos . Nótese que este apalancamiento depende de los valores de las variables explicativas de todas las observaciones pero no de ninguno de los valores de las variables dependientes .
Propiedades
El apalancamiento es un número entre 0 y 1. Demostración: Nótese que es una matriz idempotente ( ) y simétrica ( ). Por lo tanto, al usar el hecho de que , tenemos . Como sabemos que , tenemos .
La suma de los apalancamientos es igual al número de parámetros en (incluido el intercepto). Demostración: .
Determinación de valores atípicos en X mediante apalancamientos
Un apalancamiento alto corresponde a un valor extremo. Una regla común es identificar qué valor de apalancamiento es más de 2 veces mayor que el apalancamiento medio (ver propiedad 2 más arriba). Es decir, si , se considerará un valor atípico. Algunos estadísticos prefieren el umbral de en lugar de .
Relación con la distancia de Mahalanobis
El apalancamiento está estrechamente relacionado con la distancia de Mahalanobis (prueba [3] ). Específicamente, para alguna matriz , la distancia de Mahalanobis al cuadrado de (donde es la fila de ) desde el vector de media de longitud , es , donde es la matriz de covarianza estimada de . Esto está relacionado con el apalancamiento de la matriz de sombrero de después de agregarle un vector de columna de 1. La relación entre los dos es:
Esta relación nos permite descomponer el apalancamiento en componentes significativos para que algunas fuentes de alto apalancamiento puedan investigarse analíticamente. [4]
Relación con las funciones de influencia
En un contexto de regresión, combinamos las funciones de influencia y de apalancamiento para calcular el grado en que cambiarían los coeficientes estimados si elimináramos un único punto de datos. Al denotar los residuos de regresión como , se puede comparar el coeficiente estimado con el coeficiente estimado sin un punto de datos utilizando la fórmula [5] [6]
Young (2019) utiliza una versión de esta fórmula después de residualizar los controles. [7] Para obtener una idea de esta fórmula, tenga en cuenta que captura el potencial de una observación para afectar los parámetros de regresión y, por lo tanto, captura la influencia real de las desviaciones de esa observación con respecto a su valor ajustado en los parámetros de regresión. Luego, la fórmula se divide por para tener en cuenta el hecho de que eliminamos la observación en lugar de ajustar su valor, lo que refleja el hecho de que la eliminación cambia más la distribución de covariables cuando se aplica a observaciones de alto apalancamiento (es decir, con valores de covariables atípicos). Surgen fórmulas similares cuando se aplican fórmulas generales para funciones de influencia estadística en el contexto de la regresión. [8] [9]
En otras palabras, el puntaje de apalancamiento de una observación determina el grado de ruido en la predicción errónea del modelo de esa observación, y un mayor apalancamiento genera menos ruido. Esto se desprende del hecho de que es idempotente y simétrico y , por lo tanto, .
El residuo estudentizado correspondiente —el residuo ajustado por su varianza residual estimada específica de la observación— es entonces
donde es una estimación apropiada de .
Apalancamiento parcial
El apalancamiento parcial ( PL ) es una medida de la contribución de las variables independientes individuales al apalancamiento total de cada observación. Es decir, el PL es una medida de cómo cambia a medida que se agrega una variable al modelo de regresión. Se calcula como:
donde es el índice de la variable independiente, es el índice de la observación y son los residuos de la regresión contra las variables independientes restantes. Tenga en cuenta que el apalancamiento parcial es el apalancamiento del punto en el gráfico de regresión parcial para la variable. Los puntos de datos con un apalancamiento parcial grande para una variable independiente pueden ejercer una influencia indebida en la selección de esa variable en los procedimientos de construcción de modelos de regresión automática.
Implementaciones de software
Muchos programas y paquetes de estadísticas, como R , Python , etc., incluyen implementaciones de Leverage.
^ Everitt, BS (2002). Diccionario de Estadística de Cambridge . Cambridge University Press. ISBN0-521-81099-X.
^ Cardinali, C. (junio de 2013). "Asimilación de datos: diagnóstico de la influencia de la observación en un sistema de asimilación de datos" (PDF) .
^ ¿ Demuestre la relación entre la distancia de Mahalanobis y el apalancamiento?
^ Kim, MG (2004). "Fuentes de alto apalancamiento en el modelo de regresión lineal (Journal of Applied Mathematics and Computing, vol. 16, 509-513)". arXiv : 2006.04024 [math.ST].
^ Miller, Rupert G. (septiembre de 1974). "An Unbalanced Jackknife". Anales de Estadística . 2 (5): 880–891. doi : 10.1214/aos/1176342811 . ISSN 0090-5364.
^ Young, Alwyn (2019). "Canalización de Fisher: pruebas de aleatorización y la insignificancia estadística de resultados experimentales aparentemente significativos". The Quarterly Journal of Economics . 134 (2): 567. doi : 10.1093/qje/qjy029 .
^ Chatterjee, Samprit; Hadi, Ali S. (agosto de 1986). "Observaciones influyentes, puntos de alto apalancamiento y valores atípicos en la regresión lineal". Ciencia estadística . 1 (3): 379–393. doi : 10.1214/ss/1177013622 . ISSN 0883-4237.
^ "Regresión - Funciones de influencia y MCO". Validación cruzada . Consultado el 6 de diciembre de 2020 .