This article includes a list of general references, but it lacks sufficient corresponding inline citations. (July 2010) |
En estadística , el sesgo por omisión de variables ( OVB ) ocurre cuando un modelo estadístico omite una o más variables relevantes. El sesgo hace que el modelo atribuya el efecto de las variables faltantes a las que se incluyeron.
Más específicamente, el OVB es el sesgo que aparece en las estimaciones de parámetros en un análisis de regresión , cuando la especificación asumida es incorrecta porque omite una variable independiente que es determinante de la variable dependiente y está correlacionada con una o más de las variables independientes incluidas.
Supongamos que la verdadera relación de causa y efecto viene dada por:
con parámetros a, b, c , variable dependiente y , variables independientes x y z , y término de error u . Deseamos conocer el efecto de x en sí sobre y (es decir, deseamos obtener una estimación de b ).
Para que exista sesgo por variable omitida en la regresión lineal deben cumplirse dos condiciones :
Supongamos que omitimos z de la regresión y supongamos que la relación entre x y z está dada por
con parámetros d , f y término de error e . Sustituyendo la segunda ecuación en la primera se obtiene
Si se realiza una regresión de y sobre x solamente, esta última ecuación es la que se estima, y el coeficiente de regresión sobre x es en realidad una estimación de ( b + cf ), lo que no da simplemente una estimación del efecto directo deseado de x sobre y (que es b ), sino más bien de su suma con el efecto indirecto (el efecto f de x sobre z multiplicado por el efecto c de z sobre y ). Por lo tanto, al omitir la variable z de la regresión, hemos estimado la derivada total de y con respecto a x en lugar de su derivada parcial con respecto a x . Estas difieren si tanto c como f son distintos de cero.
La dirección y la extensión del sesgo están contenidas en cf , ya que el efecto buscado es b pero la regresión estima b+cf . La extensión del sesgo es el valor absoluto de cf , y la dirección del sesgo es hacia arriba (hacia un valor más positivo o menos negativo) si cf > 0 (si la dirección de correlación entre y y z es la misma que entre x y z ), y es hacia abajo en caso contrario.
Como ejemplo, considere un modelo lineal de la forma
dónde
Recopilamos las observaciones de todas las variables con subíndice i = 1, ..., n , y las apilamos una debajo de otra, para obtener la matriz X y los vectores Y , Z y U :
y
Si se omite la variable independiente z de la regresión, entonces los valores estimados de los parámetros de respuesta de las otras variables independientes se darán mediante el cálculo de mínimos cuadrados habitual,
(donde la notación "prima" significa la transposición de una matriz y el superíndice -1 es la inversión de la matriz ).
Sustituyendo Y con base en el modelo lineal asumido,
Al tomar las expectativas, la contribución del término final es cero; esto se deduce del supuesto de que U no está correlacionado con los regresores X. Al simplificar los términos restantes:
El segundo término después del signo igual es el sesgo de la variable omitida en este caso, que no es cero si la variable omitida z está correlacionada con cualquiera de las variables incluidas en la matriz X (es decir, si X′Z no es igual a un vector de ceros). Nótese que el sesgo es igual a la porción ponderada de z i que se "explica" por x i .
El teorema de Gauss-Markov establece que los modelos de regresión que cumplen con los supuestos del modelo de regresión lineal clásico proporcionan los estimadores más eficientes , lineales e insesgados . En los mínimos cuadrados ordinarios , el supuesto relevante del modelo de regresión lineal clásico es que el término de error no está correlacionado con los regresores.
La presencia de un sesgo por omisión de variables viola este supuesto en particular. La violación hace que el estimador MCO esté sesgado e inconsistente . La dirección del sesgo depende de los estimadores, así como de la covarianza entre los regresores y las variables omitidas. Una covarianza positiva de la variable omitida con un regresor y la variable dependiente hará que la estimación MCO del coeficiente del regresor incluido sea mayor que el valor real de ese coeficiente. Este efecto se puede ver tomando la expectativa del parámetro, como se muestra en la sección anterior.