Dilución de regresión

Sesgo estadístico en regresiones lineales
Ilustración de la dilución de la regresión (o sesgo de atenuación) por un rango de estimaciones de regresión en modelos de errores en las variables . Dos líneas de regresión (rojas) limitan el rango de posibilidades de regresión lineal. La pendiente suave se obtiene cuando la variable independiente (o predictor) está en la abscisa (eje x). La pendiente más pronunciada se obtiene cuando la variable independiente está en la ordenada (eje y). Por convención, con la variable independiente en el eje x, se obtiene la pendiente más suave. Las líneas de referencia verdes son promedios dentro de contenedores arbitrarios a lo largo de cada eje. Nótese que las estimaciones de regresión verde y roja más pronunciadas son más consistentes con errores más pequeños en la variable del eje y.

La dilución de la regresión , también conocida como atenuación de la regresión , es el sesgo de la pendiente de la regresión lineal hacia cero (la subestimación de su valor absoluto), causado por errores en la variable independiente .

Considere ajustar una línea recta para la relación de una variable de resultado y con una variable predictora x y estimar la pendiente de la línea. La variabilidad estadística, el error de medición o el ruido aleatorio en la variable y causan incertidumbre en la pendiente estimada, pero no sesgo : en promedio, el procedimiento calcula la pendiente correcta. Sin embargo, la variabilidad, el error de medición o el ruido aleatorio en la variable x causan sesgo en la pendiente estimada (así como imprecisión). Cuanto mayor sea la varianza en la medición de x , más cerca debe estar la pendiente estimada de cero en lugar del valor verdadero.

Supongamos que los puntos de datos verdes y azules capturan los mismos datos, pero con errores (ya sea +1 o -1 en el eje x) para los puntos verdes. Minimizar el error en el eje y conduce a una pendiente menor para los puntos verdes, incluso si son solo una versión ruidosa de los mismos datos.

Puede parecer contra-intuitivo que el ruido en la variable predictora x induzca un sesgo, pero el ruido en la variable de resultado y no lo haga. Recordemos que la regresión lineal no es simétrica: la línea de mejor ajuste para predecir y a partir de x (la regresión lineal habitual) no es la misma que la línea de mejor ajuste para predecir x a partir de y . [1]

Corrección de pendiente

La pendiente de regresión y otros coeficientes de regresión se pueden desatenuar de la siguiente manera.

El caso de un fijoincógnitavariable

El caso en que x es fijo, pero medido con ruido, se conoce como modelo funcional o relación funcional . [2] Se puede corregir utilizando mínimos cuadrados totales [3] y modelos de errores en las variables en general.

El caso de una distribución aleatoriaincógnitavariable

El caso en el que la variable x surge de manera aleatoria se conoce como modelo estructural o relación estructural . Por ejemplo, en un estudio médico, se reclutan pacientes como muestra de una población y sus características, como la presión arterial, pueden considerarse como derivadas de una muestra aleatoria .

Bajo ciertas suposiciones (típicamente, suposiciones de distribución normal ) existe una relación conocida entre la pendiente verdadera y la pendiente estimada esperada. Frost y Thompson (2000) revisan varios métodos para estimar esta relación y, por lo tanto, corregir la pendiente estimada. [4] El término relación de dilución de regresión , aunque no está definido de la misma manera por todos los autores, se utiliza para este enfoque general, en el que se ajusta la regresión lineal habitual y luego se aplica una corrección. La respuesta a Frost y Thompson por Longford (2001) remite al lector a otros métodos, ampliando el modelo de regresión para reconocer la variabilidad en la variable x, de modo que no surja ningún sesgo. [5] Fuller (1987) es una de las referencias estándar para evaluar y corregir la dilución de la regresión. [6]

Hughes (1993) muestra que los métodos de razón de dilución de regresión se aplican aproximadamente en modelos de supervivencia. [7] Rosner (1992) muestra que los métodos de razón se aplican aproximadamente a modelos de regresión logística. [8] Carroll et al. (1995) brindan más detalles sobre la dilución de regresión en modelos no lineales, presentando los métodos de razón de dilución de regresión como el caso más simple de métodos de calibración de regresión , en el que también se pueden incorporar covariables adicionales. [9]

En general, los métodos para el modelo estructural requieren alguna estimación de la variabilidad de la variable x. Esto requerirá mediciones repetidas de la variable x en los mismos individuos, ya sea en un subestudio del conjunto de datos principal o en un conjunto de datos separado. Sin esta información no será posible hacer una corrección.

Múltipleincógnitavariables

El caso de múltiples variables predictoras sujetas a variabilidad (posiblemente correlacionadas ) ha sido bien estudiado para la regresión lineal y para algunos modelos de regresión no lineal. [6] [9] Otros modelos no lineales, como los modelos de riesgos proporcionales para el análisis de supervivencia , se han considerado solo con un único predictor sujeto a variabilidad. [7]

Corrección de correlación

Charles Spearman desarrolló en 1904 un procedimiento para corregir correlaciones por dilución de regresión, [10] es decir, para "eliminar un coeficiente de correlación del efecto debilitador del error de medición ". [11]

En medición y estadística , el procedimiento también se denomina desatenuación de correlación o desatenuación de correlación . [12] La corrección asegura que el coeficiente de correlación de Pearson entre unidades de datos (por ejemplo, personas) entre dos conjuntos de variables se estime de una manera que tenga en cuenta el error contenido en la medición de esas variables. [13]

Formulación

Sean y los valores verdaderos de dos atributos de alguna persona o unidad estadística . Estos valores son variables en virtud del supuesto de que difieren para diferentes unidades estadísticas en la población . Sean y estimaciones de y derivadas directamente por observación con error o de la aplicación de un modelo de medición, como el modelo de Rasch . Además, sea β {\estilo de visualización \beta} θ {\estilo de visualización \theta} β ^ {\displaystyle {\sombrero {\beta }}} θ ^ {\displaystyle {\sombrero {\theta }}} β {\estilo de visualización \beta} θ {\estilo de visualización \theta}

β ^ = β + o β , θ ^ = θ + o θ , {\displaystyle {\hat {\beta }}=\beta +\epsilon _{\beta },\quad \quad {\hat {\theta }}=\theta +\epsilon _{\theta },}

donde y son los errores de medición asociados con las estimaciones y . o β {\displaystyle \epsilon _ {\beta }} o θ {\displaystyle \epsilon _ {\theta }} β ^ {\displaystyle {\sombrero {\beta }}} θ ^ {\displaystyle {\sombrero {\theta }}}

La correlación estimada entre dos conjuntos de estimaciones es

corre ( β ^ , θ ^ ) = cubierta ( β ^ , θ ^ ) variedad [ β ^ ] variedad [ θ ^ ] {\displaystyle \operatorname {corr} ({\hat {\beta }},{\hat {\theta }})={\frac {\operatorname {cov} ({\hat {\beta }},{\hat {\theta }})}{{\sqrt {\operatorname {var} [{\hat {\beta }}]\operatorname {var} [{\hat {\theta }}}}]}}}
= cubierta ( β + o β , θ + o θ ) variedad [ β + o β ] variedad [ θ + o θ ] , {\displaystyle ={\frac {\operatorname {cov} (\beta +\epsilon _{\beta },\theta +\epsilon _{\theta })}{\sqrt {\operatorname {var} [\beta + \epsilon _{\beta }]\operatorname {var} [\theta +\epsilon _{\theta }]}}},}

lo cual, asumiendo que los errores no están correlacionados entre sí y con los valores verdaderos de los atributos, da

corre ( β ^ , θ ^ ) = cubierta ( β , θ ) ( variedad [ β ] + variedad [ o β ] ) ( variedad [ θ ] + variedad [ o θ ] ) {\displaystyle \operatorname {corr} ({\hat {\beta }},{\hat {\theta }})={\frac {\operatorname {cov} (\beta ,\theta )}{\sqrt {(\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }])(\operatorname {var} [\theta ]+\operatorname {var} [\epsilon _{\theta }])}}}}
= cov ( β , θ ) ( var [ β ] var [ θ ] ) . var [ β ] var [ θ ] ( var [ β ] + var [ ϵ β ] ) ( var [ θ ] + var [ ϵ θ ] ) {\displaystyle ={\frac {\operatorname {cov} (\beta ,\theta )}{\sqrt {(\operatorname {var} [\beta ]\operatorname {var} [\theta ])}}}.{\frac {\sqrt {\operatorname {var} [\beta ]\operatorname {var} [\theta ]}}{\sqrt {(\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }])(\operatorname {var} [\theta ]+\operatorname {var} [\epsilon _{\theta }])}}}}
= ρ R β R θ , {\displaystyle =\rho {\sqrt {R_{\beta }R_{\theta }}},}

donde es el índice de separación del conjunto de estimaciones de , que es análogo al alfa de Cronbach ; es decir, en términos de la teoría clásica de pruebas , es análogo a un coeficiente de fiabilidad. En concreto, el índice de separación se da de la siguiente manera: R β {\displaystyle R_{\beta }} β {\displaystyle \beta } R β {\displaystyle R_{\beta }}

R β = var [ β ] var [ β ] + var [ ϵ β ] = var [ β ^ ] var [ ϵ β ] var [ β ^ ] , {\displaystyle R_{\beta }={\frac {\operatorname {var} [\beta ]}{\operatorname {var} [\beta ]+\operatorname {var} [\epsilon _{\beta }]}}={\frac {\operatorname {var} [{\hat {\beta }}]-\operatorname {var} [\epsilon _{\beta }]}{\operatorname {var} [{\hat {\beta }}]}},}

donde el error estándar cuadrático medio de la estimación de la persona da una estimación de la varianza de los errores, . Los errores estándar se producen normalmente como un subproducto del proceso de estimación (véase estimación del modelo de Rasch ). ϵ β {\displaystyle \epsilon _{\beta }}

Por lo tanto, la estimación desatenuada de la correlación entre los dos conjuntos de estimaciones de parámetros es

ρ = corr ( β ^ , θ ^ ) R β R θ . {\displaystyle \rho ={\frac {{\mbox{corr}}({\hat {\beta }},{\hat {\theta }})}{\sqrt {R_{\beta }R_{\theta }}}}.}

Es decir, la estimación de correlación desatenuada se obtiene dividiendo la correlación entre las estimaciones por la media geométrica de los índices de separación de los dos conjuntos de estimaciones. Expresada en términos de la teoría clásica de pruebas, la correlación se divide por la media geométrica de los coeficientes de confiabilidad de dos pruebas.

Dadas dos variables aleatorias y medidas como y con correlación medida y una confiabilidad conocida para cada variable, y , la correlación estimada entre y corregida por atenuación es X {\displaystyle X^{\prime }} Y {\displaystyle Y^{\prime }} X {\displaystyle X} Y {\displaystyle Y} r x y {\displaystyle r_{xy}} r x x {\displaystyle r_{xx}} r y y {\displaystyle r_{yy}} X {\displaystyle X^{\prime }} Y {\displaystyle Y^{\prime }}

r x y = r x y r x x r y y {\displaystyle r_{x'y'}={\frac {r_{xy}}{\sqrt {r_{xx}r_{yy}}}}} .

La calidad con la que se miden las variables afecta la correlación de X e Y. La corrección por atenuación indica cuál es la correlación estimada que se espera si se pudiese medir X′ e Y′ con perfecta confiabilidad.

Por lo tanto, si y se toman como mediciones imperfectas de variables subyacentes y con errores independientes, entonces estima la correlación verdadera entre y . X {\displaystyle X} Y {\displaystyle Y} X {\displaystyle X'} Y {\displaystyle Y'} r x y {\displaystyle r_{x'y'}} X {\displaystyle X'} Y {\displaystyle Y'}

Aplicabilidad

En la inferencia estadística basada en coeficientes de regresión es necesaria una corrección por dilución de regresión . Sin embargo, en aplicaciones de modelado predictivo , la corrección no es necesaria ni apropiada. En la detección de cambios , la corrección es necesaria.

Para entender esto, considere el error de medición de la siguiente manera. Sea y la variable de resultado, x la verdadera variable predictora y w una observación aproximada de x . Frost y Thompson sugieren, por ejemplo, que x puede ser la presión arterial real a largo plazo de un paciente y w puede ser la presión arterial observada en una visita clínica particular. [4] La dilución de regresión surge si estamos interesados ​​en la relación entre y y x , pero estimamos la relación entre y y w . Debido a que w se mide con variabilidad, la pendiente de una línea de regresión de y sobre w es menor que la línea de regresión de y sobre x . Los métodos estándar pueden ajustar una regresión de y sobre w sin sesgo. Solo hay sesgo si luego usamos la regresión de y sobre w como una aproximación a la regresión de y sobre x. En el ejemplo, suponiendo que las mediciones de presión arterial son igualmente variables en futuros pacientes, nuestra línea de regresión de y sobre w (presión arterial observada) da predicciones no sesgadas.

Un ejemplo de una circunstancia en la que se desea una corrección es la predicción de un cambio. Supongamos que se conoce el cambio en x bajo alguna nueva circunstancia: para estimar el cambio probable en una variable de resultado y , se necesita la pendiente de la regresión de y sobre x , no y sobre w . Esto surge en epidemiología . Para continuar con el ejemplo en el que x denota la presión arterial, tal vez un ensayo clínico a gran escala haya proporcionado una estimación del cambio en la presión arterial bajo un nuevo tratamiento; entonces, el posible efecto sobre y , bajo el nuevo tratamiento, debería estimarse a partir de la pendiente en la regresión de y sobre x .

Otra circunstancia es la modelización predictiva en la que las observaciones futuras también son variables, pero no (en la frase utilizada anteriormente) "similarmente variables". Por ejemplo, si el conjunto de datos actual incluye la presión arterial medida con mayor precisión de lo que es habitual en la práctica clínica. Un ejemplo específico de esto surgió al desarrollar una ecuación de regresión basada en un ensayo clínico, en el que la presión arterial era el promedio de seis mediciones, para su uso en la práctica clínica, donde la presión arterial suele ser una única medición. [14]

Todos estos resultados se pueden demostrar matemáticamente, en el caso de una regresión lineal simple asumiendo distribuciones normales en todas partes (el marco de Frost y Thompson).

Se ha discutido que una corrección mal ejecutada para la dilución de la regresión, en particular cuando se realiza sin verificar los supuestos subyacentes, puede causar más daño a una estimación que ninguna corrección. [15]

Lectura adicional

Spearman (1904) mencionó por primera vez la dilución de la regresión bajo el nombre de atenuación . [16] Aquellos que busquen un tratamiento matemático legible podrían comenzar con Frost y Thompson (2000). [4]

Véase también

Referencias

  1. ^ Draper, NR; Smith, H. (1998). Análisis de regresión aplicada (3.ª ed.). John Wiley. pág. 19. ISBN 0-471-17082-8.
  2. ^ Riggs, DS; Guarnieri, JA; et al. (1978). "Ajuste de líneas rectas cuando ambas variables están sujetas a error". Ciencias de la vida . 22 (13–15): 1305–60. doi :10.1016/0024-3205(78)90098-x. PMID  661506.
  3. ^ Golub, Gene H.; van Loan, Charles F. (1980). "An Analysis of the Total Least Squares Problem" (Un análisis del problema de mínimos cuadrados totales). Revista SIAM sobre análisis numérico . 17 (6). Sociedad de Matemáticas Industriales y Aplicadas (SIAM): 883–893. doi :10.1137/0717073. hdl : 1813/6251 . ISSN  0036-1429.
  4. ^ abc Frost, C. y S. Thompson (2000). "Corrección del sesgo de dilución de la regresión: comparación de métodos para una única variable predictora". Journal of the Royal Statistical Society Series A 163: 173–190.
  5. ^ Longford, NT (2001). "Correspondencia". Revista de la Royal Statistical Society, Serie A. 164 ( 3): 565. doi : 10.1111/1467-985x.00219 . S2CID  : 247674444.
  6. ^ ab Fuller, WA (1987). Modelos de error de medición. Nueva York: Wiley. ISBN 9780470317334.
  7. ^ ab Hughes, MD (1993). "Dilución de regresión en el modelo de riesgos proporcionales". Biometrics . 49 (4): 1056–1066. doi :10.2307/2532247. JSTOR  2532247. PMID  8117900.
  8. ^ Rosner, B.; Spiegelman, D.; et al. (1992). "Corrección de estimaciones de riesgo relativo de regresión logística e intervalos de confianza para el error aleatorio de medición intrapersonal". American Journal of Epidemiology . 136 (11): 1400–1403. doi :10.1093/oxfordjournals.aje.a116453. PMID  1488967.
  9. ^ ab Carroll, RJ, Ruppert, D. y Stefanski, LA (1995). Error de medición en modelos no lineales. Nueva York, Wiley.
  10. ^ Spearman, C. (1904). "La prueba y la medición de la asociación entre dos cosas" (PDF) . The American Journal of Psychology . 15 (1). University of Illinois Press: 72–101. doi :10.2307/1412159. ISSN  0002-9556. JSTOR  1412159 . Consultado el 10 de julio de 2021 .
  11. ^ Jensen, AR (1998). El factor g: la ciencia de la capacidad mental . Evolución humana, comportamiento e inteligencia. Praeger. ISBN 978-0-275-96103-9.
  12. ^ Osborne, Jason W. (27 de mayo de 2003). "Tamaños del efecto y desatenuación de los coeficientes de correlación y regresión: lecciones de la psicología educativa". Evaluación práctica, investigación y evaluación . 8 (1). doi :10.7275/0k9h-tq64 . Consultado el 10 de julio de 2021 .
  13. ^ Franks, Alexander; Airoldi, Edoardo; Slavov, Nikolai (8 de mayo de 2017). "Regulación postranscripcional en tejidos humanos". PLOS Computational Biology . 13 (5): e1005535. doi : 10.1371/journal.pcbi.1005535 . ISSN  1553-7358. PMC 5440056 . PMID  28481885. 
  14. ^ Stevens, RJ; Kothari, V.; Adler, AI; Stratton, IM; Holman, RR (2001). "Apéndice a "El motor de riesgo UKPDS: un modelo para el riesgo de enfermedad cardíaca coronaria en la diabetes tipo 2 UKPDS 56)". Clinical Science . 101 : 671–679. doi :10.1042/cs20000335.
  15. ^ Davey Smith, G. ; Phillips, AN (1996). "Inflación en epidemiología: 'La prueba y medición de la asociación entre dos cosas' revisada". British Medical Journal . 312 (7047): 1659–1661. doi :10.1136/bmj.312.7047.1659. PMC 2351357 . PMID  8664725. 
  16. ^ Spearman, C (1904). "La prueba y medición de la asociación entre dos cosas". Revista Americana de Psicología . 15 (1): 72–101. doi :10.2307/1412159. JSTOR  1412159.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Regression_dilution&oldid=1190786992#Correlation_correction"