Parte de una serie sobre |
Análisis de regresión |
---|
Modelos |
Estimación |
Fondo |
Part of a series on |
Machine learning and data mining |
---|
En modelado estadístico , el análisis de regresión es un conjunto de procesos estadísticos para estimar las relaciones entre una variable dependiente (a menudo llamada variable de resultado o respuesta , o una etiqueta en la jerga del aprendizaje automático) y una o más variables independientes libres de errores (a menudo llamadas regresores , predictores , covariables , variables explicativas o características ). La forma más común de análisis de regresión es la regresión lineal , en la que se encuentra la línea (o una combinación lineal más compleja ) que se ajusta mejor a los datos de acuerdo con un criterio matemático específico. Por ejemplo, el método de mínimos cuadrados ordinarios calcula la línea única (o hiperplano ) que minimiza la suma de las diferencias al cuadrado entre los datos verdaderos y esa línea (o hiperplano). Por razones matemáticas específicas (ver regresión lineal ), esto permite al investigador estimar la expectativa condicional (o valor promedio de la población ) de la variable dependiente cuando las variables independientes toman un conjunto dado de valores. Las formas menos comunes de regresión utilizan procedimientos ligeramente diferentes para estimar parámetros de ubicación alternativos (por ejemplo, regresión cuantil o análisis de condición necesaria [1] ) o estiman la expectativa condicional en una colección más amplia de modelos no lineales (por ejemplo, regresión no paramétrica ).
El análisis de regresión se utiliza principalmente para dos propósitos conceptualmente distintos. En primer lugar, el análisis de regresión se utiliza ampliamente para la predicción y el pronóstico , donde su uso tiene una superposición sustancial con el campo del aprendizaje automático . En segundo lugar, en algunas situaciones, el análisis de regresión se puede utilizar para inferir relaciones causales entre las variables independientes y dependientes. Es importante destacar que las regresiones por sí mismas solo revelan relaciones entre una variable dependiente y una colección de variables independientes en un conjunto de datos fijo. Para utilizar regresiones para la predicción o para inferir relaciones causales, respectivamente, un investigador debe justificar cuidadosamente por qué las relaciones existentes tienen poder predictivo para un nuevo contexto o por qué una relación entre dos variables tiene una interpretación causal. Esto último es especialmente importante cuando los investigadores esperan estimar relaciones causales utilizando datos observacionales . [2] [3]
La primera forma de regresión fue el método de mínimos cuadrados , publicado por Legendre en 1805, [4] y por Gauss en 1809. [5] Legendre y Gauss aplicaron el método al problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos alrededor del Sol (principalmente cometas, pero también más tarde los recién descubiertos planetas menores). Gauss publicó un desarrollo posterior de la teoría de mínimos cuadrados en 1821, [6] incluyendo una versión del teorema de Gauss-Markov .
El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico. El fenómeno era que las alturas de los descendientes de antepasados altos tienden a retroceder hacia un promedio normal (un fenómeno también conocido como regresión hacia la media ). [7] [8] Para Galton, la regresión tenía solo este significado biológico, [9] [10] pero su trabajo fue posteriormente ampliado por Udny Yule y Karl Pearson a un contexto estadístico más general. [11] [12] En el trabajo de Yule y Pearson, se supone que la distribución conjunta de las variables de respuesta y explicativas es gaussiana . Esta suposición fue debilitada por RA Fisher en sus trabajos de 1922 y 1925. [13] [14] [15] Fisher asumió que la distribución condicional de la variable de respuesta es gaussiana, pero la distribución conjunta no necesita serlo. En este sentido, la suposición de Fisher se acerca más a la formulación de Gauss de 1821.
En los años 1950 y 1960, los economistas utilizaban calculadoras electromecánicas de escritorio para calcular regresiones. Antes de 1970, a veces se necesitaban hasta 24 horas para recibir el resultado de una regresión. [16]
Los métodos de regresión siguen siendo un área de investigación activa. En las últimas décadas, se han desarrollado nuevos métodos para la regresión robusta , la regresión que implica respuestas correlacionadas como series temporales y curvas de crecimiento , la regresión en la que el predictor (variable independiente) o las variables de respuesta son curvas, imágenes, gráficos u otros objetos de datos complejos, los métodos de regresión que se adaptan a varios tipos de datos faltantes, la regresión no paramétrica , los métodos bayesianos para la regresión, la regresión en la que las variables predictoras se miden con error, la regresión con más variables predictoras que observaciones y la inferencia causal con regresión.
En la práctica, los investigadores primero seleccionan un modelo que desean estimar y luego utilizan el método elegido (por ejemplo, mínimos cuadrados ordinarios ) para estimar los parámetros de ese modelo. Los modelos de regresión involucran los siguientes componentes:
En diversos campos de aplicación se utilizan diferentes terminologías en lugar de variables dependientes e independientes .
La mayoría de los modelos de regresión proponen que es una función ( función de regresión ) de y , que representa un término de error aditivo que puede reemplazar a determinantes no modelados de o ruido estadístico aleatorio:
Tenga en cuenta que se supone que las variables independientes están libres de errores. Este importante supuesto suele pasarse por alto, aunque se pueden utilizar modelos de errores en las variables cuando se supone que las variables independientes contienen errores.
El objetivo de los investigadores es estimar la función que mejor se ajusta a los datos. Para llevar a cabo un análisis de regresión, se debe especificar la forma de la función. A veces, la forma de esta función se basa en el conocimiento sobre la relación entre y que no depende de los datos. Si no se dispone de dicho conocimiento, se elige una forma flexible o conveniente para . Por ejemplo, una regresión univariante simple puede proponer , lo que sugiere que el investigador cree que es una aproximación razonable para el proceso estadístico que genera los datos.
Una vez que los investigadores determinan su modelo estadístico preferido , diferentes formas de análisis de regresión proporcionan herramientas para estimar los parámetros . Por ejemplo, los mínimos cuadrados (incluida su variante más común, los mínimos cuadrados ordinarios ) encuentran el valor de que minimiza la suma de los errores al cuadrado . Un método de regresión dado proporcionará en última instancia una estimación de , generalmente denotada para distinguir la estimación del valor verdadero (desconocido) del parámetro que generó los datos. Usando esta estimación, el investigador puede usar el valor ajustado para la predicción o para evaluar la precisión del modelo para explicar los datos. Si el investigador está intrínsecamente interesado en la estimación o en el valor predicho dependerá del contexto y sus objetivos. Como se describe en los mínimos cuadrados ordinarios , los mínimos cuadrados se usan ampliamente porque la función estimada se aproxima a la expectativa condicional . [5] Sin embargo, las variantes alternativas (por ejemplo, las desviaciones absolutas mínimas o la regresión cuantil ) son útiles cuando los investigadores quieren modelar otras funciones .
Es importante tener en cuenta que debe haber suficientes datos para estimar un modelo de regresión. Por ejemplo, supongamos que un investigador tiene acceso a filas de datos con una variable dependiente y dos independientes: . Supongamos además que el investigador quiere estimar un modelo lineal bivariado mediante mínimos cuadrados : . Si el investigador solo tiene acceso a puntos de datos, entonces podría encontrar infinitas combinaciones que expliquen los datos igualmente bien: se puede elegir cualquier combinación que satisfaga , todas las cuales conducen a y, por lo tanto, son soluciones válidas que minimizan la suma de los residuos al cuadrado . Para entender por qué hay infinitas opciones, observe que el sistema de ecuaciones debe resolverse para 3 incógnitas, lo que hace que el sistema esté subdeterminado . Alternativamente, uno puede visualizar infinitos planos tridimensionales que pasan por puntos fijos.
En términos más generales, para estimar un modelo de mínimos cuadrados con parámetros distintos, se deben tener puntos de datos distintos. Si , entonces generalmente no existe un conjunto de parámetros que se ajusten perfectamente a los datos. La cantidad aparece a menudo en el análisis de regresión y se conoce como grados de libertad en el modelo. Además, para estimar un modelo de mínimos cuadrados, las variables independientes deben ser linealmente independientes : no se debe poder reconstruir ninguna de las variables independientes sumando y multiplicando las variables independientes restantes. Como se discutió en mínimos cuadrados ordinarios , esta condición asegura que es una matriz invertible y, por lo tanto, que existe una solución única .
This section needs additional citations for verification. (December 2020) |
En sí misma, una regresión es simplemente un cálculo que utiliza los datos. Para interpretar el resultado de la regresión como una cantidad estadística significativa que mide las relaciones del mundo real, los investigadores suelen basarse en una serie de supuestos clásicos . Estos supuestos suelen incluir:
Un puñado de condiciones son suficientes para que el estimador de mínimos cuadrados posea propiedades deseables: en particular, los supuestos de Gauss-Markov implican que las estimaciones de los parámetros serán insesgadas , consistentes y eficientes en la clase de estimadores lineales insesgados. Los profesionales han desarrollado una variedad de métodos para mantener algunas o todas estas propiedades deseables en entornos del mundo real, porque es poco probable que estos supuestos clásicos se mantengan exactamente. Por ejemplo, modelar errores en las variables puede llevar a estimaciones razonables las variables independientes se miden con errores. Los errores estándar consistentes con la heterocedasticidad permiten que la varianza de cambie entre valores de . Los errores correlacionados que existen dentro de subconjuntos de los datos o siguen patrones específicos se pueden manejar utilizando errores estándar agrupados, regresión ponderada geográfica o errores estándar de Newey-West , entre otras técnicas. Cuando las filas de datos corresponden a ubicaciones en el espacio, la elección de cómo modelar dentro de unidades geográficas puede tener consecuencias importantes. [17] [18] El subcampo de la econometría se centra en gran medida en el desarrollo de técnicas que permitan a los investigadores sacar conclusiones razonables en situaciones del mundo real, donde los supuestos clásicos no se cumplen exactamente.
En la regresión lineal, la especificación del modelo es que la variable dependiente es una combinación lineal de los parámetros (pero no necesita ser lineal en las variables independientes ). Por ejemplo, en la regresión lineal simple para modelar puntos de datos hay una variable independiente: , y dos parámetros, y :
En la regresión lineal múltiple, hay varias variables independientes o funciones de variables independientes.
Añadiendo un término a la regresión anterior obtenemos:
Esta sigue siendo una regresión lineal; aunque la expresión del lado derecho es cuadrática en la variable independiente , es lineal en los parámetros y
En ambos casos, es un término de error y el subíndice indexa una observación particular.
Volviendo nuestra atención al caso de la línea recta: dada una muestra aleatoria de la población, estimamos los parámetros de la población y obtenemos el modelo de regresión lineal de la muestra:
El residuo , , es la diferencia entre el valor de la variable dependiente predicho por el modelo, , y el valor verdadero de la variable dependiente, . Un método de estimación es el de mínimos cuadrados ordinarios . Este método obtiene estimaciones de parámetros que minimizan la suma de los residuos al cuadrado , SSR :
La minimización de esta función da como resultado un conjunto de ecuaciones normales , un conjunto de ecuaciones lineales simultáneas en los parámetros, que se resuelven para obtener los estimadores de parámetros, .
En el caso de regresión simple, las fórmulas para las estimaciones de mínimos cuadrados son
donde es la media (promedio) de los valores y es la media de los valores.
Suponiendo que el término de error poblacional tiene una varianza constante, la estimación de esa varianza viene dada por:
Esto se denomina error cuadrático medio (MSE) de la regresión. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, para regresores o si se utiliza una intersección. [19] En este caso, el denominador es .
Los errores estándar de las estimaciones de los parámetros se dan por
Bajo el supuesto adicional de que el término de error poblacional se distribuye normalmente, el investigador puede utilizar estos errores estándar estimados para crear intervalos de confianza y realizar pruebas de hipótesis sobre los parámetros poblacionales .
En el modelo de regresión múltiple más general, hay variables independientes:
donde es la -ésima observación de la -ésima variable independiente. Si la primera variable independiente toma el valor 1 para todos los , entonces se denomina intersección de regresión .
Las estimaciones de los parámetros de mínimos cuadrados se obtienen a partir de ecuaciones normales. El residuo se puede escribir como
Las ecuaciones normales son
En notación matricial, las ecuaciones normales se escriben como
donde el elemento de es , el elemento del vector columna es y el elemento de es . Por lo tanto es , es y es . La solución es
Una vez que se ha construido un modelo de regresión, puede ser importante confirmar la bondad del ajuste del modelo y la significancia estadística de los parámetros estimados. Las comprobaciones de bondad del ajuste que se utilizan habitualmente incluyen el R-cuadrado , los análisis del patrón de residuos y las pruebas de hipótesis. La significancia estadística se puede comprobar mediante una prueba F del ajuste general, seguida de pruebas t de parámetros individuales.
Las interpretaciones de estas pruebas diagnósticas dependen en gran medida de los supuestos del modelo. Aunque el examen de los residuos puede utilizarse para invalidar un modelo, los resultados de una prueba t o una prueba F a veces son más difíciles de interpretar si se violan los supuestos del modelo. Por ejemplo, si el término de error no tiene una distribución normal, en muestras pequeñas los parámetros estimados no seguirán distribuciones normales y complicarán la inferencia. Sin embargo, con muestras relativamente grandes, se puede invocar un teorema del límite central de modo que la prueba de hipótesis pueda proceder utilizando aproximaciones asintóticas.
Las variables dependientes limitadas , que son variables de respuesta que son variables categóricas o variables restringidas a caer solo dentro de un cierto rango, a menudo surgen en econometría .
La variable de respuesta puede ser no continua ("limitada" a encontrarse en algún subconjunto de la línea real). Para las variables binarias (cero o uno), si el análisis procede con regresión lineal de mínimos cuadrados, el modelo se denomina modelo de probabilidad lineal . Los modelos no lineales para variables dependientes binarias incluyen el modelo probit y logit . El modelo probit multivariado es un método estándar para estimar una relación conjunta entre varias variables dependientes binarias y algunas variables independientes. Para las variables categóricas con más de dos valores existe el logit multinomial . Para las variables ordinales con más de dos valores, existen los modelos logit ordenado y probit ordenado . Los modelos de regresión censurada se pueden utilizar cuando la variable dependiente solo se observa algunas veces, y los modelos de tipo corrección de Heckman se pueden utilizar cuando la muestra no se selecciona aleatoriamente de la población de interés. Una alternativa a tales procedimientos es la regresión lineal basada en la correlación policórica (o correlaciones poliseriales) entre las variables categóricas. Tales procedimientos difieren en las suposiciones realizadas sobre la distribución de las variables en la población. Si la variable es positiva con valores bajos y representa la repetición de la ocurrencia de un evento, entonces se pueden utilizar modelos de conteo como la regresión de Poisson o el modelo binomial negativo .
Cuando la función del modelo no es lineal en los parámetros, la suma de cuadrados debe minimizarse mediante un procedimiento iterativo. Esto introduce muchas complicaciones que se resumen en Diferencias entre mínimos cuadrados lineales y no lineales .
Los modelos de regresión predicen un valor de la variable Y dados los valores conocidos de las variables X. La predicción dentro del rango de valores en el conjunto de datos utilizado para el ajuste del modelo se conoce informalmente como interpolación . La predicción fuera de este rango de datos se conoce como extrapolación . La realización de la extrapolación depende en gran medida de los supuestos de la regresión. Cuanto más se aleje la extrapolación de los datos, más margen habrá para que el modelo falle debido a las diferencias entre los supuestos y los datos de muestra o los valores verdaderos.
La predicción puntual puede ir acompañada de un intervalo de predicción que represente la incertidumbre. Dichos intervalos tienden a expandirse rápidamente a medida que los valores de las variables independientes se desplazan fuera del rango cubierto por los datos observados.
Por estas y otras razones, algunos tienden a decir que podría ser imprudente realizar extrapolaciones. [21]
La suposición de una forma particular para la relación entre Y y X es otra fuente de incertidumbre. Un análisis de regresión realizado correctamente incluirá una evaluación de hasta qué punto la forma supuesta se corresponde con los datos observados, pero sólo puede hacerlo dentro del rango de valores de las variables independientes realmente disponibles. Esto significa que cualquier extrapolación depende especialmente de las suposiciones que se hagan sobre la forma estructural de la relación de regresión. Si este conocimiento incluye el hecho de que la variable dependiente no puede salir de un cierto rango de valores, esto se puede utilizar para seleccionar el modelo, incluso si el conjunto de datos observados no tiene valores particularmente cercanos a esos límites. Las implicaciones de este paso de elegir una forma funcional apropiada para la regresión pueden ser importantes cuando se considera la extrapolación. Como mínimo, puede garantizar que cualquier extrapolación que surja de un modelo ajustado sea "realista" (o acorde con lo que se sabe).
No existen métodos generalmente aceptados para relacionar el número de observaciones versus el número de variables independientes en el modelo. Un método conjeturado por Good y Hardin es , donde es el tamaño de la muestra, es el número de variables independientes y es el número de observaciones necesarias para alcanzar la precisión deseada si el modelo tuviera solo una variable independiente. [22] Por ejemplo, un investigador está construyendo un modelo de regresión lineal utilizando un conjunto de datos que contiene 1000 pacientes ( ). Si el investigador decide que se necesitan cinco observaciones para definir con precisión una línea recta ( ), entonces el número máximo de variables independientes que el modelo puede admitir es 4, porque
Aunque los parámetros de un modelo de regresión se estiman habitualmente mediante el método de mínimos cuadrados, otros métodos que se han utilizado incluyen:
Todos los principales paquetes de software estadístico realizan análisis e inferencias de regresión por mínimos cuadrados . La regresión lineal simple y la regresión múltiple mediante mínimos cuadrados se pueden realizar en algunas aplicaciones de hojas de cálculo y en algunas calculadoras. Si bien muchos paquetes de software estadístico pueden realizar varios tipos de regresión no paramétrica y robusta, estos métodos están menos estandarizados. Diferentes paquetes de software implementan diferentes métodos, y un método con un nombre determinado puede implementarse de manera diferente en diferentes paquetes. Se ha desarrollado software de regresión especializado para su uso en campos como el análisis de encuestas y la neuroimagen.