Mínimos cuadrados lineales

Aproximación de funciones lineales a datos mediante mínimos cuadrados

Los mínimos cuadrados lineales ( LLS ) son la aproximación por mínimos cuadrados de funciones lineales a datos. Es un conjunto de formulaciones para resolver problemas estadísticos relacionados con la regresión lineal , incluidas variantes para residuos ordinarios (no ponderados), ponderados y generalizados (correlacionados) . Los métodos numéricos para los mínimos cuadrados lineales incluyen la inversión de la matriz de las ecuaciones normales y los métodos de descomposición ortogonal .

Formulación básica

Considere la ecuación lineal

A incógnita = b , {\displaystyle Ax=b,} ( 1 )

donde y se dan y es variable a calcular. Cuando generalmente ocurre que ( 1 ) no tiene solución. Por ejemplo, no hay ningún valor de que satisfaga porque las dos primeras filas requieren que pero luego no se satisface la tercera fila. Por lo tanto, para el objetivo de resolver ( 1 ) exactamente, normalmente se reemplaza por encontrar el valor de que minimice algún error. Hay muchas formas de definir el error, pero una de las más comunes es definirlo como Esto produce un problema de minimización, llamado problema de mínimos cuadrados. A R metro × norte {\displaystyle A\in \mathbb {R} ^{m\times n}} b R metro {\displaystyle b\in \mathbb {R} ^{m}} incógnita R norte {\displaystyle x\in \mathbb {R} ^{n}} metro > norte , {\displaystyle m>n,} incógnita {\estilo de visualización x} [ 1 0 0 1 1 1 ] incógnita = [ 1 1 0 ] , {\displaystyle {\begin{bmatrix}1&0\\0&1\\1&1\end{bmatrix}}x={\begin{bmatrix}1\\1\\0\end{bmatrix}},} incógnita = ( 1 , 1 ) , {\displaystyle x=(1,1),} metro > norte , {\displaystyle m>n,} incógnita {\estilo de visualización x} " A incógnita b " 2 . {\displaystyle \|Ax-b\|^{2}.}

minimize x R n A x b 2 . {\displaystyle {\begin{aligned}{\underset {x\in \mathbb {R} ^{n}}{\operatorname {minimize} }}\quad &\|Ax-b\|^{2}.\end{aligned}}} ( 2 )

La solución del problema de mínimos cuadrados ( 1 ) se calcula resolviendo la ecuación normal [1]

A A x = A b , {\displaystyle A^{\top }Ax=A^{\top }b,} ( 3 )

donde denota la transpuesta de . A {\displaystyle A^{\top }} A {\displaystyle A}

Continuando con el ejemplo anterior, con encontramos y Resolviendo la ecuación normal obtenemos A = [ 1 0 0 1 1 1 ] and b = [ 1 1 0 ] , {\displaystyle A={\begin{bmatrix}1&0\\0&1\\1&1\end{bmatrix}}\quad {\text{and}}\quad b={\begin{bmatrix}1\\1\\0\end{bmatrix}},} A A = [ 1 0 1 0 1 1 ] [ 1 0 0 1 1 1 ] = [ 2 1 1 2 ] {\displaystyle A^{\top }A={\begin{bmatrix}1&0&1\\0&1&1\end{bmatrix}}{\begin{bmatrix}1&0\\0&1\\1&1\end{bmatrix}}={\begin{bmatrix}2&1\\1&2\end{bmatrix}}} A b = [ 1 0 1 0 1 1 ] [ 1 1 0 ] = [ 1 1 ] . {\displaystyle A^{\top }b={\begin{bmatrix}1&0&1\\0&1&1\end{bmatrix}}{\begin{bmatrix}1\\1\\0\end{bmatrix}}={\begin{bmatrix}1\\1\end{bmatrix}}.} x = ( 1 / 3 , 1 / 3 ) . {\displaystyle x=(1/3,1/3).}

Formulaciones para la regresión lineal

Las tres formulaciones principales de mínimos cuadrados lineales son:

  • El estimador más común es el de mínimos cuadrados ordinarios (MCO). Las estimaciones de MCO se utilizan habitualmente para analizar datos tanto experimentales como observacionales .
    El método MCO minimiza la suma de los residuos al cuadrado y conduce a una expresión en forma cerrada para el valor estimado del vector de parámetros desconocidos β : donde es un vector cuyo elemento i es la observación i de la variable dependiente y es una matriz cuyo elemento ij es la observación i de la variable independiente j . El estimador es insesgado y consistente si los errores tienen varianza finita y no están correlacionados con los regresores: [2] donde es la transpuesta de la fila i de la matriz También es eficiente bajo el supuesto de que los errores tienen varianza finita y son homocedásticos , lo que significa que E[ ε i 2 | x i ] no depende de i . La condición de que los errores no estén correlacionados con los regresores generalmente se cumplirá en un experimento, pero en el caso de datos observacionales, es difícil excluir la posibilidad de una covariable omitida z que esté relacionada tanto con las covariables observadas como con la variable de respuesta. La existencia de una covariable de este tipo generalmente conducirá a una correlación entre los regresores y la variable de respuesta y, por lo tanto, a un estimador inconsistente de β . La condición de homocedasticidad puede fallar con datos experimentales u observacionales. Si el objetivo es la inferencia o el modelado predictivo, el desempeño de las estimaciones MCO puede ser deficiente si hay multicolinealidad , a menos que el tamaño de la muestra sea grande. β ^ = ( X T X ) 1 X T y , {\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y} ,} y {\displaystyle \mathbf {y} } X {\displaystyle \mathbf {X} } E [ x i ε i ] = 0 , {\displaystyle \operatorname {E} [\,\mathbf {x} _{i}\varepsilon _{i}\,]=0,} x i {\displaystyle \mathbf {x} _{i}} X . {\displaystyle \mathbf {X} .}
  • Los mínimos cuadrados ponderados (WLS) se utilizan cuando hay heterocedasticidad en los términos de error del modelo.
  • Los mínimos cuadrados generalizados (GLS) son una extensión del método MCO que permite una estimación eficiente de β cuando hay heterocedasticidad , correlaciones o ambas entre los términos de error del modelo, siempre que la forma de heterocedasticidad y correlación se conozca independientemente de los datos. Para manejar la heterocedasticidad cuando los términos de error no están correlacionados entre sí, GLS minimiza un análogo ponderado a la suma de los residuos cuadrados de la regresión MCO, donde el peso para el i- ésimo caso es inversamente proporcional a var( ε i ). Este caso especial de GLS se llama "mínimos cuadrados ponderados". La solución GLS para un problema de estimación esdonde Ω es la matriz de covarianza de los errores. GLS puede verse como la aplicación de una transformación lineal a los datos de modo que se cumplan los supuestos de MCO para los datos transformados. Para que se aplique GLS, la estructura de covarianza de los errores debe conocerse hasta una constante multiplicativa. β ^ = ( X T Ω 1 X ) 1 X T Ω 1 y , {\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {y} ,}

Formulaciones alternativas

Otras formulaciones incluyen:

  • Los mínimos cuadrados reponderados iterativamente (IRLS) se utilizan cuando hay heterocedasticidad , o correlaciones, o ambas, entre los términos de error del modelo, pero se sabe poco sobre la estructura de covarianza de los errores independientemente de los datos. [3] En la primera iteración, se lleva a cabo MCO o GLS con una estructura de covarianza provisional, y se obtienen los residuos del ajuste. Con base en los residuos, generalmente se puede obtener una estimación mejorada de la estructura de covarianza de los errores. Luego se realiza una iteración GLS posterior utilizando esta estimación de la estructura de error para definir los pesos. El proceso se puede iterar hasta la convergencia, pero en muchos casos, solo una iteración es suficiente para lograr una estimación eficiente de β . [4] [5]
  • La regresión de variables instrumentales (IV) se puede realizar cuando los regresores están correlacionados con los errores. En este caso, necesitamos la existencia de algunas variables instrumentales auxiliares z i tales que E[ z i ε i ] = 0. Si Z es la matriz de instrumentos, entonces el estimador se puede dar en forma cerrada como La regresión de instrumentos óptima es una extensión de la regresión IV clásica a la situación donde E[ ε i | z i ] = 0 . β ^ = ( X T Z ( Z T Z ) 1 Z T X ) 1 X T Z ( Z T Z ) 1 Z T y . {\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\mathsf {T}}\mathbf {Z} (\mathbf {Z} ^{\mathsf {T}}\mathbf {Z} )^{-1}\mathbf {Z} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {Z} (\mathbf {Z} ^{\mathsf {T}}\mathbf {Z} )^{-1}\mathbf {Z} ^{\mathsf {T}}\mathbf {y} .}
  • Los mínimos cuadrados totales (TLS) [6] son ​​un método para la estimación de mínimos cuadrados del modelo de regresión lineal que trata las covariables y la variable de respuesta de una manera geométricamente más simétrica que los MCO. Es un método para manejar el problema de los "errores en las variables" y también se utiliza a veces incluso cuando se supone que las covariables están libres de errores.
  • El ajuste lineal de plantilla (LTF) [7] combina una regresión lineal con mínimos cuadrados (generalizados) para determinar el mejor estimador. El ajuste lineal de plantilla aborda el problema frecuente de que los residuos no se pueden expresar analíticamente o que su evaluación repetida requiere demasiado tiempo, como suele ser el caso en los algoritmos de minimización iterativa. En el ajuste lineal de plantilla, los residuos se estiman a partir de las variables aleatorias y de una aproximación lineal del modelo verdadero subyacente , mientras que el modelo verdadero debe proporcionarse para al menos (donde es el número de estimadores) valores de referencia distintos β . Luego, la distribución verdadera se aproxima mediante una regresión lineal y los mejores estimadores se obtienen en forma cerrada como donde denota la matriz de plantilla con los valores del modelo conocido o determinado previamente para cualquiera de los valores de referencia β , son las variables aleatorias (por ejemplo, una medición) y la matriz y el vector se calculan a partir de los valores de β . El LTF también se puede expresar para variables aleatorias distribuidas con distribución log-normal . Una generalización del LTF es el ajuste de plantilla cuadrático, que supone una regresión de segundo orden del modelo, requiere predicciones para al menos valores distintos β y encuentra el mejor estimador utilizando el método de Newton . n + 1 {\displaystyle n+1} n {\displaystyle n} β ^ = ( ( Y M ~ ) T Ω 1 Y M ~ ) 1 ( Y M ~ ) T Ω 1 ( y Y m ¯ ) , {\displaystyle {\hat {\boldsymbol {\beta }}}=((\mathbf {Y{\tilde {M}}} )^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {Y{\tilde {M}}} )^{-1}(\mathbf {Y{\tilde {M}}} )^{\mathsf {T}}{\boldsymbol {\Omega }}^{-1}(\mathbf {y} -\mathbf {Y{\bar {m}})} ,} Y {\displaystyle \mathbf {Y} } y {\displaystyle \mathbf {y} } M ~ {\displaystyle \mathbf {\tilde {M}} } m ~ {\displaystyle \mathbf {\tilde {m}} } n 2 + 2 n {\displaystyle n^{2}+2n}
  • La regresión de mínimos cuadrados porcentuales se centra en la reducción de los errores porcentuales, lo que resulta útil en el campo de la previsión o el análisis de series temporales. También resulta útil en situaciones en las que la variable dependiente tiene un amplio rango sin varianza constante, ya que en este caso los residuos más grandes en el extremo superior del rango predominarían si se utilizara MCO. Cuando el error porcentual o relativo se distribuye normalmente, la regresión de mínimos cuadrados porcentuales proporciona estimaciones de máxima verosimilitud. La regresión porcentual está vinculada a un modelo de error multiplicativo, mientras que MCO está vinculada a modelos que contienen un término de error aditivo. [8]

Función objetivo

En MCO (es decir, suponiendo observaciones no ponderadas), el valor óptimo de la función objetivo se encuentra sustituyendo la expresión óptima por el vector de coeficientes: donde , la última igualdad se cumple ya que es simétrica e idempotente. Se puede demostrar a partir de esto [9] que bajo una asignación apropiada de pesos el valor esperado de S es . Si en cambio se suponen pesos unitarios, el valor esperado de S es , donde es la varianza de cada observación. S = y T ( I H ) T ( I H ) y = y T ( I H ) y , {\displaystyle S=\mathbf {y} ^{\mathsf {T}}(\mathbf {I} -\mathbf {H} )^{\mathsf {T}}(\mathbf {I} -\mathbf {H} )\mathbf {y} =\mathbf {y} ^{\mathsf {T}}(\mathbf {I} -\mathbf {H} )\mathbf {y} ,} H = X ( X T X ) 1 X T {\displaystyle \mathbf {H} =\mathbf {X} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}} ( I H ) {\displaystyle (\mathbf {I} -\mathbf {H} )} m n {\textstyle m-n} ( m n ) σ 2 {\displaystyle (m-n)\sigma ^{2}} σ 2 {\displaystyle \sigma ^{2}}

Si se supone que los residuos pertenecen a una distribución normal, la función objetivo, al ser una suma de residuos cuadrados ponderados, pertenecerá a una distribución de chi-cuadrado ( ) χ 2 {\displaystyle \chi ^{2}} con m  −  n grados de libertad . En la siguiente tabla se dan algunos valores percentiles ilustrativos de . [10] χ 2 {\displaystyle \chi ^{2}}

m n {\displaystyle m-n} χ 0.50 2 {\displaystyle \chi _{0.50}^{2}} χ 0.95 2 {\displaystyle \chi _{0.95}^{2}} χ 0.99 2 {\displaystyle \chi _{0.99}^{2}}
109.3418.323.2
2524.337.744.3
10099.3124136

Estos valores se pueden utilizar como criterio estadístico para determinar la bondad del ajuste . Cuando se utilizan pesos unitarios, los números se deben dividir por la varianza de una observación.

Para WLS, la función objetivo ordinaria anterior se reemplaza por un promedio ponderado de residuos.

Discusión

En estadística y matemáticas , los mínimos cuadrados lineales son un método para ajustar un modelo matemático o estadístico a los datos en los casos en que el valor idealizado proporcionado por el modelo para cualquier punto de datos se expresa linealmente en términos de los parámetros desconocidos del modelo. El modelo ajustado resultante se puede utilizar para resumir los datos, predecir valores no observados del mismo sistema y comprender los mecanismos que pueden subyacer al sistema.

Matemáticamente, los mínimos cuadrados lineales son el problema de resolver aproximadamente un sistema sobredeterminado de ecuaciones lineales A x = b , donde b no es un elemento del espacio columna de la matriz A . La solución aproximada se realiza como una solución exacta para A x = b' , donde b' es la proyección de b sobre el espacio columna de A . La mejor aproximación es entonces aquella que minimiza la suma de las diferencias al cuadrado entre los valores de los datos y sus valores modelados correspondientes. El enfoque se llama mínimos cuadrados lineales ya que la función supuesta es lineal en los parámetros a estimar. Los problemas de mínimos cuadrados lineales son convexos y tienen una solución de forma cerrada que es única, siempre que el número de puntos de datos utilizados para el ajuste sea igual o superior al número de parámetros desconocidos, excepto en situaciones degeneradas especiales. Por el contrario, los problemas de mínimos cuadrados no lineales generalmente deben resolverse mediante un procedimiento iterativo , y los problemas pueden ser no convexos con múltiples óptimos para la función objetivo. Si se dispone de distribuciones previas, entonces incluso un sistema subdeterminado puede resolverse utilizando el estimador bayesiano MMSE .

En estadística, los problemas de mínimos cuadrados lineales corresponden a un tipo de modelo estadístico particularmente importante llamado regresión lineal , que surge como una forma particular de análisis de regresión . Una forma básica de dicho modelo es un modelo de mínimos cuadrados ordinarios . El presente artículo se concentra en los aspectos matemáticos de los problemas de mínimos cuadrados lineales, y en los artículos que acabamos de mencionar se analiza la formulación e interpretación de los modelos de regresión estadística y las inferencias estadísticas relacionadas con ellos. Véase el esquema del análisis de regresión para obtener un esquema del tema.

Propiedades

Si los errores experimentales, , no están correlacionados, tienen una media de cero y una varianza constante, , el teorema de Gauss-Markov establece que el estimador de mínimos cuadrados, , tiene la varianza mínima de todos los estimadores que son combinaciones lineales de las observaciones. En este sentido, es el mejor estimador, u óptimo, de los parámetros. Nótese en particular que esta propiedad es independiente de la función de distribución estadística de los errores. En otras palabras, la función de distribución de los errores no necesita ser una distribución normal . Sin embargo, para algunas distribuciones de probabilidad, no hay garantía de que la solución de mínimos cuadrados sea siquiera posible dadas las observaciones; aun así, en tales casos es el mejor estimador que es tanto lineal como insesgado. ε {\displaystyle \varepsilon } σ {\displaystyle \sigma } β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}}

Por ejemplo, es fácil demostrar que la media aritmética de un conjunto de mediciones de una cantidad es el estimador de mínimos cuadrados del valor de esa cantidad. Si se cumplen las condiciones del teorema de Gauss-Markov, la media aritmética es óptima, cualquiera que sea la distribución de errores de las mediciones.

Sin embargo, en el caso de que los errores experimentales pertenezcan a una distribución normal, el estimador de mínimos cuadrados también es un estimador de máxima verosimilitud . [11]

Estas propiedades sustentan el uso del método de mínimos cuadrados para todo tipo de ajuste de datos, incluso cuando los supuestos no son estrictamente válidos.

Limitaciones

Un supuesto subyacente al tratamiento dado anteriormente es que la variable independiente, x , está libre de error. En la práctica, los errores en las mediciones de la variable independiente suelen ser mucho menores que los errores en la variable dependiente y, por lo tanto, pueden ignorarse. Cuando este no es el caso, se deben utilizar mínimos cuadrados totales o, de manera más general, modelos de errores en las variables , o mínimos cuadrados rigurosos . Esto se puede hacer ajustando el esquema de ponderación para tener en cuenta los errores tanto en las variables dependientes como en las independientes y luego siguiendo el procedimiento estándar. [12] [13]

En algunos casos, la matriz de ecuaciones normales (ponderada) X T X está mal condicionada . Al ajustar polinomios, la matriz de ecuaciones normales es una matriz de Vandermonde . Las matrices de Vandermonde se vuelven cada vez más mal condicionadas a medida que aumenta el orden de la matriz. [ cita requerida ] En estos casos, la estimación de mínimos cuadrados amplifica el ruido de la medición y puede ser extremadamente inexacta. [ cita requerida ] Se pueden aplicar varias técnicas de regularización en tales casos, la más común de las cuales se llama regresión de cresta . Si se conoce más información sobre los parámetros, por ejemplo, un rango de valores posibles de , entonces se pueden usar varias técnicas para aumentar la estabilidad de la solución. Por ejemplo, consulte mínimos cuadrados restringidos. β ^ {\displaystyle \mathbf {\hat {\boldsymbol {\beta }}} }

Otro inconveniente del estimador de mínimos cuadrados es el hecho de que la norma de los residuos, se minimiza, mientras que en algunos casos uno está verdaderamente interesado en obtener un pequeño error en el parámetro , por ejemplo, un pequeño valor de . [ cita requerida ] Sin embargo, dado que el parámetro verdadero es necesariamente desconocido, esta cantidad no se puede minimizar directamente. Si se conoce una probabilidad previa en , entonces se puede utilizar un estimador de Bayes para minimizar el error cuadrático medio , . El método de mínimos cuadrados se aplica a menudo cuando no se conoce ninguna probabilidad previa. Cuando se estiman varios parámetros conjuntamente, se pueden construir mejores estimadores, un efecto conocido como el fenómeno de Stein . Por ejemplo, si el error de medición es gaussiano , se conocen varios estimadores que dominan , o superan, la técnica de mínimos cuadrados; el más conocido de ellos es el estimador de James-Stein . Este es un ejemplo de estimadores de contracción más generales que se han aplicado a problemas de regresión. y X β ^ {\displaystyle \|\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}\|} β ^ {\displaystyle \mathbf {\hat {\boldsymbol {\beta }}} } β β ^ {\displaystyle \|{\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}\|} β {\displaystyle {\boldsymbol {\beta }}} β ^ {\displaystyle {\hat {\boldsymbol {\beta }}}} E { β β ^ 2 } {\displaystyle E\left\{\|{\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}\|^{2}\right\}}

Aplicaciones

Aproximación de mínimos cuadrados con polinomios lineales, cuadráticos y cúbicos.

Usos en el ajuste de datos

La principal aplicación de los mínimos cuadrados lineales es el ajuste de datos . Dado un conjunto de m puntos de datos que consisten en valores medidos experimentalmente tomados en m valores de una variable independiente ( pueden ser cantidades escalares o vectoriales), y dada una función modelo con ella, se desea encontrar los parámetros de manera que la función modelo se ajuste "mejor" a los datos. En los mínimos cuadrados lineales, la linealidad se entiende con respecto a los parámetros, de modo que y 1 , y 2 , , y m , {\displaystyle y_{1},y_{2},\dots ,y_{m},} x 1 , x 2 , , x m {\displaystyle x_{1},x_{2},\dots ,x_{m}} x i {\displaystyle x_{i}} y = f ( x , β ) , {\displaystyle y=f(x,{\boldsymbol {\beta }}),} β = ( β 1 , β 2 , , β n ) , {\displaystyle {\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n}),} β j {\displaystyle \beta _{j}} β j , {\displaystyle \beta _{j},} f ( x , β ) = j = 1 n β j φ j ( x ) . {\displaystyle f(x,{\boldsymbol {\beta }})=\sum _{j=1}^{n}\beta _{j}\varphi _{j}(x).}

Aquí, las funciones pueden ser no lineales con respecto a la variable x . φ j {\displaystyle \varphi _{j}}

Lo ideal es que la función del modelo se ajuste exactamente a los datos, por lo que para todos Esto no suele ser posible en la práctica, ya que hay más puntos de datos que parámetros a determinar. El enfoque elegido es encontrar el valor mínimo posible de la suma de los cuadrados de los residuos para minimizar la función. y i = f ( x i , β ) {\displaystyle y_{i}=f(x_{i},{\boldsymbol {\beta }})} i = 1 , 2 , , m . {\displaystyle i=1,2,\dots ,m.} r i ( β ) = y i f ( x i , β ) ,   ( i = 1 , 2 , , m ) {\displaystyle r_{i}({\boldsymbol {\beta }})=y_{i}-f(x_{i},{\boldsymbol {\beta }}),\ (i=1,2,\dots ,m)} S ( β ) = i = 1 m r i 2 ( β ) . {\displaystyle S({\boldsymbol {\beta }})=\sum _{i=1}^{m}r_{i}^{2}({\boldsymbol {\beta }}).}

Después de sustituir y luego por , este problema de minimización se convierte en el problema de minimización cuadrática anterior con y el mejor ajuste se puede encontrar resolviendo las ecuaciones normales. r i {\displaystyle r_{i}} f {\displaystyle f} X i j = φ j ( x i ) , {\displaystyle X_{ij}=\varphi _{j}(x_{i}),}

Ejemplo

Un gráfico de los puntos de datos (en rojo), la línea de mínimos cuadrados de mejor ajuste (en azul) y los residuos (en verde)

Un investigador hipotético lleva a cabo un experimento y obtiene cuatro puntos de datos: y (mostrados en rojo en el diagrama de la derecha). Debido al análisis exploratorio de los datos o al conocimiento previo del tema, el investigador sospecha que los valores dependen de los valores sistemáticamente. Se supone que los valores son exactos, pero contienen cierta incertidumbre o "ruido", debido al fenómeno que se estudia, imperfecciones en las mediciones, etc. ( x , y ) {\displaystyle (x,y)} ( 1 , 6 ) , {\displaystyle (1,6),} ( 2 , 5 ) , {\displaystyle (2,5),} ( 3 , 7 ) , {\displaystyle (3,7),} ( 4 , 10 ) {\displaystyle (4,10)} y {\displaystyle y} x {\displaystyle x} x {\displaystyle x} y {\displaystyle y}

Ajuste de una línea

Una de las relaciones más simples posibles entre y es una línea . La intersección y la pendiente son inicialmente desconocidas. El investigador quisiera encontrar valores de y que hagan que la línea pase por los cuatro puntos de datos. En otras palabras, el investigador quisiera resolver el sistema de ecuaciones lineales Con cuatro ecuaciones con dos incógnitas, este sistema está sobredeterminado. No hay una solución exacta. Para considerar soluciones aproximadas, se introducen residuos , , , en las ecuaciones: El residuo n es el desajuste entre la observación n y la predicción n : Entre todas las soluciones aproximadas, el investigador quisiera encontrar la que sea "mejor" en algún sentido. x {\displaystyle x} y {\displaystyle y} y = β 1 + β 2 x {\displaystyle y=\beta _{1}+\beta _{2}x} β 1 {\displaystyle \beta _{1}} β 2 {\displaystyle \beta _{2}} β 1 {\displaystyle \beta _{1}} β 2 {\displaystyle \beta _{2}} β 1 + 1 β 2 = 6 , β 1 + 2 β 2 = 5 , β 1 + 3 β 2 = 7 , β 1 + 4 β 2 = 10. {\displaystyle {\begin{alignedat}{3}\beta _{1}+1\beta _{2}&&\;=\;&&6,&\\\beta _{1}+2\beta _{2}&&\;=\;&&5,&\\\beta _{1}+3\beta _{2}&&\;=\;&&7,&\\\beta _{1}+4\beta _{2}&&\;=\;&&10.&\\\end{alignedat}}} r 1 {\displaystyle r_{1}} r 2 {\displaystyle r_{2}} r 3 {\displaystyle r_{3}} r 4 {\displaystyle r_{4}} β 1 + 1 β 2 + r 1 = 6 , β 1 + 2 β 2 + r 2 = 5 , β 1 + 3 β 2 + r 3 = 7 , β 1 + 4 β 2 + r 4 = 10. {\displaystyle {\begin{alignedat}{3}\beta _{1}+1\beta _{2}+r_{1}&&\;=\;&&6,&\\\beta _{1}+2\beta _{2}+r_{2}&&\;=\;&&5,&\\\beta _{1}+3\beta _{2}+r_{3}&&\;=\;&&7,&\\\beta _{1}+4\beta _{2}+r_{4}&&\;=\;&&10.&\\\end{alignedat}}} i {\displaystyle i} r i {\displaystyle r_{i}} i {\displaystyle i} y i {\displaystyle y_{i}} i {\displaystyle i} β 1 + β 2 x i {\displaystyle \beta _{1}+\beta _{2}x_{i}} r 1 = 6 ( β 1 + 1 β 2 ) , r 2 = 5 ( β 1 + 2 β 2 ) , r 3 = 7 ( β 1 + 3 β 2 ) , r 4 = 10 ( β 1 + 4 β 2 ) . {\displaystyle {\begin{alignedat}{3}r_{1}&&\;=\;&&6-(\beta _{1}+1\beta _{2}),&\\r_{2}&&\;=\;&&5-(\beta _{1}+2\beta _{2}),&\\r_{3}&&\;=\;&&7-(\beta _{1}+3\beta _{2}),&\\r_{4}&&\;=\;&&10-(\beta _{1}+4\beta _{2}).&\\\end{alignedat}}}

En los mínimos cuadrados , uno se centra en la suma de los residuos al cuadrado: La mejor solución se define como la que minimiza con respecto a y . El mínimo se puede calcular fijando las derivadas parciales de a cero: Estas ecuaciones normales constituyen un sistema de dos ecuaciones lineales con dos incógnitas. La solución es y , y la recta de mejor ajuste es, por tanto , . Los residuos son y (véase el diagrama de la derecha). El valor mínimo de la suma de los residuos al cuadrado es S {\displaystyle S} S ( β 1 , β 2 ) = r 1 2 + r 2 2 + r 3 2 + r 4 2 = [ 6 ( β 1 + 1 β 2 ) ] 2 + [ 5 ( β 1 + 2 β 2 ) ] 2 + [ 7 ( β 1 + 3 β 2 ) ] 2 + [ 10 ( β 1 + 4 β 2 ) ] 2 = 4 β 1 2 + 30 β 2 2 + 20 β 1 β 2 56 β 1 154 β 2 + 210. {\displaystyle {\begin{aligned}S(\beta _{1},\beta _{2})&=r_{1}^{2}+r_{2}^{2}+r_{3}^{2}+r_{4}^{2}\\[6pt]&=[6-(\beta _{1}+1\beta _{2})]^{2}+[5-(\beta _{1}+2\beta _{2})]^{2}+[7-(\beta _{1}+3\beta _{2})]^{2}+[10-(\beta _{1}+4\beta _{2})]^{2}\\[6pt]&=4\beta _{1}^{2}+30\beta _{2}^{2}+20\beta _{1}\beta _{2}-56\beta _{1}-154\beta _{2}+210.\\[6pt]\end{aligned}}} S {\displaystyle S} β 1 {\displaystyle \beta _{1}} β 2 {\displaystyle \beta _{2}} S {\displaystyle S} 0 = S β 1 = 8 β 1 + 20 β 2 56 , {\displaystyle 0={\frac {\partial S}{\partial \beta _{1}}}=8\beta _{1}+20\beta _{2}-56,} 0 = S β 2 = 20 β 1 + 60 β 2 154. {\displaystyle 0={\frac {\partial S}{\partial \beta _{2}}}=20\beta _{1}+60\beta _{2}-154.} β 1 = 3.5 {\displaystyle \beta _{1}=3.5} β 2 = 1.4 {\displaystyle \beta _{2}=1.4} y = 3.5 + 1.4 x {\displaystyle y=3.5+1.4x} 1.1 , {\displaystyle 1.1,} 1.3 , {\displaystyle -1.3,} 0.7 , {\displaystyle -0.7,} 0.9 {\displaystyle 0.9} S ( 3.5 , 1.4 ) = 1.1 2 + ( 1.3 ) 2 + ( 0.7 ) 2 + 0.9 2 = 4.2. {\displaystyle S(3.5,1.4)=1.1^{2}+(-1.3)^{2}+(-0.7)^{2}+0.9^{2}=4.2.}

Este cálculo se puede expresar en notación matricial de la siguiente manera. El sistema original de ecuaciones es , donde Intuitivamente, Más rigurosamente, si es invertible, entonces la matriz representa una proyección ortogonal sobre el espacio columna de . Por lo tanto, entre todos los vectores de la forma , el más cercano a es . Al establecerlo , es evidente que es una solución. y = X β {\displaystyle \mathbf {y} =\mathbf {X} \mathbf {\beta } } y = [ 6 5 7 10 ] , X = [ 1 1 1 2 1 3 1 4 ] , β = [ β 1 β 2 ] . {\displaystyle \mathbf {y} =\left[{\begin{array}{c}6\\5\\7\\10\end{array}}\right],\;\;\;\;\mathbf {X} =\left[{\begin{array}{cc}1&1\\1&2\\1&3\\1&4\end{array}}\right],\;\;\;\;\mathbf {\beta } =\left[{\begin{array}{c}\beta _{1}\\\beta _{2}\end{array}}\right].} y = X β X y = X X β β = ( X X ) 1 X y = [ 3.5 1.4 ] . {\displaystyle \mathbf {y} =\mathbf {X} \mathbf {\beta } \;\;\;\;\Rightarrow \;\;\;\;\mathbf {X} ^{\top }\mathbf {y} =\mathbf {X} ^{\top }\mathbf {X} \mathbf {\beta } \;\;\;\;\Rightarrow \;\;\;\;\mathbf {\beta } =\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} =\left[{\begin{array}{c}3.5\\1.4\end{array}}\right].} X X {\displaystyle \mathbf {X} ^{\top }\mathbf {X} } X ( X X ) 1 X {\displaystyle \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }} X {\displaystyle \mathbf {X} } X β {\displaystyle \mathbf {X} \mathbf {\beta } } y {\displaystyle \mathbf {y} } X ( X X ) 1 X y {\displaystyle \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} } X ( X X ) 1 X y = X β , {\displaystyle \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} =\mathbf {X} \mathbf {\beta } ,} β = ( X X ) 1 X y {\displaystyle \mathbf {\beta } =\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} }

Ajuste de una parábola

Resultado de ajustar una función cuadrática (en azul) a través de un conjunto de puntos de datos (en rojo). En los mínimos cuadrados lineales, la función no necesita ser lineal en el argumento, sino solo en los parámetros que se determinan para brindar el mejor ajuste. y = β 1 + β 2 x + β 3 x 2 {\displaystyle y=\beta _{1}+\beta _{2}x+\beta _{3}x^{2}\,} ( x i , y i ) {\displaystyle (x_{i},y_{i})} x , {\displaystyle x,} β j {\displaystyle \beta _{j}}

Supongamos que el investigador hipotético desea ajustar una parábola de la forma . Es importante destacar que este modelo sigue siendo lineal en los parámetros desconocidos (ahora solo ), por lo que los mínimos cuadrados lineales aún se aplican. El sistema de ecuaciones que incorpora residuos es y = β 1 x 2 {\displaystyle y=\beta _{1}x^{2}} β 1 {\displaystyle \beta _{1}} 6 = β 1 ( 1 ) 2 + r 1 5 = β 1 ( 2 ) 2 + r 2 7 = β 1 ( 3 ) 2 + r 3 10 = β 1 ( 4 ) 2 + r 4 {\displaystyle {\begin{alignedat}{2}6&&\;=\beta _{1}(1)^{2}+r_{1}\\5&&\;=\beta _{1}(2)^{2}+r_{2}\\7&&\;=\beta _{1}(3)^{2}+r_{3}\\10&&\;=\beta _{1}(4)^{2}+r_{4}\\\end{alignedat}}}

La suma de los residuos al cuadrado es Solo hay una derivada parcial para establecer en 0: La solución es , y el modelo de ajuste es . S ( β 1 ) = ( 6 β 1 ) 2 + ( 5 4 β 1 ) 2 + ( 7 9 β 1 ) 2 + ( 10 16 β 1 ) 2 . {\displaystyle S(\beta _{1})=(6-\beta _{1})^{2}+(5-4\beta _{1})^{2}+(7-9\beta _{1})^{2}+(10-16\beta _{1})^{2}.} 0 = S β 1 = 708 β 1 498. {\displaystyle 0={\frac {\partial S}{\partial \beta _{1}}}=708\beta _{1}-498.} β 1 = 0.703 {\displaystyle \beta _{1}=0.703} y = 0.703 x 2 {\displaystyle y=0.703x^{2}}

En notación matricial, las ecuaciones sin residuos son nuevamente , donde ahora Por la misma lógica que antes, la solución es y = X β {\displaystyle \mathbf {y} =\mathbf {X} \mathbf {\beta } } y = [ 6 5 7 10 ] , X = [ 1 4 9 16 ] , β = [ β 1 ] . {\displaystyle \mathbf {y} =\left[{\begin{array}{c}6\\5\\7\\10\end{array}}\right],\;\;\;\;\mathbf {X} =\left[{\begin{array}{c}1\\4\\9\\16\end{array}}\right],\;\;\;\;\mathbf {\beta } =\left[{\begin{array}{c}\beta _{1}\end{array}}\right].} β = ( X X ) 1 X y = [ 0.703 ] . {\displaystyle \mathbf {\beta } =\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} =\left[{\begin{array}{c}0.703\end{array}}\right].}

La figura muestra una extensión para ajustar la parábola de tres parámetros utilizando una matriz de diseño con tres columnas (una para , y ) y una fila para cada uno de los puntos de datos rojos. X {\displaystyle \mathbf {X} } x 0 {\displaystyle x^{0}} x 1 {\displaystyle x^{1}} x 2 {\displaystyle x^{2}}

Adaptación a otras curvas y superficies

De manera más general, se pueden tener regresores y un modelo lineal. n {\displaystyle n} x j {\displaystyle x_{j}} y = β 0 + j = 1 n β j x j . {\displaystyle y=\beta _{0}+\sum _{j=1}^{n}\beta _{j}x_{j}.}

Véase también

Referencias

  1. ^ Weisstein, Eric W. "Ecuación normal". MathWorld . Wolfram . Consultado el 18 de diciembre de 2023 .
  2. ^ Lai, TL; Robbins, H.; Wei, CZ (1978). "Fuerte consistencia de las estimaciones de mínimos cuadrados en regresión múltiple". PNAS . 75 (7): 3034–3036. Bibcode :1978PNAS...75.3034L. doi : 10.1073/pnas.75.7.3034 . JSTOR  68164. PMC 392707 . PMID  16592540. 
  3. ^ del Pino, Guido (1989). "El papel unificador de los mínimos cuadrados generalizados iterativos en los algoritmos estadísticos". Ciencia estadística . 4 (4): 394–403. doi : 10.1214/ss/1177012408 . JSTOR  2245853.
  4. ^ Carroll, Raymond J. (1982). "Adaptación para heteroscedasticidad en modelos lineales". Anales de estadística . 10 (4): 1224–1233. doi : 10.1214/aos/1176345987 . JSTOR  2240725.
  5. ^ Cohen, Michael; Dalal, Siddhartha R.; Tukey, John W. (1993). "Regresión de varianza robusta y suavemente heterogénea". Revista de la Royal Statistical Society, Serie C . 42 (2): 339–353. JSTOR  2986237.
  6. ^ Nievergelt, Yves (1994). "Mínimos cuadrados totales: regresión de última generación en análisis numérico". SIAM Review . 36 (2): 258–264. doi :10.1137/1036055. JSTOR  2132463.
  7. ^ Britzger, Daniel (2022). "El ajuste lineal de la plantilla". Eur. Phys. J. C . 82 (8): 731. arXiv : 2112.01548 . Código Bibliográfico :2022EPJC...82..731B. doi :10.1140/epjc/s10052-022-10581-w. S2CID  244896511.
  8. ^ Tofallis, C (2009). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi :10.2139/ssrn.1406472. hdl : 2299/965 . SSRN  1406472.
  9. ^ Hamilton, WC (1964). Estadística en ciencias físicas . Nueva York: Ronald Press.
  10. ^ Spiegel, Murray R. (1975). Esquema de teoría y problemas de probabilidad y estadística de Schaum . Nueva York: McGraw-Hill. ISBN 978-0-585-26739-5.
  11. ^ Margenau, Henry; Murphy, George Moseley (1956). Las matemáticas de la física y la química . Princeton: Van Nostrand.
  12. ^ ab Gans, Peter (1992). Ajuste de datos en las ciencias químicas . Nueva York: Wiley. ISBN 978-0-471-93412-7.
  13. ^ Deming, WE (1943). Ajuste estadístico de datos . Nueva York: Wiley.
  14. ^ Acton, FS (1959). Análisis de datos lineales . Nueva York: Wiley.
  15. ^ Guest, PG (1961). Métodos numéricos de ajuste de curvas . Cambridge: Cambridge University Press.[ página necesaria ]

Lectura adicional

  • Bevington, Philip R.; Robinson, Keith D. (2003). Reducción de datos y análisis de errores para las ciencias físicas . McGraw-Hill. ISBN 978-0-07-247227-1.
  • Ajuste por mínimos cuadrados – De MathWorld
  • Ajuste de polinomios por mínimos cuadrados – De MathWorld
Retrieved from "https://en.wikipedia.org/w/index.php?title=Linear_least_squares&oldid=1245891861"