Error cuadrático medio mínimo

Método de estimación que minimiza el error cuadrático medio

En estadística y procesamiento de señales , un estimador de error cuadrático medio mínimo ( MMSE ) es un método de estimación que minimiza el error cuadrático medio (MSE), que es una medida común de la calidad del estimador, de los valores ajustados de una variable dependiente . En el entorno bayesiano , el término MMSE se refiere más específicamente a la estimación con función de pérdida cuadrática . En tal caso, el estimador MMSE viene dado por la media posterior del parámetro que se va a estimar. Dado que la media posterior es complicada de calcular, la forma del estimador MMSE suele estar restringida a estar dentro de una determinada clase de funciones. Los estimadores MMSE lineales son una opción popular, ya que son fáciles de usar, fáciles de calcular y muy versátiles. Ha dado lugar a muchos estimadores populares, como el filtro de Wiener-Kolmogorov y el filtro de Kalman .

Motivación

El término MMSE se refiere más específicamente a la estimación en un entorno bayesiano con una función de costo cuadrática. La idea básica detrás del enfoque bayesiano para la estimación surge de situaciones prácticas en las que a menudo tenemos alguna información previa sobre el parámetro que se va a estimar. Por ejemplo, podemos tener información previa sobre el rango que puede asumir el parámetro; o podemos tener una estimación antigua del parámetro que queremos modificar cuando se dispone de una nueva observación; o las estadísticas de una señal aleatoria real como el habla. Esto contrasta con el enfoque no bayesiano como el estimador insesgado de varianza mínima (MVUE) donde se supone que no se sabe absolutamente nada sobre el parámetro de antemano y que no tiene en cuenta tales situaciones. En el enfoque bayesiano, dicha información previa es capturada por la función de densidad de probabilidad previa de los parámetros; y, basándose directamente en el teorema de Bayes , nos permite hacer mejores estimaciones posteriores a medida que se disponga de más observaciones. Por lo tanto, a diferencia del enfoque no bayesiano, en el que se supone que los parámetros de interés son deterministas, pero constantes desconocidas, el estimador bayesiano busca estimar un parámetro que es en sí mismo una variable aleatoria. Además, la estimación bayesiana también puede abordar situaciones en las que la secuencia de observaciones no es necesariamente independiente. Por lo tanto, la estimación bayesiana proporciona otra alternativa a la MVUE. Esto es útil cuando la MVUE no existe o no se puede encontrar.

Definición

Sea una variable aleatoria vectorial oculta y sea una variable aleatoria vectorial conocida (la medición u observación), ambas no necesariamente de la misma dimensión. Un estimador de es cualquier función de la medición . El vector de error de estimación está dado por y su error cuadrático medio (MSE) está dado por la matriz de covarianza de la traza del error incógnita {\estilo de visualización x} norte × 1 {\displaystyle n\times 1} y {\estilo de visualización y} metro × 1 {\displaystyle m\times 1} incógnita ^ ( y ) {\displaystyle {\hat {x}}(y)} incógnita {\estilo de visualización x} y {\estilo de visualización y} mi = incógnita ^ incógnita {\displaystyle e={\hat {x}}-x}

MSE = es { mi { ( incógnita ^ incógnita ) ( incógnita ^ incógnita ) yo } } = mi { ( incógnita ^ incógnita ) yo ( incógnita ^ incógnita ) } , {\displaystyle \operatorname {MSE} =\operatorname {tr} \left\{\operatorname {E} \{({\hat {x}}-x)({\hat {x}}-x)^{T}\}\right\}=\operatorname {E} \{({\hat {x}}-x)^{T}({\hat {x}}-x)\},}

donde la expectativa se asume condicionada a . Cuando es una variable escalar, la expresión MSE se simplifica a . Tenga en cuenta que MSE se puede definir de manera equivalente de otras maneras, ya que mi {\displaystyle \nombre del operador {E} } incógnita {\estilo de visualización x} y {\estilo de visualización y} incógnita {\estilo de visualización x} mi { ( incógnita ^ incógnita ) 2 } {\displaystyle \operatorname {E} \izquierda\{({\hat {x}}-x)^{2}\derecha\}}

es { mi { mi mi yo } } = mi { es { mi mi yo } } = mi { mi yo mi } = i = 1 norte mi { mi i 2 } . {\displaystyle \operatorname {tr} \left\{\operatorname {E} \{ee^{T}\}\right\}=\operatorname {E} \left\{\operatorname {tr} \{ee^{T}\}\right\}=\operatorname {E} \{e^{T}e\}=\sum _{i=1}^{n}\operatorname {E} \{e_{i}^{2}\}.}

El estimador MMSE se define entonces como el estimador que logra el MSE mínimo:

incógnita ^ MMSE ( y ) = argmin incógnita ^ MSE . {\displaystyle {\hat {x}}_{\operatorname {MMSE} }(y)=\operatorname {argmin} _{\hat {x}}\operatorname {MSE} .}

Propiedades

  • Cuando las medias y varianzas son finitas, el estimador MMSE se define de forma única [1] y viene dado por:
incógnita ^ MMSE ( y ) = mi { incógnita y } . {\displaystyle {\hat {x}}_{\operatorname {MMSE} }(y)=\operatorname {E} \{x\mid y\}.}
En otras palabras, el estimador MMSE es la esperanza condicional de dado el valor observado conocido de las mediciones. Además, dado que es la media posterior, la matriz de covarianza de errores es igual a la matriz de covarianza posterior, incógnita {\estilo de visualización x} incógnita ^ METRO METRO S mi {\displaystyle {\hat {x}}_{\mathrm {MMSE} }} do mi = mi { ( incógnita ^ incógnita ) ( incógnita ^ incógnita ) yo } {\displaystyle C_{e}=\nombre del operador {E} \{({\hat {x}}-x)({\hat {x}}-x)^{T}\}} do incógnita | Y Estilo de visualización C_{X|Y}}
do mi = do incógnita | Y {\displaystyle C_{e}=C_{X|Y}} .
  • El estimador MMSE es imparcial (bajo los supuestos de regularidad mencionados anteriormente):
mi { incógnita ^ MMSE ( y ) } = mi { mi { incógnita y } } = mi { incógnita } . {\displaystyle \operatorname {E} \{{\hat {x}}_{\operatorname {MMSE} }(y)\}=\operatorname {E} \{\operatorname {E} \{x\mid y\}\}=\operatorname {E} \{x\}.}
norte ( incógnita ^ MMSE incógnita ) d norte ( 0 , I 1 ( incógnita ) ) , {\displaystyle {\sqrt {n}}({\hat {x}}_{\operatorname {MMSE} }-x)\xrightarrow {d} {\mathcal {N}}\left(0,I^{-1}(x)\right),}
donde es la información de Fisher de . Por lo tanto, el estimador MMSE es asintóticamente eficiente . I ( incógnita ) {\displaystyle I(x)} incógnita {\estilo de visualización x}
  • El principio de ortogonalidad : cuando es un escalar, un estimador restringido a tener cierta forma es un estimador óptimo, es decir, si y solo si incógnita {\estilo de visualización x} incógnita ^ = gramo ( y ) {\displaystyle {\hat {x}}=g(y)} incógnita ^ MMSE = gramo ( y ) , {\displaystyle {\hat {x}}_{\operatorname {MMSE} }=g^{*}(y),}
mi { ( incógnita ^ MMSE incógnita ) gramo ( y ) } = 0 {\displaystyle \operatorname {E} \{({\hat {x}}_{\operatorname {MMSE} }-x)g(y)\}=0}
para todos los subespacios lineales cerrados de las mediciones. Para los vectores aleatorios, dado que el MSE para la estimación de un vector aleatorio es la suma de los MSE de las coordenadas, encontrar el estimador MMSE de un vector aleatorio se descompone en encontrar los estimadores MMSE de las coordenadas de X por separado: gramo ( y ) {\displaystyle g(y)} V = { gramo ( y ) gramo : R metro R , mi { gramo ( y ) 2 } < + } {\displaystyle {\mathcal {V}}=\{g(y)\mid g:\mathbb {R} ^{m}\rightarrow \mathbb {R} ,\operatorname {E} \{g(y)^{2}\}<+\infty \}}
mi { ( gramo i ( y ) incógnita i ) gramo yo ( y ) } = 0 , {\displaystyle \operatorname {E} \{(g_{i}^{*}(y)-x_{i})g_{j}(y)\}=0,}
para todos los i y j . Dicho de manera más sucinta, la correlación cruzada entre el error de estimación mínimo y el estimador debería ser cero. incógnita ^ MMSE incógnita {\displaystyle {\hat {x}}_{\nombre del operador {MMSE} }-x} incógnita ^ {\displaystyle {\hat {x}}}
mi { ( incógnita ^ MMSE incógnita ) incógnita ^ yo } = 0. {\displaystyle \operatorname {E} \{({\hat {x}}_{\operatorname {MMSE} }-x){\hat {x}}^{T}\}=0.}
  • Si y son conjuntamente gaussianos , entonces el estimador MMSE es lineal, es decir, tiene la forma de matriz y constante . Esto se puede demostrar directamente utilizando el teorema de Bayes. En consecuencia, para encontrar el estimador MMSE, es suficiente encontrar el estimador MMSE lineal. incógnita {\estilo de visualización x} y {\estilo de visualización y} Yo y + b {\estilo de visualización Wy+b} Yo {\estilo de visualización W} b {\estilo de visualización b}

Estimador lineal MMSE

En muchos casos, no es posible determinar la expresión analítica del estimador MMSE. Dos enfoques numéricos básicos para obtener la estimación MMSE dependen de encontrar la expectativa condicional o encontrar los mínimos de MSE. La evaluación numérica directa de la expectativa condicional es computacionalmente costosa ya que a menudo requiere integración multidimensional generalmente realizada a través de métodos de Monte Carlo . Otro enfoque computacional es buscar directamente los mínimos del MSE utilizando técnicas como los métodos de descenso de gradiente estocástico ; pero este método aún requiere la evaluación de la expectativa. Si bien estos métodos numéricos han sido fructíferos, una expresión de forma cerrada para el estimador MMSE es posible, no obstante, si estamos dispuestos a hacer algunos compromisos. mi { incógnita y } {\displaystyle \nombre del operador {E} \{x\mid y\}}

Una posibilidad es abandonar los requisitos de optimalidad total y buscar una técnica que minimice el MSE dentro de una clase particular de estimadores, como la clase de estimadores lineales. Por lo tanto, postulamos que la esperanza condicional de dado es una función lineal simple de , , donde la medida es un vector aleatorio, es una matriz y es un vector. Esto puede verse como la aproximación de Taylor de primer orden de . El estimador MMSE lineal es el estimador que logra el MSE mínimo entre todos los estimadores de esa forma. Es decir, resuelve el siguiente problema de optimización: incógnita {\estilo de visualización x} y {\estilo de visualización y} y {\estilo de visualización y} mi { incógnita y } = Yo y + b {\displaystyle \operatorname {E} \{x\mid y\}=Wy+b} y {\estilo de visualización y} Yo {\estilo de visualización W} b {\estilo de visualización b} mi { incógnita y } {\displaystyle \nombre del operador {E} \{x\mid y\}}

mín. Yo , b MSE calle incógnita ^ = Yo y + b . {\displaystyle \min _{W,b}\operatorname {MSE} \qquad {\text{st}}\qquad {\hat {x}}=Wy+b.}

Una ventaja de este estimador lineal MMSE es que no es necesario calcular explícitamente la función de densidad de probabilidad posterior de . Este estimador lineal solo depende de los dos primeros momentos de y . Por lo tanto, aunque puede ser conveniente suponer que y son conjuntamente gaussianos, no es necesario hacer esta suposición, siempre que la distribución supuesta tenga momentos primero y segundo bien definidos. La forma del estimador lineal no depende del tipo de la distribución subyacente supuesta. incógnita {\estilo de visualización x} incógnita {\estilo de visualización x} y {\estilo de visualización y} incógnita {\estilo de visualización x} y {\estilo de visualización y}

La expresión para y óptimo viene dada por: b {\estilo de visualización b} Yo {\estilo de visualización W}

b = incógnita ¯ Yo y ¯ , {\displaystyle b={\bar {x}}-W{\bar {y}},}
W = C X Y C Y 1 . {\displaystyle W=C_{XY}C_{Y}^{-1}.}

donde , es la matriz de covarianza cruzada entre y , es la matriz de autocovarianza de . x ¯ = E { x } {\displaystyle {\bar {x}}=\operatorname {E} \{x\}} y ¯ = E { y } , {\displaystyle {\bar {y}}=\operatorname {E} \{y\},} C X Y {\displaystyle C_{XY}} x {\displaystyle x} y {\displaystyle y} C Y {\displaystyle C_{Y}} y {\displaystyle y}

Por lo tanto, la expresión para el estimador lineal MMSE, su media y su autocovarianza está dada por

x ^ = C X Y C Y 1 ( y y ¯ ) + x ¯ , {\displaystyle {\hat {x}}=C_{XY}C_{Y}^{-1}(y-{\bar {y}})+{\bar {x}},}
E { x ^ } = x ¯ , {\displaystyle \operatorname {E} \{{\hat {x}}\}={\bar {x}},}
C X ^ = C X Y C Y 1 C Y X , {\displaystyle C_{\hat {X}}=C_{XY}C_{Y}^{-1}C_{YX},}

donde es la matriz de covarianza cruzada entre y . C Y X {\displaystyle C_{YX}} y {\displaystyle y} x {\displaystyle x}

Por último, la covarianza de error y el error cuadrático medio mínimo alcanzable por dicho estimador son

C e = C X C X ^ = C X C X Y C Y 1 C Y X , {\displaystyle C_{e}=C_{X}-C_{\hat {X}}=C_{X}-C_{XY}C_{Y}^{-1}C_{YX},}
LMMSE = tr { C e } . {\displaystyle \operatorname {LMMSE} =\operatorname {tr} \{C_{e}\}.}
Derivación utilizando el principio de ortogonalidad

Supongamos que el estimador lineal óptimo del MMSE se da como , donde se requiere que encontremos la expresión para y . Se requiere que el estimador del MMSE sea insesgado. Esto significa que, x ^ = W y + b {\displaystyle {\hat {x}}=Wy+b} W {\displaystyle W} b {\displaystyle b}

E { x ^ } = E { x } . {\displaystyle \operatorname {E} \{{\hat {x}}\}=\operatorname {E} \{x\}.}

Reemplazando la expresión anterior, obtenemos x ^ {\displaystyle {\hat {x}}}

b = x ¯ W y ¯ , {\displaystyle b={\bar {x}}-W{\bar {y}},}

donde y . Por lo tanto, podemos reescribir el estimador como x ¯ = E { x } {\displaystyle {\bar {x}}=\operatorname {E} \{x\}} y ¯ = E { y } {\displaystyle {\bar {y}}=\operatorname {E} \{y\}}

x ^ = W ( y y ¯ ) + x ¯ {\displaystyle {\hat {x}}=W(y-{\bar {y}})+{\bar {x}}}

y la expresión para el error de estimación se convierte en

x ^ x = W ( y y ¯ ) ( x x ¯ ) . {\displaystyle {\hat {x}}-x=W(y-{\bar {y}})-(x-{\bar {x}}).}

Del principio de ortogonalidad, podemos tener , donde tomamos . Aquí el término del lado izquierdo es E { ( x ^ x ) ( y y ¯ ) T } = 0 {\displaystyle \operatorname {E} \{({\hat {x}}-x)(y-{\bar {y}})^{T}\}=0} g ( y ) = y y ¯ {\displaystyle g(y)=y-{\bar {y}}}

E { ( x ^ x ) ( y y ¯ ) T } = E { ( W ( y y ¯ ) ( x x ¯ ) ) ( y y ¯ ) T } = W E { ( y y ¯ ) ( y y ¯ ) T } E { ( x x ¯ ) ( y y ¯ ) T } = W C Y C X Y . {\displaystyle {\begin{aligned}\operatorname {E} \{({\hat {x}}-x)(y-{\bar {y}})^{T}\}&=\operatorname {E} \{(W(y-{\bar {y}})-(x-{\bar {x}}))(y-{\bar {y}})^{T}\}\\&=W\operatorname {E} \{(y-{\bar {y}})(y-{\bar {y}})^{T}\}-\operatorname {E} \{(x-{\bar {x}})(y-{\bar {y}})^{T}\}\\&=WC_{Y}-C_{XY}.\end{aligned}}}

Cuando se iguala a cero, obtenemos la expresión deseada para como W {\displaystyle W}

W = C X Y C Y 1 . {\displaystyle W=C_{XY}C_{Y}^{-1}.}

La es la matriz de covarianza cruzada entre X e Y, y es la matriz de autocovarianza de Y. Como , la expresión también se puede reescribir en términos de como C X Y {\displaystyle C_{XY}} C Y {\displaystyle C_{Y}} C X Y = C Y X T {\displaystyle C_{XY}=C_{YX}^{T}} C Y X {\displaystyle C_{YX}}

W T = C Y 1 C Y X . {\displaystyle W^{T}=C_{Y}^{-1}C_{YX}.}

Por lo tanto, la expresión completa para el estimador lineal MMSE es

x ^ = C X Y C Y 1 ( y y ¯ ) + x ¯ . {\displaystyle {\hat {x}}=C_{XY}C_{Y}^{-1}(y-{\bar {y}})+{\bar {x}}.}

Dado que la estimación es en sí misma una variable aleatoria con , también podemos obtener su autocovarianza como x ^ {\displaystyle {\hat {x}}} E { x ^ } = x ¯ {\displaystyle \operatorname {E} \{{\hat {x}}\}={\bar {x}}}

C X ^ = E { ( x ^ x ¯ ) ( x ^ x ¯ ) T } = W E { ( y y ¯ ) ( y y ¯ ) T } W T = W C Y W T . {\displaystyle {\begin{aligned}C_{\hat {X}}&=\operatorname {E} \{({\hat {x}}-{\bar {x}})({\hat {x}}-{\bar {x}})^{T}\}\\&=W\operatorname {E} \{(y-{\bar {y}})(y-{\bar {y}})^{T}\}W^{T}\\&=WC_{Y}W^{T}.\\\end{aligned}}}

Poniendo la expresión para y , obtenemos W {\displaystyle W} W T {\displaystyle W^{T}}

C X ^ = C X Y C Y 1 C Y X . {\displaystyle C_{\hat {X}}=C_{XY}C_{Y}^{-1}C_{YX}.}

Por último, la covarianza del error de estimación lineal del MMSE se dará entonces por

C e = E { ( x ^ x ) ( x ^ x ) T } = E { ( x ^ x ) ( W ( y y ¯ ) ( x x ¯ ) ) T } = E { ( x ^ x ) ( y y ¯ ) T } 0 W T E { ( x ^ x ) ( x x ¯ ) T } = E { ( W ( y y ¯ ) ( x x ¯ ) ) ( x x ¯ ) T } = E { ( x x ¯ ) ( x x ¯ ) T } W E { ( y y ¯ ) ( x x ¯ ) T } = C X W C Y X . {\displaystyle {\begin{aligned}C_{e}&=\operatorname {E} \{({\hat {x}}-x)({\hat {x}}-x)^{T}\}\\&=\operatorname {E} \{({\hat {x}}-x)(W(y-{\bar {y}})-(x-{\bar {x}}))^{T}\}\\&=\underbrace {\operatorname {E} \{({\hat {x}}-x)(y-{\bar {y}})^{T}\}} _{0}W^{T}-\operatorname {E} \{({\hat {x}}-x)(x-{\bar {x}})^{T}\}\\&=-\operatorname {E} \{(W(y-{\bar {y}})-(x-{\bar {x}}))(x-{\bar {x}})^{T}\}\\&=\operatorname {E} \{(x-{\bar {x}})(x-{\bar {x}})^{T}\}-W\operatorname {E} \{(y-{\bar {y}})(x-{\bar {x}})^{T}\}\\&=C_{X}-WC_{YX}.\end{aligned}}}

El primer término de la tercera línea es cero debido al principio de ortogonalidad. Como , podemos reescribir en términos de matrices de covarianza como W = C X Y C Y 1 {\displaystyle W=C_{XY}C_{Y}^{-1}} C e {\displaystyle C_{e}}

C e = C X C X Y C Y 1 C Y X . {\displaystyle C_{e}=C_{X}-C_{XY}C_{Y}^{-1}C_{YX}.}

Podemos reconocer que esto es lo mismo que Por lo tanto, el error cuadrático medio mínimo alcanzable por dicho estimador lineal es C e = C X C X ^ . {\displaystyle C_{e}=C_{X}-C_{\hat {X}}.}

LMMSE = tr { C e } {\displaystyle \operatorname {LMMSE} =\operatorname {tr} \{C_{e}\}} .

Caso univariado

Para el caso especial cuando tanto y son escalares, las relaciones anteriores se simplifican a x {\displaystyle x} y {\displaystyle y}

x ^ = σ X Y σ Y 2 ( y y ¯ ) + x ¯ = ρ σ X σ Y ( y y ¯ ) + x ¯ , {\displaystyle {\hat {x}}={\frac {\sigma _{XY}}{\sigma _{Y}^{2}}}(y-{\bar {y}})+{\bar {x}}=\rho {\frac {\sigma _{X}}{\sigma _{Y}}}(y-{\bar {y}})+{\bar {x}},}
σ e 2 = σ X 2 σ X Y 2 σ Y 2 = ( 1 ρ 2 ) σ X 2 , {\displaystyle \sigma _{e}^{2}=\sigma _{X}^{2}-{\frac {\sigma _{XY}^{2}}{\sigma _{Y}^{2}}}=(1-\rho ^{2})\sigma _{X}^{2},}

¿Dónde está el coeficiente de correlación de Pearson entre y ? ρ = σ X Y σ X σ Y {\displaystyle \rho ={\frac {\sigma _{XY}}{\sigma _{X}\sigma _{Y}}}} x {\displaystyle x} y {\displaystyle y}

Las dos ecuaciones anteriores nos permiten interpretar el coeficiente de correlación como pendiente normalizada de regresión lineal.

( x ^ x ¯ σ X ) = ρ ( y y ¯ σ Y ) {\displaystyle \left({\frac {{\hat {x}}-{\bar {x}}}{\sigma _{X}}}\right)=\rho \left({\frac {y-{\bar {y}}}{\sigma _{Y}}}\right)}

o como raíz cuadrada de la relación de dos varianzas

ρ 2 = σ X 2 σ e 2 σ X 2 = σ X ^ 2 σ X 2 {\displaystyle \rho ^{2}={\frac {\sigma _{X}^{2}-\sigma _{e}^{2}}{\sigma _{X}^{2}}}={\frac {\sigma _{\hat {X}}^{2}}{\sigma _{X}^{2}}}} .

Cuando , tenemos y . En este caso, no se obtiene información nueva de la medición que pueda reducir la incertidumbre en . Por otro lado, cuando , tenemos y . Aquí está completamente determinado por , como lo indica la ecuación de la línea recta. ρ = 0 {\displaystyle \rho =0} x ^ = x ¯ {\displaystyle {\hat {x}}={\bar {x}}} σ e 2 = σ X 2 {\displaystyle \sigma _{e}^{2}=\sigma _{X}^{2}} x {\displaystyle x} ρ = ± 1 {\displaystyle \rho =\pm 1} x ^ = σ X Y σ Y ( y y ¯ ) + x ¯ {\displaystyle {\hat {x}}={\frac {\sigma _{XY}}{\sigma _{Y}}}(y-{\bar {y}})+{\bar {x}}} σ e 2 = 0 {\displaystyle \sigma _{e}^{2}=0} x {\displaystyle x} y {\displaystyle y}

Cálculo

El método estándar como la eliminación de Gauss se puede utilizar para resolver la ecuación matricial para . Un método numéricamente más estable es proporcionado por el método de descomposición QR . Dado que la matriz es una matriz definida positiva simétrica, se puede resolver el doble de rápido con la descomposición de Cholesky , mientras que para sistemas dispersos grandes el método del gradiente conjugado es más efectivo. La recursión de Levinson es un método rápido cuando también es una matriz de Toeplitz . Esto puede suceder cuando es un proceso estacionario de sentido amplio . En tales casos estacionarios, estos estimadores también se conocen como filtros de Wiener-Kolmogorov . W {\displaystyle W} C Y {\displaystyle C_{Y}} W {\displaystyle W} C Y {\displaystyle C_{Y}} y {\displaystyle y}

Estimador lineal MMSE para procesos de observación lineal

Modelemos además el proceso subyacente de observación como un proceso lineal: , donde es una matriz conocida y es un vector de ruido aleatorio con la media y la covarianza cruzada . Aquí, la media requerida y las matrices de covarianza serán y = A x + z {\displaystyle y=Ax+z} A {\displaystyle A} z {\displaystyle z} E { z } = 0 {\displaystyle \operatorname {E} \{z\}=0} C X Z = 0 {\displaystyle C_{XZ}=0}

E { y } = A x ¯ , {\displaystyle \operatorname {E} \{y\}=A{\bar {x}},}
C Y = A C X A T + C Z , {\displaystyle C_{Y}=AC_{X}A^{T}+C_{Z},}
C X Y = C X A T . {\displaystyle C_{XY}=C_{X}A^{T}.}

Por lo tanto, la expresión para la matriz del estimador MMSE lineal se modifica aún más a W {\displaystyle W}

W = C X A T ( A C X A T + C Z ) 1 . {\displaystyle W=C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}.}

Poniendo todo en la expresión para , obtenemos x ^ {\displaystyle {\hat {x}}}

x ^ = C X A T ( A C X A T + C Z ) 1 ( y A x ¯ ) + x ¯ . {\displaystyle {\hat {x}}=C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}(y-A{\bar {x}})+{\bar {x}}.}

Por último, la covarianza del error es

C e = C X C X ^ = C X C X A T ( A C X A T + C Z ) 1 A C X . {\displaystyle C_{e}=C_{X}-C_{\hat {X}}=C_{X}-C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}AC_{X}.}

La diferencia significativa entre el problema de estimación tratado anteriormente y los de mínimos cuadrados y estimación de Gauss-Markov es que el número de observaciones m , (es decir, la dimensión de ) no necesita ser al menos tan grande como el número de incógnitas, n , (es decir, la dimensión de ). La estimación para el proceso de observación lineal existe mientras exista la matriz m -por- m ; este es el caso para cualquier m si, por ejemplo, es definida positiva. Físicamente, la razón de esta propiedad es que como ahora es una variable aleatoria, es posible formar una estimación significativa (a saber, su media) incluso sin mediciones. Cada nueva medición simplemente proporciona información adicional que puede modificar nuestra estimación original. Otra característica de esta estimación es que para m < n , no necesita haber error de medición. Por lo tanto, podemos tener , porque mientras sea definida positiva, la estimación todavía existe. Por último, esta técnica puede manejar casos donde el ruido está correlacionado. y {\displaystyle y} x {\displaystyle x} ( A C X A T + C Z ) 1 {\displaystyle (AC_{X}A^{T}+C_{Z})^{-1}} C Z {\displaystyle C_{Z}} x {\displaystyle x} C Z = 0 {\displaystyle C_{Z}=0} A C X A T {\displaystyle AC_{X}A^{T}}

Forma alternativa

Se puede obtener una forma alternativa de expresión utilizando la identidad matricial

C X A T ( A C X A T + C Z ) 1 = ( A T C Z 1 A + C X 1 ) 1 A T C Z 1 , {\displaystyle C_{X}A^{T}(AC_{X}A^{T}+C_{Z})^{-1}=(A^{T}C_{Z}^{-1}A+C_{X}^{-1})^{-1}A^{T}C_{Z}^{-1},}

que se puede establecer mediante la post-multiplicación por y la pre-multiplicación por para obtener ( A C X A T + C Z ) {\displaystyle (AC_{X}A^{T}+C_{Z})} ( A T C Z 1 A + C X 1 ) , {\displaystyle (A^{T}C_{Z}^{-1}A+C_{X}^{-1}),}

W = ( A T C Z 1 A + C X 1 ) 1 A T C Z 1 , {\displaystyle W=(A^{T}C_{Z}^{-1}A+C_{X}^{-1})^{-1}A^{T}C_{Z}^{-1},}

y

C e = ( A T C Z 1 A + C X 1 ) 1 . {\displaystyle C_{e}=(A^{T}C_{Z}^{-1}A+C_{X}^{-1})^{-1}.}

Como ahora se puede escribir en términos de como , obtenemos una expresión simplificada para como W {\displaystyle W} C e {\displaystyle C_{e}} W = C e A T C Z 1 {\displaystyle W=C_{e}A^{T}C_{Z}^{-1}} x ^ {\displaystyle {\hat {x}}}

x ^ = C e A T C Z 1 ( y A x ¯ ) + x ¯ . {\displaystyle {\hat {x}}=C_{e}A^{T}C_{Z}^{-1}(y-A{\bar {x}})+{\bar {x}}.}

En esta forma, la expresión anterior se puede comparar fácilmente con la regresión de cresta , los mínimos cuadrados ponderados y la estimación de Gauss-Markov . En particular, cuando , correspondiente a la varianza infinita de la información a priori relativa a , el resultado es idéntico a la estimación de mínimos cuadrados lineales ponderados con como matriz de ponderación. Además, si los componentes de no están correlacionados y tienen varianza igual de modo que donde es una matriz identidad, entonces es idéntico a la estimación de mínimos cuadrados ordinarios. Cuando la información a priori está disponible como y no están correlacionados y tienen varianza igual, tenemos , que es idéntico a la solución de regresión de cresta. C X 1 = 0 {\displaystyle C_{X}^{-1}=0} x {\displaystyle x} W = ( A T C Z 1 A ) 1 A T C Z 1 {\displaystyle W=(A^{T}C_{Z}^{-1}A)^{-1}A^{T}C_{Z}^{-1}} C Z 1 {\displaystyle C_{Z}^{-1}} z {\displaystyle z} C Z = σ 2 I , {\displaystyle C_{Z}=\sigma ^{2}I,} I {\displaystyle I} W = ( A T A ) 1 A T {\displaystyle W=(A^{T}A)^{-1}A^{T}} C X 1 = λ I {\displaystyle C_{X}^{-1}=\lambda I} z {\displaystyle z} W = ( A T A + λ I ) 1 A T {\displaystyle W=(A^{T}A+\lambda I)^{-1}A^{T}}

Estimación lineal secuencial del MMSE

En muchas aplicaciones en tiempo real, los datos de observación no están disponibles en un único lote, sino que las observaciones se realizan en una secuencia. Un enfoque posible es utilizar las observaciones secuenciales para actualizar una estimación anterior a medida que se disponga de datos adicionales, lo que conduce a estimaciones más precisas. Una diferencia crucial entre la estimación por lotes y la estimación secuencial es que la estimación secuencial requiere un supuesto de Markov adicional.

En el marco bayesiano, dicha estimación recursiva se facilita fácilmente utilizando la regla de Bayes. Dadas las observaciones, , la regla de Bayes nos da la densidad posterior de como k {\displaystyle k} y 1 , , y k {\displaystyle y_{1},\ldots ,y_{k}} x k {\displaystyle x_{k}}

p ( x k | y 1 , , y k ) p ( y k | x , y 1 , , y k 1 ) p ( x k | y 1 , , y k 1 ) = p ( y k | x k ) p ( x k | y 1 , , y k 1 ) . {\displaystyle {\begin{aligned}p(x_{k}|y_{1},\ldots ,y_{k})&\propto p(y_{k}|x,y_{1},\ldots ,y_{k-1})p(x_{k}|y_{1},\ldots ,y_{k-1})\\&=p(y_{k}|x_{k})p(x_{k}|y_{1},\ldots ,y_{k-1}).\end{aligned}}}

La se denomina densidad posterior, se denomina función de verosimilitud y es la densidad previa del k -ésimo paso de tiempo. Aquí hemos asumido la independencia condicional de las observaciones previas dadas como p ( x k | y 1 , , y k ) {\displaystyle p(x_{k}|y_{1},\ldots ,y_{k})} p ( y k | x k ) {\displaystyle p(y_{k}|x_{k})} p ( x k | y 1 , , y k 1 ) {\displaystyle p(x_{k}|y_{1},\ldots ,y_{k-1})} y k {\displaystyle y_{k}} y 1 , , y k 1 {\displaystyle y_{1},\ldots ,y_{k-1}} x {\displaystyle x}

p ( y k | x k , y 1 , , y k 1 ) = p ( y k | x k ) . {\displaystyle p(y_{k}|x_{k},y_{1},\ldots ,y_{k-1})=p(y_{k}|x_{k}).}

Éste es el supuesto de Markov.

La estimación de MMSE dada la observación k -ésima es entonces la media de la densidad posterior . Con la falta de información dinámica sobre cómo cambia el estado con el tiempo, haremos una suposición de estacionariedad adicional sobre la anterior: x ^ k {\displaystyle {\hat {x}}_{k}} p ( x k | y 1 , , y k ) {\displaystyle p(x_{k}|y_{1},\ldots ,y_{k})} x {\displaystyle x}

p ( x k | y 1 , , y k 1 ) = p ( x k 1 | y 1 , , y k 1 ) . {\displaystyle p(x_{k}|y_{1},\ldots ,y_{k-1})=p(x_{k-1}|y_{1},\ldots ,y_{k-1}).}

Por lo tanto, la densidad previa para el k -ésimo paso de tiempo es la densidad posterior del ( k -1)-ésimo paso de tiempo. Esta estructura nos permite formular un enfoque recursivo para la estimación.

En el contexto del estimador MMSE lineal, la fórmula para la estimación tendrá la misma forma que antes: Sin embargo, las matrices de media y covarianza de y deberán reemplazarse por las de densidad y verosimilitud anteriores , respectivamente. x ^ = C X Y C Y 1 ( y y ¯ ) + x ¯ . {\displaystyle {\hat {x}}=C_{XY}C_{Y}^{-1}(y-{\bar {y}})+{\bar {x}}.} X {\displaystyle X} Y {\displaystyle Y} p ( x k | y 1 , , y k 1 ) {\displaystyle p(x_{k}|y_{1},\ldots ,y_{k-1})} p ( y k | x k ) {\displaystyle p(y_{k}|x_{k})}

Para la densidad previa , su media viene dada por la estimación MMSE previa, p ( x k | y 1 , , y k 1 ) {\displaystyle p(x_{k}|y_{1},\ldots ,y_{k-1})}

x ¯ k = E [ x k | y 1 , , y k 1 ] = E [ x k 1 | y 1 , , y k 1 ] = x ^ k 1 {\displaystyle {\bar {x}}_{k}=\mathrm {E} [x_{k}|y_{1},\ldots ,y_{k-1}]=\mathrm {E} [x_{k-1}|y_{1},\ldots ,y_{k-1}]={\hat {x}}_{k-1}} ,

y su matriz de covarianza está dada por la matriz de covarianza de errores anterior,

C X k | Y 1 , , Y k 1 = C X k 1 | Y 1 , , Y k 1 = C e k 1 , {\displaystyle C_{X_{k}|Y_{1},\ldots ,Y_{k-1}}=C_{X_{k-1}|Y_{1},\ldots ,Y_{k-1}}=C_{e_{k-1}},}

según las propiedades de los estimadores MMSE y el supuesto de estacionariedad.

De manera similar, para el proceso de observación lineal, la media de la probabilidad está dada por y la matriz de covarianza es como antes p ( y k | x k ) {\displaystyle p(y_{k}|x_{k})} y ¯ k = A x ¯ k = A x ^ k 1 {\displaystyle {\bar {y}}_{k}=A{\bar {x}}_{k}=A{\hat {x}}_{k-1}}

C Y k | X k = A C X k | Y 1 , , Y k 1 A T + C Z = A C e k 1 A T + C Z . {\displaystyle {\begin{aligned}C_{Y_{k}|X_{k}}&=AC_{X_{k}|Y_{1},\ldots ,Y_{k-1}}A^{T}+C_{Z}=AC_{e_{k-1}}A^{T}+C_{Z}.\end{aligned}}} .

La diferencia entre el valor predicho de , tal como lo indica , y su valor observado da como resultado el error de predicción , que también se conoce como innovación o residuo. Es más conveniente representar el MMSE lineal en términos del error de predicción, cuya media y covarianza son y . Y k {\displaystyle Y_{k}} y ¯ k = A x ^ k 1 {\displaystyle {\bar {y}}_{k}=A{\hat {x}}_{k-1}} y k {\displaystyle y_{k}} y ~ k = y k y ¯ k {\displaystyle {\tilde {y}}_{k}=y_{k}-{\bar {y}}_{k}} E [ y ~ k ] = 0 {\displaystyle \mathrm {E} [{\tilde {y}}_{k}]=0} C Y ~ k = C Y k | X k {\displaystyle C_{{\tilde {Y}}_{k}}=C_{Y_{k}|X_{k}}}

Por lo tanto, en la fórmula de actualización de la estimación, debemos reemplazar y por y , respectivamente. Además, debemos reemplazar y por y . Por último, reemplazamos por x ¯ {\displaystyle {\bar {x}}} C X {\displaystyle C_{X}} x ^ k 1 {\displaystyle {\hat {x}}_{k-1}} C e k 1 {\displaystyle C_{e_{k-1}}} y ¯ {\displaystyle {\bar {y}}} C Y {\displaystyle C_{Y}} y ¯ k 1 {\displaystyle {\bar {y}}_{k-1}} C Y ~ k {\displaystyle C_{{\tilde {Y}}_{k}}} C X Y {\displaystyle C_{XY}}

C X k Y k | Y 1 , , Y k 1 = C e k 1 Y ~ k = C e k 1 A T . {\displaystyle {\begin{aligned}C_{X_{k}Y_{k}|Y_{1},\ldots ,Y_{k-1}}&=C_{e_{k-1}{\tilde {Y}}_{k}}=C_{e_{k-1}}A^{T}.\end{aligned}}}

Por lo tanto, tenemos la nueva estimación a medida que llega una nueva observación como y k {\displaystyle y_{k}}

x ^ k = x ^ k 1 + C e k 1 Y ~ k C Y ~ k 1 ( y k y ¯ k ) = x ^ k 1 + C e k 1 A T ( A C e k 1 A T + C Z ) 1 ( y k A x ^ k 1 ) {\displaystyle {\begin{aligned}{\hat {x}}_{k}&={\hat {x}}_{k-1}+C_{e_{k-1}{\tilde {Y}}_{k}}C_{{\tilde {Y}}_{k}}^{-1}(y_{k}-{\bar {y}}_{k})\\&={\hat {x}}_{k-1}+C_{e_{k-1}}A^{T}(AC_{e_{k-1}}A^{T}+C_{Z})^{-1}(y_{k}-A{\hat {x}}_{k-1})\end{aligned}}}

y la nueva covarianza de error como

C e k = C e k 1 C e k 1 A T ( A C e k 1 A T + C Z ) 1 A C e k 1 . {\displaystyle C_{e_{k}}=C_{e_{k-1}}-C_{e_{k-1}}A^{T}(AC_{e_{k-1}}A^{T}+C_{Z})^{-1}AC_{e_{k-1}}.}

Desde el punto de vista del álgebra lineal, para la estimación secuencial, si tenemos una estimación basada en mediciones que generan espacio , entonces, después de recibir otro conjunto de mediciones, debemos restar de estas mediciones la parte que podría anticiparse del resultado de las primeras mediciones. En otras palabras, la actualización debe basarse en aquella parte de los nuevos datos que sea ortogonal a los datos antiguos. x ^ 1 {\displaystyle {\hat {x}}_{1}} Y 1 {\displaystyle Y_{1}}

El uso repetido de las dos ecuaciones anteriores a medida que se dispone de más observaciones conduce a técnicas de estimación recursivas. Las expresiones se pueden escribir de forma más compacta como

W k = C e k 1 A T ( A C e k 1 A T + C Z ) 1 , {\displaystyle W_{k}=C_{e_{k-1}}A^{T}(AC_{e_{k-1}}A^{T}+C_{Z})^{-1},}
x ^ k = x ^ k 1 + W k ( y k A x ^ k 1 ) , {\displaystyle {\hat {x}}_{k}={\hat {x}}_{k-1}+W_{k}(y_{k}-A{\hat {x}}_{k-1}),}
C e k = ( I W k A ) C e k 1 . {\displaystyle C_{e_{k}}=(I-W_{k}A)C_{e_{k-1}}.}

La matriz se conoce a menudo como factor de ganancia de Kalman. La formulación alternativa del algoritmo anterior dará W k {\displaystyle W_{k}}

C e k 1 = C e k 1 1 + A T C Z 1 A , {\displaystyle C_{e_{k}}^{-1}=C_{e_{k-1}}^{-1}+A^{T}C_{Z}^{-1}A,}
W k = C e k A T C Z 1 , {\displaystyle W_{k}=C_{e_{k}}A^{T}C_{Z}^{-1},}
x ^ k = x ^ k 1 + W k ( y k A x ^ k 1 ) , {\displaystyle {\hat {x}}_{k}={\hat {x}}_{k-1}+W_{k}(y_{k}-A{\hat {x}}_{k-1}),}

La repetición de estos tres pasos a medida que se dispone de más datos conduce a un algoritmo de estimación iterativo. La generalización de esta idea a casos no estacionarios da lugar al filtro de Kalman . Los tres pasos de actualización descritos anteriormente forman de hecho el paso de actualización del filtro de Kalman.

Caso especial: observaciones escalares

Como caso especial importante, se puede derivar una expresión recursiva fácil de usar cuando en cada k -ésimo instante de tiempo el proceso de observación lineal subyacente produce un escalar tal que , donde es un vector de columna conocido de n por 1 cuyos valores pueden cambiar con el tiempo, es un vector de columna aleatorio de n por 1 que se va a estimar, y es un término de ruido escalar con varianza . Después de la ( k +1)-ésima observación, el uso directo de las ecuaciones recursivas anteriores da la expresión para la estimación como: y k = a k T x k + z k {\displaystyle y_{k}=a_{k}^{T}x_{k}+z_{k}} a k {\displaystyle a_{k}} x k {\displaystyle x_{k}} z k {\displaystyle z_{k}} σ k 2 {\displaystyle \sigma _{k}^{2}} x ^ k + 1 {\displaystyle {\hat {x}}_{k+1}}

x ^ k + 1 = x ^ k + w k + 1 ( y k + 1 a k + 1 T x ^ k ) {\displaystyle {\hat {x}}_{k+1}={\hat {x}}_{k}+w_{k+1}(y_{k+1}-a_{k+1}^{T}{\hat {x}}_{k})}

¿Dónde está la nueva observación escalar y el factor de ganancia es un vector de columna n por 1 dado por y k + 1 {\displaystyle y_{k+1}} w k + 1 {\displaystyle w_{k+1}}

w k + 1 = C e k a k + 1 σ k + 1 2 + a k + 1 T C e k a k + 1 . {\displaystyle w_{k+1}={\frac {C_{e_{k}}a_{k+1}}{\sigma _{k+1}^{2}+a_{k+1}^{T}C_{e_{k}}a_{k+1}}}.}

La matriz de covarianza de errores n por n está dada por C e k + 1 {\displaystyle C_{e_{k+1}}}

C e k + 1 = ( I w k + 1 a k + 1 T ) C e k . {\displaystyle C_{e_{k+1}}=(I-w_{k+1}a_{k+1}^{T})C_{e_{k}}.}

En este caso, no se requiere inversión de matriz. Además, el factor de ganancia, , depende de nuestra confianza en la nueva muestra de datos, medida por la varianza del ruido, en comparación con la de los datos anteriores. Los valores iniciales de y se toman como la media y la covarianza de la función de densidad de probabilidad anterior de . w k + 1 {\displaystyle w_{k+1}} x ^ {\displaystyle {\hat {x}}} C e {\displaystyle C_{e}} x {\displaystyle x}

Enfoques alternativos: Este importante caso especial también ha dado lugar a muchos otros métodos iterativos (o filtros adaptativos ), como el filtro de mínimos cuadrados medios y el filtro de mínimos cuadrados recursivos , que resuelven directamente el problema de optimización MSE original utilizando descensos de gradiente estocásticos . Sin embargo, dado que el error de estimación no se puede observar directamente, estos métodos intentan minimizar el error de predicción cuadrático medio . Por ejemplo, en el caso de observaciones escalares, tenemos el gradiente Por lo tanto, la ecuación de actualización para el filtro de mínimos cuadrados medios está dada por e {\displaystyle e} E { y ~ T y ~ } {\displaystyle \mathrm {E} \{{\tilde {y}}^{T}{\tilde {y}}\}} x ^ E { y ~ 2 } = 2 E { y ~ a } . {\displaystyle \nabla _{\hat {x}}\mathrm {E} \{{\tilde {y}}^{2}\}=-2\mathrm {E} \{{\tilde {y}}a\}.}

x ^ k + 1 = x ^ k + η k E { y ~ k a k } , {\displaystyle {\hat {x}}_{k+1}={\hat {x}}_{k}+\eta _{k}\mathrm {E} \{{\tilde {y}}_{k}a_{k}\},}

donde es el tamaño del paso escalar y la expectativa se aproxima por el valor instantáneo . Como podemos ver, estos métodos evitan la necesidad de matrices de covarianza. η k {\displaystyle \eta _{k}} E { a k y ~ k } a k y ~ k {\displaystyle \mathrm {E} \{a_{k}{\tilde {y}}_{k}\}\approx a_{k}{\tilde {y}}_{k}}

Caso especial: observación vectorial con ruido no correlacionado

En muchas aplicaciones prácticas, el ruido de observación no está correlacionado, es decir, es una matriz diagonal. En tales casos, resulta ventajoso considerar los componentes de como mediciones escalares independientes, en lugar de mediciones vectoriales. Esto nos permite reducir el tiempo de cálculo al procesar el vector de medición como mediciones escalares. El uso de la fórmula de actualización escalar evita la inversión de la matriz en la implementación de las ecuaciones de actualización de covarianza, mejorando así la robustez numérica frente a errores de redondeo. La actualización se puede implementar de forma iterativa como: C Z {\displaystyle C_{Z}} y {\displaystyle y} m × 1 {\displaystyle m\times 1} m {\displaystyle m}

w k + 1 ( ) = C e k ( ) A k + 1 ( ) T C Z k + 1 ( ) + A k + 1 ( ) C e k ( ) ( A k + 1 ( ) T ) {\displaystyle w_{k+1}^{(\ell )}={\frac {C_{e_{k}}^{(\ell )}A_{k+1}^{(\ell )T}}{C_{Z_{k+1}}^{(\ell )}+A_{k+1}^{(\ell )}C_{e_{k}}^{(\ell )}(A_{k+1}^{(\ell )T})}}}
C e k + 1 ( ) = ( I w k + 1 ( ) A k + 1 ( ) ) C e k ( ) {\displaystyle C_{e_{k+1}}^{(\ell )}=(I-w_{k+1}^{(\ell )}A_{k+1}^{(\ell )})C_{e_{k}}^{(\ell )}}
x ^ k + 1 ( ) = x ^ k ( 1 ) + w k + 1 ( ) ( y k + 1 ( ) A k + 1 ( ) x ^ k ( 1 ) ) {\displaystyle {\hat {x}}_{k+1}^{(\ell )}={\hat {x}}_{k}^{(\ell -1)}+w_{k+1}^{(\ell )}(y_{k+1}^{(\ell )}-A_{k+1}^{(\ell )}{\hat {x}}_{k}^{(\ell -1)})}

donde , utilizando los valores iniciales y . La variable intermedia es el -ésimo elemento diagonal de la matriz diagonal ; mientras que es la -ésima fila de la matriz . Los valores finales son y . = 1 , 2 , , m {\displaystyle \ell =1,2,\ldots ,m} C e k + 1 ( 0 ) = C e k {\displaystyle C_{e_{k+1}}^{(0)}=C_{e_{k}}} x ^ k + 1 ( 0 ) = x ^ k {\displaystyle {\hat {x}}_{k+1}^{(0)}={\hat {x}}_{k}} C Z k + 1 ( ) {\displaystyle C_{Z_{k+1}}^{(\ell )}} {\displaystyle \ell } m × m {\displaystyle m\times m} C Z k + 1 {\displaystyle C_{Z_{k+1}}} A k + 1 ( ) {\displaystyle A_{k+1}^{(\ell )}} {\displaystyle \ell } m × n {\displaystyle m\times n} A k + 1 {\displaystyle A_{k+1}} C e k + 1 ( m ) = C e k + 1 {\displaystyle C_{e_{k+1}}^{(m)}=C_{e_{k+1}}} x ^ k + 1 ( m ) = x ^ k + 1 {\displaystyle {\hat {x}}_{k+1}^{(m)}={\hat {x}}_{k+1}}

Ejemplos

Ejemplo 1

Tomaremos como ejemplo un problema de predicción lineal . Sea una combinación lineal de variables aleatorias escalares observadas y la que se utilice para estimar otra variable aleatoria escalar futura tal que . Si las variables aleatorias son variables aleatorias gaussianas reales con media cero y su matriz de covarianza dada por z 1 , z 2 {\displaystyle z_{1},z_{2}} z 3 {\displaystyle z_{3}} z 4 {\displaystyle z_{4}} z ^ 4 = i = 1 3 w i z i {\displaystyle {\hat {z}}_{4}=\sum _{i=1}^{3}w_{i}z_{i}} z = [ z 1 , z 2 , z 3 , z 4 ] T {\displaystyle z=[z_{1},z_{2},z_{3},z_{4}]^{T}}

cov ( Z ) = E [ z z T ] = [ 1 2 3 4 2 5 8 9 3 8 6 10 4 9 10 15 ] , {\displaystyle \operatorname {cov} (Z)=\operatorname {E} [zz^{T}]=\left[{\begin{array}{cccc}1&2&3&4\\2&5&8&9\\3&8&6&10\\4&9&10&15\end{array}}\right],}

Entonces nuestra tarea es encontrar los coeficientes que permitan obtener una estimación lineal óptima . w i {\displaystyle w_{i}} z ^ 4 {\displaystyle {\hat {z}}_{4}}

En términos de la terminología desarrollada en las secciones anteriores, para este problema tenemos el vector de observación , la matriz de estimador como un vector fila y la variable estimada como una cantidad escalar. La matriz de autocorrelación se define como y = [ z 1 , z 2 , z 3 ] T {\displaystyle y=[z_{1},z_{2},z_{3}]^{T}} W = [ w 1 , w 2 , w 3 ] {\displaystyle W=[w_{1},w_{2},w_{3}]} x = z 4 {\displaystyle x=z_{4}} C Y {\displaystyle C_{Y}}

C Y = [ E [ z 1 , z 1 ] E [ z 2 , z 1 ] E [ z 3 , z 1 ] E [ z 1 , z 2 ] E [ z 2 , z 2 ] E [ z 3 , z 2 ] E [ z 1 , z 3 ] E [ z 2 , z 3 ] E [ z 3 , z 3 ] ] = [ 1 2 3 2 5 8 3 8 6 ] . {\displaystyle C_{Y}=\left[{\begin{array}{ccc}E[z_{1},z_{1}]&E[z_{2},z_{1}]&E[z_{3},z_{1}]\\E[z_{1},z_{2}]&E[z_{2},z_{2}]&E[z_{3},z_{2}]\\E[z_{1},z_{3}]&E[z_{2},z_{3}]&E[z_{3},z_{3}]\end{array}}\right]=\left[{\begin{array}{ccc}1&2&3\\2&5&8\\3&8&6\end{array}}\right].}

La matriz de correlación cruzada se define como C Y X {\displaystyle C_{YX}}

C Y X = [ E [ z 4 , z 1 ] E [ z 4 , z 2 ] E [ z 4 , z 3 ] ] = [ 4 9 10 ] . {\displaystyle C_{YX}=\left[{\begin{array}{c}E[z_{4},z_{1}]\\E[z_{4},z_{2}]\\E[z_{4},z_{3}]\end{array}}\right]=\left[{\begin{array}{c}4\\9\\10\end{array}}\right].}

Ahora resolvemos la ecuación invirtiendo y premultiplicando para obtener C Y W T = C Y X {\displaystyle C_{Y}W^{T}=C_{YX}} C Y {\displaystyle C_{Y}}

C Y 1 C Y X = [ 4.85 1.71 0.142 1.71 0.428 0.2857 0.142 0.2857 0.1429 ] [ 4 9 10 ] = [ 2.57 0.142 0.5714 ] = W T . {\displaystyle C_{Y}^{-1}C_{YX}=\left[{\begin{array}{ccc}4.85&-1.71&-0.142\\-1.71&0.428&0.2857\\-0.142&0.2857&-0.1429\end{array}}\right]\left[{\begin{array}{c}4\\9\\10\end{array}}\right]=\left[{\begin{array}{c}2.57\\-0.142\\0.5714\end{array}}\right]=W^{T}.}

Por lo tanto, tenemos y como coeficientes óptimos para . Calcular el error cuadrático medio mínimo da como resultado . [2] Nótese que no es necesario obtener una matriz inversa explícita de para calcular el valor de . La ecuación matricial se puede resolver mediante métodos bien conocidos, como el método de eliminación de Gauss. Un ejemplo más breve y no numérico se puede encontrar en el principio de ortogonalidad . w 1 = 2.57 , {\displaystyle w_{1}=2.57,} w 2 = 0.142 , {\displaystyle w_{2}=-0.142,} w 3 = .5714 {\displaystyle w_{3}=.5714} z ^ 4 {\displaystyle {\hat {z}}_{4}} e min 2 = E [ z 4 z 4 ] W C Y X = 15 W C Y X = .2857 {\displaystyle \left\Vert e\right\Vert _{\min }^{2}=\operatorname {E} [z_{4}z_{4}]-WC_{YX}=15-WC_{YX}=.2857} C Y {\displaystyle C_{Y}} W {\displaystyle W}

Ejemplo 2

Consideremos un vector formado al tomar observaciones de un parámetro escalar fijo pero desconocido perturbado por ruido gaussiano blanco. Podemos describir el proceso mediante una ecuación lineal , donde . Dependiendo del contexto, quedará claro si representa un escalar o un vector. Supongamos que sabemos que es el rango dentro del cual va a caer el valor de . Podemos modelar nuestra incertidumbre de mediante una distribución uniforme a priori sobre un intervalo , y por lo tanto tendrá una varianza de . Sea el vector de ruido distribuido normalmente como donde es una matriz identidad. Además , y son independientes y . Es fácil ver que y {\displaystyle y} N {\displaystyle N} x {\displaystyle x} y = 1 x + z {\displaystyle y=1x+z} 1 = [ 1 , 1 , , 1 ] T {\displaystyle 1=[1,1,\ldots ,1]^{T}} 1 {\displaystyle 1} [ x 0 , x 0 ] {\displaystyle [-x_{0},x_{0}]} x {\displaystyle x} x {\displaystyle x} [ x 0 , x 0 ] {\displaystyle [-x_{0},x_{0}]} x {\displaystyle x} σ X 2 = x 0 2 / 3. {\displaystyle \sigma _{X}^{2}=x_{0}^{2}/3.} z {\displaystyle z} N ( 0 , σ Z 2 I ) {\displaystyle N(0,\sigma _{Z}^{2}I)} I {\displaystyle I} x {\displaystyle x} z {\displaystyle z} C X Z = 0 {\displaystyle C_{XZ}=0}

E { y } = 0 , C Y = E { y y T } = σ X 2 11 T + σ Z 2 I , C X Y = E { x y T } = σ X 2 1 T . {\displaystyle {\begin{aligned}&\operatorname {E} \{y\}=0,\\&C_{Y}=\operatorname {E} \{yy^{T}\}=\sigma _{X}^{2}11^{T}+\sigma _{Z}^{2}I,\\&C_{XY}=\operatorname {E} \{xy^{T}\}=\sigma _{X}^{2}1^{T}.\end{aligned}}}

Por lo tanto, el estimador lineal MMSE viene dado por

x ^ = C X Y C Y 1 y = σ X 2 1 T ( σ X 2 11 T + σ Z 2 I ) 1 y . {\displaystyle {\begin{aligned}{\hat {x}}&=C_{XY}C_{Y}^{-1}y\\&=\sigma _{X}^{2}1^{T}(\sigma _{X}^{2}11^{T}+\sigma _{Z}^{2}I)^{-1}y.\end{aligned}}}

Podemos simplificar la expresión utilizando la forma alternativa para como W {\displaystyle W}

x ^ = ( 1 T 1 σ Z 2 I 1 + 1 σ X 2 ) 1 1 T 1 σ Z 2 I y = 1 σ Z 2 ( N σ Z 2 + 1 σ X 2 ) 1 1 T y = σ X 2 σ X 2 + σ Z 2 / N y ¯ , {\displaystyle {\begin{aligned}{\hat {x}}&=\left(1^{T}{\frac {1}{\sigma _{Z}^{2}}}I1+{\frac {1}{\sigma _{X}^{2}}}\right)^{-1}1^{T}{\frac {1}{\sigma _{Z}^{2}}}Iy\\&={\frac {1}{\sigma _{Z}^{2}}}\left({\frac {N}{\sigma _{Z}^{2}}}+{\frac {1}{\sigma _{X}^{2}}}\right)^{-1}1^{T}y\\&={\frac {\sigma _{X}^{2}}{\sigma _{X}^{2}+\sigma _{Z}^{2}/N}}{\bar {y}},\end{aligned}}}

¿Dónde estamos? y = [ y 1 , y 2 , , y N ] T {\displaystyle y=[y_{1},y_{2},\ldots ,y_{N}]^{T}} y ¯ = 1 T y N = i = 1 N y i N . {\displaystyle {\bar {y}}={\frac {1^{T}y}{N}}={\frac {\sum _{i=1}^{N}y_{i}}{N}}.}

De manera similar, la varianza del estimador es

σ X ^ 2 = C X Y C Y 1 C Y X = ( σ X 2 σ X 2 + σ Z 2 / N ) σ X 2 . {\displaystyle \sigma _{\hat {X}}^{2}=C_{XY}C_{Y}^{-1}C_{YX}={\Big (}{\frac {\sigma _{X}^{2}}{\sigma _{X}^{2}+\sigma _{Z}^{2}/N}}{\Big )}\sigma _{X}^{2}.}

Por lo tanto, el MMSE de este estimador lineal es

LMMSE = σ X 2 σ X ^ 2 = ( σ Z 2 σ X 2 + σ Z 2 / N ) σ X 2 N . {\displaystyle \operatorname {LMMSE} =\sigma _{X}^{2}-\sigma _{\hat {X}}^{2}={\Big (}{\frac {\sigma _{Z}^{2}}{\sigma _{X}^{2}+\sigma _{Z}^{2}/N}}{\Big )}{\frac {\sigma _{X}^{2}}{N}}.}

Para valores muy grandes , vemos que el estimador MMSE de un escalar con distribución a priori uniforme se puede aproximar mediante el promedio aritmético de todos los datos observados. N {\displaystyle N}

x ^ = 1 N i = 1 N y i , {\displaystyle {\hat {x}}={\frac {1}{N}}\sum _{i=1}^{N}y_{i},}

mientras que la varianza no se verá afectada por los datos y el LMMSE de la estimación tenderá a cero. σ X ^ 2 = σ X 2 , {\displaystyle \sigma _{\hat {X}}^{2}=\sigma _{X}^{2},}

Sin embargo, el estimador es subóptimo ya que está limitado a ser lineal. Si la variable aleatoria también hubiera sido gaussiana, entonces el estimador habría sido óptimo. Nótese que la forma del estimador permanecerá inalterada, independientemente de la distribución a priori de , siempre que la media y la varianza de estas distribuciones sean las mismas. x {\displaystyle x} x {\displaystyle x}

Ejemplo 3

Considere una variación del ejemplo anterior: Dos candidatos se presentan a una elección. Sea la fracción de votos que recibirá un candidato el día de la elección Por lo tanto, la fracción de votos que recibirá el otro candidato será Tomaremos como variable aleatoria con una distribución previa uniforme sobre de modo que su media es y varianza es Unas semanas antes de la elección, dos encuestadores diferentes realizaron dos encuestas de opinión pública independientes. La primera encuesta reveló que es probable que el candidato obtenga una fracción de votos. Dado que siempre hay algún error debido al muestreo finito y a la metodología de encuesta particular adoptada, el primer encuestador declara que su estimación tiene un error con media y varianza cero De manera similar, el segundo encuestador declara que su estimación tiene un error con media y varianza cero Nótese que, excepto por la media y la varianza del error, la distribución del error no está especificada. ¿Cómo deben combinarse las dos encuestas para obtener la predicción de votación para el candidato dado? x [ 0 , 1 ] . {\displaystyle x\in [0,1].} 1 x . {\displaystyle 1-x.} x {\displaystyle x} [ 0 , 1 ] {\displaystyle [0,1]} x ¯ = 1 / 2 {\displaystyle {\bar {x}}=1/2} σ X 2 = 1 / 12. {\displaystyle \sigma _{X}^{2}=1/12.} y 1 {\displaystyle y_{1}} z 1 {\displaystyle z_{1}} σ Z 1 2 . {\displaystyle \sigma _{Z_{1}}^{2}.} y 2 {\displaystyle y_{2}} z 2 {\displaystyle z_{2}} σ Z 2 2 . {\displaystyle \sigma _{Z_{2}}^{2}.}

Al igual que en el ejemplo anterior, tenemos

y 1 = x + z 1 y 2 = x + z 2 . {\displaystyle {\begin{aligned}y_{1}&=x+z_{1}\\y_{2}&=x+z_{2}.\end{aligned}}}

Aquí, tanto el . Por lo tanto, podemos obtener la estimación LMMSE como la combinación lineal de y como E { y 1 } = E { y 2 } = x ¯ = 1 / 2 {\displaystyle \operatorname {E} \{y_{1}\}=\operatorname {E} \{y_{2}\}={\bar {x}}=1/2} y 1 {\displaystyle y_{1}} y 2 {\displaystyle y_{2}}

x ^ = w 1 ( y 1 x ¯ ) + w 2 ( y 2 x ¯ ) + x ¯ , {\displaystyle {\hat {x}}=w_{1}(y_{1}-{\bar {x}})+w_{2}(y_{2}-{\bar {x}})+{\bar {x}},}

donde los pesos se dan por

w 1 = 1 / σ Z 1 2 1 / σ Z 1 2 + 1 / σ Z 2 2 + 1 / σ X 2 , w 2 = 1 / σ Z 2 2 1 / σ Z 1 2 + 1 / σ Z 2 2 + 1 / σ X 2 . {\displaystyle {\begin{aligned}w_{1}&={\frac {1/\sigma _{Z_{1}}^{2}}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}},\\w_{2}&={\frac {1/\sigma _{Z_{2}}^{2}}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}}.\end{aligned}}}

Aquí, como el término denominador es constante, la encuesta con menor error tiene mayor peso para predecir el resultado de la elección. Por último, la varianza de está dada por x ^ {\displaystyle {\hat {x}}}

σ X ^ 2 = 1 / σ Z 1 2 + 1 / σ Z 2 2 1 / σ Z 1 2 + 1 / σ Z 2 2 + 1 / σ X 2 σ X 2 , {\displaystyle \sigma _{\hat {X}}^{2}={\frac {1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}}\sigma _{X}^{2},}

lo que hace que sea más pequeño que Por lo tanto, el LMMSE está dado por σ X ^ 2 {\displaystyle \sigma _{\hat {X}}^{2}} σ X 2 . {\displaystyle \sigma _{X}^{2}.}

L M M S E = σ X 2 σ X ^ 2 = 1 1 / σ Z 1 2 + 1 / σ Z 2 2 + 1 / σ X 2 . {\displaystyle \mathrm {LMMSE} =\sigma _{X}^{2}-\sigma _{\hat {X}}^{2}={\frac {1}{1/\sigma _{Z_{1}}^{2}+1/\sigma _{Z_{2}}^{2}+1/\sigma _{X}^{2}}}.}

En general, si tenemos encuestadores, entonces donde el peso para el i -ésimo encuestador está dado por y el LMMSE está dado por N {\displaystyle N} x ^ = i = 1 N w i ( y i x ¯ ) + x ¯ , {\displaystyle {\hat {x}}=\sum _{i=1}^{N}w_{i}(y_{i}-{\bar {x}})+{\bar {x}},} w i = 1 / σ Z i 2 j = 1 N 1 / σ Z j 2 + 1 / σ X 2 {\displaystyle w_{i}={\frac {1/\sigma _{Z_{i}}^{2}}{\sum _{j=1}^{N}1/\sigma _{Z_{j}}^{2}+1/\sigma _{X}^{2}}}} L M M S E = 1 j = 1 N 1 / σ Z j 2 + 1 / σ X 2 . {\displaystyle \mathrm {LMMSE} ={\frac {1}{\sum _{j=1}^{N}1/\sigma _{Z_{j}}^{2}+1/\sigma _{X}^{2}}}.}

Ejemplo 4

Supongamos que un músico está tocando un instrumento y que el sonido es recibido por dos micrófonos, cada uno de ellos ubicado en dos lugares diferentes. Sea y , que se supone que son constantes conocidas, la atenuación del sonido debida a la distancia en cada micrófono. De manera similar, sea y , cada uno con media y varianzas cero y respectivamente. Sea el sonido producido por el músico, que es una variable aleatoria con media y varianza cero. ¿Cómo se debe combinar la música grabada de estos dos micrófonos, después de sincronizarlos entre sí? a 1 {\displaystyle a_{1}} a 2 {\displaystyle a_{2}} z 1 {\displaystyle z_{1}} z 2 {\displaystyle z_{2}} σ Z 1 2 {\displaystyle \sigma _{Z_{1}}^{2}} σ Z 2 2 {\displaystyle \sigma _{Z_{2}}^{2}} x {\displaystyle x} σ X 2 . {\displaystyle \sigma _{X}^{2}.}

Podemos modelar el sonido recibido por cada micrófono como

y 1 = a 1 x + z 1 y 2 = a 2 x + z 2 . {\displaystyle {\begin{aligned}y_{1}&=a_{1}x+z_{1}\\y_{2}&=a_{2}x+z_{2}.\end{aligned}}}

Aquí ambos . Por lo tanto, podemos combinar los dos sonidos como E { y 1 } = E { y 2 } = 0 {\displaystyle \operatorname {E} \{y_{1}\}=\operatorname {E} \{y_{2}\}=0}

y = w 1 y 1 + w 2 y 2 {\displaystyle y=w_{1}y_{1}+w_{2}y_{2}}

donde el peso i -ésimo se da como

w i = a i / σ Z i 2 j a j 2 / σ Z j 2 + 1 / σ X 2 . {\displaystyle w_{i}={\frac {a_{i}/\sigma _{Z_{i}}^{2}}{\sum _{j}a_{j}^{2}/\sigma _{Z_{j}}^{2}+1/\sigma _{X}^{2}}}.}

Véase también

Notas

  1. ^ "Error cuadrático medio (MSE)". www.probabilitycourse.com . Consultado el 9 de mayo de 2017 .
  2. ^ Luna y Stirling.

Lectura adicional

  • Johnson, D. "Estimadores de error cuadrático medio mínimo". Connexions. Archivado desde Estimadores de error cuadrático medio mínimo el original el 25 de julio de 2008. Consultado el 8 de enero de 2013 . {{cite web}}: Verificar |url=valor ( ayuda )
  • Jaynes, ET (2003). Teoría de la probabilidad: la lógica de la ciencia . Cambridge University Press. ISBN 978-0521592710.
  • Bibby, J.; Toutenburg, H. (1977). Predicción y estimación mejorada en modelos lineales . Wiley. ISBN 9780471016564.
  • Lehmann, EL; Casella, G. (1998). "Capítulo 4". Teoría de la estimación puntual (2.ª ed.). Springer. ISBN 0-387-98502-6.
  • Kay, SM (1993). Fundamentos del procesamiento estadístico de señales: teoría de la estimación . Prentice Hall. pp. 344–350. ISBN 0-13-042268-1.
  • Luenberger, DG (1969). "Capítulo 4, Estimación por mínimos cuadrados". Optimización por métodos de espacio vectorial (1.ª ed.). Wiley. ISBN 978-0471181170.
  • Moon, TK; Stirling, WC (2000). Métodos matemáticos y algoritmos para el procesamiento de señales (1.ª ed.). Prentice Hall. ISBN 978-0201361865.
  • Van Trees, HL (1968). Teoría de detección, estimación y modulación, parte I. Nueva York: Wiley. ISBN 0-471-09517-6.
  • Haykin, SO (2013). Teoría del filtro adaptativo (5.ª ed.). Prentice Hall. ISBN 978-0132671453.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Minimum_mean_square_error&oldid=1212895420"