Matriz de covarianza

Medida de covarianza de componentes de un vector aleatorio
Una función de densidad de probabilidad gaussiana bivariada centrada en (0, 0), con una matriz de covarianza dada por [ 1 0,5 0,5 1 ] {\displaystyle {\begin{bmatrix}1&0.5\\0.5&1\end{bmatrix}}}
Puntos de muestra de una distribución gaussiana bivariada con una desviación estándar de 3 aproximadamente en la dirección inferior izquierda-superior derecha y de 1 en la dirección ortogonal. Debido a que los componentes x e y varían entre sí, las varianzas de y no describen completamente la distribución. Se necesita una matriz de covarianza; las direcciones de las flechas corresponden a los vectores propios de esta matriz de covarianza y sus longitudes a las raíces cuadradas de los valores propios . incógnita {\estilo de visualización x} y {\estilo de visualización y} 2 × 2 {\displaystyle 2\times 2}

En teoría de probabilidad y estadística , una matriz de covarianza (también conocida como matriz de autocovarianza , matriz de dispersión , matriz de varianza o matriz de varianza-covarianza ) es una matriz cuadrada que da la covarianza entre cada par de elementos de un vector aleatorio dado .

Intuitivamente, la matriz de covarianza generaliza la noción de varianza a múltiples dimensiones. Por ejemplo, la variación en una colección de puntos aleatorios en un espacio bidimensional no se puede caracterizar completamente con un solo número, ni las varianzas en las direcciones y contendrían toda la información necesaria; sería necesaria una matriz para caracterizar completamente la variación bidimensional. incógnita {\estilo de visualización x} y {\estilo de visualización y} 2 × 2 {\displaystyle 2\times 2}

Cualquier matriz de covarianza es simétrica y semidefinida positiva y su diagonal principal contiene varianzas (es decir, la covarianza de cada elemento consigo mismo).

La matriz de covarianza de un vector aleatorio normalmente se denota por , o . incógnita {\displaystyle \mathbf {X}} K incógnita incógnita {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }} Σ {\estilo de visualización \Sigma} S {\estilo de visualización S}

Definición

A lo largo de este artículo, los caracteres en negrita y sin subíndice se utilizan para referirse a vectores aleatorios, y los caracteres romanos y con subíndice se utilizan para referirse a variables aleatorias escalares. incógnita {\displaystyle \mathbf {X}} Y {\displaystyle \mathbf {Y}} incógnita i Estilo de visualización X_{i}} Y i {\displaystyle Y_{i}}

Si las entradas en el vector columna son variables aleatorias , cada una con varianza finita y valor esperado , entonces la matriz de covarianza es la matriz cuya entrada es la covarianza [1] : 177  donde el operador denota el valor esperado (media) de su argumento. incógnita = ( incógnita 1 , incógnita 2 , , incógnita norte ) yo {\displaystyle \mathbf {X} =(X_{1},X_{2},\puntos ,X_{n})^{\mathsf {T}}} K incógnita incógnita {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }} ( i , yo ) {\displaystyle (i,j)} K X i X j = cov [ X i , X j ] = E [ ( X i E [ X i ] ) ( X j E [ X j ] ) ] {\displaystyle \operatorname {K} _{X_{i}X_{j}}=\operatorname {cov} [X_{i},X_{j}]=\operatorname {E} [(X_{i}-\operatorname {E} [X_{i}])(X_{j}-\operatorname {E} [X_{j}])]} E {\displaystyle \operatorname {E} }

Nomenclaturas y notaciones conflictivas

Las nomenclaturas difieren. Algunos estadísticos, siguiendo al probabilista William Feller en su libro de dos volúmenes Introducción a la teoría de la probabilidad y sus aplicaciones [2] , llaman a la matriz la varianza del vector aleatorio , porque es la generalización natural a dimensiones superiores de la varianza unidimensional. Otros la llaman matriz de covarianza , porque es la matriz de covarianzas entre los componentes escalares del vector . K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }} X {\displaystyle \mathbf {X} } X {\displaystyle \mathbf {X} } var ( X ) = cov ( X , X ) = E [ ( X E [ X ] ) ( X E [ X ] ) T ] . {\displaystyle \operatorname {var} (\mathbf {X} )=\operatorname {cov} (\mathbf {X} ,\mathbf {X} )=\operatorname {E} \left[(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\mathsf {T}}\right].}

Ambas formas son bastante estándar y no existe ninguna ambigüedad entre ellas. La matriz también suele denominarse matriz de varianza-covarianza , ya que los términos diagonales son, de hecho, varianzas. K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }}

En comparación, la notación para la matriz de covarianza cruzada entre dos vectores es cov ( X , Y ) = K X Y = E [ ( X E [ X ] ) ( Y E [ Y ] ) T ] . {\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )=\operatorname {K} _{\mathbf {X} \mathbf {Y} }=\operatorname {E} \left[(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {Y} -\operatorname {E} [\mathbf {Y} ])^{\mathsf {T}}\right].}

Propiedades

Relación con la matriz de autocorrelación

La matriz de autocovarianza está relacionada con la matriz de autocorrelación por donde la matriz de autocorrelación se define como . K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }} R X X {\displaystyle \operatorname {R} _{\mathbf {X} \mathbf {X} }} K X X = E [ ( X E [ X ] ) ( X E [ X ] ) T ] = R X X E [ X ] E [ X ] T {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }=\operatorname {E} [(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\mathsf {T}}]=\operatorname {R} _{\mathbf {X} \mathbf {X} }-\operatorname {E} [\mathbf {X} ]\operatorname {E} [\mathbf {X} ]^{\mathsf {T}}} R X X = E [ X X T ] {\displaystyle \operatorname {R} _{\mathbf {X} \mathbf {X} }=\operatorname {E} [\mathbf {X} \mathbf {X} ^{\mathsf {T}}]}

Relación con la matriz de correlación

Una entidad estrechamente relacionada con la matriz de covarianza es la matriz de coeficientes de correlación producto-momento de Pearson entre cada una de las variables aleatorias en el vector aleatorio , que puede escribirse como donde es la matriz de los elementos diagonales de (es decir, una matriz diagonal de las varianzas de para ). X {\displaystyle \mathbf {X} } corr ( X ) = ( diag ( K X X ) ) 1 2 K X X ( diag ( K X X ) ) 1 2 , {\displaystyle \operatorname {corr} (\mathbf {X} )={\big (}\operatorname {diag} (\operatorname {K} _{\mathbf {X} \mathbf {X} }){\big )}^{-{\frac {1}{2}}}\,\operatorname {K} _{\mathbf {X} \mathbf {X} }\,{\big (}\operatorname {diag} (\operatorname {K} _{\mathbf {X} \mathbf {X} }){\big )}^{-{\frac {1}{2}}},} diag ( K X X ) {\displaystyle \operatorname {diag} (\operatorname {K} _{\mathbf {X} \mathbf {X} })} K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }} X i {\displaystyle X_{i}} i = 1 , , n {\displaystyle i=1,\dots ,n}

De manera equivalente, la matriz de correlación puede verse como la matriz de covarianza de las variables aleatorias estandarizadas para . X i / σ ( X i ) {\displaystyle X_{i}/\sigma (X_{i})} i = 1 , , n {\displaystyle i=1,\dots ,n} corr ( X ) = [ 1 E [ ( X 1 μ 1 ) ( X 2 μ 2 ) ] σ ( X 1 ) σ ( X 2 ) E [ ( X 1 μ 1 ) ( X n μ n ) ] σ ( X 1 ) σ ( X n ) E [ ( X 2 μ 2 ) ( X 1 μ 1 ) ] σ ( X 2 ) σ ( X 1 ) 1 E [ ( X 2 μ 2 ) ( X n μ n ) ] σ ( X 2 ) σ ( X n ) E [ ( X n μ n ) ( X 1 μ 1 ) ] σ ( X n ) σ ( X 1 ) E [ ( X n μ n ) ( X 2 μ 2 ) ] σ ( X n ) σ ( X 2 ) 1 ] . {\displaystyle \operatorname {corr} (\mathbf {X} )={\begin{bmatrix}1&{\frac {\operatorname {E} [(X_{1}-\mu _{1})(X_{2}-\mu _{2})]}{\sigma (X_{1})\sigma (X_{2})}}&\cdots &{\frac {\operatorname {E} [(X_{1}-\mu _{1})(X_{n}-\mu _{n})]}{\sigma (X_{1})\sigma (X_{n})}}\\\\{\frac {\operatorname {E} [(X_{2}-\mu _{2})(X_{1}-\mu _{1})]}{\sigma (X_{2})\sigma (X_{1})}}&1&\cdots &{\frac {\operatorname {E} [(X_{2}-\mu _{2})(X_{n}-\mu _{n})]}{\sigma (X_{2})\sigma (X_{n})}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\operatorname {E} [(X_{n}-\mu _{n})(X_{1}-\mu _{1})]}{\sigma (X_{n})\sigma (X_{1})}}&{\frac {\operatorname {E} [(X_{n}-\mu _{n})(X_{2}-\mu _{2})]}{\sigma (X_{n})\sigma (X_{2})}}&\cdots &1\end{bmatrix}}.}

Cada elemento de la diagonal principal de una matriz de correlación es la correlación de una variable aleatoria consigo misma, que siempre es igual a 1. Cada elemento fuera de la diagonal está entre −1 y +1 inclusive.

Inversa de la matriz de covarianza

La inversa de esta matriz , si existe, es la matriz de covarianza inversa (o matriz de concentración inversa [ dudosodiscutir ] ), también conocida como matriz de precisión (o matriz de concentración ). [3] K X X 1 {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }^{-1}}

Así como la matriz de covarianza puede escribirse como el reescalamiento de una matriz de correlación por las varianzas marginales: cov ( X ) = [ σ x 1 0 σ x 2 0 σ x n ] [ 1 ρ x 1 , x 2 ρ x 1 , x n ρ x 2 , x 1 1 ρ x 2 , x n ρ x n , x 1 ρ x n , x 2 1 ] [ σ x 1 0 σ x 2 0 σ x n ] {\displaystyle \operatorname {cov} (\mathbf {X} )={\begin{bmatrix}\sigma _{x_{1}}&&&0\\&\sigma _{x_{2}}\\&&\ddots \\0&&&\sigma _{x_{n}}\end{bmatrix}}{\begin{bmatrix}1&\rho _{x_{1},x_{2}}&\cdots &\rho _{x_{1},x_{n}}\\\rho _{x_{2},x_{1}}&1&\cdots &\rho _{x_{2},x_{n}}\\\vdots &\vdots &\ddots &\vdots \\\rho _{x_{n},x_{1}}&\rho _{x_{n},x_{2}}&\cdots &1\\\end{bmatrix}}{\begin{bmatrix}\sigma _{x_{1}}&&&0\\&\sigma _{x_{2}}\\&&\ddots \\0&&&\sigma _{x_{n}}\end{bmatrix}}}

Así, utilizando la idea de correlación parcial y varianza parcial, la matriz de covarianza inversa puede expresarse de manera análoga: Esta dualidad motiva una serie de otras dualidades entre la marginalización y el condicionamiento de las variables aleatorias gaussianas. cov ( X ) 1 = [ 1 σ x 1 | x 2 . . . 0 1 σ x 2 | x 1 , x 3 . . . 0 1 σ x n | x 1 . . . x n 1 ] [ 1 ρ x 1 , x 2 x 3 . . . ρ x 1 , x n x 2 . . . x n 1 ρ x 2 , x 1 x 3 . . . 1 ρ x 2 , x n x 1 , x 3 . . . x n 1 ρ x n , x 1 x 2 . . . x n 1 ρ x n , x 2 x 1 , x 3 . . . x n 1 1 ] [ 1 σ x 1 | x 2 . . . 0 1 σ x 2 | x 1 , x 3 . . . 0 1 σ x n | x 1 . . . x n 1 ] {\displaystyle \operatorname {cov} (\mathbf {X} )^{-1}={\begin{bmatrix}{\frac {1}{\sigma _{x_{1}|x_{2}...}}}&&&0\\&{\frac {1}{\sigma _{x_{2}|x_{1},x_{3}...}}}\\&&\ddots \\0&&&{\frac {1}{\sigma _{x_{n}|x_{1}...x_{n-1}}}}\end{bmatrix}}{\begin{bmatrix}1&-\rho _{x_{1},x_{2}\mid x_{3}...}&\cdots &-\rho _{x_{1},x_{n}\mid x_{2}...x_{n-1}}\\-\rho _{x_{2},x_{1}\mid x_{3}...}&1&\cdots &-\rho _{x_{2},x_{n}\mid x_{1},x_{3}...x_{n-1}}\\\vdots &\vdots &\ddots &\vdots \\-\rho _{x_{n},x_{1}\mid x_{2}...x_{n-1}}&-\rho _{x_{n},x_{2}\mid x_{1},x_{3}...x_{n-1}}&\cdots &1\\\end{bmatrix}}{\begin{bmatrix}{\frac {1}{\sigma _{x_{1}|x_{2}...}}}&&&0\\&{\frac {1}{\sigma _{x_{2}|x_{1},x_{3}...}}}\\&&\ddots \\0&&&{\frac {1}{\sigma _{x_{n}|x_{1}...x_{n-1}}}}\end{bmatrix}}}

Propiedades básicas

Para y , donde es una variable aleatoria -dimensional, se aplican las siguientes propiedades básicas: [4] K X X = var ( X ) = E [ ( X E [ X ] ) ( X E [ X ] ) T ] {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }=\operatorname {var} (\mathbf {X} )=\operatorname {E} \left[\left(\mathbf {X} -\operatorname {E} [\mathbf {X} ]\right)\left(\mathbf {X} -\operatorname {E} [\mathbf {X} ]\right)^{\mathsf {T}}\right]} μ X = E [ X ] {\displaystyle {\boldsymbol {\mu }}_{\mathbf {X} }=\operatorname {E} [{\textbf {X}}]} X = ( X 1 , , X n ) T {\displaystyle \mathbf {X} =(X_{1},\ldots ,X_{n})^{\mathsf {T}}} n {\displaystyle n}

  1. K X X = E ( X X T ) μ X μ X T {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }=\operatorname {E} (\mathbf {XX^{\mathsf {T}}} )-{\boldsymbol {\mu }}_{\mathbf {X} }{\boldsymbol {\mu }}_{\mathbf {X} }^{\mathsf {T}}}
  2. K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }\,} es positivo-semidefinido , es decir a T K X X a 0 for all  a R n {\displaystyle \mathbf {a} ^{T}\operatorname {K} _{\mathbf {X} \mathbf {X} }\mathbf {a} \geq 0\quad {\text{for all }}\mathbf {a} \in \mathbb {R} ^{n}}
  3. K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }\,} es simétrico , es decir K X X T = K X X {\displaystyle \operatorname {K} _{\mathbf {X} \mathbf {X} }^{\mathsf {T}}=\operatorname {K} _{\mathbf {X} \mathbf {X} }}
  4. Para cualquier matriz constante (es decir, no aleatoria) y vector constante , se tiene m × n {\displaystyle m\times n} A {\displaystyle \mathbf {A} } m × 1 {\displaystyle m\times 1} a {\displaystyle \mathbf {a} } var ( A X + a ) = A var ( X ) A T {\displaystyle \operatorname {var} (\mathbf {AX} +\mathbf {a} )=\mathbf {A} \,\operatorname {var} (\mathbf {X} )\,\mathbf {A} ^{\mathsf {T}}}
  5. Si es otro vector aleatorio con la misma dimensión que , entonces donde es la matriz de covarianza cruzada de y . Y {\displaystyle \mathbf {Y} } X {\displaystyle \mathbf {X} } var ( X + Y ) = var ( X ) + cov ( X , Y ) + cov ( Y , X ) + var ( Y ) {\displaystyle \operatorname {var} (\mathbf {X} +\mathbf {Y} )=\operatorname {var} (\mathbf {X} )+\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )+\operatorname {cov} (\mathbf {Y} ,\mathbf {X} )+\operatorname {var} (\mathbf {Y} )} cov ( X , Y ) {\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )} X {\displaystyle \mathbf {X} } Y {\displaystyle \mathbf {Y} }

Matrices de bloques

La matriz de media conjunta y de covarianza conjunta de y se puede escribir en forma de bloque donde , y . μ {\displaystyle {\boldsymbol {\mu }}} Σ {\displaystyle {\boldsymbol {\Sigma }}} X {\displaystyle \mathbf {X} } Y {\displaystyle \mathbf {Y} } μ = [ μ X μ Y ] , Σ = [ K X X K X Y K Y X K Y Y ] {\displaystyle {\boldsymbol {\mu }}={\begin{bmatrix}{\boldsymbol {\mu }}_{X}\\{\boldsymbol {\mu }}_{Y}\end{bmatrix}},\qquad {\boldsymbol {\Sigma }}={\begin{bmatrix}\operatorname {K} _{\mathbf {XX} }&\operatorname {K} _{\mathbf {XY} }\\\operatorname {K} _{\mathbf {YX} }&\operatorname {K} _{\mathbf {YY} }\end{bmatrix}}} K X X = var ( X ) {\displaystyle \operatorname {K} _{\mathbf {XX} }=\operatorname {var} (\mathbf {X} )} K Y Y = var ( Y ) {\displaystyle \operatorname {K} _{\mathbf {YY} }=\operatorname {var} (\mathbf {Y} )} K X Y = K Y X T = cov ( X , Y ) {\displaystyle \operatorname {K} _{\mathbf {XY} }=\operatorname {K} _{\mathbf {YX} }^{\mathsf {T}}=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )}

K X X {\displaystyle \operatorname {K} _{\mathbf {XX} }} y pueden identificarse como las matrices de varianza de las distribuciones marginales para y respectivamente. K Y Y {\displaystyle \operatorname {K} _{\mathbf {YY} }} X {\displaystyle \mathbf {X} } Y {\displaystyle \mathbf {Y} }

Si y se distribuyen normalmente de forma conjunta , entonces la distribución condicional para dado está dada por [5] definida por la media condicional y la varianza condicional. X {\displaystyle \mathbf {X} } Y {\displaystyle \mathbf {Y} } X , Y   N ( μ , Σ ) , {\displaystyle \mathbf {X} ,\mathbf {Y} \sim \ {\mathcal {N}}({\boldsymbol {\mu }},\operatorname {\boldsymbol {\Sigma }} ),} Y {\displaystyle \mathbf {Y} } X {\displaystyle \mathbf {X} } Y X   N ( μ Y | X , K Y | X ) , {\displaystyle \mathbf {Y} \mid \mathbf {X} \sim \ {\mathcal {N}}({\boldsymbol {\mu }}_{\mathbf {Y|X} },\operatorname {K} _{\mathbf {Y|X} }),} μ Y | X = μ Y + K Y X K X X 1 ( X μ X ) {\displaystyle {\boldsymbol {\mu }}_{\mathbf {Y} |\mathbf {X} }={\boldsymbol {\mu }}_{\mathbf {Y} }+\operatorname {K} _{\mathbf {YX} }\operatorname {K} _{\mathbf {XX} }^{-1}\left(\mathbf {X} -{\boldsymbol {\mu }}_{\mathbf {X} }\right)} K Y | X = K Y Y K Y X K X X 1 K X Y . {\displaystyle \operatorname {K} _{\mathbf {Y|X} }=\operatorname {K} _{\mathbf {YY} }-\operatorname {K} _{\mathbf {YX} }\operatorname {K} _{\mathbf {XX} }^{-1}\operatorname {K} _{\mathbf {XY} }.}

La matriz se conoce como la matriz de coeficientes de regresión , mientras que en álgebra lineal es el complemento de Schur de en . K Y X K X X 1 {\displaystyle \operatorname {K} _{\mathbf {YX} }\operatorname {K} _{\mathbf {XX} }^{-1}} K Y | X {\displaystyle \operatorname {K} _{\mathbf {Y|X} }} K X X {\displaystyle \operatorname {K} _{\mathbf {XX} }} Σ {\displaystyle {\boldsymbol {\Sigma }}}

La matriz de coeficientes de regresión puede darse a menudo en forma de transposición, , adecuada para la multiplicación posterior de un vector fila de variables explicativas en lugar de la multiplicación previa de un vector columna . En esta forma, corresponden a los coeficientes obtenidos al invertir la matriz de las ecuaciones normales de mínimos cuadrados ordinarios (MCO). K X X 1 K X Y {\displaystyle \operatorname {K} _{\mathbf {XX} }^{-1}\operatorname {K} _{\mathbf {XY} }} X T {\displaystyle \mathbf {X} ^{\mathsf {T}}} X {\displaystyle \mathbf {X} }

Matriz de covarianza parcial

Una matriz de covarianza con todos los elementos distintos de cero nos indica que todas las variables aleatorias individuales están interrelacionadas. Esto significa que las variables no solo están correlacionadas directamente, sino que también lo están indirectamente a través de otras variables. A menudo, estas correlaciones indirectas de modo común son triviales y poco interesantes. Se pueden suprimir calculando la matriz de covarianza parcial, es decir, la parte de la matriz de covarianza que muestra solo la parte interesante de las correlaciones.

Si dos vectores de variables aleatorias y están correlacionados a través de otro vector , las últimas correlaciones se suprimen en una matriz [6]. La matriz de covarianza parcial es efectivamente la matriz de covarianza simple como si las variables aleatorias sin interés se mantuvieran constantes. X {\displaystyle \mathbf {X} } Y {\displaystyle \mathbf {Y} } I {\displaystyle \mathbf {I} } K X Y I = pcov ( X , Y I ) = cov ( X , Y ) cov ( X , I ) cov ( I , I ) 1 cov ( I , Y ) . {\displaystyle \operatorname {K} _{\mathbf {XY\mid I} }=\operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )-\operatorname {cov} (\mathbf {X} ,\mathbf {I} )\operatorname {cov} (\mathbf {I} ,\mathbf {I} )^{-1}\operatorname {cov} (\mathbf {I} ,\mathbf {Y} ).} K X Y I {\displaystyle \operatorname {K} _{\mathbf {XY\mid I} }} K X Y {\displaystyle \operatorname {K} _{\mathbf {XY} }} I {\displaystyle \mathbf {I} }

Matriz de covarianza como parámetro de una distribución

Si un vector de columna de variables aleatorias posiblemente correlacionadas se distribuye normalmente de manera conjunta , o más generalmente se distribuye elípticamente , entonces su función de densidad de probabilidad se puede expresar en términos de la matriz de covarianza de la siguiente manera [6] donde y es el determinante de . X {\displaystyle \mathbf {X} } n {\displaystyle n} f ( X ) {\displaystyle \operatorname {f} (\mathbf {X} )} Σ {\displaystyle {\boldsymbol {\Sigma }}} f ( X ) = ( 2 π ) n / 2 | Σ | 1 / 2 exp ( 1 2 ( X μ ) T Σ 1 ( X μ ) ) , {\displaystyle \operatorname {f} (\mathbf {X} )=(2\pi )^{-n/2}|{\boldsymbol {\Sigma }}|^{-1/2}\exp \left(-{\tfrac {1}{2}}\mathbf {(X-\mu )^{\mathsf {T}}\Sigma ^{-1}(X-\mu )} \right),} μ = E [ X ] {\displaystyle {\boldsymbol {\mu }}=\operatorname {E} [\mathbf {X} ]} | Σ | {\displaystyle |{\boldsymbol {\Sigma }}|} Σ {\displaystyle {\boldsymbol {\Sigma }}}

Matriz de covarianza como operador lineal

Aplicada a un vector, la matriz de covarianzas asigna una combinación lineal c de las variables aleatorias X a un vector de covarianzas con esas variables: . Tratada como una forma bilineal , produce la covarianza entre las dos combinaciones lineales: . La varianza de una combinación lineal es entonces , su covarianza consigo misma. c T Σ = cov ( c T X , X ) {\displaystyle \mathbf {c} ^{\mathsf {T}}\Sigma =\operatorname {cov} (\mathbf {c} ^{\mathsf {T}}\mathbf {X} ,\mathbf {X} )} d T Σ c = cov ( d T X , c T X ) {\displaystyle \mathbf {d} ^{\mathsf {T}}{\boldsymbol {\Sigma }}\mathbf {c} =\operatorname {cov} (\mathbf {d} ^{\mathsf {T}}\mathbf {X} ,\mathbf {c} ^{\mathsf {T}}\mathbf {X} )} c T Σ c {\displaystyle \mathbf {c} ^{\mathsf {T}}{\boldsymbol {\Sigma }}\mathbf {c} }

De manera similar, la matriz de covarianza (pseudo)inversa proporciona un producto interno , que induce la distancia de Mahalanobis , una medida de la "improbabilidad" de c . [ cita requerida ] c μ | Σ + | c μ {\displaystyle \langle c-\mu |\Sigma ^{+}|c-\mu \rangle }

¿Qué matrices son matrices de covarianza?

A partir de la identidad anterior, sea un vector de valor real, entonces que siempre debe ser no negativo, ya que es la varianza de una variable aleatoria de valor real, por lo que una matriz de covarianza es siempre una matriz semidefinida positiva . b {\displaystyle \mathbf {b} } ( p × 1 ) {\displaystyle (p\times 1)} var ( b T X ) = b T var ( X ) b , {\displaystyle \operatorname {var} (\mathbf {b} ^{\mathsf {T}}\mathbf {X} )=\mathbf {b} ^{\mathsf {T}}\operatorname {var} (\mathbf {X} )\mathbf {b} ,\,}

El argumento anterior se puede ampliar de la siguiente manera: donde la última desigualdad se deduce de la observación de que es un escalar. w T E [ ( X E [ X ] ) ( X E [ X ] ) T ] w = E [ w T ( X E [ X ] ) ( X E [ X ] ) T w ] = E [ ( w T ( X E [ X ] ) ) 2 ] 0 , {\displaystyle {\begin{aligned}&w^{\mathsf {T}}\operatorname {E} \left[(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\mathsf {T}}\right]w=\operatorname {E} \left[w^{\mathsf {T}}(\mathbf {X} -\operatorname {E} [\mathbf {X} ])(\mathbf {X} -\operatorname {E} [\mathbf {X} ])^{\mathsf {T}}w\right]\\&=\operatorname {E} {\big [}{\big (}w^{\mathsf {T}}(\mathbf {X} -\operatorname {E} [\mathbf {X} ]){\big )}^{2}{\big ]}\geq 0,\end{aligned}}} w T ( X E [ X ] ) {\displaystyle w^{\mathsf {T}}(\mathbf {X} -\operatorname {E} [\mathbf {X} ])}

Por el contrario, toda matriz semidefinida positiva simétrica es una matriz de covarianza. Para ver esto, supongamos que es una matriz semidefinida positiva simétrica. Del caso de dimensión finita del teorema espectral , se deduce que tiene una raíz cuadrada simétrica no negativa , que puede denotarse por M 1/2 . Sea cualquier variable aleatoria con valor de vector columna cuya matriz de covarianza sea la matriz identidad. Entonces M {\displaystyle M} p × p {\displaystyle p\times p} M {\displaystyle M} X {\displaystyle \mathbf {X} } p × 1 {\displaystyle p\times 1} p × p {\displaystyle p\times p} var ( M 1 / 2 X ) = M 1 / 2 var ( X ) M 1 / 2 = M . {\displaystyle \operatorname {var} (\mathbf {M} ^{1/2}\mathbf {X} )=\mathbf {M} ^{1/2}\,\operatorname {var} (\mathbf {X} )\,\mathbf {M} ^{1/2}=\mathbf {M} .}

Vectores aleatorios complejos

La varianza de una variable aleatoria compleja con valor escalar y valor esperado se define convencionalmente utilizando la conjugación compleja : donde el conjugado complejo de un número complejo se denota ; por lo tanto, la varianza de una variable aleatoria compleja es un número real. μ {\displaystyle \mu } var ( Z ) = E [ ( Z μ Z ) ( Z μ Z ) ¯ ] , {\displaystyle \operatorname {var} (Z)=\operatorname {E} \left[(Z-\mu _{Z}){\overline {(Z-\mu _{Z})}}\right],} z {\displaystyle z} z ¯ {\displaystyle {\overline {z}}}

Si es un vector columna de variables aleatorias de valor complejo, entonces la transpuesta conjugada se forma tanto transponiendo como conjugando. En la siguiente expresión, el producto de un vector con su transpuesta conjugada da como resultado una matriz cuadrada llamada matriz de covarianza , como su esperanza: [7] : 293  La matriz así obtenida será hermítica positiva-semidefinida , [8] con números reales en la diagonal principal y números complejos fuera de la diagonal. Z = ( Z 1 , , Z n ) T {\displaystyle \mathbf {Z} =(Z_{1},\ldots ,Z_{n})^{\mathsf {T}}} Z H {\displaystyle \mathbf {Z} ^{\mathsf {H}}} K Z Z = cov [ Z , Z ] = E [ ( Z μ Z ) ( Z μ Z ) H ] , {\displaystyle \operatorname {K} _{\mathbf {Z} \mathbf {Z} }=\operatorname {cov} [\mathbf {Z} ,\mathbf {Z} ]=\operatorname {E} \left[(\mathbf {Z} -{\boldsymbol {\mu }}_{\mathbf {Z} })(\mathbf {Z} -{\boldsymbol {\mu }}_{\mathbf {Z} })^{\mathsf {H}}\right],}

Propiedades
  • La matriz de covarianza es una matriz hermítica , es decir . [1] : 179  K Z Z H = K Z Z {\displaystyle \operatorname {K} _{\mathbf {Z} \mathbf {Z} }^{\mathsf {H}}=\operatorname {K} _{\mathbf {Z} \mathbf {Z} }}
  • Los elementos diagonales de la matriz de covarianza son reales. [1] : 179 

Matriz de pseudocovarianza

Para los vectores aleatorios complejos, otro tipo de segundo momento central, la matriz de pseudocovarianza (también llamada matriz de relación ), se define de la siguiente manera: J Z Z = cov [ Z , Z ¯ ] = E [ ( Z μ Z ) ( Z μ Z ) T ] {\displaystyle \operatorname {J} _{\mathbf {Z} \mathbf {Z} }=\operatorname {cov} [\mathbf {Z} ,{\overline {\mathbf {Z} }}]=\operatorname {E} \left[(\mathbf {Z} -{\boldsymbol {\mu }}_{\mathbf {Z} })(\mathbf {Z} -{\boldsymbol {\mu }}_{\mathbf {Z} })^{\mathsf {T}}\right]}

A diferencia de la matriz de covarianza definida anteriormente, la transposición hermítica se reemplaza por transposición en la definición. Sus elementos diagonales pueden tener valores complejos; es una matriz simétrica compleja .

Estimación

Si y son matrices de datos centradas de dimensión y respectivamente, es decir con n columnas de observaciones de p y q filas de variables, de las que se han restado las medias de fila, entonces, si las medias de fila se estimaron a partir de los datos, las matrices de covarianza de muestra y pueden definirse como o, si las medias de fila se conocían a priori, M X {\displaystyle \mathbf {M} _{\mathbf {X} }} M Y {\displaystyle \mathbf {M} _{\mathbf {Y} }} p × n {\displaystyle p\times n} q × n {\displaystyle q\times n} Q X X {\displaystyle \mathbf {Q} _{\mathbf {XX} }} Q X Y {\displaystyle \mathbf {Q} _{\mathbf {XY} }} Q X X = 1 n 1 M X M X T , Q X Y = 1 n 1 M X M Y T {\displaystyle \mathbf {Q} _{\mathbf {XX} }={\frac {1}{n-1}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {X} }^{\mathsf {T}},\qquad \mathbf {Q} _{\mathbf {XY} }={\frac {1}{n-1}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {Y} }^{\mathsf {T}}} Q X X = 1 n M X M X T , Q X Y = 1 n M X M Y T . {\displaystyle \mathbf {Q} _{\mathbf {XX} }={\frac {1}{n}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {X} }^{\mathsf {T}},\qquad \mathbf {Q} _{\mathbf {XY} }={\frac {1}{n}}\mathbf {M} _{\mathbf {X} }\mathbf {M} _{\mathbf {Y} }^{\mathsf {T}}.}

Estas matrices de covarianza de muestra empírica son los estimadores más sencillos y más utilizados para las matrices de covarianza, pero también existen otros estimadores, incluidos los estimadores regularizados o de contracción, que pueden tener mejores propiedades.

Aplicaciones

La matriz de covarianza es una herramienta útil en muchas áreas diferentes. A partir de ella se puede derivar una matriz de transformación , llamada transformación de blanqueamiento , que permite descorrelacionar completamente los datos [9] o, desde un punto de vista diferente, encontrar una base óptima para representar los datos de una manera compacta [ cita requerida ] (ver cociente de Rayleigh para una prueba formal y propiedades adicionales de las matrices de covarianza). Esto se llama análisis de componentes principales (PCA) y la transformada de Karhunen-Loève (transformada KL).

La matriz de covarianzas desempeña un papel fundamental en la economía financiera , especialmente en la teoría de carteras y su teorema de separación de fondos mutuos y en el modelo de valoración de activos de capital . La matriz de covarianzas entre los rendimientos de varios activos se utiliza para determinar, bajo ciertos supuestos, las cantidades relativas de diferentes activos que los inversores deberían (en un análisis normativo ) o se prevé que elijan (en un análisis positivo ) mantener en un contexto de diversificación .

Uso en optimización

La estrategia de evolución , una familia particular de heurísticas de búsqueda aleatoria, se basa fundamentalmente en una matriz de covarianza en su mecanismo. El operador de mutación característico extrae el paso de actualización de una distribución normal multivariante utilizando una matriz de covarianza evolutiva. Existe una prueba formal de que la matriz de covarianza de la estrategia de evolución se adapta a la inversa de la matriz hessiana del paisaje de búsqueda, hasta un factor escalar y pequeñas fluctuaciones aleatorias (probadas para una estrategia de padre único y un modelo estático, a medida que aumenta el tamaño de la población, basándose en la aproximación cuadrática). [10] Intuitivamente, este resultado está respaldado por la lógica de que la distribución de covarianza óptima puede ofrecer pasos de mutación cuyos contornos de probabilidad de equidensidad coinciden con los conjuntos de niveles del paisaje, y por lo tanto maximizan la tasa de progreso.

Mapeo de covarianza

En el mapeo de covarianza, los valores de la matriz o se representan como un mapa bidimensional. Cuando los vectores y son funciones aleatorias discretas , el mapa muestra relaciones estadísticas entre diferentes regiones de las funciones aleatorias. Las regiones estadísticamente independientes de las funciones aparecen en el mapa como llanuras de nivel cero, mientras que las correlaciones positivas o negativas aparecen, respectivamente, como colinas o valles. cov ( X , Y ) {\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )} pcov ( X , Y I ) {\displaystyle \operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )} X {\displaystyle \mathbf {X} } Y {\displaystyle \mathbf {Y} }

En la práctica, los vectores columna , y se adquieren experimentalmente como filas de muestras, p. ej. , donde es el i -ésimo valor discreto en la muestra j de la función aleatoria . Los valores esperados necesarios en la fórmula de covarianza se estiman utilizando la media de la muestra , p. ej. , y la matriz de covarianza se estima mediante la matriz de covarianza de la muestra donde los corchetes angulares denotan el promedio de la muestra como antes, excepto que se debe realizar la corrección de Bessel para evitar el sesgo . Usando esta estimación, la matriz de covarianza parcial se puede calcular como donde la barra invertida denota el operador de división de matriz izquierda , que evita el requisito de invertir una matriz y está disponible en algunos paquetes computacionales como Matlab . [11] X , Y {\displaystyle \mathbf {X} ,\mathbf {Y} } I {\displaystyle \mathbf {I} } n {\displaystyle n} [ X 1 , X 2 , , X n ] = [ X 1 ( t 1 ) X 2 ( t 1 ) X n ( t 1 ) X 1 ( t 2 ) X 2 ( t 2 ) X n ( t 2 ) X 1 ( t m ) X 2 ( t m ) X n ( t m ) ] , {\displaystyle \left[\mathbf {X} _{1},\mathbf {X} _{2},\dots ,\mathbf {X} _{n}\right]={\begin{bmatrix}X_{1}(t_{1})&X_{2}(t_{1})&\cdots &X_{n}(t_{1})\\\\X_{1}(t_{2})&X_{2}(t_{2})&\cdots &X_{n}(t_{2})\\\\\vdots &\vdots &\ddots &\vdots \\\\X_{1}(t_{m})&X_{2}(t_{m})&\cdots &X_{n}(t_{m})\end{bmatrix}},} X j ( t i ) {\displaystyle X_{j}(t_{i})} X ( t ) {\displaystyle X(t)} X = 1 n j = 1 n X j {\displaystyle \langle \mathbf {X} \rangle ={\frac {1}{n}}\sum _{j=1}^{n}\mathbf {X} _{j}} cov ( X , Y ) X Y T X Y T , {\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )\approx \langle \mathbf {XY^{\mathsf {T}}} \rangle -\langle \mathbf {X} \rangle \langle \mathbf {Y} ^{\mathsf {T}}\rangle ,} pcov ( X , Y I ) = cov ( X , Y ) cov ( X , I ) ( cov ( I , I ) cov ( I , Y ) ) , {\displaystyle \operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )=\operatorname {cov} (\mathbf {X} ,\mathbf {Y} )-\operatorname {cov} (\mathbf {X} ,\mathbf {I} )\left(\operatorname {cov} (\mathbf {I} ,\mathbf {I} )\backslash \operatorname {cov} (\mathbf {I} ,\mathbf {Y} )\right),}

Figura 1: Construcción de un mapa de covarianza parcial de moléculas N 2 que experimentan una explosión de Coulomb inducida por un láser de electrones libres. [12] Los paneles a y b representan los dos términos de la matriz de covarianza, que se muestra en el panel c . El panel d representa las correlaciones en modo común a través de las fluctuaciones de intensidad del láser. El panel e representa la matriz de covarianza parcial que se corrige para las fluctuaciones de intensidad. El panel f muestra que una sobrecorrección del 10% mejora el mapa y hace que las correlaciones ion-ion sean claramente visibles. Debido a la conservación del momento, estas correlaciones aparecen como líneas aproximadamente perpendiculares a la línea de autocorrelación (y a las modulaciones periódicas que son causadas por el repiqueteo del detector).

La figura 1 ilustra cómo se construye un mapa de covarianza parcial a partir de un ejemplo de un experimento realizado en el láser de electrones libres FLASH en Hamburgo. [12] La función aleatoria es el espectro de tiempo de vuelo de iones de una explosión de Coulomb de moléculas de nitrógeno ionizadas de forma múltiple por un pulso láser. Dado que solo se ionizan unos pocos cientos de moléculas en cada pulso láser, los espectros de disparo único son muy fluctuantes. Sin embargo, la recopilación típica de dichos espectros, , y su promediado produce un espectro suave , que se muestra en rojo en la parte inferior de la figura 1. El espectro promedio revela varios iones de nitrógeno en forma de picos ensanchados por su energía cinética, pero para encontrar las correlaciones entre las etapas de ionización y los momentos iónicos se requiere calcular un mapa de covarianza. X ( t ) {\displaystyle X(t)} m = 10 4 {\displaystyle m=10^{4}} X j ( t ) {\displaystyle \mathbf {X} _{j}(t)} j {\displaystyle j} X ( t ) {\displaystyle \langle \mathbf {X} (t)\rangle } X {\displaystyle \langle \mathbf {X} \rangle }

En el ejemplo de la Fig. 1, los espectros y son los mismos, excepto que el rango del tiempo de vuelo difiere. El panel a muestra , el panel b muestra y el panel c muestra su diferencia, que es (nótese un cambio en la escala de colores). Desafortunadamente, este mapa está abrumado por correlaciones de modo común poco interesantes inducidas por la intensidad del láser que fluctúa de un disparo a otro. Para suprimir tales correlaciones, la intensidad del láser se registra en cada disparo, se coloca en y se calcula como muestran los paneles d y e . Sin embargo, la supresión de las correlaciones poco interesantes es imperfecta porque hay otras fuentes de fluctuaciones de modo común además de la intensidad del láser y, en principio, todas estas fuentes deberían monitorearse en el vector . Sin embargo, en la práctica, a menudo es suficiente sobrecompensar la corrección de covarianza parcial como muestra el panel f , donde las correlaciones interesantes de los momentos iónicos ahora son claramente visibles como líneas rectas centradas en las etapas de ionización del nitrógeno atómico. X j ( t ) {\displaystyle \mathbf {X} _{j}(t)} Y j ( t ) {\displaystyle \mathbf {Y} _{j}(t)} t {\displaystyle t} X Y T {\displaystyle \langle \mathbf {XY^{\mathsf {T}}} \rangle } X Y T {\displaystyle \langle \mathbf {X} \rangle \langle \mathbf {Y} ^{\mathsf {T}}\rangle } cov ( X , Y ) {\displaystyle \operatorname {cov} (\mathbf {X} ,\mathbf {Y} )} I j {\displaystyle I_{j}} I {\displaystyle \mathbf {I} } pcov ( X , Y I ) {\displaystyle \operatorname {pcov} (\mathbf {X} ,\mathbf {Y} \mid \mathbf {I} )} I {\displaystyle \mathbf {I} }

Espectroscopia infrarroja bidimensional

La espectroscopia infrarroja bidimensional emplea el análisis de correlación para obtener espectros 2D de la fase condensada . Existen dos versiones de este análisis: sincrónico y asincrónico . Matemáticamente, el primero se expresa en términos de la matriz de covarianza de la muestra y la técnica es equivalente al mapeo de covarianza. [13]

Véase también

Referencias

  1. ^ abc Park, Kun Il (2018). Fundamentos de probabilidad y procesos estocásticos con aplicaciones a las comunicaciones . Springer. ISBN 978-3-319-68074-3.
  2. ^ William Feller (1971). Introducción a la teoría de la probabilidad y sus aplicaciones. Wiley. ISBN 978-0-471-25709-7. Recuperado el 10 de agosto de 2012 .
  3. ^ Wasserman, Larry (2004). Toda la estadística: un curso conciso sobre inferencia estadística. Springer. ISBN 0-387-40272-1.
  4. ^ Taboga, Marco (2010). "Conferencias sobre teoría de la probabilidad y estadística matemática".
  5. ^ Eaton, Morris L. (1983). Estadística multivariante: un enfoque de espacio vectorial . John Wiley and Sons. págs. 116-117. ISBN 0-471-02776-6.
  6. ^ ab WJ Krzanowski "Principios del análisis multivariante" (Oxford University Press, Nueva York, 1988), cap. 14.4; KV Mardia, JT Kent y JM Bibby "Análisis multivariante" (Academic Press, Londres, 1997), cap. 6.5.3; TW Anderson "Introducción al análisis estadístico multivariante" (Wiley, Nueva York, 2003), 3.ª ed., caps. 2.5.1 y 4.3.1.
  7. ^ Lapidoth, Amos (2009). Una base para la comunicación digital . Cambridge University Press. ISBN 978-0-521-19395-5.
  8. ^ Brookes, Mike. "El manual de referencia de Matrix".
  9. ^ Kessy, Agnan; Strimmer, Korbinian; Lewin, Alex (2018). "Blanqueamiento óptimo y decorrelación". The American Statistician . 72 (4). Taylor & Francis: 309–314. arXiv : 1512.00809 . doi :10.1080/00031305.2016.1277159.
  10. ^ Shir, OM; A. Yehudayoff (2020). "Sobre la relación covarianza-hessiana en las estrategias de evolución". Ciencias de la Computación Teórica . 801 . Elsevier: 157–174. arXiv : 1806.03674 . doi : 10.1016/j.tcs.2019.09.002 .
  11. ^ LJ Frasinski "Técnicas de mapeo de covarianza" J. Phys. B: At. Mol. Opt. Phys. 49 152004 (2016), acceso abierto
  12. ^ ab O Kornilov, M Eckstein, M Rosenblatt, CP Schulz, K Motomura, A Rouzée, J Klei, L Foucar, M Siano, A Lübcke, F. Schapper, P Johnsson, DMP Holland, T Schlatholter, T Marchenko, S Düsterer, K Ueda, MJJ Vrakking y LJ Frasinski "Explosión de Coulomb de moléculas diatómicas en campos XUV intensos mapeados por covarianza parcial" J. Phys. B: At. Mol. Opt. Phys. 46 164028 (2013), acceso abierto
  13. ^ I Noda "Método de correlación bidimensional generalizado aplicable a espectroscopia infrarroja, Raman y otros tipos de espectroscopia" Appl. Spectrosc. 47 1329–36 (1993)

Lectura adicional

Retrieved from "https://en.wikipedia.org/w/index.php?title=Covariance_matrix&oldid=1250036353"