Coeficiente de correlación de Pearson

Medida de correlación lineal

Ejemplos de diagramas de dispersión con diferentes valores del coeficiente de correlación ( ρ )
Varios conjuntos de puntos ( xy ) con el coeficiente de correlación de x e y para cada conjunto. La correlación refleja la fuerza y ​​la dirección de una relación lineal (fila superior), pero no la pendiente de esa relación (fila central), ni muchos aspectos de las relaciones no lineales (fila inferior). Nota: la figura del centro tiene una pendiente de 0, pero en ese caso el coeficiente de correlación no está definido porque la varianza de Y es cero.

En estadística , el coeficiente de correlación de Pearson ( PCC ) [a] es un coeficiente de correlación que mide la correlación lineal entre dos conjuntos de datos. Es la relación entre la covarianza de dos variables y el producto de sus desviaciones estándar ; por lo tanto, es esencialmente una medida normalizada de la covarianza, de modo que el resultado siempre tiene un valor entre −1 y 1. Al igual que con la propia covarianza, la medida solo puede reflejar una correlación lineal de variables e ignora muchos otros tipos de relaciones o correlaciones. Como ejemplo simple, uno esperaría que la edad y la altura de una muestra de niños de una escuela primaria tuvieran un coeficiente de correlación de Pearson significativamente mayor que 0, pero menor que 1 (ya que 1 representaría una correlación irrealmente perfecta).

Nombre e historia

Fue desarrollado por Karl Pearson a partir de una idea relacionada introducida por Francis Galton en la década de 1880, y para la cual la fórmula matemática fue derivada y publicada por Auguste Bravais en 1844. [b] [6] [7] [8] [9] La denominación del coeficiente es, por tanto, un ejemplo de la Ley de Stigler .

Definición

El coeficiente de correlación de Pearson es la covarianza de las dos variables dividida por el producto de sus desviaciones estándar. La forma de la definición implica un "momento producto", es decir, la media (el primer momento respecto del origen) del producto de las variables aleatorias ajustadas a la media; de ahí el modificador momento producto en el nombre. [ verificación necesaria ]

Para una población

El coeficiente de correlación de Pearson, cuando se aplica a una población , se representa comúnmente con la letra griega ρ (rho) y puede denominarse coeficiente de correlación de población o coeficiente de correlación de Pearson de población . Dado un par de variables aleatorias (por ejemplo, altura y peso), la fórmula para ρ [10] es [11] ( incógnita , Y ) {\estilo de visualización (X,Y)}

ρ incógnita , Y = cubierta ( incógnita , Y ) σ incógnita σ Y {\displaystyle \rho _{X,Y}={\frac {\operatorname {cov} (X,Y)}{\sigma _{X}\sigma _{Y}}}}

dónde

  • cov {\displaystyle \operatorname {cov} } es la covarianza
  • σ X {\displaystyle \sigma _{X}} es la desviación estándar de X {\displaystyle X}
  • σ Y {\displaystyle \sigma _{Y}} es la desviación estándar de . Y {\displaystyle Y}

La fórmula para se puede expresar en términos de media y expectativa . Dado que [10] cov ( X , Y ) {\displaystyle \operatorname {cov} (X,Y)}

cov ( X , Y ) = E [ ( X μ X ) ( Y μ Y ) ] , {\displaystyle \operatorname {cov} (X,Y)=\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})],}

La fórmula para también se puede escribir como ρ {\displaystyle \rho }

ρ X , Y = E [ ( X μ X ) ( Y μ Y ) ] σ X σ Y {\displaystyle \rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [(X-\mu _{X})(Y-\mu _{Y})]}{\sigma _{X}\sigma _{Y}}}}

dónde

  • σ Y {\displaystyle \sigma _{Y}} y se definen como arriba σ X {\displaystyle \sigma _{X}}
  • μ X {\displaystyle \mu _{X}} es la media de X {\displaystyle X}
  • μ Y {\displaystyle \mu _{Y}} es la media de Y {\displaystyle Y}
  • E {\displaystyle \operatorname {\mathbb {E} } } Es la expectativa.

La fórmula para se puede expresar en términos de momentos no centrados. ρ {\displaystyle \rho }

μ X = E [ X ] μ Y = E [ Y ] σ X 2 = E [ ( X E [ X ] ) 2 ] = E [ X 2 ] ( E [ X ] ) 2 σ Y 2 = E [ ( Y E [ Y ] ) 2 ] = E [ Y 2 ] ( E [ Y ] ) 2 E [ ( X μ X ) ( Y μ Y ) ] = E [ ( X E [ X ] ) ( Y E [ Y ] ) ] = E [ X Y ] E [ X ] E [ Y ] , {\displaystyle {\begin{aligned}\mu _{X}={}&\operatorname {\mathbb {E} } [\,X\,]\\\mu _{Y}={}&\operatorname {\mathbb {E} } [\,Y\,]\\\sigma _{X}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(X-\operatorname {\mathbb {E} } [X]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}\\\sigma _{Y}^{2}={}&\operatorname {\mathbb {E} } \left[\,\left(Y-\operatorname {\mathbb {E} } [Y]\right)^{2}\,\right]=\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\,\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}\\&\operatorname {\mathbb {E} } [\,\left(X-\mu _{X}\right)\left(Y-\mu _{Y}\right)\,]=\operatorname {\mathbb {E} } [\,\left(X-\operatorname {\mathbb {E} } [\,X\,]\right)\left(Y-\operatorname {\mathbb {E} } [\,Y\,]\right)\,]=\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]\,,\end{aligned}}}

La fórmula para también se puede escribir como ρ {\displaystyle \rho } ρ X , Y = E [ X Y ] E [ X ] E [ Y ] E [ X 2 ] ( E [ X ] ) 2   E [ Y 2 ] ( E [ Y ] ) 2 . {\displaystyle \rho _{X,Y}={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]-\operatorname {\mathbb {E} } [\,X\,]\operatorname {\mathbb {E} } [\,Y\,]}{{\sqrt {\operatorname {\mathbb {E} } \left[\,X^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,X\,]\right)^{2}}}~{\sqrt {\operatorname {\mathbb {E} } \left[\,Y^{2}\,\right]-\left(\operatorname {\mathbb {E} } [\,Y\,]\right)^{2}}}}}.}

Para una muestra

El coeficiente de correlación de Pearson, cuando se aplica a una muestra , se representa comúnmente por y puede denominarse coeficiente de correlación de la muestra o coeficiente de correlación de Pearson de la muestra . Podemos obtener una fórmula para sustituyendo las estimaciones de las covarianzas y varianzas basadas en una muestra en la fórmula anterior. Dados datos pareados que constan de pares, se define como r x y {\displaystyle r_{xy}} r x y {\displaystyle r_{xy}} { ( x 1 , y 1 ) , , ( x n , y n ) } {\displaystyle \left\{(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\right\}} n {\displaystyle n} r x y {\displaystyle r_{xy}}

r x y = i = 1 n ( x i x ¯ ) ( y i y ¯ ) i = 1 n ( x i x ¯ ) 2 i = 1 n ( y i y ¯ ) 2 {\displaystyle r_{xy}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}}}}

dónde

  • n {\displaystyle n} ¿Es el tamaño de la muestra?
  • x i , y i {\displaystyle x_{i},y_{i}} ¿Los puntos de muestra individuales están indexados con i?
  • x ¯ = 1 n i = 1 n x i {\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} (la media de la muestra); y análogamente para . y ¯ {\displaystyle {\bar {y}}}

Reordenando obtenemos esta fórmula [10] para : r x y {\displaystyle r_{xy}}

r x y = i x i y i n x ¯ y ¯ i x i 2 n x ¯ 2   i y i 2 n y ¯ 2 , {\displaystyle r_{xy}={\frac {\sum _{i}x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{{\sqrt {\sum _{i}x_{i}^{2}-n{\bar {x}}^{2}}}~{\sqrt {\sum _{i}y_{i}^{2}-n{\bar {y}}^{2}}}}},}

donde se definen como anteriormente. n , x i , y i , x ¯ , y ¯ {\displaystyle n,x_{i},y_{i},{\bar {x}},{\bar {y}}}

Reordenando nuevamente obtenemos esta fórmula para : r x y {\displaystyle r_{xy}}

r x y = n x i y i x i y i n x i 2 ( x i ) 2   n y i 2 ( y i ) 2 , {\displaystyle r_{xy}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}}}~{\sqrt {n\sum y_{i}^{2}-\left(\sum y_{i}\right)^{2}}}}},}

donde se definen como anteriormente. n , x i , y i {\displaystyle n,x_{i},y_{i}}

Esta fórmula sugiere un algoritmo conveniente de una sola pasada para calcular correlaciones de muestras, aunque dependiendo de los números involucrados, a veces puede ser numéricamente inestable .

Una expresión equivalente da la fórmula para la media de los productos de las puntuaciones estándar de la siguiente manera: r x y {\displaystyle r_{xy}}

r x y = 1 n 1 i = 1 n ( x i x ¯ s x ) ( y i y ¯ s y ) {\displaystyle r_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)\left({\frac {y_{i}-{\bar {y}}}{s_{y}}}\right)}

dónde

  • n , x i , y i , x ¯ , y ¯ {\displaystyle n,x_{i},y_{i},{\bar {x}},{\bar {y}}} se definen como se indica más arriba y se definen a continuación s x , s y {\displaystyle s_{x},s_{y}}
  • ( x i x ¯ s x ) {\textstyle \left({\frac {x_{i}-{\bar {x}}}{s_{x}}}\right)} es la puntuación estándar (y análogamente para la puntuación estándar de ). y {\displaystyle y}

También existen fórmulas alternativas para . Por ejemplo, se puede utilizar la siguiente fórmula para : r x y {\displaystyle r_{xy}} r x y {\displaystyle r_{xy}}

r x y = x i y i n x ¯ y ¯ ( n 1 ) s x s y {\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}}

dónde

  • n , x i , y i , x ¯ , y ¯ {\displaystyle n,x_{i},y_{i},{\bar {x}},{\bar {y}}} se definen como anteriormente y:
  • s x = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\textstyle s_{x}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}} (la desviación estándar de la muestra ); y análogamente para . s y {\displaystyle s_{y}}

Para distribuciones gaussianas conjuntas

Si es conjuntamente gaussiano , con media cero y varianza , entonces . ( X , Y ) {\displaystyle (X,Y)} Σ {\displaystyle \Sigma } Σ = [ σ X 2 ρ X , Y σ X σ Y ρ X , Y σ X σ Y σ Y 2 ] {\displaystyle \Sigma ={\begin{bmatrix}\sigma _{X}^{2}&\rho _{X,Y}\sigma _{X}\sigma _{Y}\\\rho _{X,Y}\sigma _{X}\sigma _{Y}&\sigma _{Y}^{2}\\\end{bmatrix}}}

Cuestiones prácticas

En condiciones de mucho ruido, extraer el coeficiente de correlación entre dos conjuntos de variables estocásticas no es trivial, en particular cuando el análisis de correlación canónica arroja valores de correlación degradados debido a las fuertes contribuciones del ruido. En otro lugar se ofrece una generalización del enfoque. [12]

En caso de falta de datos, Garren derivó el estimador de máxima verosimilitud . [13]

Algunas distribuciones (por ejemplo, distribuciones estables distintas de una distribución normal ) no tienen una varianza definida.

Propiedades matemáticas

Los valores de los coeficientes de correlación de Pearson de la muestra y de la población están en o entre −1 y 1. Las correlaciones iguales a +1 o −1 corresponden a puntos de datos que se encuentran exactamente sobre una línea (en el caso de la correlación de la muestra), o a una distribución bivariada totalmente apoyada sobre una línea (en el caso de la correlación de la población). El coeficiente de correlación de Pearson es simétrico: corr( X , Y ) = corr( Y , X ).

Una propiedad matemática clave del coeficiente de correlación de Pearson es que es invariante ante cambios separados en la ubicación y la escala de las dos variables. Es decir, podemos transformar X en a + bX y transformar Y en c + dY , donde a , b , c y d son constantes con b , d > 0 , sin cambiar el coeficiente de correlación. (Esto es válido tanto para los coeficientes de correlación de Pearson de la población como de la muestra). Las transformaciones lineales más generales sí cambian la correlación: véase § Decorrelación de n variables aleatorias para una aplicación de esto.

Interpretación

El coeficiente de correlación varía de −1 a 1. Un valor absoluto de exactamente 1 implica que una ecuación lineal describe la relación entre X e Y perfectamente, con todos los puntos de datos en una línea . El signo de correlación está determinado por la pendiente de regresión : un valor de +1 implica que todos los puntos de datos se encuentran en una línea para la cual Y aumenta a medida que X aumenta, mientras que un valor de -1 implica una línea donde Y aumenta mientras que X disminuye. [14] Un valor de 0 implica que no hay dependencia lineal entre las variables. [15]

En términos más generales, ( X iX )( Y iY ) es positivo si y solo si X i e Y i se encuentran en el mismo lado de sus respectivas medias. Por lo tanto, el coeficiente de correlación es positivo si X i e Y i tienden a ser simultáneamente mayores o simultáneamente menores que sus respectivas medias. El coeficiente de correlación es negativo ( anticorrelación ) si X i e Y i tienden a estar en lados opuestos de sus respectivas medias. Además, cuanto más fuerte sea una tendencia, mayor será el valor absoluto del coeficiente de correlación.

Rodgers y Nicewander [16] catalogaron trece formas de interpretar la correlación o funciones simples de la misma:

  • Función de las puntuaciones brutas y medias
  • Covarianza estandarizada
  • Pendiente estandarizada de la recta de regresión
  • Media geométrica de las dos pendientes de regresión
  • Raíz cuadrada del cociente de dos varianzas
  • Producto cruzado medio de variables estandarizadas
  • Función del ángulo entre dos rectas de regresión estandarizadas
  • Función del ángulo entre dos vectores variables
  • Varianza reescalada de la diferencia entre puntuaciones estandarizadas
  • Estimado a partir de la regla del globo
  • Relacionado con las elipses bivariadas de isoconcentración
  • Función de las estadísticas de prueba a partir de experimentos diseñados
  • Razón de dos medias

Interpretación geométrica

Rectas de regresión para y = g X ( x ) [ rojo ] y x = g Y ( y ) [ azul ]

Para datos no centrados, existe una relación entre el coeficiente de correlación y el ángulo φ entre las dos líneas de regresión, y = g X ( x ) y x = g Y ( y ) , obtenido al regresionar y sobre x y x sobre y respectivamente. (Aquí, φ se mide en sentido antihorario dentro del primer cuadrante formado alrededor del punto de intersección de las líneas si r > 0 , o en sentido antihorario desde el cuarto al segundo cuadrante si r < 0 .) Se puede demostrar [17] que si las desviaciones estándar son iguales, entonces r = sec φ − tan φ , donde sec y tan son funciones trigonométricas .

Para datos centrados (es decir, datos que han sido desplazados por las medias muestrales de sus respectivas variables de modo de tener un promedio de cero para cada variable), el coeficiente de correlación también puede verse como el coseno del ángulo θ entre los dos vectores observados en un espacio N -dimensional (para N observaciones de cada variable). [18]

Tanto los coeficientes de correlación centrados como los no centrados (no conformes con Pearson) se pueden determinar para un conjunto de datos. Como ejemplo, supongamos que se encuentra que cinco países tienen productos nacionales brutos de 1, 2, 3, 5 y 8 mil millones de dólares, respectivamente. Supongamos que se encuentra que estos mismos cinco países (en el mismo orden) tienen un 11%, 12%, 13%, 15% y 18% de pobreza. Entonces, sean x e y vectores ordenados de 5 elementos que contienen los datos anteriores: x = (1, 2, 3, 5, 8) e y = (0,11, 0,12, 0,13, 0,15, 0,18) .

Mediante el procedimiento habitual para encontrar el ángulo θ entre dos vectores (ver producto escalar ), el coeficiente de correlación no centrado es

cos θ = x y x y = 2.93 103 0.0983 = 0.920814711. {\displaystyle \cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {2.93}{{\sqrt {103}}{\sqrt {0.0983}}}}=0.920814711.}

Este coeficiente de correlación no centrado es idéntico a la similitud del coseno . Los datos anteriores se eligieron deliberadamente para que estuvieran perfectamente correlacionados: y = 0,10 + 0,01 x . Por lo tanto, el coeficiente de correlación de Pearson debe ser exactamente uno. Centrando los datos (desplazando x por ℰ( x ) = 3,8 e y por ℰ( y ) = 0,138 ) se obtiene x = (−2,8, −1,8, −0,8, 1,2, 4,2) e y = (−0,028, −0,018, −0,008, 0,012, 0,042) , de donde

cos θ = x y x y = 0.308 30.8 0.00308 = 1 = ρ x y , {\displaystyle \cos \theta ={\frac {\mathbf {x} \cdot \mathbf {y} }{\left\|\mathbf {x} \right\|\left\|\mathbf {y} \right\|}}={\frac {0.308}{{\sqrt {30.8}}{\sqrt {0.00308}}}}=1=\rho _{xy},}

Como se esperaba.

Interpretación del tamaño de una correlación

Esta figura da una idea de cómo la utilidad de una correlación de Pearson para predecir valores varía con su magnitud. Dados los valores normales conjuntos X , Y con correlación ρ , (graficado aquí como una función de ρ ) es el factor por el cual un intervalo de predicción dado para Y puede reducirse dado el valor correspondiente de X . Por ejemplo, si ρ = ​​0,5, entonces el intervalo de predicción del 95% de Y | X será aproximadamente un 13% más pequeño que el intervalo de predicción del 95% de Y . 1 1 ρ 2 {\displaystyle 1-{\sqrt {1-\rho ^{2}}}}

Varios autores han ofrecido pautas para la interpretación de un coeficiente de correlación. [19] [20] Sin embargo, todos estos criterios son en cierto modo arbitrarios. [20] La interpretación de un coeficiente de correlación depende del contexto y los propósitos. Una correlación de 0,8 puede ser muy baja si se está verificando una ley física utilizando instrumentos de alta calidad, pero puede considerarse muy alta en las ciencias sociales, donde puede haber una mayor contribución de los factores que complican la situación.

Inferencia

La inferencia estadística basada en el coeficiente de correlación de Pearson a menudo se centra en uno de los dos objetivos siguientes:

  • Un objetivo es probar la hipótesis nula de que el verdadero coeficiente de correlación ρ es igual a 0, basado en el valor del coeficiente de correlación de muestra r .
  • El otro objetivo es derivar un intervalo de confianza que, en un muestreo repetido, tenga una probabilidad dada de contener ρ .

A continuación se analizan los métodos para lograr uno o ambos de estos objetivos.

Usando una prueba de permutación

Las pruebas de permutación proporcionan un enfoque directo para realizar pruebas de hipótesis y construir intervalos de confianza. Una prueba de permutación para el coeficiente de correlación de Pearson implica los dos pasos siguientes:

  1. Utilizando los datos pareados originales ( x iy i ), redefina aleatoriamente los pares para crear un nuevo conjunto de datos ( x iy i′ ), donde los i′ son una permutación del conjunto {1,..., n }. La permutación i′ se selecciona aleatoriamente, con probabilidades iguales en todas las n ! permutaciones posibles. Esto es equivalente a extraer los i′ aleatoriamente sin reemplazo del conjunto {1,..., n }. En el bootstrap , un enfoque estrechamente relacionado, los i y los i′ son iguales y se extraen con reemplazo de {1,..., n };
  2. Construya un coeficiente de correlación r a partir de los datos aleatorios.

Para realizar la prueba de permutación, repita los pasos (1) y (2) una gran cantidad de veces. El valor p para la prueba de permutación es la proporción de los valores r generados en el paso (2) que son mayores que el coeficiente de correlación de Pearson que se calculó a partir de los datos originales. Aquí, "mayor" puede significar que el valor es mayor en magnitud o mayor en valor con signo, dependiendo de si se desea una prueba bilateral o unilateral .

Usando un bootstrap

El método bootstrap se puede utilizar para construir intervalos de confianza para el coeficiente de correlación de Pearson. En el método bootstrap "no paramétrico", se vuelven a muestrear n pares ( x iy i ) "con reemplazo" a partir del conjunto observado de n pares, y se calcula el coeficiente de correlación r en función de los datos remuestreados. Este proceso se repite una gran cantidad de veces, y la distribución empírica de los valores r remuestreados se utiliza para aproximar la distribución de muestreo de la estadística. Un intervalo de confianza del 95 % para ρ se puede definir como el intervalo que abarca desde el percentil 2,5 hasta el 97,5 de los valores r remuestreados .

Error estándar

Si y son variables aleatorias, con una relación lineal simple entre ellas con un ruido normal aditivo (es decir, y = a + bx + e), entonces un error estándar asociado a la correlación es x {\displaystyle x} y {\displaystyle y}

σ r = 1 r 2 n 2 {\displaystyle \sigma _{r}={\sqrt {\frac {1-r^{2}}{n-2}}}}

donde es la correlación y el tamaño de la muestra. [21] [22] r {\displaystyle r} n {\displaystyle n}

Pruebas utilizando el estudiantea-distribución

Valores críticos del coeficiente de correlación de Pearson que deben superarse para considerarse significativamente distintos de cero en el nivel 0,05

Para pares de una distribución normal bivariada no correlacionada , la distribución de muestreo del coeficiente de correlación de Pearson estudentizado sigue la distribución t de Student con grados de libertad n  − 2. Específicamente, si las variables subyacentes tienen una distribución normal bivariada, la variable

t = r σ r = r n 2 1 r 2 {\displaystyle t={\frac {r}{\sigma _{r}}}=r{\sqrt {\frac {n-2}{1-r^{2}}}}}

tiene una distribución t de Student en el caso nulo (correlación cero). [23] Esto se cumple aproximadamente en el caso de valores observados no normales si los tamaños de muestra son lo suficientemente grandes. [24] Para determinar los valores críticos para r se necesita la función inversa:

r = t n 2 + t 2 . {\displaystyle r={\frac {t}{\sqrt {n-2+t^{2}}}}.}

Alternativamente, se pueden utilizar enfoques asintóticos con muestras grandes.

Otro artículo temprano [25] proporciona gráficos y tablas para valores generales de ρ , para tamaños de muestra pequeños, y analiza enfoques computacionales.

En el caso en que las variables subyacentes no sean normales, la distribución de muestreo del coeficiente de correlación de Pearson sigue una distribución t de Student , pero los grados de libertad se reducen. [26]

Utilizando la distribución exacta

Para los datos que siguen una distribución normal bivariada , la función de densidad exacta f ( r ) para el coeficiente de correlación de muestra r de una distribución normal bivariada es [27] [28] [29]

f ( r ) = ( n 2 ) Γ ( n 1 ) ( 1 ρ 2 ) n 1 2 ( 1 r 2 ) n 4 2 2 π Γ ( n 1 2 ) ( 1 ρ r ) n 3 2 2 F 1 ( 1 2 , 1 2 ; 1 2 ( 2 n 1 ) ; 1 2 ( ρ r + 1 ) ) {\displaystyle f(r)={\frac {(n-2)\,\mathrm {\Gamma } (n-1)\left(1-\rho ^{2}\right)^{\frac {n-1}{2}}\left(1-r^{2}\right)^{\frac {n-4}{2}}}{{\sqrt {2\pi }}\,\operatorname {\Gamma } {\mathord {\left(n-{\tfrac {1}{2}}\right)}}(1-\rho r)^{n-{\frac {3}{2}}}}}{}_{2}\mathrm {F} _{1}{\mathord {\left({\tfrac {1}{2}},{\tfrac {1}{2}};{\tfrac {1}{2}}(2n-1);{\tfrac {1}{2}}(\rho r+1)\right)}}}

donde es la función gamma y es la función hipergeométrica gaussiana . Γ {\displaystyle \Gamma } 2 F 1 ( a , b ; c ; z ) {\displaystyle {}_{2}\mathrm {F} _{1}(a,b;c;z)}

En el caso especial cuando (correlación poblacional cero), la función de densidad exacta f ( r ) se puede escribir como ρ = 0 {\displaystyle \rho =0}

f ( r ) = ( 1 r 2 ) n 4 2 B ( 1 2 , n 2 2 ) , {\displaystyle f(r)={\frac {\left(1-r^{2}\right)^{\frac {n-4}{2}}}{\operatorname {\mathrm {B} } {\mathord {\left({\tfrac {1}{2}},{\tfrac {n-2}{2}}\right)}}}},}

donde es la función beta , que es una forma de escribir la densidad de una distribución t de Student para un coeficiente de correlación de muestra estudentizado , como se muestra arriba. B {\displaystyle \mathrm {B} }

Utilizando la distribución de confianza exacta

Los intervalos de confianza y las pruebas se pueden calcular a partir de una distribución de confianza . Una densidad de confianza exacta para ρ es [30]

π ( ρ r ) = ν ( ν 1 ) Γ ( ν 1 ) 2 π Γ ( ν + 1 2 ) ( 1 r 2 ) ν 1 2 ( 1 ρ 2 ) ν 2 2 ( 1 r ρ ) 1 2 ν 2 F ( 3 2 , 1 2 ; ν + 1 2 ; 1 + r ρ 2 ) {\displaystyle \pi (\rho \mid r)={\frac {\nu (\nu -1)\Gamma (\nu -1)}{{\sqrt {2\pi }}\Gamma \left(\nu +{\frac {1}{2}}\right)}}\left(1-r^{2}\right)^{\frac {\nu -1}{2}}\cdot \left(1-\rho ^{2}\right)^{\frac {\nu -2}{2}}\cdot \left(1-r\rho \right)^{\frac {1-2\nu }{2}}\operatorname {F} \left({\tfrac {3}{2}},-{\tfrac {1}{2}};\nu +{\tfrac {1}{2}};{\tfrac {1+r\rho }{2}}\right)}

donde es la función hipergeométrica gaussiana y . F {\displaystyle \operatorname {F} } ν = n 1 > 1 {\displaystyle \nu =n-1>1}

Utilizando la transformación de Fisher

En la práctica, los intervalos de confianza y las pruebas de hipótesis relativas a ρ se llevan a cabo normalmente utilizando la transformación estabilizadora de varianza , transformación de Fisher : F {\displaystyle F}

F ( r ) 1 2 ln ( 1 + r 1 r ) = artanh ( r ) {\displaystyle F(r)\equiv {\tfrac {1}{2}}\,\ln \left({\frac {1+r}{1-r}}\right)=\operatorname {artanh} (r)}

F ( r ) sigue aproximadamente una distribución normal con

mean = F ( ρ ) = artanh ( ρ ) {\displaystyle {\text{mean}}=F(\rho )=\operatorname {artanh} (\rho )}     y error estándar = SE = 1 n 3 , {\displaystyle ={\text{SE}}={\frac {1}{\sqrt {n-3}}},}

donde n es el tamaño de la muestra. El error de aproximación es mínimo para un tamaño de muestra grande y pequeño y aumenta en caso contrario. n {\displaystyle n} r {\displaystyle r} ρ 0 {\displaystyle \rho _{0}}

Usando la aproximación, una puntuación z es

z = x mean SE = [ F ( r ) F ( ρ 0 ) ] n 3 {\displaystyle z={\frac {x-{\text{mean}}}{\text{SE}}}=[F(r)-F(\rho _{0})]{\sqrt {n-3}}}

bajo la hipótesis nula de que , dado el supuesto de que los pares de muestras son independientes y se distribuyen de forma idéntica y siguen una distribución normal bivariada . Por lo tanto , se puede obtener un valor p aproximado a partir de una tabla de probabilidad normal. Por ejemplo, si se observa z  = 2,2 y se desea un valor p bilateral para probar la hipótesis nula de que , el valor p es 2 Φ(−2,2) = 0,028 , donde Φ es la función de distribución acumulativa normal estándar . ρ = ρ 0 {\displaystyle \rho =\rho _{0}} ρ = 0 {\displaystyle \rho =0}

Para obtener un intervalo de confianza para ρ, primero calculamos un intervalo de confianza para F ( ): ρ {\displaystyle \rho }

100 ( 1 α ) % CI : artanh ( ρ ) [ artanh ( r ) ± z α / 2 SE ] {\displaystyle 100(1-\alpha )\%{\text{CI}}:\operatorname {artanh} (\rho )\in [\operatorname {artanh} (r)\pm z_{\alpha /2}{\text{SE}}]}

La transformación inversa de Fisher devuelve el intervalo a la escala de correlación.

100 ( 1 α ) % CI : ρ [ tanh ( artanh ( r ) z α / 2 SE ) , tanh ( artanh ( r ) + z α / 2 SE ) ] {\displaystyle 100(1-\alpha )\%{\text{CI}}:\rho \in [\tanh(\operatorname {artanh} (r)-z_{\alpha /2}{\text{SE}}),\tanh(\operatorname {artanh} (r)+z_{\alpha /2}{\text{SE}})]}

Por ejemplo, supongamos que observamos r  = 0,7 con un tamaño de muestra de n = 50 y deseamos obtener un intervalo de confianza del 95 % para  ρ . El valor transformado es , por lo que el intervalo de confianza en la escala transformada es , o (0,5814, 1,1532). Al convertir de nuevo a la escala de correlación, obtenemos (0,5237, 0,8188). arctanh ( r ) = 0.8673 {\textstyle \operatorname {arctanh} \left(r\right)=0.8673} 0.8673 ± 1.96 47 {\displaystyle 0.8673\pm {\frac {1.96}{\sqrt {47}}}}

En el análisis de regresión de mínimos cuadrados

El cuadrado del coeficiente de correlación de la muestra se denota típicamente como r 2 y es un caso especial del coeficiente de determinación . En este caso, estima la fracción de la varianza en Y que se explica por X en una regresión lineal simple . Por lo tanto, si tenemos el conjunto de datos observados y el conjunto de datos ajustado , entonces, como punto de partida, la variación total en Y i alrededor de su valor promedio se puede descomponer de la siguiente manera Y 1 , , Y n {\displaystyle Y_{1},\dots ,Y_{n}} Y ^ 1 , , Y ^ n {\displaystyle {\hat {Y}}_{1},\dots ,{\hat {Y}}_{n}}

i ( Y i Y ¯ ) 2 = i ( Y i Y ^ i ) 2 + i ( Y ^ i Y ¯ ) 2 , {\displaystyle \sum _{i}(Y_{i}-{\bar {Y}})^{2}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}+\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2},}

donde son los valores ajustados del análisis de regresión. Esto se puede reorganizar para dar Y ^ i {\displaystyle {\hat {Y}}_{i}}

1 = i ( Y i Y ^ i ) 2 i ( Y i Y ¯ ) 2 + i ( Y ^ i Y ¯ ) 2 i ( Y i Y ¯ ) 2 . {\displaystyle 1={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}+{\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}.}

Los dos sumandos anteriores son la fracción de varianza en Y que se explica por X (derecha) y que no se explica por X (izquierda).

A continuación, aplicamos una propiedad de los modelos de regresión de mínimos cuadrados , según la cual la covarianza muestral entre y es cero. Por lo tanto, el coeficiente de correlación muestral entre los valores de respuesta observados y ajustados en la regresión se puede escribir (el cálculo se realiza bajo expectativas, supone estadísticas gaussianas) Y ^ i {\displaystyle {\hat {Y}}_{i}} Y i Y ^ i {\displaystyle Y_{i}-{\hat {Y}}_{i}}

r ( Y , Y ^ ) = i ( Y i Y ¯ ) ( Y ^ i Y ¯ ) i ( Y i Y ¯ ) 2 i ( Y ^ i Y ¯ ) 2 = i ( Y i Y ^ i + Y ^ i Y ¯ ) ( Y ^ i Y ¯ ) i ( Y i Y ¯ ) 2 i ( Y ^ i Y ¯ ) 2 = i [ ( Y i Y ^ i ) ( Y ^ i Y ¯ ) + ( Y ^ i Y ¯ ) 2 ] i ( Y i Y ¯ ) 2 i ( Y ^ i Y ¯ ) 2 = i ( Y ^ i Y ¯ ) 2 i ( Y i Y ¯ ) 2 i ( Y ^ i Y ¯ ) 2 = i ( Y ^ i Y ¯ ) 2 i ( Y i Y ¯ ) 2 . {\displaystyle {\begin{aligned}r(Y,{\hat {Y}})&={\frac {\sum _{i}(Y_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})({\hat {Y}}_{i}-{\bar {Y}})}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}[(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})+({\hat {Y}}_{i}-{\bar {Y}})^{2}]}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sqrt {\sum _{i}(Y_{i}-{\bar {Y}})^{2}\cdot \sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}}}\\[6pt]&={\sqrt {\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}.\end{aligned}}}

De este modo

r ( Y , Y ^ ) 2 = i ( Y ^ i Y ¯ ) 2 i ( Y i Y ¯ ) 2 {\displaystyle r(Y,{\hat {Y}})^{2}={\frac {\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\sum _{i}(Y_{i}-{\bar {Y}})^{2}}}}

donde es la proporción de varianza en Y explicada por una función lineal de X. r ( Y , Y ^ ) 2 {\displaystyle r(Y,{\hat {Y}})^{2}}

En la derivación anterior, el hecho de que

i ( Y i Y ^ i ) ( Y ^ i Y ¯ ) = 0 {\displaystyle \sum _{i}(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})=0}

se puede demostrar observando que las derivadas parciales de la suma residual de cuadrados ( RSS ) sobre β 0 y β 1 son iguales a 0 en el modelo de mínimos cuadrados, donde

RSS = i ( Y i Y ^ i ) 2 {\displaystyle {\text{RSS}}=\sum _{i}(Y_{i}-{\hat {Y}}_{i})^{2}} .

Al final, la ecuación se puede escribir como

r ( Y , Y ^ ) 2 = SS reg SS tot {\displaystyle r(Y,{\hat {Y}})^{2}={\frac {{\text{SS}}_{\text{reg}}}{{\text{SS}}_{\text{tot}}}}}

dónde

  • SS reg = i ( Y ^ i Y ¯ ) 2 {\displaystyle {\text{SS}}_{\text{reg}}=\sum _{i}({\hat {Y}}_{i}-{\bar {Y}})^{2}}
  • SS tot = i ( Y i Y ¯ ) 2 {\displaystyle {\text{SS}}_{\text{tot}}=\sum _{i}(Y_{i}-{\bar {Y}})^{2}} .

El símbolo se llama suma de cuadrados de regresión, también llamada suma de cuadrados explicada , y es la suma total de cuadrados (proporcional a la varianza de los datos). SS reg {\displaystyle {\text{SS}}_{\text{reg}}} SS tot {\displaystyle {\text{SS}}_{\text{tot}}}

Sensibilidad a la distribución de datos

Existencia

El coeficiente de correlación de Pearson de la población se define en términos de momentos y, por lo tanto, existe para cualquier distribución de probabilidad bivariada para la que se define la covarianza de la población y las varianzas marginales de la población están definidas y son distintas de cero. Algunas distribuciones de probabilidad, como la distribución de Cauchy , tienen una varianza indefinida y, por lo tanto, ρ no está definido si X o Y siguen dicha distribución. En algunas aplicaciones prácticas, como las que involucran datos que se sospecha que siguen una distribución de cola pesada , esta es una consideración importante. Sin embargo, la existencia del coeficiente de correlación generalmente no es una preocupación; por ejemplo, si el rango de la distribución está acotado, ρ siempre está definido.

Tamaño de la muestra

  • Si el tamaño de la muestra es moderado o grande y la población es normal, entonces, en el caso de la distribución normal bivariada , el coeficiente de correlación de la muestra es la estimación de máxima verosimilitud del coeficiente de correlación de la población, y es asintóticamente imparcial y eficiente , lo que significa aproximadamente que es imposible construir una estimación más precisa que el coeficiente de correlación de la muestra.
  • Si el tamaño de la muestra es grande y la población no es normal, entonces el coeficiente de correlación de la muestra permanece aproximadamente imparcial, pero puede no ser eficiente.
  • Si el tamaño de la muestra es grande, entonces el coeficiente de correlación de la muestra es un estimador consistente del coeficiente de correlación de la población siempre que las medias, varianzas y covarianzas de la muestra sean consistentes (lo cual se garantiza cuando se puede aplicar la ley de los grandes números ).
  • Si el tamaño de la muestra es pequeño, entonces el coeficiente de correlación de la muestra r no es una estimación imparcial de ρ . [10] En su lugar, se debe utilizar el coeficiente de correlación ajustado: consulte la definición en otra parte de este artículo.
  • Las correlaciones pueden ser diferentes para datos dicotómicos desequilibrados cuando hay un error de varianza en la muestra. [31]

Robustez

Al igual que muchas estadísticas de uso común, la estadística de muestra r no es robusta , [32] por lo que su valor puede ser engañoso si hay valores atípicos . [33] [34] Específicamente, el PMCC no es distributivamente robusto, [35] ni resistente a los valores atípicos [32] (ver Estadísticas robustas § Definición ). La inspección del diagrama de dispersión entre X e Y generalmente revelará una situación en la que la falta de robustez podría ser un problema, y ​​en tales casos puede ser aconsejable utilizar una medida robusta de asociación. Sin embargo, tenga en cuenta que, si bien la mayoría de los estimadores robustos de asociación miden la dependencia estadística de alguna manera, generalmente no son interpretables en la misma escala que el coeficiente de correlación de Pearson.

La inferencia estadística del coeficiente de correlación de Pearson es sensible a la distribución de los datos. Se pueden aplicar pruebas exactas y pruebas asintóticas basadas en la transformación de Fisher si los datos se distribuyen de forma aproximadamente normal, pero pueden resultar engañosas en caso contrario. En algunas situaciones, se puede aplicar el método bootstrap para construir intervalos de confianza y se pueden aplicar pruebas de permutación para realizar pruebas de hipótesis. Estos enfoques no paramétricos pueden dar resultados más significativos en algunas situaciones en las que no se cumple la normalidad bivariada. Sin embargo, las versiones estándar de estos enfoques se basan en la intercambiabilidad de los datos, lo que significa que no hay ordenamiento ni agrupamiento de los pares de datos que se analizan que pueda afectar el comportamiento de la estimación de la correlación.

Un análisis estratificado es una forma de tener en cuenta la falta de normalidad bivariada o de aislar la correlación resultante de un factor mientras se controla otro. Si W representa la pertenencia a un grupo u otro factor que es deseable controlar, podemos estratificar los datos en función del valor de W y luego calcular un coeficiente de correlación dentro de cada estrato. Las estimaciones a nivel de estrato se pueden combinar para estimar la correlación general mientras se controla W. [ 36]

Variantes

Se pueden calcular variaciones del coeficiente de correlación para distintos fines. A continuación se ofrecen algunos ejemplos.

Coeficiente de correlación ajustado

El coeficiente de correlación muestral r no es una estimación imparcial de ρ . Para los datos que siguen una distribución normal bivariada , la expectativa E[ r ] para el coeficiente de correlación muestral r de una distribución normal bivariada es [37]

E [ r ] = ρ ρ ( 1 ρ 2 ) 2 n + , {\displaystyle \operatorname {\mathbb {E} } \left[r\right]=\rho -{\frac {\rho \left(1-\rho ^{2}\right)}{2n}}+\cdots ,\quad } Por lo tanto, r es un estimador sesgado de ρ . {\displaystyle \rho .}

El estimador único imparcial de varianza mínima r adj viene dado por [38]

r adj = r 2 F 1 ( 1 2 , 1 2 ; n 1 2 ; 1 r 2 ) , {\displaystyle r_{\text{adj}}=r\,\mathbf {_{2}F_{1}} \left({\frac {1}{2}},{\frac {1}{2}};{\frac {n-1}{2}};1-r^{2}\right),} ( 1 )

dónde:

Se puede obtener un estimador aproximadamente insesgado r adj [ cita requerida ] truncando E[ r ] y resolviendo esta ecuación truncada:

r = E [ r ] r adj r adj ( 1 r adj 2 ) 2 n . {\displaystyle r=\operatorname {\mathbb {E} } [r]\approx r_{\text{adj}}-{\frac {r_{\text{adj}}\left(1-r_{\text{adj}}^{2}\right)}{2n}}.} ( 2 )

Una solución aproximada [ cita requerida ] para la ecuación ( 2 ) es

r adj r [ 1 + 1 r 2 2 n ] , {\displaystyle r_{\text{adj}}\approx r\left[1+{\frac {1-r^{2}}{2n}}\right],} ( 3 )

donde en ( 3 )

  • r , n {\displaystyle r,n} se definen como arriba,
  • r adj es un estimador subóptimo, [ cita necesaria ] [ aclaración necesaria ]
  • r adj también se puede obtener maximizando log( f ( r )),
  • r adj tiene una varianza mínima para valores grandes de n ,
  • r adj tiene un sesgo de orden 1( n − 1) .

Otro coeficiente de correlación ajustado propuesto [10] es [ cita requerida ]

r adj = 1 ( 1 r 2 ) ( n 1 ) ( n 2 ) . {\displaystyle r_{\text{adj}}={\sqrt {1-{\frac {(1-r^{2})(n-1)}{(n-2)}}}}.}

r adjr para valores grandes de  n .

Coeficiente de correlación ponderado

Supongamos que las observaciones que se van a correlacionar tienen distintos grados de importancia que se pueden expresar con un vector de peso w . Para calcular la correlación entre los vectores x e y con el vector de peso w (todos de longitud  n ), [39] [40]

  • Media ponderada: m ( x ; w ) = i w i x i i w i . {\displaystyle \operatorname {m} (x;w)={\frac {\sum _{i}w_{i}x_{i}}{\sum _{i}w_{i}}}.}
  • Covarianza ponderada cov ( x , y ; w ) = i w i ( x i m ( x ; w ) ) ( y i m ( y ; w ) ) i w i . {\displaystyle \operatorname {cov} (x,y;w)={\frac {\sum _{i}w_{i}\cdot (x_{i}-\operatorname {m} (x;w))(y_{i}-\operatorname {m} (y;w))}{\sum _{i}w_{i}}}.}
  • Correlación ponderada corr ( x , y ; w ) = cov ( x , y ; w ) cov ( x , x ; w ) cov ( y , y ; w ) . {\displaystyle \operatorname {corr} (x,y;w)={\frac {\operatorname {cov} (x,y;w)}{\sqrt {\operatorname {cov} (x,x;w)\operatorname {cov} (y,y;w)}}}.}

Coeficiente de correlación reflexiva

La correlación reflexiva es una variante de la correlación de Pearson en la que los datos no están centrados alrededor de sus valores medios. [ cita requerida ] La correlación reflexiva poblacional es

corr r ( X , Y ) = E [ X Y ] E [ X 2 ] E [ Y 2 ] . {\displaystyle \operatorname {corr} _{r}(X,Y)={\frac {\operatorname {\mathbb {E} } [\,X\,Y\,]}{\sqrt {\operatorname {\mathbb {E} } [\,X^{2}\,]\cdot \operatorname {\mathbb {E} } [\,Y^{2}\,]}}}.}

La correlación reflexiva es simétrica, pero no es invariante bajo la traducción:

corr r ( X , Y ) = corr r ( Y , X ) = corr r ( X , b Y ) corr r ( X , a + b Y ) , a 0 , b > 0. {\displaystyle \operatorname {corr} _{r}(X,Y)=\operatorname {corr} _{r}(Y,X)=\operatorname {corr} _{r}(X,bY)\neq \operatorname {corr} _{r}(X,a+bY),\quad a\neq 0,b>0.}

La correlación reflexiva de muestra es equivalente a la similitud del coseno :

r r x y = x i y i ( x i 2 ) ( y i 2 ) . {\displaystyle rr_{xy}={\frac {\sum x_{i}y_{i}}{\sqrt {(\sum x_{i}^{2})(\sum y_{i}^{2})}}}.}

La versión ponderada de la correlación reflexiva de la muestra es

r r x y , w = w i x i y i ( w i x i 2 ) ( w i y i 2 ) . {\displaystyle rr_{xy,w}={\frac {\sum w_{i}x_{i}y_{i}}{\sqrt {(\sum w_{i}x_{i}^{2})(\sum w_{i}y_{i}^{2})}}}.}

Coeficiente de correlación escalado

La correlación escalada es una variante de la correlación de Pearson en la que el rango de los datos se restringe intencionalmente y de manera controlada para revelar correlaciones entre componentes rápidos en series de tiempo . [41] La correlación escalada se define como la correlación promedio entre segmentos cortos de datos.

Sea el número de segmentos que pueden caber en la longitud total de la señal para una escala dada : K {\displaystyle K} T {\displaystyle T} s {\displaystyle s}

K = round ( T s ) . {\displaystyle K=\operatorname {round} \left({\frac {T}{s}}\right).}

Luego, la correlación escalada a lo largo de todas las señales se calcula como r ¯ s {\displaystyle {\bar {r}}_{s}}

r ¯ s = 1 K k = 1 K r k , {\displaystyle {\bar {r}}_{s}={\frac {1}{K}}\sum \limits _{k=1}^{K}r_{k},}

donde es el coeficiente de correlación de Pearson para el segmento . r k {\displaystyle r_{k}} k {\displaystyle k}

Al elegir el parámetro , se reduce el rango de valores y se filtran las correlaciones en escalas de tiempo largas, revelando únicamente las correlaciones en escalas de tiempo cortas. De esta manera, se eliminan las contribuciones de los componentes lentos y se conservan las de los componentes rápidos. s {\displaystyle s}

Distancia de Pearson

Una métrica de distancia para dos variables X e Y, conocida como distancia de Pearson, se puede definir a partir de su coeficiente de correlación como [42]

d X , Y = 1 ρ X , Y . {\displaystyle d_{X,Y}=1-\rho _{X,Y}.}

Teniendo en cuenta que el coeficiente de correlación de Pearson se encuentra entre [−1, +1], la distancia de Pearson se encuentra en [0, 2]. La distancia de Pearson se ha utilizado en análisis de conglomerados y detección de datos para comunicaciones y almacenamiento con ganancia y desplazamiento desconocidos. [43]

La "distancia" de Pearson definida de esta manera asigna una distancia mayor que 1 a las correlaciones negativas. En realidad, tanto las correlaciones positivas fuertes como las negativas son significativas, por lo que se debe tener cuidado cuando se utiliza la "distancia" de Pearson para el algoritmo del vecino más cercano, ya que dicho algoritmo solo incluirá vecinos con correlación positiva y excluirá vecinos con correlación negativa. Alternativamente, se puede aplicar una distancia de valor absoluto, , que tendrá en cuenta tanto las correlaciones positivas como las negativas. La información sobre la asociación positiva y negativa se puede extraer por separado, más adelante. d X , Y = 1 | ρ X , Y | {\displaystyle d_{X,Y}=1-|\rho _{X,Y}|}

Coeficiente de correlación circular

Para las variables X = { x 1 ,..., x n } e Y = { y 1 ,..., y n } que están definidas en el círculo unitario [0, 2π) , es posible definir un análogo circular del coeficiente de Pearson. [44] Esto se hace transformando los puntos de datos en X e Y con una función seno de modo que el coeficiente de correlación se dé como:

r circular = i = 1 n sin ( x i x ¯ ) sin ( y i y ¯ ) i = 1 n sin ( x i x ¯ ) 2 i = 1 n sin ( y i y ¯ ) 2 {\displaystyle r_{\text{circular}}={\frac {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})\sin(y_{i}-{\bar {y}})}{{\sqrt {\sum _{i=1}^{n}\sin(x_{i}-{\bar {x}})^{2}}}{\sqrt {\sum _{i=1}^{n}\sin(y_{i}-{\bar {y}})^{2}}}}}}

donde y son las medias circulares de XY. Esta medida puede ser útil en campos como la meteorología, donde la dirección angular de los datos es importante. x ¯ {\displaystyle {\bar {x}}} y ¯ {\displaystyle {\bar {y}}}

Correlación parcial

Si una población o un conjunto de datos se caracteriza por más de dos variables, un coeficiente de correlación parcial mide la fuerza de dependencia entre un par de variables que no se explica por la forma en que ambas cambian en respuesta a variaciones en un subconjunto seleccionado de las otras variables.

Coeficiente de correlación de Pearson en sistemas cuánticos

Para dos observables, y , en un sistema cuántico bipartito, el coeficiente de correlación de Pearson se define como [45] [46] X {\displaystyle X} Y {\displaystyle Y}

C o r ( X , Y ) = E [ X Y ] E [ X ] E [ Y ] V [ X ] V [ Y ] , {\displaystyle \mathbb {Cor} (X,Y)={\frac {\mathbb {E} [X\otimes Y]-\mathbb {E} [X]\cdot \mathbb {E} [Y]}{\sqrt {\mathbb {V} [X]\cdot \mathbb {V} [Y]}}}\,,}

dónde

  • E [ X ] {\displaystyle \mathbb {E} [X]} es el valor esperado del observable , X {\displaystyle X}
  • E [ Y ] {\displaystyle \mathbb {E} [Y]} es el valor esperado del observable , Y {\displaystyle Y}
  • E [ X Y ] {\displaystyle \mathbb {E} [X\otimes Y]} es el valor esperado del observable , X Y {\displaystyle X\otimes Y}
  • V [ X ] {\displaystyle \mathbb {V} [X]} es la varianza del observable , y X {\displaystyle X}
  • V [ Y ] {\displaystyle \mathbb {V} [Y]} es la varianza del observable . Y {\displaystyle Y}

C o r ( X , Y ) {\displaystyle \mathbb {Cor} (X,Y)} es simétrico, es decir , y su valor absoluto es invariante bajo transformaciones afines. C o r ( X , Y ) = C o r ( Y , X ) {\displaystyle \mathbb {Cor} (X,Y)=\mathbb {Cor} (Y,X)}

Decorrelación denortevariables aleatorias

Siempre es posible eliminar las correlaciones entre todos los pares de un número arbitrario de variables aleatorias mediante una transformación de datos, incluso si la relación entre las variables no es lineal. Cox y Hinkley presentan este resultado para distribuciones de población. [47]

Existe un resultado correspondiente para reducir las correlaciones de muestra a cero. Supongamos que se observa m veces un vector de n variables aleatorias . Sea X una matriz donde es la j -ésima variable de la observación i . Sea una matriz cuadrada de m por m con cada elemento 1. Entonces D son los datos transformados de modo que cada variable aleatoria tiene media cero, y T son los datos transformados de modo que todas las variables tienen media cero y correlación cero con todas las demás variables – la matriz de correlación de muestra de T será la matriz identidad. Esto tiene que ser dividido por la desviación estándar para obtener la varianza unitaria. Las variables transformadas no estarán correlacionadas, aunque pueden no ser independientes . X i , j {\displaystyle X_{i,j}} Z m , m {\displaystyle Z_{m,m}}

D = X 1 m Z m , m X {\displaystyle D=X-{\frac {1}{m}}Z_{m,m}X}
T = D ( D T D ) 1 2 , {\displaystyle T=D(D^{\mathsf {T}}D)^{-{\frac {1}{2}}},}

donde un exponente de +12 representa lade la matriz inversa de una matriz. La matriz de correlación de T será la matriz identidad. Si una nueva observación de datos x es un vector fila de n elementos, entonces se puede aplicar la misma transformación a x para obtener los vectores transformados d y t :

d = x 1 m Z 1 , m X , {\displaystyle d=x-{\frac {1}{m}}Z_{1,m}X,}
t = d ( D T D ) 1 2 . {\displaystyle t=d(D^{\mathsf {T}}D)^{-{\frac {1}{2}}}.}

Esta decorrelación está relacionada con el análisis de componentes principales para datos multivariados.

Implementaciones de software

Véase también

Notas al pie

  1. ^ También conocido como r de Pearson , coeficiente de correlación producto-momento de Pearson ( PPMCC ), correlación bivariada , [1] o simplemente coeficiente de correlación no calificado [2]
  2. ^ Ya en 1877, Galton utilizaba el término "reversión" y el símbolo " r " para lo que luego se convertiría en "regresión". [3] [4] [5]

Referencias

  1. ^ "Tutoriales de SPSS: Correlación de Pearson".
  2. ^ "Coeficiente de correlación: definición sencilla, fórmula, pasos sencillos". Cómo hacer estadísticas .
  3. ^ Galton, F. (5–19 de abril de 1877). «Leyes típicas de la herencia». Nature . 15 (388, 389, 390): 492–495, 512–514, 532–533. Bibcode :1877Natur..15..492.. doi : 10.1038/015492a0 . S2CID  4136393.En el “Apéndice” de la página 532, Galton utiliza el término “reversión” y el símbolo r .
  4. ^ Galton, F. (24 de septiembre de 1885). "La Asociación Británica: Sección II, Antropología: Discurso de apertura por Francis Galton, FRS, etc., Presidente del Instituto Antropológico, Presidente de la Sección". Nature . 32 (830): 507–510.
  5. ^ Galton, F. (1886). "Regresión hacia la mediocridad en la estatura hereditaria". Revista del Instituto Antropológico de Gran Bretaña e Irlanda . 15 : 246–263. doi :10.2307/2841583. JSTOR  2841583.
  6. ^ Pearson, Karl (20 de junio de 1895). «Notas sobre regresión y herencia en el caso de dos padres». Actas de la Royal Society de Londres . 58 : 240–242. Código Bibliográfico :1895RSPS...58..240P.
  7. ^ Stigler, Stephen M. (1989). "Relato de Francis Galton sobre la invención de la correlación". Ciencia estadística . 4 (2): 73–79. doi : 10.1214/ss/1177012580 . JSTOR  2245329.
  8. ^ "Analyse mathematique sur les probabilités des errores de situación de un punto". Memoria. Acad. Roy. Ciencia. Inst. Francia . Ciencia. Matemáticas y Física. (en francés). 9 : 255–332. 1844 - a través de Google Books.
  9. ^ Wright, S. (1921). "Correlación y causalidad". Revista de investigación agrícola . 20 (7): 557–585.
  10. ^ abcde Estadísticas reales con Excel, "Conceptos básicos de correlación", recuperado el 22 de febrero de 2015.
  11. ^ Weisstein, Eric W. "Correlación estadística". Wolfram MathWorld . Consultado el 22 de agosto de 2020 .
  12. ^ Moriya, N. (2008). "Análisis conjunto óptimo multivariado relacionado con el ruido en procesos estocásticos longitudinales". En Yang, Fengshan (ed.). Progreso en el modelado matemático aplicado . Nova Science Publishers, Inc., págs. 223–260. ISBN 978-1-60021-976-4.
  13. ^ Garren, Steven T. (15 de junio de 1998). "Estimación de máxima verosimilitud del coeficiente de correlación en un modelo normal bivariado, con datos faltantes". Statistics & Probability Letters . 38 (3): 281–288. doi :10.1016/S0167-7152(98)00035-2.
  14. ^ "2.6 - Coeficiente de correlación (de Pearson) r". STAT 462 . Consultado el 10 de julio de 2021 .
  15. ^ "Estadística empresarial introductoria: el coeficiente de correlación r". opentextbc.ca . Consultado el 21 de agosto de 2020 .
  16. ^ Rodgers; Nicewander (1988). "Trece maneras de analizar el coeficiente de correlación" (PDF) . The American Statistician . 42 (1): 59–66. doi :10.2307/2685263. JSTOR  2685263.
  17. ^ Schmid, John Jr. (diciembre de 1947). "La relación entre el coeficiente de correlación y el ángulo incluido entre las líneas de regresión". The Journal of Educational Research . 41 (4): 311–313. doi :10.1080/00220671.1947.10881608. JSTOR  27528906.
  18. ^ Rummel, RJ (1976). "Entendiendo la correlación". Cap. 5 (como se ilustra para un caso especial en el párrafo siguiente).
  19. ^ Buda, Andrzej; Jarynowski, Andrzej (diciembre de 2010). Vida útil de las correlaciones y sus aplicaciones . Wydawnictwo Niezależne. págs. 5-21. ISBN 9788391527290.
  20. ^ ab Cohen, J. (1988). Análisis de potencia estadística para las ciencias del comportamiento (2.ª ed.).
  21. ^ Bowley, AL (1928). "La desviación estándar del coeficiente de correlación". Revista de la Asociación Estadounidense de Estadística . 23 (161): 31–34. doi :10.2307/2277400. ISSN  0162-1459. JSTOR  2277400.
  22. ^ "Derivación del error estándar para el coeficiente de correlación de Pearson". Validación cruzada . Consultado el 30 de julio de 2021 .
  23. ^ Rahman, NA (1968) Un curso de estadística teórica , Charles Griffin and Company, 1968
  24. ^ Kendall, MG, Stuart, A. (1973) La teoría avanzada de las estadísticas, volumen 2: inferencia y relación , Griffin. ISBN 0-85264-215-6 (sección 31.19) 
  25. ^ Soper, HE ; Young, AW; Cave, BM; Lee, A.; Pearson, K. (1917). "Sobre la distribución del coeficiente de correlación en muestras pequeñas. Apéndice II a los artículos de "Student" y RA Fisher. Un estudio cooperativo". Biometrika . 11 (4): 328–413. doi :10.1093/biomet/11.4.328.
  26. ^ Davey, Catherine E.; Grayden, David B.; Egan, Gary F.; Johnston, Leigh A. (enero de 2013). "El filtrado induce correlación en datos de estado de reposo fMRI". NeuroImage . 64 : 728–740. doi :10.1016/j.neuroimage.2012.08.022. hdl : 11343/44035 . PMID  22939874. S2CID  207184701.
  27. ^ Hotelling, Harold (1953). "Nueva luz sobre el coeficiente de correlación y sus transformadas". Revista de la Royal Statistical Society . Serie B (Metodológica). 15 (2): 193–232. doi :10.1111/j.2517-6161.1953.tb00135.x. JSTOR  2983768.
  28. ^ Kenney, JF; Keeping, ES (1951). Matemáticas de la estadística . Vol. Parte 2 (2.ª ed.). Princeton, NJ: Van Nostrand.
  29. ^ Weisstein, Eric W. "Coeficiente de correlación: distribución normal bivariada". Wolfram MathWorld .
  30. ^ Taraldsen, Gunnar (2020). "Confianza en la correlación". doi : 10.13140/RG.2.2.23673.49769 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  31. ^ Lai, Chun Sing; Tao, Yingshan; Xu, Fangyuan; Ng, Wing WY; Jia, Youwei; Yuan, Haoliang; Huang, Chao; Lai, Loi Lei; Xu, Zhao; Locatelli, Giorgio (enero de 2019). "Un marco de análisis de correlación robusto para datos desequilibrados y dicotómicos con incertidumbre" (PDF) . Ciencias de la información . 470 : 58–77. doi :10.1016/j.ins.2018.08.017. S2CID  52878443.
  32. ^ ab Wilcox, Rand R. (2005). Introducción a la estimación robusta y prueba de hipótesis . Academic Press.
  33. ^ Devlin, Susan J. ; Gnanadesikan, R.; Kettenring JR (1975). "Estimación robusta y detección de valores atípicos con coeficientes de correlación". Biometrika . 62 (3): 531–545. doi :10.1093/biomet/62.3.531. JSTOR  2335508.
  34. ^ Huber, Peter. J. (2004). Estadísticas robustas . Wiley.[ página necesaria ]
  35. ^ Vaart, AW van der (13 de octubre de 1998). Estadística asintótica. Cambridge University Press. doi :10.1017/cbo9780511802256. ISBN 978-0-511-80225-6.
  36. ^ Katz., Mitchell H. (2006) Análisis multivariable: una guía práctica para médicos . Segunda edición. Cambridge University Press. ISBN 978-0-521-54985-1 . ISBN 0-521-54985-X.  
  37. ^ Hotelling, H. (1953). "Nueva luz sobre el coeficiente de correlación y sus transformadas". Revista de la Royal Statistical Society. Serie B (Metodológica) . 15 (2): 193–232. doi :10.1111/j.2517-6161.1953.tb00135.x. JSTOR  2983768.
  38. ^ Olkin, Ingram; Pratt, John W. (marzo de 1958). "Estimación imparcial de ciertos coeficientes de correlación". Anales de estadística matemática . 29 (1): 201–211. doi : 10.1214/aoms/1177706717 . JSTOR  2237306..
  39. ^ "Re: Calcular una correlación ponderada". sci.tech-archive.net .
  40. ^ "Matriz de correlación ponderada – Intercambio de archivos – MATLAB Central".
  41. ^ Nikolić, D; Muresan, RC; Feng, W; Singer, W (2012). "Análisis de correlación a escala: una mejor manera de calcular un correlograma cruzado" (PDF) . Revista Europea de Neurociencia . 35 (5): 1–21. doi :10.1111/j.1460-9568.2011.07987.x. PMID  22324876. S2CID  4694570.
  42. ^ Fulekar (Ed.), MH (2009) Bioinformática: aplicaciones en ciencias ambientales y de la vida , Springer (pp. 110) ISBN 1-4020-8879-5 
  43. ^ Immink, K. Schouhamer; Weber, J. (octubre de 2010). "Detección de distancia mínima de Pearson para canales multinivel con desajuste de ganancia y/o compensación". IEEE Transactions on Information Theory . 60 (10): 5966–5974. CiteSeerX 10.1.1.642.9971 . doi :10.1109/tit.2014.2342744. S2CID  1027502. Consultado el 11 de febrero de 2018 . 
  44. ^ Jammalamadaka, S. Rao; SenGupta, A. (2001). Temas de estadística circular. Nueva Jersey: World Scientific. p. 176. ISBN 978-981-02-3778-3. Recuperado el 21 de septiembre de 2016 .
  45. ^ Reid, MD (1 de julio de 1989). "Demostración de la paradoja de Einstein-Podolsky-Rosen utilizando amplificación paramétrica no degenerada". Physical Review A . 40 (2): 913–923. doi :10.1103/PhysRevA.40.913.
  46. ^ Maccone, L.; Dagmar, B.; Macchiavello, C. (1 de abril de 2015). "Complementariedad y correlaciones". Physical Review Letters . 114 (13): 130401. arXiv : 1408.6851 . doi :10.1103/PhysRevLett.114.130401.
  47. ^ Cox, DR; Hinkley, DV (1974). Estadística teórica . Chapman & Hall. Apéndice 3. ISBN 0-412-12420-3.
  • "coco". comparandocorrelaciones.org .– Una interfaz web gratuita y un paquete R para la comparación estadística de dos correlaciones dependientes o independientes con variables superpuestas o no superpuestas.
  • "Correlación". nagysandor.eu .– una simulación Flash interactiva sobre la correlación de dos variables distribuidas normalmente.
  • "Calculadora de coeficiente de correlación". hackmath.net . Regresión lineal.
  • "Valores críticos para el coeficiente de correlación de Pearson" (PDF) . frank.mtsu.edu/~dkfuller .– mesa grande.
  • "Adivina la correlación".– Un juego en el que los jugadores adivinan qué tan correlacionadas están dos variables en un diagrama de dispersión, para comprender mejor el concepto de correlación.
Retrieved from "https://en.wikipedia.org/w/index.php?title=Pearson_correlation_coefficient&oldid=1246912561"