Correlación espuria de proporciones

Concepto en estadística
Esta figura, que ilustra una correlación espuria, muestra 500 observaciones de x / z graficadas contra y / z . La correlación de la muestra es 0,53, aunque x , y y z son estadísticamente independientes entre sí (es decir, las correlaciones por pares entre cada una de ellas son cero). Los valores z están resaltados en una escala de colores.

En estadística , la correlación espuria de proporciones es una forma de correlación espuria que surge entre proporciones de medidas absolutas que no están correlacionadas. [1] [2]

El fenómeno de la correlación espuria de proporciones es uno de los principales motivos para el campo del análisis de datos compositivos , que se ocupa del análisis de variables que llevan sólo información relativa, como proporciones, porcentajes y partes por millón. [3] [4]

La correlación espuria se distingue de los conceptos erróneos sobre correlación y causalidad .

Ilustración de correlación espuria

Pearson plantea un ejemplo sencillo de correlación espuria: [1]

Seleccione tres números al azar dentro de ciertos rangos, digamos x , y , z ; estos serán pares y pares no correlacionados. Forme las fracciones adecuadas x / z e y / z para cada triplete y se encontrará la correlación entre estos índices.

El diagrama de dispersión anterior ilustra este ejemplo utilizando 500 observaciones de x , y y z . Las variables x , y y z se extraen de distribuciones normales con medias 10, 10 y 30, respectivamente, y desviaciones estándar 1, 1 y 3 respectivamente, es decir,

incógnita , y norte ( 10 , 1 ) el norte ( 30 , 3 ) {\displaystyle {\begin{aligned}x,y&\sim N(10,1)\\z&\sim N(30,3)\\\end{aligned}}}

Aunque x , y y z son estadísticamente independientes y, por lo tanto, no están correlacionados, en la muestra típica representada, las razones x / z e y / z tienen una correlación de 0,53. Esto se debe al divisor común ( z ) y se puede entender mejor si coloreamos los puntos en el diagrama de dispersión por el valor z . Los tríos de ( xyz ) con valores z relativamente grandes tienden a aparecer en la parte inferior izquierda del gráfico; los tríos con valores z relativamente pequeños tienden a aparecer en la parte superior derecha.

Cantidad aproximada de correlación espuria

Pearson derivó una aproximación de la correlación que se observaría entre dos índices ( y ), es decir, relaciones de las mediciones absolutas : incógnita 1 / incógnita 3 Estilo de visualización x_{1}/x_{3}} incógnita 2 / incógnita 4 Estilo de visualización x_{2}/x_{4}} incógnita 1 , incógnita 2 , incógnita 3 , incógnita 4 {\displaystyle x_{1},x_{2},x_{3},x_{4}}

ρ = a 12 en 1 en 2 a 14 en 1 en 4 a 23 en 2 en 3 + a 34 en 3 en 4 en 1 2 + en 3 2 2 a 13 en 1 en 3 en 2 2 + en 4 2 2 a 24 en 2 en 4 {\displaystyle \rho ={\frac {r_ {12}v_ {1}v_ {2}-r_ {14}v_ {1}v_ {4}-r_ {23}v_ {2}v_ {3}+r_ {34}v_{3}v_{4}}{{\sqrt {v_{1}^{2}+v_{3}^{2}-2r_{13}v_{1}v_{3}}}{ \sqrt {v_{2}^{2}+v_{4}^{2}-2r_{24}v_{2}v_{4}}}}}}

donde es el coeficiente de variación de , y la correlación de Pearson entre y . en i estilo de visualización v_{i}} incógnita i Estilo de visualización x_{i}} a i yo estilo de visualización r_ {ij}} incógnita i Estilo de visualización x_{i}} incógnita yo estilo de visualización x_{j}}

Esta expresión se puede simplificar para situaciones donde hay un divisor común estableciendo que y no están correlacionados, lo que da la correlación espuria: incógnita 3 = incógnita 4 Estilo de visualización x_{3}=x_{4}} incógnita 1 , incógnita 2 , incógnita 3 {\displaystyle x_{1},x_{2},x_{3}}

ρ 0 = en 3 2 en 1 2 + en 3 2 en 2 2 + en 3 2 . {\displaystyle \rho _{0}={\frac {v_{3}^{2}}{{\sqrt {v_{1}^{2}+v_{3}^{2}}}{\sqrt {v_{2}^{2}+v_{3}^{2}}}}}.}

Para el caso especial en el que todos los coeficientes de variación son iguales (como es el caso en las ilustraciones de la derecha), ρ 0 = 0.5 {\displaystyle \rho _{0}=0.5}

Relevancia para la biología y otras ciencias

Pearson se unió a Sir Francis Galton [5] y Walter Frank Raphael Weldon [1] para advertir a los científicos que debían tener cuidado con las correlaciones espurias, especialmente en biología, donde es común [6] escalar o normalizar las mediciones dividiéndolas por una variable o total en particular. El peligro que vio fue que se sacarían conclusiones de correlaciones que son artefactos del método de análisis, en lugar de relaciones “orgánicas” reales.

Sin embargo, parece que la correlación espuria (y su potencial para inducir a error) aún no se entiende ampliamente. En 1986, John Aitchison , quien fue pionero en el enfoque de la relación logarítmica para el análisis de datos compositivos, escribió: [3]

Parece sorprendente que las advertencias de tres científicos estadísticos tan eminentes como Pearson, Galton y Weldon hayan pasado en gran medida desapercibidas durante tanto tiempo: incluso hoy en día se informa con regularidad sobre aplicaciones acríticas de métodos estadísticos inapropiados a datos compositivos, con las consiguientes inferencias dudosas.

Publicaciones más recientes sugieren que esta falta de conciencia prevalece, al menos en la biociencia molecular. [7] [8]

Referencias

  1. ^ abc Pearson, Karl (1896). "Contribuciones matemáticas a la teoría de la evolución: sobre una forma de correlación espuria que puede surgir cuando se utilizan índices en la medición de órganos". Actas de la Royal Society de Londres . 60 (359–367): 489–498. doi :10.1098/rspl.1896.0076. JSTOR  115879.
  2. ^ Aldrich, John (1995). "Correlaciones genuinas y espurias en Pearson y Yule". Ciencia estadística . 10 (4): 364–376. doi : 10.1214/ss/1177009870 .
  3. ^ ab Aitchison, John (1986). El análisis estadístico de datos de composición . Chapman & Hall. ISBN 978-0-412-28060-3.
  4. ^ Pawlowsky-Glahn, Vera; Buccianti, Antonella , eds. (2011). Análisis de datos compositivos: teoría y aplicaciones . Wiley. doi :10.1002/9781119976462. ISBN 978-0470711354.
  5. ^ Galton, Francis (1896). "Nota a la memoria del profesor Karl Pearson, FRS, sobre correlación espuria". Actas de la Royal Society de Londres . 60 (359–367): 498–502. doi :10.1098/rspl.1896.0077. S2CID  170846631.
  6. ^ Jackson, DA; Somers, KM (1991). "El espectro de la correlación 'espuria'". Oecologia . 86 (1): 147–151. Bibcode :1991Oecol..86..147J. doi :10.1007/bf00317404. JSTOR  4219582. PMID  28313173. S2CID  1116627.
  7. ^ Lovell, David; Müller, Warren; Taylor, Jen; Zwart, Alec; Helliwell, Chris (2011). "Capítulo 14: Proporciones, porcentajes, ppm: ¿Las biociencias moleculares tratan correctamente los datos composicionales?". En Pawlowsky-Glahn, Vera; Buccianti, Antonella (eds.). Análisis de datos composicionales: teoría y aplicaciones . Wiley. doi :10.1002/9781119976462. ISBN . 9780470711354.
  8. ^ Lovell, David; Pawlowsky-Glahn, Vera; Egozcue, Juan José; Marguerat, Samuel; Bähler, Jürg (16 de marzo de 2015). "Proporcionalidad: una alternativa válida a la correlación para datos relativos". PLOS Computational Biology . 11 (3): e1004075. Bibcode :2015PLSCB..11E4075L. doi : 10.1371/journal.pcbi.1004075 . PMC 4361748 . PMID  25775355. 
Retrieved from "https://en.wikipedia.org/w/index.php?title=Spurious_correlation_of_ratios&oldid=1188143221"