En estadística , la correlación espuria de proporciones es una forma de correlación espuria que surge entre proporciones de medidas absolutas que no están correlacionadas. [1] [2]
El fenómeno de la correlación espuria de proporciones es uno de los principales motivos para el campo del análisis de datos compositivos , que se ocupa del análisis de variables que llevan sólo información relativa, como proporciones, porcentajes y partes por millón. [3] [4]
Pearson plantea un ejemplo sencillo de correlación espuria: [1]
Seleccione tres números al azar dentro de ciertos rangos, digamos x , y , z ; estos serán pares y pares no correlacionados. Forme las fracciones adecuadas x / z e y / z para cada triplete y se encontrará la correlación entre estos índices.
El diagrama de dispersión anterior ilustra este ejemplo utilizando 500 observaciones de x , y y z . Las variables x , y y z se extraen de distribuciones normales con medias 10, 10 y 30, respectivamente, y desviaciones estándar 1, 1 y 3 respectivamente, es decir,
Aunque x , y y z son estadísticamente independientes y, por lo tanto, no están correlacionados, en la muestra típica representada, las razones x / z e y / z tienen una correlación de 0,53. Esto se debe al divisor común ( z ) y se puede entender mejor si coloreamos los puntos en el diagrama de dispersión por el valor z . Los tríos de ( x , y , z ) con valores z relativamente grandes tienden a aparecer en la parte inferior izquierda del gráfico; los tríos con valores z relativamente pequeños tienden a aparecer en la parte superior derecha.
Cantidad aproximada de correlación espuria
Pearson derivó una aproximación de la correlación que se observaría entre dos índices ( y ), es decir, relaciones de las mediciones absolutas :
Esta expresión se puede simplificar para situaciones donde hay un divisor común estableciendo que y no están correlacionados, lo que da la correlación espuria:
Para el caso especial en el que todos los coeficientes de variación son iguales (como es el caso en las ilustraciones de la derecha),
Relevancia para la biología y otras ciencias
Pearson se unió a Sir Francis Galton [5] y Walter Frank Raphael Weldon [1] para advertir a los científicos que debían tener cuidado con las correlaciones espurias, especialmente en biología, donde es común [6] escalar o normalizar las mediciones dividiéndolas por una variable o total en particular. El peligro que vio fue que se sacarían conclusiones de correlaciones que son artefactos del método de análisis, en lugar de relaciones “orgánicas” reales.
Sin embargo, parece que la correlación espuria (y su potencial para inducir a error) aún no se entiende ampliamente. En 1986, John Aitchison , quien fue pionero en el enfoque de la relación logarítmica para el análisis de datos compositivos, escribió: [3]
Parece sorprendente que las advertencias de tres científicos estadísticos tan eminentes como Pearson, Galton y Weldon hayan pasado en gran medida desapercibidas durante tanto tiempo: incluso hoy en día se informa con regularidad sobre aplicaciones acríticas de métodos estadísticos inapropiados a datos compositivos, con las consiguientes inferencias dudosas.
Publicaciones más recientes sugieren que esta falta de conciencia prevalece, al menos en la biociencia molecular. [7] [8]
Referencias
^ abc Pearson, Karl (1896). "Contribuciones matemáticas a la teoría de la evolución: sobre una forma de correlación espuria que puede surgir cuando se utilizan índices en la medición de órganos". Actas de la Royal Society de Londres . 60 (359–367): 489–498. doi :10.1098/rspl.1896.0076. JSTOR 115879.
^ Aldrich, John (1995). "Correlaciones genuinas y espurias en Pearson y Yule". Ciencia estadística . 10 (4): 364–376. doi : 10.1214/ss/1177009870 .
^ ab Aitchison, John (1986). El análisis estadístico de datos de composición . Chapman & Hall. ISBN978-0-412-28060-3.
^ Pawlowsky-Glahn, Vera; Buccianti, Antonella , eds. (2011). Análisis de datos compositivos: teoría y aplicaciones . Wiley. doi :10.1002/9781119976462. ISBN978-0470711354.
^ Galton, Francis (1896). "Nota a la memoria del profesor Karl Pearson, FRS, sobre correlación espuria". Actas de la Royal Society de Londres . 60 (359–367): 498–502. doi :10.1098/rspl.1896.0077. S2CID 170846631.
^ Jackson, DA; Somers, KM (1991). "El espectro de la correlación 'espuria'". Oecologia . 86 (1): 147–151. Bibcode :1991Oecol..86..147J. doi :10.1007/bf00317404. JSTOR 4219582. PMID 28313173. S2CID 1116627.
^ Lovell, David; Müller, Warren; Taylor, Jen; Zwart, Alec; Helliwell, Chris (2011). "Capítulo 14: Proporciones, porcentajes, ppm: ¿Las biociencias moleculares tratan correctamente los datos composicionales?". En Pawlowsky-Glahn, Vera; Buccianti, Antonella (eds.). Análisis de datos composicionales: teoría y aplicaciones . Wiley. doi :10.1002/9781119976462. ISBN .9780470711354.
^ Lovell, David; Pawlowsky-Glahn, Vera; Egozcue, Juan José; Marguerat, Samuel; Bähler, Jürg (16 de marzo de 2015). "Proporcionalidad: una alternativa válida a la correlación para datos relativos". PLOS Computational Biology . 11 (3): e1004075. Bibcode :2015PLSCB..11E4075L. doi : 10.1371/journal.pcbi.1004075 . PMC 4361748 . PMID 25775355.