Diagrama de dispersión

Gráfico que utiliza la dispersión de puntos dispersos para mostrar la relación entre variables
Diagrama de dispersión
Una de las siete herramientas básicas de la calidad
Descrito por primera vez porJuan Herschel
ObjetivoIdentificar el tipo de relación (si existe alguna) entre dos variables cuantitativas
Tiempo de espera entre erupciones y duración de la erupción del géiser Old Faithful en el Parque Nacional de Yellowstone , Wyoming , EE. UU. Este gráfico sugiere que, en general, hay dos tipos de erupciones: de corta espera y corta duración, y de larga espera y larga duración.
Un diagrama de dispersión 3D permite visualizar datos multivariados. Este diagrama de dispersión toma múltiples variables escalares y las utiliza para diferentes ejes en el espacio de fases. Las diferentes variables se combinan para formar coordenadas en el espacio de fases y se muestran mediante glifos y se colorean utilizando otra variable escalar. [1]

Un diagrama de dispersión , también llamado diagrama de dispersión , gráfico de dispersión , diagrama de dispersión o diagrama de dispersión , [2] es un tipo de gráfico o diagrama matemático que utiliza coordenadas cartesianas para mostrar valores de dos variables , por lo general , para un conjunto de datos. Si los puntos están codificados (color/forma/tamaño), se puede mostrar una variable adicional. Los datos se muestran como una colección de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable que determina la posición en el eje vertical . [3]

Historia

Véase también: Visualización de datos e información § Historia

Según Michael Friendly y Daniel Denis, la característica que distingue a los diagramas de dispersión de los gráficos de líneas es la representación de observaciones específicas de datos bivariados, donde una variable se representa en el eje horizontal y la otra en el eje vertical. Las dos variables suelen abstraerse de una representación física, como la dispersión de las balas sobre un objetivo o una proyección geográfica o celeste. [4] [5]

Aunque Edmund Halley creó un gráfico bivariado de temperatura y presión en 1686, omitió los puntos de datos específicos utilizados para demostrar la relación. Friendly y Denis afirman que su visualización era diferente de un gráfico de dispersión real. Friendly y Denis atribuyen el primer gráfico de dispersión a John Herschel . En 1833, Herschel trazó el ángulo entre la estrella central en la constelación de Virgo y Gamma Virginis a lo largo del tiempo para encontrar cómo cambia el ángulo con el tiempo, no a través del cálculo sino con dibujos a mano alzada y el juicio humano. [4]

Sir Francis Galton extendió y popularizó el diagrama de dispersión y muchas otras herramientas estadísticas para buscar una base científica para la eugenesia. [6] Cuando, en 1886, Galton publicó un diagrama de dispersión y una elipse de correlación de la altura de padres e hijos, extendió el simple trazado de puntos de datos de Herschel mediante la clasificación y el promedio de celdas adyacentes para crear una visualización más suave. [4] Karl Pearson, RA Fischer y otros estadísticos y eugenistas se basaron en el trabajo de Galton y formalizaron las correlaciones y las pruebas de significación. [6]

Descripción general

Un diagrama de dispersión se puede utilizar cuando una variable continua está bajo el control del experimentador y la otra depende de ella o cuando ambas variables continuas son independientes. Si existe un parámetro que se incrementa y/o decrementa sistemáticamente por el otro, se lo denomina parámetro de control o variable independiente y se lo suele representar en el eje horizontal. La variable medida o dependiente se representa habitualmente en el eje vertical. Si no existe una variable dependiente, se puede representar cualquiera de los dos tipos de variable en cualquiera de los ejes y un diagrama de dispersión ilustrará únicamente el grado de correlación (no causalidad ) entre dos variables. [ cita requerida ]

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre variables con un cierto intervalo de confianza . Por ejemplo, el peso y la altura estarían en el eje y , y la altura estaría en el eje x . Las correlaciones pueden ser positivas (ascendentes), negativas (descendentes) o nulas (sin correlación). Si el patrón de puntos se inclina de abajo a la izquierda a arriba a la derecha, indica una correlación positiva entre las variables que se están estudiando. Si el patrón de puntos se inclina de arriba a la izquierda a abajo a la derecha, indica una correlación negativa. Se puede dibujar una línea de mejor ajuste (también llamada "línea de tendencia") para estudiar la relación entre las variables. Se puede determinar una ecuación para la correlación entre las variables mediante procedimientos de mejor ajuste establecidos. Para una correlación lineal, el procedimiento de mejor ajuste se conoce como regresión lineal y se garantiza que generará una solución correcta en un tiempo finito. Ningún procedimiento de mejor ajuste universal garantiza que genere una solución correcta para relaciones arbitrarias. Un diagrama de dispersión también es muy útil cuando deseamos ver cómo dos conjuntos de datos comparables concuerdan para mostrar relaciones no lineales entre variables. La capacidad de hacer esto se puede mejorar añadiendo una línea suave como LOESS . [7] Además, si los datos están representados por un modelo de mezcla de relaciones simples, estas relaciones serán evidentes visualmente como patrones superpuestos. [ cita requerida ]

El diagrama de dispersión es una de las siete herramientas básicas del control de calidad . [8]

Los gráficos de dispersión se pueden construir en forma de gráficos de burbujas , marcadores o líneas . [9]

Ejemplo

Por ejemplo, para mostrar una relación entre la capacidad pulmonar de una persona y el tiempo que esa persona puede contener la respiración, un investigador elegiría un grupo de personas para estudiar, luego mediría la capacidad pulmonar de cada una (primera variable) y el tiempo que esa persona puede contener la respiración (segunda variable). Luego, el investigador representaría los datos en un diagrama de dispersión, asignando "capacidad pulmonar" al eje horizontal y "tiempo de retención de la respiración" al eje vertical. [ cita requerida ]

Una persona con una capacidad pulmonar de400  cl que contuvieron la respiración durante21,7 s estaría representado por un único punto en el diagrama de dispersión en el punto (400, 21,7) en las coordenadas cartesianas . El diagrama de dispersión de todas las personas del estudio permitiría al investigador obtener una comparación visual de las dos variables en el conjunto de datos y ayudará a determinar qué tipo de relación podría haber entre las dos variables. [ cita requerida ]

Matrices de diagramas de dispersión

Para un conjunto de variables de datos (dimensiones) X 1 , X 2 , ... , X k , la matriz de diagrama de dispersión muestra todos los diagramas de dispersión por pares de las variables en una única vista con múltiples diagramas de dispersión en formato de matriz. Para k variables, la matriz de diagrama de dispersión contendrá k filas y k columnas. Un gráfico ubicado en la intersección de la fila y la j ésima columna es un gráfico de las variables X i frente a X j . [10] Esto significa que cada fila y columna es una dimensión, y cada celda representa un diagrama de dispersión de dos dimensiones. [ cita requerida ]

Una matriz de diagrama de dispersión generalizada [11] ofrece una variedad de visualizaciones de combinaciones pareadas de variables categóricas y cuantitativas. Se puede utilizar un diagrama de mosaico , un diagrama de fluctuación o un gráfico de barras facetadas para visualizar dos variables categóricas. Se utilizan otros gráficos para una variable categórica y una cuantitativa.

Visualización de datos 3D junto con la matriz de diagrama de dispersión correspondiente

Véase también

Referencias

  1. ^ Visualizaciones creadas con VisIt en wci.llnl.gov. Última actualización: 8 de noviembre de 2007.
  2. ^ Jarrell, Stephen B. (1994). Basic Statistics (Edición especial previa a la publicación). Dubuque, Iowa: Wm. C. Brown Pub. p. 492. ISBN 978-0-697-21595-6Cuando buscamos una relación entre dos variables cuantitativas, un gráfico estándar de los pares de datos disponibles (X,Y), llamado diagrama de dispersión , con frecuencia resulta de ayuda...
  3. ^ Utts, Jessica M. Seeing Through Statistics (Viendo a través de las estadísticas) , 3.ª edición, Thomson Brooks/Cole, 2005, págs. 166-167. ISBN 0-534-39402-7 
  4. ^ abc Friendly, Michael; Denis, Dan (2005). "Los orígenes y el desarrollo del diagrama de dispersión". Revista de la historia de las ciencias del comportamiento . 41 (2): 103–130. doi :10.1002/jhbs.20078. PMID  15812820.
  5. ^ https://www.datavis.ca/papers/friendly-scat.pdf [ URL básica PDF ]
  6. ^ ab Louçã, Francisco (2009). "Emancipación a través de la interacción: cómo la eugenesia y la estadística convergieron y divergieron". Revista de Historia de la Biología . 42 (4): 649–684. ISSN  0022-5010.
  7. ^ Cleveland, William (1993). Visualización de datos . Murray Hill, NJ Summit, NJ: AT & T Bell Laboratories Publicado por Hobart Press. ISBN 978-0963488404.
  8. ^ Nancy R. Tague (2004). "Siete herramientas básicas de calidad". The Quality Toolbox . Milwaukee, Wisconsin : American Society for Quality . p. 15 . Consultado el 5 de febrero de 2010 .
  9. ^ "Gráfico de dispersión: documentación de gráficos JavaScript de AnyChart". AnyChart. Archivado desde el original el 1 de febrero de 2016. Consultado el 3 de febrero de 2016 .
  10. ^ Matriz de diagrama de dispersión en itl.nist.gov.
  11. ^ Emerson, John W.; Green, Walton A.; Schoerke, Barret; Crowley, Jason (2013). "El gráfico de pares generalizado". Revista de estadística computacional y gráfica . 22 (1): 79–91. doi :10.1080/10618600.2012.694762. S2CID  28344569.

Lectura adicional

  • Cattaneo, Matias D.; Crump, Richard K.; Farrell, Max H.; Feng, Yingjie (2024). "Sobre Binscatter". American Economic Review . 114 (5): 1488–1514.
  • Medios relacionados con Diagramas de dispersión en Wikimedia Commons
  • ¿Qué es un diagrama de dispersión? Archivado el 7 de agosto de 2020 en Wayback Machine
  • Matriz de correlación de diagrama de dispersión para datos categóricos ordenados: explicación y código R
  • Diagrama de dispersión de densidad para grandes conjuntos de datos (cientos de millones de puntos)
Obtenido de "https://es.wikipedia.org/w/index.php?title=Diagrama_de_dispersión&oldid=1256766309"