Dispersión estadística

Propiedad estadística que cuantifica en qué medida se dispersa una colección de datos

En estadística , la dispersión (también llamada variabilidad , dispersión o extensión ) es el grado en que una distribución se estira o se comprime. ^[1] Ejemplos comunes de medidas de dispersión estadística son la varianza , la desviación estándar y el rango intercuartil . Por ejemplo, cuando la varianza de los datos en un conjunto es grande, los datos están ampliamente dispersos. Por otro lado, cuando la varianza es pequeña, los datos en el conjunto están agrupados.

La dispersión se contrasta con la ubicación o tendencia central , y juntas son las propiedades de distribución más utilizadas.

Medidas de dispersión estadística

Una medida de dispersión estadística es un número real no negativo que es cero si todos los datos son iguales y aumenta a medida que los datos se vuelven más diversos.

La mayoría de las medidas de dispersión tienen las mismas unidades que la cantidad que se mide. En otras palabras, si las medidas están en metros o segundos, también lo estará la medida de dispersión. Algunos ejemplos de medidas de dispersión son:

Desviación estándar
Rango intercuartil (RIC)
Rango
Diferencia absoluta media (también conocida como diferencia absoluta media de Gini)
Desviación absoluta media (DMA)
Desviación absoluta media (o simplemente llamada desviación media)
Desviación estándar de la distancia

Estos se utilizan frecuentemente (junto con los factores de escala ) como estimadores de parámetros de escala , en cuya capacidad se los llama estimaciones de escala. Las medidas de escala robustas son aquellas que no se ven afectadas por un pequeño número de valores atípicos , e incluyen el IQR y la MAD.

Todas las medidas de dispersión estadística anteriores tienen la propiedad útil de que son invariantes respecto de la ubicación y lineales en escala . Esto significa que si una variable aleatoria tiene una dispersión de entonces una transformación lineal para reales y debería tener dispersión , donde es el valor absoluto de , es decir, ignora un signo negativo precedente . ${\estilo de visualización X}$ $Estilo de visualización S_ {X}}$ $Y=aX+b$ ${\estilo de visualización a}$ $b$ $S_{Y}=|a|S_{X}$ $|a|$ $a$ $-$

Otras medidas de dispersión son adimensionales . En otras palabras, no tienen unidades, incluso si la variable en sí tiene unidades. Entre ellas se incluyen:

Coeficiente de variación
Coeficiente de dispersión cuartil
Diferencia de medias relativa , igual al doble del coeficiente de Gini
Entropía : mientras que la entropía de una variable discreta es invariante en cuanto a la ubicación y independiente de la escala, y por lo tanto no es una medida de dispersión en el sentido mencionado anteriormente, la entropía de una variable continua es invariante en cuanto a la ubicación y aditiva en escala: si es la entropía de una variable continua y , entonces . $H(z)$ $z$ $z=ax+b$ $H(z)=H(x)+\log(a)$

Existen otras medidas de dispersión:

Varianza (el cuadrado de la desviación estándar): invariante en ubicación pero no lineal en escala.
Relación varianza-media : se utiliza principalmente para datos de recuento cuando se utiliza el término coeficiente de dispersión y cuando esta relación es adimensional , ya que los datos de recuento son en sí mismos adimensionales, no en caso contrario.

Algunas medidas de dispersión tienen propósitos específicos. La varianza de Allan se puede utilizar para aplicaciones en las que el ruido altera la convergencia. ^[2] La varianza de Hadamard se puede utilizar para contrarrestar la sensibilidad a la deriva de frecuencia lineal. ^[3]

En el caso de las variables categóricas , es menos común medir la dispersión con un solo número; véase variación cualitativa . Una medida que lo hace es la entropía discreta .

Fuentes

En las ciencias físicas , dicha variabilidad puede ser resultado de errores de medición aleatorios: las mediciones de los instrumentos a menudo no son perfectamente precisas, es decir, reproducibles , y existe una variabilidad adicional entre evaluadores en la interpretación y el informe de los resultados medidos. Se puede suponer que la cantidad que se mide es estable y que la variación entre mediciones se debe a un error de observación . Un sistema de un gran número de partículas se caracteriza por los valores medios de un número relativamente pequeño de cantidades macroscópicas como la temperatura, la energía y la densidad. La desviación estándar es una medida importante en la teoría de fluctuaciones, que explica muchos fenómenos físicos, incluido por qué el cielo es azul. ^[4]

En las ciencias biológicas , la cantidad que se mide rara vez es inmutable y estable, y la variación observada puede ser, además, intrínseca al fenómeno: puede deberse a la variabilidad interindividual , es decir, a que los distintos miembros de una población difieran entre sí. También puede deberse a la variabilidad intraindividual , es decir, a que un mismo sujeto difiera en pruebas realizadas en momentos diferentes o en otras condiciones diferentes. Este tipo de variabilidad también se observa en el ámbito de los productos manufacturados; incluso allí, el científico meticuloso encuentra variación.

Un ordenamiento parcial de la dispersión

Una dispersión que preserva la media (MPS) es un cambio de una distribución de probabilidad A a otra distribución de probabilidad B, donde B se forma dispersando una o más porciones de la función de densidad de probabilidad de A mientras se deja la media (el valor esperado) sin cambios. ^[5] El concepto de dispersión que preserva la media proporciona un ordenamiento parcial de las distribuciones de probabilidad según sus dispersiones: de dos distribuciones de probabilidad, una puede clasificarse como de mayor dispersión que la otra, o alternativamente ninguna puede clasificarse como de mayor dispersión.

Véase también

Referencias

^ Manual electrónico de métodos estadísticos del NIST/SEMATECH. "1.3.6.4. Parámetros de escala y ubicación". www.itl.nist.gov . Departamento de Comercio de los EE. UU.
^ "Varianza de Allan: descripción general de David W. Allan". www.allanstime.com . Consultado el 16 de septiembre de 2021 .
^ "Variación de Hadamard". www.wriley.com . Consultado el 16 de septiembre de 2021 .
^ McQuarrie, Donald A. (1976). Mecánica estadística . Nueva York: Harper & Row. ISBN 0-06-044366-9.
^ Rothschild, Michael; Stiglitz, Joseph (1970). "Incremento del riesgo I: una definición". Revista de teoría económica . 2 (3): 225–243. doi :10.1016/0022-0531(70)90038-4.

[1] Manual electrónico de métodos estadísticos del NIST/SEMATECH. "1.3.6.4. Parámetros de escala y ubicación". www.itl.nist.gov . Departamento de Comercio de los EE. UU.

[2] "Varianza de Allan: descripción general de David W. Allan". www.allanstime.com . Consultado el 16 de septiembre de 2021 .

[3] "Variación de Hadamard". www.wriley.com . Consultado el 16 de septiembre de 2021 .

[4] McQuarrie, Donald A. (1976). Mecánica estadística . Nueva York: Harper & Row. ISBN 0-06-044366-9.

[5] Rothschild, Michael; Stiglitz, Joseph (1970). "Incremento del riesgo I: una definición". Revista de teoría económica . 2 (3): 225–243. doi :10.1016/0022-0531(70)90038-4.