En estadística descriptiva , el rango intercuartil ( RIC ) es una medida de dispersión estadística , que es la extensión de los datos. [1] El RIC también puede denominarse midspread , 50% medio , cuarta extensión o H-spread. Se define como la diferencia entre los percentiles 75 y 25 de los datos. [2] [3] [4] Para calcular el RIC, el conjunto de datos se divide en cuartiles , o cuatro partes pares ordenadas por rango mediante interpolación lineal. [1] Estos cuartiles se denotan por Q 1 (también llamado cuartil inferior), Q 2 (la mediana ) y Q 3 (también llamado cuartil superior). El cuartil inferior corresponde al percentil 25 y el cuartil superior corresponde al percentil 75, por lo que IQR = Q 3 − Q 1 [1] .
El RIQ es un ejemplo de un estimador recortado , definido como el rango recortado al 25% , que mejora la precisión de las estadísticas del conjunto de datos al eliminar los puntos atípicos de menor contribución. [5] También se utiliza como una medida robusta de escala [5] Se puede visualizar claramente mediante el cuadro en un diagrama de caja . [1]
A diferencia del rango total , el rango intercuartil tiene un punto de ruptura del 25% [6] y, por lo tanto, a menudo se prefiere al rango total.
El RIQ se utiliza para construir diagramas de caja , representaciones gráficas simples de una distribución de probabilidad .
El RIQ se utiliza en las empresas como un marcador de sus tasas de ingresos .
Para una distribución simétrica (donde la mediana es igual a la desviación media , el promedio del primer y tercer cuartil), la mitad del RIQ es igual a la desviación absoluta mediana (DMA).
La mediana es la medida correspondiente de tendencia central .
El RIQ se puede utilizar para identificar valores atípicos (ver más abajo). El RIQ también puede indicar la asimetría del conjunto de datos. [1]
La desviación cuartil o rango semiintercuartil se define como la mitad del RIQ. [7]
El RIQ de un conjunto de valores se calcula como la diferencia entre los cuartiles superior e inferior, Q 3 y Q 1 . Cada cuartil es una mediana [8] calculada de la siguiente manera.
Dado un número par de 2n o impar de 2n+1 valores
El segundo cuartil Q 2 es el mismo que la mediana ordinaria. [8]
La siguiente tabla tiene 13 filas y sigue las reglas para el número impar de entradas.
i | x[i] | Mediana | Cuartilla |
---|---|---|---|
1 | 7 | Q 2 = 87 (mediana de toda la tabla) | Q 1 = 31 (mediana de la mitad inferior, de la fila 1 a la 6) |
2 | 7 | ||
3 | 31 | ||
4 | 31 | ||
5 | 47 | ||
6 | 75 | ||
7 | 87 | ||
8 | 115 | Q 3 = 119 (mediana de la mitad superior, de la fila 8 a la 13) | |
9 | 116 | ||
10 | 119 | ||
11 | 119 | ||
12 | 155 | ||
13 | 177 |
Para los datos de esta tabla, el rango intercuartil es RIQ = Q 3 − Q 1 = 119 - 31 = 88.
+−−−−−+−+ * |------------| | |------------| +−−−−−+−+ +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ Recta numérica 0 1 2 3 4 5 6 7 8 9 10 11 12
Para el conjunto de datos de este diagrama de caja :
Esto significa que los bigotes 1.5*RIC pueden tener longitudes desiguales. La mediana, el mínimo, el máximo y el primer y tercer cuartil constituyen el resumen de cinco números . [9]
El rango intercuartil de una distribución continua se puede calcular integrando la función de densidad de probabilidad (que produce la función de distribución acumulativa ; cualquier otro medio para calcular la CDF también funcionará). El cuartil inferior, Q 1 , es un número tal que la integral de la función de densidad de probabilidad desde -∞ hasta Q 1 es igual a 0,25, mientras que el cuartil superior, Q 3 , es un número tal que la integral desde -∞ hasta Q 3 es igual a 0,75; en términos de la CDF, los cuartiles se pueden definir de la siguiente manera:
donde CDF −1 es la función cuantil .
A continuación se muestran el rango intercuartil y la mediana de algunas distribuciones comunes.
Distribución | Mediana | RIQ |
---|---|---|
Normal | micras | 2 Φ −1 (0,75)σ ≈ 1,349σ ≈ (27/20)σ |
Laplace | micras | 2b ln (2) ≈ 1,386b |
Cauchy | micras | 2γ |
El RIQ, la media y la desviación estándar de una población P se pueden utilizar en una prueba sencilla para determinar si P tiene una distribución normal o es gaussiana. Si P tiene una distribución normal, entonces la puntuación estándar del primer cuartil, z 1 , es −0,67, y la puntuación estándar del tercer cuartil, z 3 , es +0,67. Dada la media = y la desviación estándar = σ para P , si P tiene una distribución normal, el primer cuartil
y el tercer cuartil
Si los valores reales del primer o tercer cuartil difieren sustancialmente [ aclaración necesaria ] de los valores calculados, P no se distribuye normalmente. Sin embargo, una distribución normal se puede alterar de forma trivial para mantener sus puntuaciones estándar Q1 y Q2 en 0,67 y −0,67 y no distribuirse normalmente (por lo que la prueba anterior produciría un falso positivo). Una mejor prueba de normalidad, como el gráfico Q-Q, sería la indicada en este caso.
El rango intercuartil se utiliza a menudo para encontrar valores atípicos en los datos. Los valores atípicos se definen aquí como observaciones que se encuentran por debajo de Q1 − 1,5 IQR o por encima de Q3 + 1,5 IQR. En un diagrama de caja, el valor más alto y más bajo que se produce dentro de este límite se indican mediante los extremos de la caja (con frecuencia con una barra adicional al final del extremo) y cualquier valor atípico como puntos individuales.