Varianza agrupada

Método para estimar la varianza de varias poblaciones diferentes

En estadística , la varianza agrupada (también conocida como varianza combinada , varianza compuesta o varianza global ) es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente, pero se puede suponer que la varianza de cada población es la misma. La estimación numérica resultante del uso de este método también se denomina varianza agrupada. $\sigma ^{2}$

Suponiendo que las varianzas de la población son iguales, la varianza de la muestra agrupada proporciona una estimación de la varianza más precisa que las varianzas de las muestras individuales. Esta mayor precisión puede generar un mayor poder estadístico cuando se utiliza en pruebas estadísticas que comparan poblaciones, como la prueba t .

La raíz cuadrada de un estimador de varianza agrupada se conoce como desviación estándar agrupada (también conocida como desviación estándar combinada , desviación estándar compuesta o desviación estándar general ).

Motivación

En estadística , muchas veces se recopilan datos para una variable dependiente , y , en un rango de valores para la variable independiente , x . Por ejemplo, la observación del consumo de combustible podría estudiarse como una función de la velocidad del motor mientras la carga del motor se mantiene constante. Si, para lograr una pequeña variación en y , se requieren numerosas pruebas repetidas en cada valor de x , el costo de las pruebas puede volverse prohibitivo. Se pueden determinar estimaciones razonables de la varianza utilizando el principio de varianza agrupada después de repetir cada prueba en un x particular solo unas pocas veces.

Definición y cálculo

La varianza agrupada es una estimación de la varianza común fija subyacente a varias poblaciones que tienen medias diferentes. $\sigma ^{2}$

Se nos da un conjunto de varianzas muestrales , donde las poblaciones están indexadas , $estilo de visualización s_{i}^{2}}$ $i=1,\lpuntos ,m$

estilo de visualización s_{i}^{2}}

=

{\frac {1}{n_{i}-1}}\sum _{j=1}^{n_{i}}\left(y_{i,j}-{\overline {y}}_{i}\right)^{2}.

Suponiendo tamaños de muestra uniformes , entonces la varianza agrupada se puede calcular mediante la media aritmética : $n_{i}=n$ $estilo de visualización s_{p}^{2}}$

s_{p}^{2}={\frac {\sum _{i=1}^{m}s_{i}^{2}}{m}}={\frac {s_{1}^{2}+s_{2}^{2}+\cdots +s_{m}^{2}}{m}}.

Si los tamaños de muestra no son uniformes, entonces la varianza agrupada se puede calcular mediante el promedio ponderado , utilizando como ponderaciones los respectivos grados de libertad (ver también: corrección de Bessel ): $estilo de visualización s_{p}^{2}}$ $w_{i}=n_{i}-1$

s_{p}^{2}={\frac {\sum _{i=1}^{m}(n_{i}-1)s_{i}^{2}}{\sum _{i=1}^{m}(n_{i}-1)}}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+\cdots +(n_{m}-1)s_{m}^{2}}{n_{1}+n_{2}+\cdots +n_{m}-m}}.

La distribución de es . $s_{p}^{2}/\sigma ^{2}$ $\chi ^{2}(\sum _{i}n_{i}-m)$

Demostración. Cuando hay una sola media, la distribución de es una gaussiana en , el símplex de dimensión , con desviación estándar . Cuando hay múltiples medias, la distribución de es una gaussiana en . $(y_{1}-{\bar {y}},\dots ,y_{n}-{\bar {y}})$ $\Delta _{n-1}$ $(n-1)$ $\sigma$ $(y_{1,1}-{\bar {y}}_{1},\dots ,y_{1,n_{1}}-{\bar {y}}_{1},\dots ,y_{m,1}-{\bar {y}}_{m},\dots ,y_{m,n_{m}}-{\bar {y}}_{m})$ $\Delta _{n_{1}-1}\times \dots \times \Delta _{n_{m}-1}$

Variantes

La estimación de mínimos cuadrados imparcial de (como se presenta arriba) y la estimación de máxima verosimilitud sesgada a continuación: $\sigma ^{2}$

s_{p}^{2}={\frac {\sum _{i=1}^{N}(n_{i}-1)s_{i}^{2}}{\sum _{i=1}^{N}n_{i}}},

se utilizan en diferentes contextos. ^{[ cita requerida ]} El primero puede dar una estimación no sesgada cuando los dos grupos comparten una varianza poblacional igual. El último puede dar una estimación más eficiente , aunque sujeta a sesgo. Nótese que las cantidades en los lados derechos de ambas ecuaciones son las estimaciones no sesgadas. $s_{p}^{2}$ $\sigma ^{2}$ $s_{p}^{2}$ $\sigma ^{2}$ $s_{i}^{2}$

Ejemplo

Considere el siguiente conjunto de datos para y obtenidos en varios niveles de la variable independiente x .

incógnita	y
1	31, 30, 29
2	42, 41, 40, 39
3	31, 28
4	23, 22, 21, 19, 18
5	21, 20, 19, 18,17

El número de ensayos, la media, la varianza y la desviación estándar se presentan en la siguiente tabla.

incógnita	norte	¿ _{Que quieres decir ?}	yo ²	yo _soy
1	3	30.0	1.0	1.0
2	4	40.5	1.67	1.29
3	2	29.5	4.5	2.12
4	5	20.6	4.3	2.07
5	5	19.0	2.5	1.58

Estas estadísticas representan la varianza y la desviación estándar para cada subconjunto de datos en los distintos niveles de x . Si podemos suponer que los mismos fenómenos generan un error aleatorio en cada nivel de x , los datos anteriores pueden “agruparse” para expresar una única estimación de la varianza y la desviación estándar. En cierto sentido, esto sugiere encontrar una varianza media o una desviación estándar entre los cinco resultados anteriores. Esta varianza media se calcula ponderando los valores individuales con el tamaño del subconjunto para cada nivel de x . Por lo tanto, la varianza agrupada se define mediante

s_{p}^{2}={\frac {(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}+\cdots +(n_{k}-1)s_{k}^{2}}{(n_{1}-1)+(n_{2}-1)+\cdots +(n_{k}-1)}}

donde n ₁ , n ₂ , . . ., n _k son los tamaños de los subconjuntos de datos en cada nivel de la variable x , y s ₁² , s ₂² , . . ., s _k² son sus respectivas varianzas.

Por lo tanto, la varianza agrupada de los datos que se muestran arriba es:

s_{p}^{2}=2.764\,

Efecto sobre la precisión

La varianza agrupada es una estimación cuando existe una correlación entre conjuntos de datos agrupados o el promedio de los conjuntos de datos no es idéntico. La variación agrupada es menos precisa cuanto más distinta de cero sea la correlación o más distantes sean los promedios entre los conjuntos de datos.

La variación de datos para conjuntos de datos no superpuestos es:

\sigma _{X}^{2}={\frac {\sum _{i}\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2}+N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}}{\sum _{i}N_{X_{i}}-1}}

donde la media se define como:

\mu _{X}={\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i}}}}

Dada una máxima verosimilitud sesgada definida como:

s_{p}^{2}={\frac {\sum _{i=1}^{k}(n_{i}-1)s_{i}^{2}}{\sum _{i=1}^{k}n_{i}}},

Entonces el error en la estimación de máxima verosimilitud sesgada es:

{\begin{aligned}{\text{Error}}&=s_{p}^{2}-\sigma _{X}^{2}\\[6pt]&={\frac {\sum _{i}(N_{X_{i}}-1)s_{i}^{2}}{\sum _{i}N_{X_{i}}}}-{\frac {1}{\sum _{i}N_{X_{i}}-1}}\left(\sum _{i}\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2}+N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}\right)\end{aligned}}

Suponiendo que N es grande tal que:

\sum _{i}N_{X_{i}}\approx \sum _{i}N_{X_{i}}-1

Entonces el error en la estimación se reduce a:

{\begin{aligned}E&=-{\frac {\left(\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]-\left[\sum _{i}N_{X_{i}}\right]\mu _{X}^{2}\right)}{\sum _{i}N_{X_{i}}}}\\[3pt]&=\mu _{X}^{2}-{\frac {\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]}{\sum _{i}N_{X_{i}}}}\end{aligned}}

O alternativamente:

{\begin{aligned}E&=\left[{\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i}}}}\right]^{2}-{\frac {\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]}{\sum _{i}N_{X_{i}}}}\\[3pt]&={\frac {\left[\sum _{i}N_{X_{i}}\mu _{X_{i}}\right]^{2}-\sum _{i}N_{X_{i}}\sum _{i}\left[N_{X_{i}}\mu _{X_{i}}^{2}\right]}{\left[\sum _{i}N_{X_{i}}\right]^{2}}}\end{aligned}}

Agregación de datos de desviación estándar

En lugar de estimar la desviación estándar agrupada, la siguiente es la forma de agregar exactamente la desviación estándar cuando hay más información estadística disponible.

Estadísticas basadas en la población

Las poblaciones de conjuntos que pueden superponerse se pueden calcular simplemente de la siguiente manera:

{\begin{aligned}&&N_{X\cup Y}&=N_{X}+N_{Y}-N_{X\cap Y}\\\end{aligned}}

Las poblaciones de conjuntos que no se superponen se pueden calcular simplemente de la siguiente manera:

{\begin{aligned}X\cap Y=\varnothing &\Rightarrow &N_{X\cap Y}&=0\\&\Rightarrow &N_{X\cup Y}&=N_{X}+N_{Y}\end{aligned}}

Las desviaciones estándar de subpoblaciones no superpuestas ( X ∩ Y = ∅ ) se pueden agregar de la siguiente manera si se conocen el tamaño (real o relativo entre sí) y las medias de cada una:

{\begin{aligned}\mu _{X\cup Y}&={\frac {N_{X}\mu _{X}+N_{Y}\mu _{Y}}{N_{X}+N_{Y}}}\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {N_{X}\sigma _{X}^{2}+N_{Y}\sigma _{Y}^{2}}{N_{X}+N_{Y}}}+{\frac {N_{X}N_{Y}}{(N_{X}+N_{Y})^{2}}}(\mu _{X}-\mu _{Y})^{2}}}\end{aligned}}

Por ejemplo, supongamos que se sabe que el hombre estadounidense promedio tiene una altura media de 70 pulgadas con una desviación estándar de tres pulgadas y que la mujer estadounidense promedio tiene una altura media de 65 pulgadas con una desviación estándar de dos pulgadas. Supongamos también que el número de hombres, N , es igual al número de mujeres. Entonces, la media y la desviación estándar de las alturas de los adultos estadounidenses podrían calcularse como

{\begin{aligned}\mu &={\frac {N\cdot 70+N\cdot 65}{N+N}}={\frac {70+65}{2}}=67.5\\[3pt]\sigma &={\sqrt {{\frac {3^{2}+2^{2}}{2}}+{\frac {(70-65)^{2}}{2^{2}}}}}={\sqrt {12.75}}\approx 3.57\end{aligned}}

Para el caso más general de M poblaciones no superpuestas, X ₁ a X _M , y la población agregada , ${\textstyle X\,=\,\bigcup _{i}X_{i}}$

{\begin{aligned}\mu _{X}&={\frac {\sum _{i}N_{X_{i}}\mu _{X_{i}}}{\sum _{i}N_{X_{i}}}}\\[3pt]\sigma _{X}&={\sqrt {{\frac {\sum _{i}N_{X_{i}}\sigma _{X_{i}}^{2}}{\sum _{i}N_{X_{i}}}}+{\frac {\sum _{i<j}N_{X_{i}}N_{X_{j}}(\mu _{X_{i}}-\mu _{X_{j}})^{2}}{{\big (}\sum _{i}N_{X_{i}}{\big )}^{2}}}}}\end{aligned}}

,

dónde

X_{i}\cap X_{j}=\varnothing ,\quad \forall \ i<j.

Si se conocen el tamaño (real o relativo entre sí), la media y la desviación estándar de dos poblaciones superpuestas, así como su intersección, entonces la desviación estándar de la población general todavía se puede calcular de la siguiente manera:

{\begin{aligned}\mu _{X\cup Y}&={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+N_{Y}\mu _{Y}-N_{X\cap Y}\mu _{X\cap Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {1}{N_{X\cup Y}}}\left(N_{X}[\sigma _{X}^{2}+\mu _{X}^{2}]+N_{Y}[\sigma _{Y}^{2}+\mu _{Y}^{2}]-N_{X\cap Y}[\sigma _{X\cap Y}^{2}+\mu _{X\cap Y}^{2}]\right)-\mu _{X\cup Y}^{2}}}\end{aligned}}

Si se suman dos o más conjuntos de datos punto por punto, se puede calcular la desviación estándar del resultado si se conoce la desviación estándar de cada conjunto de datos y la covarianza entre cada par de conjuntos de datos:

\sigma _{X}={\sqrt {\sum _{i}{\sigma _{X_{i}}^{2}}+2\sum _{i,j}\operatorname {cov} (X_{i},X_{j})}}

Para el caso especial en el que no existe correlación entre ningún par de conjuntos de datos, entonces la relación se reduce a la raíz de la suma de los cuadrados:

{\begin{aligned}&\operatorname {cov} (X_{i},X_{j})=0,\quad \forall i<j\\\Rightarrow &\;\sigma _{X}={\sqrt {\sum _{i}{\sigma _{X_{i}}^{2}}}}.\end{aligned}}

Estadísticas basadas en muestras

Las desviaciones estándar de submuestras no superpuestas ( X ∩ Y = ∅ ) se pueden agregar de la siguiente manera si se conocen el tamaño real y las medias de cada una:

{\begin{aligned}\mu _{X\cup Y}&={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+N_{Y}\mu _{Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {{\frac {1}{N_{X\cup Y}-1}}\left([N_{X}-1]\sigma _{X}^{2}+N_{X}\mu _{X}^{2}+[N_{Y}-1]\sigma _{Y}^{2}+N_{Y}\mu _{Y}^{2}-[N_{X}+N_{Y}]\mu _{X\cup Y}^{2}\right)}}\end{aligned}}

Para el caso más general de M conjuntos de datos no superpuestos, X ₁ a X _M , y el conjunto de datos agregados , ${\textstyle X\,=\,\bigcup _{i}X_{i}}$

{\begin{aligned}\mu _{X}&={\frac {1}{\sum _{i}{N_{X_{i}}}}}\left(\sum _{i}{N_{X_{i}}\mu _{X_{i}}}\right)\\[3pt]\sigma _{X}&={\sqrt {{\frac {1}{\sum _{i}{N_{X_{i}}-1}}}\left(\sum _{i}{\left[(N_{X_{i}}-1)\sigma _{X_{i}}^{2}+N_{X_{i}}\mu _{X_{i}}^{2}\right]}-\left[\sum _{i}{N_{X_{i}}}\right]\mu _{X}^{2}\right)}}\end{aligned}}

dónde

X_{i}\cap X_{j}=\varnothing ,\quad \forall i<j.

Si se conocen el tamaño, la media y la desviación estándar de dos muestras superpuestas, así como su intersección, entonces se puede calcular la desviación estándar de la muestra agregada. En general,

{\begin{aligned}\mu _{X\cup Y}&={\frac {1}{N_{X\cup Y}}}\left(N_{X}\mu _{X}+N_{Y}\mu _{Y}-N_{X\cap Y}\mu _{X\cap Y}\right)\\[3pt]\sigma _{X\cup Y}&={\sqrt {\frac {[N_{X}-1]\sigma _{X}^{2}+N_{X}\mu _{X}^{2}+[N_{Y}-1]\sigma _{Y}^{2}+N_{Y}\mu _{Y}^{2}-[N_{X\cap Y}-1]\sigma _{X\cap Y}^{2}-N_{X\cap Y}\mu _{X\cap Y}^{2}-[N_{X}+N_{Y}-N_{X\cap Y}]\mu _{X\cup Y}^{2}}{N_{X\cup Y}-1}}}\end{aligned}}

Véase también

Referencias

Killeen PR (mayo de 2005). "Una alternativa a las pruebas de significación de hipótesis nula". Psychol Sci . 16 (5): 345–53. doi :10.1111/j.0956-7976.2005.01538.x. PMC 1473027 . PMID 15869691.

Enlaces externos

Libro de Oro de la IUPAC: desviación estándar agrupada
[1]
– también haciendo referencia a la d de Cohen (en la página 6)