Media aritmética ponderada

Cantidad estadística

La media aritmética ponderada es similar a una media aritmética ordinaria (el tipo más común de promedio ), excepto que en lugar de que cada uno de los puntos de datos contribuya por igual al promedio final, algunos puntos de datos contribuyen más que otros. El concepto de media ponderada desempeña un papel en las estadísticas descriptivas y también se presenta de forma más general en varias otras áreas de las matemáticas.

Si todos los pesos son iguales, entonces la media ponderada es la misma que la media aritmética . Si bien las medias ponderadas generalmente se comportan de manera similar a las medias aritméticas, tienen algunas propiedades contraintuitivas, como se refleja, por ejemplo, en la paradoja de Simpson .

Ejemplos

Ejemplo básico

Dadas dos clases escolares —una con 20 estudiantes, otra con 30 estudiantes— y las calificaciones de los exámenes en cada clase son las siguientes:

Clase de la mañana = {62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98}

Clase de la tarde = {81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93, 94, 95, 96, 97, 98, 99}

La media de la clase de la mañana es 80 y la media de la clase de la tarde es 90. La media no ponderada de las dos medias es 85. Sin embargo, esto no tiene en cuenta la diferencia en el número de estudiantes en cada clase (20 frente a 30); por lo tanto, el valor de 85 no refleja la nota media de los estudiantes (independientemente de la clase). La nota media de los estudiantes se puede obtener haciendo el promedio de todas las notas, sin tener en cuenta las clases (suma todas las notas y divide por el número total de estudiantes): incógnita ¯ = 4300 50 = 86. {\displaystyle {\bar {x}}={\frac {4300}{50}}=86.}

O bien, esto se puede lograr ponderando las medias de las clases por el número de estudiantes en cada clase. A la clase más grande se le da más "peso":

incógnita ¯ = ( 20 × 80 ) + ( 30 × 90 ) 20 + 30 = 86. {\displaystyle {\bar {x}}={\frac {(20\por 80)+(30\por 90)}{20+30}}=86.}

De esta forma, la media ponderada permite hallar la nota media de los alumnos sin conocer la puntuación de cada uno de ellos. Solo se necesitan las medias de las clases y el número de alumnos de cada clase.

Ejemplo de combinación convexa

Dado que solo son relevantes los pesos relativos , cualquier media ponderada se puede expresar mediante coeficientes que sumen uno. Una combinación lineal de este tipo se denomina combinación convexa .

Utilizando el ejemplo anterior, obtendríamos los siguientes pesos:

20 20 + 30 = 0,4 {\displaystyle {\frac {20}{20+30}}=0,4}
30 20 + 30 = 0.6 {\displaystyle {\frac {30}{20+30}}=0,6}

Luego aplica los pesos de la siguiente manera:

incógnita ¯ = ( 0,4 × 80 ) + ( 0.6 × 90 ) = 86. {\displaystyle {\bar {x}}=(0,4\veces 80)+(0,6\veces 90)=86.}

Definición matemática

Formalmente, la media ponderada de una tupla finita no vacía de datos , con pesos no negativos correspondientes es ( incógnita 1 , incógnita 2 , , incógnita norte ) {\displaystyle \left(x_{1},x_{2},\puntos ,x_{n}\right)} ( el 1 , el 2 , , el norte ) {\displaystyle \left(w_{1},w_{2},\puntos ,w_{n}\right)}

incógnita ¯ = i = 1 norte el i incógnita i i = 1 norte el i , {\displaystyle {\bar {x}}={\frac {\suma \límites _{i=1}^{n}w_{i}x_{i}}{\suma \límites _{i=1}^{n}w_{i}}},}

que se expande a:

incógnita ¯ = el 1 incógnita 1 + el 2 incógnita 2 + + el norte incógnita norte el 1 + el 2 + + el norte . {\displaystyle {\bar {x}}={\frac {w_{1}x_{1}+w_{2}x_{2}+\cdots +w_{n}x_{n}}{w_{1}+w_{2}+\cdots +w_{n}}}.}

Por lo tanto, los elementos de datos con un peso alto contribuyen más a la media ponderada que los elementos con un peso bajo. Los pesos no pueden ser negativos para que la ecuación funcione [a] . Algunos pueden ser cero, pero no todos (ya que no se permite la división por cero).

Las fórmulas se simplifican cuando los pesos se normalizan de modo que sumen 1, es decir, . Para dichos pesos normalizados, la media ponderada es equivalente a: i = 1 norte el i " = 1 {\textstyle \sum \limits _{i=1}^{n}{w_{i}'}=1}

x ¯ = i = 1 n w i x i {\displaystyle {\bar {x}}=\sum \limits _{i=1}^{n}{w_{i}'x_{i}}} .

Siempre se pueden normalizar los pesos realizando la siguiente transformación sobre los pesos originales:

w i = w i j = 1 n w j {\displaystyle w_{i}'={\frac {w_{i}}{\sum \limits _{j=1}^{n}{w_{j}}}}} .

La media ordinaria es un caso especial de la media ponderada donde todos los datos tienen pesos iguales. 1 n i = 1 n x i {\textstyle {\frac {1}{n}}\sum \limits _{i=1}^{n}{x_{i}}}

Si los elementos de datos son variables aleatorias independientes e idénticamente distribuidas con varianza , se puede demostrar mediante la propagación de la incertidumbre que el error estándar de la media ponderada , , es: σ 2 {\displaystyle \sigma ^{2}} σ x ¯ {\displaystyle \sigma _{\bar {x}}}

σ x ¯ = σ i = 1 n w i 2 {\textstyle \sigma _{\bar {x}}=\sigma {\sqrt {\sum \limits _{i=1}^{n}w_{i}'^{2}}}}

Pesos definidos por la varianza

Para la media ponderada de una lista de datos en la que cada elemento proviene potencialmente de una distribución de probabilidad diferente con varianza conocida , y todos tienen la misma media, una posible elección para los pesos está dada por el recíproco de la varianza: x i {\displaystyle x_{i}} σ i 2 {\displaystyle \sigma _{i}^{2}}

w i = 1 σ i 2 . {\displaystyle w_{i}={\frac {1}{\sigma _{i}^{2}}}.}

La media ponderada en este caso es:

x ¯ = i = 1 n ( x i σ i 2 ) i = 1 n 1 σ i 2 = i = 1 n ( x i w i ) i = 1 n w i , {\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}\left({\dfrac {x_{i}}{\sigma _{i}^{2}}}\right)}{\sum _{i=1}^{n}{\dfrac {1}{\sigma _{i}^{2}}}}}={\frac {\sum _{i=1}^{n}\left(x_{i}\cdot w_{i}\right)}{\sum _{i=1}^{n}w_{i}}},}

y el error estándar de la media ponderada (con ponderaciones de varianza inversa) es:

σ x ¯ = 1 i = 1 n σ i 2 = 1 i = 1 n w i , {\displaystyle \sigma _{\bar {x}}={\sqrt {\frac {1}{\sum _{i=1}^{n}\sigma _{i}^{-2}}}}={\sqrt {\frac {1}{\sum _{i=1}^{n}w_{i}}}},}

Tenga en cuenta que esto se reduce a cuando todos . Es un caso especial de la fórmula general de la sección anterior, σ x ¯ 2 = σ 0 2 / n {\displaystyle \sigma _{\bar {x}}^{2}=\sigma _{0}^{2}/n} σ i = σ 0 {\displaystyle \sigma _{i}=\sigma _{0}}

σ x ¯ 2 = i = 1 n w i 2 σ i 2 = i = 1 n σ i 4 σ i 2 ( i = 1 n σ i 2 ) 2 . {\displaystyle \sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}={\frac {\sum _{i=1}^{n}{\sigma _{i}^{-4}\sigma _{i}^{2}}}{\left(\sum _{i=1}^{n}\sigma _{i}^{-2}\right)^{2}}}.}

Las ecuaciones anteriores se pueden combinar para obtener:

x ¯ = σ x ¯ 2 i = 1 n x i σ i 2 . {\displaystyle {\bar {x}}=\sigma _{\bar {x}}^{2}\sum _{i=1}^{n}{\frac {x_{i}}{\sigma _{i}^{2}}}.}

La importancia de esta elección es que esta media ponderada es el estimador de máxima verosimilitud de la media de las distribuciones de probabilidad bajo el supuesto de que son independientes y se distribuyen normalmente con la misma media.

Propiedades estadísticas

Expectativa

La media ponderada de la muestra, , es en sí misma una variable aleatoria. Su valor esperado y desviación estándar están relacionados con los valores esperados y las desviaciones estándar de las observaciones, como se indica a continuación. Para simplificar, suponemos ponderaciones normalizadas (ponderaciones que suman uno). x ¯ {\displaystyle {\bar {x}}}

Si las observaciones tienen valores esperados , entonces la media ponderada de la muestra tiene expectativa. En particular, si las medias son iguales, entonces la expectativa de la media ponderada de la muestra será ese valor, E ( x i ) = μ i , {\displaystyle E(x_{i})={\mu _{i}},} E ( x ¯ ) = i = 1 n w i μ i . {\displaystyle E({\bar {x}})=\sum _{i=1}^{n}{w_{i}'\mu _{i}}.} μ i = μ {\displaystyle \mu _{i}=\mu } E ( x ¯ ) = μ . {\displaystyle E({\bar {x}})=\mu .}

Diferencia

Caso iid simple

Al tratar los pesos como constantes y tener una muestra de n observaciones de variables aleatorias no correlacionadas , todas con la misma varianza y expectativa (como es el caso de las variables aleatorias iid ), entonces la varianza de la media ponderada se puede estimar como la multiplicación de la varianza no ponderada por el efecto de diseño de Kish (ver prueba ):

Var ( y ¯ w ) = σ ^ y 2 w 2 ¯ w ¯ 2 {\displaystyle \operatorname {Var} ({\bar {y}}_{w})={\hat {\sigma }}_{y}^{2}{\frac {\overline {w^{2}}}{{\bar {w}}^{2}}}}

Con , , y σ ^ y 2 = i = 1 n ( y i y ¯ ) 2 n 1 {\displaystyle {\hat {\sigma }}_{y}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}{n-1}}} w ¯ = i = 1 n w i n {\displaystyle {\bar {w}}={\frac {\sum _{i=1}^{n}w_{i}}{n}}} w 2 ¯ = i = 1 n w i 2 n {\displaystyle {\overline {w^{2}}}={\frac {\sum _{i=1}^{n}w_{i}^{2}}{n}}}

Sin embargo, esta estimación es bastante limitada debido a la fuerte suposición sobre las observaciones y . Esto ha llevado al desarrollo de estimadores alternativos más generales.

Perspectiva de muestreo por encuesta

Desde una perspectiva basada en modelos , nos interesa estimar la varianza de la media ponderada cuando las variables no son aleatorias iid . Una perspectiva alternativa para este problema es la de un diseño de muestreo arbitrario de los datos en el que se seleccionan unidades con probabilidades desiguales (con reemplazo). [1] : 306  y i {\displaystyle y_{i}}

En la metodología de encuestas , la media poblacional, de alguna cantidad de interés y , se calcula tomando una estimación del total de y sobre todos los elementos de la población ( Y o, a veces, T ) y dividiéndola por el tamaño de la población, ya sea conocido ( ) o estimado ( ). En este contexto, cada valor de y se considera constante y la variabilidad proviene del procedimiento de selección. Esto en contraste con los enfoques "basados ​​en modelos" en los que la aleatoriedad a menudo se describe en los valores de y. El procedimiento de muestreo de encuestas produce una serie de valores indicadores de Bernoulli ( ) que obtienen 1 si alguna observación i está en la muestra y 0 si no fue seleccionada. Esto puede ocurrir con un tamaño de muestra fijo o un muestreo de tamaño de muestra variado (por ejemplo, muestreo de Poisson ). La probabilidad de que se elija algún elemento, dada una muestra, se denota como , y la probabilidad de selección de un solo sorteo es (si N es muy grande y cada uno es muy pequeño). Para la siguiente derivación, asumiremos que la probabilidad de seleccionar cada elemento está completamente representada por estas probabilidades. [2] : 42, 43, 51  Es decir: seleccionar un elemento no influirá en la probabilidad de extraer otro elemento (esto no se aplica a cosas como el diseño de muestreo por conglomerados ). N {\displaystyle N} N ^ {\displaystyle {\hat {N}}} I i {\displaystyle I_{i}} P ( I i = 1 Some sample of size  n ) = π i {\displaystyle P(I_{i}=1\mid {\text{Some sample of size }}n)=\pi _{i}} P ( I i = 1 | one sample draw ) = p i π i n {\displaystyle P(I_{i}=1|{\text{one sample draw}})=p_{i}\approx {\frac {\pi _{i}}{n}}} p i {\displaystyle p_{i}}

Como cada elemento ( ) es fijo y la aleatoriedad proviene de que esté incluido en la muestra o no ( ), a menudo hablamos de la multiplicación de los dos, que es una variable aleatoria. Para evitar confusiones en la siguiente sección, llamaremos a este término: . Con la siguiente expectativa: ; y varianza: . y i {\displaystyle y_{i}} I i {\displaystyle I_{i}} y i = y i I i {\displaystyle y'_{i}=y_{i}I_{i}} E [ y i ] = y i E [ I i ] = y i π i {\displaystyle E[y'_{i}]=y_{i}E[I_{i}]=y_{i}\pi _{i}} V [ y i ] = y i 2 V [ I i ] = y i 2 π i ( 1 π i ) {\displaystyle V[y'_{i}]=y_{i}^{2}V[I_{i}]=y_{i}^{2}\pi _{i}(1-\pi _{i})}

Cuando cada elemento de la muestra se infla por el inverso de su probabilidad de selección, se denomina valores y -expandidos , es decir: . Una cantidad relacionada son los valores y -expandidos : . [2] : 42, 43, 51, 52  Como arriba, podemos agregar una marca de verificación si se multiplica por la función indicadora. Es decir: π {\displaystyle \pi } y ˇ i = y i π i {\displaystyle {\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}} p {\displaystyle p} y i p i = n y ˇ i {\displaystyle {\frac {y_{i}}{p_{i}}}=n{\check {y}}_{i}} y ˇ i = I i y ˇ i = I i y i π i {\displaystyle {\check {y}}'_{i}=I_{i}{\check {y}}_{i}={\frac {I_{i}y_{i}}{\pi _{i}}}}

En esta perspectiva basada en el diseño , los pesos, utilizados en el numerador de la media ponderada, se obtienen al tomar la inversa de la probabilidad de selección (es decir: el factor de inflación). Es decir: . w i = 1 π i 1 n × p i {\displaystyle w_{i}={\frac {1}{\pi _{i}}}\approx {\frac {1}{n\times p_{i}}}}

Varianza de la suma ponderada (energía-estimador de totales)

Si se conoce el tamaño de la población N, podemos estimar la media de la población utilizando . Y ¯ ^ known  N = Y ^ p w r N i = 1 n w i y i N {\displaystyle {\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}\approx {\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}}

Si el diseño de muestreo es uno que da como resultado un tamaño de muestra fijo n (como en el muestreo pps ), entonces la varianza de este estimador es:

Var ( Y ¯ ^ known  N ) = 1 N 2 n n 1 i = 1 n ( w i y i w y ¯ ) 2 {\displaystyle \operatorname {Var} \left({\hat {\bar {Y}}}_{{\text{known }}N}\right)={\frac {1}{N^{2}}}{\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}}
Prueba

La fórmula general se puede desarrollar así:

Y ¯ ^ known  N = Y ^ p w r N = 1 n i = 1 n y i p i N i = 1 n y i π i N = i = 1 n w i y i N . {\displaystyle {\hat {\bar {Y}}}_{{\text{known }}N}={\frac {{\hat {Y}}_{pwr}}{N}}={\frac {{\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}}{N}}\approx {\frac {\sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}}{N}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{N}}.}

El total de la población se denota como y puede estimarse mediante el estimador (imparcial) de Horvitz–Thompson , también llamado estimador . Este estimador puede estimarse a su vez utilizando el estimador pwr (es decir: estimador expandido con reemplazo o estimador de "probabilidad con reemplazo"). Con la notación anterior, es: . [2] : 51  Y = i = 1 N y i {\displaystyle Y=\sum _{i=1}^{N}y_{i}} π {\displaystyle \pi } p {\displaystyle p} Y ^ p w r = 1 n i = 1 n y i p i = i = 1 n y i n p i i = 1 n y i π i = i = 1 n w i y i {\displaystyle {\hat {Y}}_{pwr}={\frac {1}{n}}\sum _{i=1}^{n}{\frac {y'_{i}}{p_{i}}}=\sum _{i=1}^{n}{\frac {y'_{i}}{np_{i}}}\approx \sum _{i=1}^{n}{\frac {y'_{i}}{\pi _{i}}}=\sum _{i=1}^{n}w_{i}y'_{i}}

La varianza estimada del estimador pwr viene dada por: [2] : 52  donde . Var ( Y ^ p w r ) = n n 1 i = 1 n ( w i y i w y ¯ ) 2 {\displaystyle \operatorname {Var} ({\hat {Y}}_{pwr})={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}} w y ¯ = i = 1 n w i y i n {\displaystyle {\overline {wy}}=\sum _{i=1}^{n}{\frac {w_{i}y_{i}}{n}}}

La fórmula anterior se tomó de Sarndal et al. (1992) (también presentada en Cochran 1977), pero se escribió de manera diferente. [2] : 52  [1] : 307 (11.35)  El lado izquierdo es cómo se escribió la varianza y el lado derecho es cómo hemos desarrollado la versión ponderada:

Var ( Y ^ pwr ) = 1 n 1 n 1 i = 1 n ( y i p i Y ^ p w r ) 2 = 1 n 1 n 1 i = 1 n ( n n y i p i n n i = 1 n w i y i ) 2 = 1 n 1 n 1 i = 1 n ( n y i π i n i = 1 n w i y i n ) 2 = n 2 n 1 n 1 i = 1 n ( w i y i w y ¯ ) 2 = n n 1 i = 1 n ( w i y i w y ¯ ) 2 {\displaystyle {\begin{aligned}\operatorname {Var} ({\hat {Y}}_{\text{pwr}})&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {y_{i}}{p_{i}}}-{\hat {Y}}_{pwr}\right)^{2}\\&={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left({\frac {n}{n}}{\frac {y_{i}}{p_{i}}}-{\frac {n}{n}}\sum _{i=1}^{n}w_{i}y_{i}\right)^{2}={\frac {1}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(n{\frac {y_{i}}{\pi _{i}}}-n{\frac {\sum _{i=1}^{n}w_{i}y_{i}}{n}}\right)^{2}\\&={\frac {n^{2}}{n}}{\frac {1}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\\&={\frac {n}{n-1}}\sum _{i=1}^{n}\left(w_{i}y_{i}-{\overline {wy}}\right)^{2}\end{aligned}}}

Y llegamos a la fórmula de arriba.

Un término alternativo, para cuando el muestreo tiene un tamaño de muestra aleatorio (como en el muestreo de Poisson ), se presenta en Sarndal et al. (1992) como: [2] : 182 

Var ( Y ¯ ^ pwr (known  N ) ) = 1 N 2 i = 1 n j = 1 n ( Δ ˇ i j y ˇ i y ˇ j ) {\displaystyle \operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)}

Con . Además, donde es la probabilidad de seleccionar tanto i como j. [2] : 36  Y , y para i=j: . [2] : 43  y ˇ i = y i π i {\displaystyle {\check {y}}_{i}={\frac {y_{i}}{\pi _{i}}}} C ( I i , I j ) = π i j π i π j = Δ i j {\displaystyle C(I_{i},I_{j})=\pi _{ij}-\pi _{i}\pi _{j}=\Delta _{ij}} π i j {\displaystyle \pi _{ij}} Δ ˇ i j = 1 π i π j π i j {\displaystyle {\check {\Delta }}_{ij}=1-{\frac {\pi _{i}\pi _{j}}{\pi _{ij}}}} Δ ˇ i i = 1 π i π i π i = 1 π i {\displaystyle {\check {\Delta }}_{ii}=1-{\frac {\pi _{i}\pi _{i}}{\pi _{i}}}=1-\pi _{i}}

Si las probabilidades de selección no están correlacionadas (es decir: ), y se supone que la probabilidad de cada elemento es muy pequeña, entonces: i j : C ( I i , I j ) = 0 {\displaystyle \forall i\neq j:C(I_{i},I_{j})=0}

Var ( Y ¯ ^ pwr (known  N ) ) = 1 N 2 i = 1 n ( w i y i ) 2 {\displaystyle \operatorname {Var} ({\hat {\bar {Y}}}_{{\text{pwr (known }}N{\text{)}}})={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}}
Prueba

Suponemos que y que ( 1 π i ) 1 {\displaystyle (1-\pi _{i})\approx 1} Var ( Y ^ pwr (known  N ) ) = 1 N 2 i = 1 n j = 1 n ( Δ ˇ i j y ˇ i y ˇ j ) = 1 N 2 i = 1 n ( Δ ˇ i i y ˇ i y ˇ i ) = 1 N 2 i = 1 n ( ( 1 π i ) y i π i y i π i ) = 1 N 2 i = 1 n ( w i y i ) 2 {\displaystyle {\begin{aligned}\operatorname {Var} ({\hat {Y}}_{{\text{pwr (known }}N{\text{)}}})&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\check {y}}_{i}{\check {y}}_{j}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left({\check {\Delta }}_{ii}{\check {y}}_{i}{\check {y}}_{i}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}}{\pi _{i}}}{\frac {y_{i}}{\pi _{i}}}\right)\\&={\frac {1}{N^{2}}}\sum _{i=1}^{n}\left(w_{i}y_{i}\right)^{2}\end{aligned}}}

Varianza de la media ponderada (π-estimador de razón-media)

La sección anterior trató sobre la estimación de la media de la población como una razón de un total de población estimado ( ) con un tamaño de población conocido ( ), y la varianza se estimó en ese contexto. Otro caso común es que el tamaño de la población en sí ( ) es desconocido y se estima utilizando la muestra (es decir: ). La estimación de se puede describir como la suma de pesos. Entonces, cuando obtenemos . Con la notación anterior, el parámetro que nos interesa es la razón de las sumas de s y 1s. Es decir: . Podemos estimarlo utilizando nuestra muestra con: . A medida que pasamos de usar N a usar n, en realidad sabemos que todas las variables indicadoras obtienen 1, por lo que simplemente podríamos escribir: . Este será el estimando para valores específicos de y y w, pero las propiedades estadísticas aparecen al incluir la variable indicadora . [2] : 162, 163, 176  Y ^ {\displaystyle {\hat {Y}}} N {\displaystyle N} N {\displaystyle N} N ^ {\displaystyle {\hat {N}}} N {\displaystyle N} w i = 1 π i {\displaystyle w_{i}={\frac {1}{\pi _{i}}}} N ^ = i = 1 n w i I i = i = 1 n I i π i = i = 1 n 1 ˇ i {\displaystyle {\hat {N}}=\sum _{i=1}^{n}w_{i}I_{i}=\sum _{i=1}^{n}{\frac {I_{i}}{\pi _{i}}}=\sum _{i=1}^{n}{\check {1}}'_{i}} y i {\displaystyle y_{i}} R = Y ¯ = i = 1 N y i π i i = 1 N 1 π i = i = 1 N y ˇ i i = 1 N 1 ˇ i = i = 1 N w i y i i = 1 N w i {\displaystyle R={\bar {Y}}={\frac {\sum _{i=1}^{N}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}_{i}}{\sum _{i=1}^{N}{\check {1}}_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y_{i}}{\sum _{i=1}^{N}w_{i}}}} R ^ = Y ¯ ^ = i = 1 N I i y i π i i = 1 N I i 1 π i = i = 1 N y ˇ i i = 1 N 1 ˇ i = i = 1 N w i y i i = 1 N w i 1 i = i = 1 n w i y i i = 1 n w i 1 i = y ¯ w {\displaystyle {\hat {R}}={\hat {\bar {Y}}}={\frac {\sum _{i=1}^{N}I_{i}{\frac {y_{i}}{\pi _{i}}}}{\sum _{i=1}^{N}I_{i}{\frac {1}{\pi _{i}}}}}={\frac {\sum _{i=1}^{N}{\check {y}}'_{i}}{\sum _{i=1}^{N}{\check {1}}'_{i}}}={\frac {\sum _{i=1}^{N}w_{i}y'_{i}}{\sum _{i=1}^{N}w_{i}1'_{i}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}={\bar {y}}_{w}} y ¯ w = i = 1 n w i y i i = 1 n w i {\displaystyle {\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y_{i}}{\sum _{i=1}^{n}w_{i}}}} y ¯ w = i = 1 n w i y i i = 1 n w i 1 i {\displaystyle {\bar {y}}_{w}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}1'_{i}}}}

Esto se llama estimador de razón y es aproximadamente imparcial para R. [2] : 182 

En este caso, la variabilidad de la razón depende de la variabilidad de las variables aleatorias tanto en el numerador como en el denominador, así como de su correlación. Dado que no existe una forma analítica cerrada para calcular esta varianza, se utilizan varios métodos para la estimación aproximada. Principalmente, la linealización de primer orden de la serie de Taylor , la asintótica y el bootstrap/jackknife. [2] : 172  El método de linealización de Taylor podría llevar a una subestimación de la varianza para tamaños de muestra pequeños en general, pero eso depende de la complejidad de la estadística. Para la media ponderada, se supone que la varianza aproximada es relativamente precisa incluso para tamaños de muestra medianos. [2] : 176  Para cuando el muestreo tiene un tamaño de muestra aleatorio (como en el muestreo de Poisson ), es como sigue: [2] : 182 

V ( y ¯ w ) ^ = 1 ( i = 1 n w i ) 2 i = 1 n w i 2 ( y i y ¯ w ) 2 {\displaystyle {\widehat {V({\bar {y}}_{w})}}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}} .

Si , entonces, ya sea utilizando o obtendríamos el mismo estimador, ya que multiplicar por algún factor daría como resultado el mismo estimador. Esto también significa que si escalamos la suma de pesos para que sea igual a un tamaño de población conocido de antemano N , el cálculo de la varianza sería el mismo. Cuando todos los pesos son iguales entre sí, esta fórmula se reduce al estimador de varianza insesgado estándar. π i p i n {\displaystyle \pi _{i}\approx p_{i}n} w i = 1 π i {\displaystyle w_{i}={\frac {1}{\pi _{i}}}} w i = 1 p i {\displaystyle w_{i}={\frac {1}{p_{i}}}} w i {\displaystyle w_{i}}

Prueba

La linealización de Taylor establece que, para un estimador de razón general de dos sumas ( ), se pueden expandir alrededor del valor verdadero R y dar: [2] : 178  R ^ = Y ^ Z ^ {\displaystyle {\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}}

R ^ = Y ^ Z ^ = i = 1 n w i y i i = 1 n w i z i R + 1 Z i = 1 n ( y i π i R z i π i ) {\displaystyle {\hat {R}}={\frac {\hat {Y}}{\hat {Z}}}={\frac {\sum _{i=1}^{n}w_{i}y'_{i}}{\sum _{i=1}^{n}w_{i}z'_{i}}}\approx R+{\frac {1}{Z}}\sum _{i=1}^{n}\left({\frac {y'_{i}}{\pi _{i}}}-R{\frac {z'_{i}}{\pi _{i}}}\right)}

Y la varianza se puede aproximar por: [2] : 178, 179 

V ( R ^ ) ^ = 1 Z ^ 2 i = 1 n j = 1 n ( Δ ˇ i j y i R ^ z i π i y j R ^ z j π j ) = 1 Z ^ 2 [ V ( Y ^ ) ^ + R ^ V ( Z ^ ) ^ 2 R ^ C ^ ( Y ^ , Z ^ ) ] {\displaystyle {\widehat {V({\hat {R}})}}={\frac {1}{{\hat {Z}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\hat {R}}z_{i}}{\pi _{i}}}{\frac {y_{j}-{\hat {R}}z_{j}}{\pi _{j}}}\right)={\frac {1}{{\hat {Z}}^{2}}}\left[{\widehat {V({\hat {Y}})}}+{\hat {R}}{\widehat {V({\hat {Z}})}}-2{\hat {R}}{\hat {C}}({\hat {Y}},{\hat {Z}})\right]} .

El término es la covarianza estimada entre la suma estimada de Y y la suma estimada de Z. Dado que se trata de la covarianza de dos sumas de variables aleatorias , incluiría muchas combinaciones de covarianzas que dependerán de las variables indicadoras. Si la probabilidad de selección no está correlacionada (es decir: ), este término incluiría una suma de n covarianzas para cada elemento i entre y . Esto ayuda a ilustrar que esta fórmula incorpora el efecto de la correlación entre y y z en la varianza de los estimadores de razón. C ^ ( Y ^ , Z ^ ) {\displaystyle {\hat {C}}({\hat {Y}},{\hat {Z}})} i j : Δ i j = C ( I i , I j ) = 0 {\displaystyle \forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0} y i = I i y i {\displaystyle y'_{i}=I_{i}y_{i}} z i = I i z i {\displaystyle z'_{i}=I_{i}z_{i}}

Al definir lo anterior se convierte en: [2] : 182  z i = 1 {\displaystyle z_{i}=1}

V ( R ^ ) ^ = V ( y ¯ w ) ^ = 1 N ^ 2 i = 1 n j = 1 n ( Δ ˇ i j y i y ¯ w π i y j y ¯ w π j ) . {\displaystyle {\widehat {V({\hat {R}})}}={\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}\left({\check {\Delta }}_{ij}{\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}{\frac {y_{j}-{\bar {y}}_{w}}{\pi _{j}}}\right).}

Si las probabilidades de selección no están correlacionadas (es decir: ), y cuando se supone que la probabilidad de cada elemento es muy pequeña (es decir: ), entonces lo anterior se reduce a lo siguiente: i j : Δ i j = C ( I i , I j ) = 0 {\displaystyle \forall i\neq j:\Delta _{ij}=C(I_{i},I_{j})=0} ( 1 π i ) 1 {\displaystyle (1-\pi _{i})\approx 1} V ( y ¯ w ) ^ = 1 N ^ 2 i = 1 n ( ( 1 π i ) y i y ¯ w π i ) 2 = 1 ( i = 1 n w i ) 2 i = 1 n w i 2 ( y i y ¯ w ) 2 . {\displaystyle {\widehat {V({\bar {y}}_{w})}}={\frac {1}{{\hat {N}}^{2}}}\sum _{i=1}^{n}\left((1-\pi _{i}){\frac {y_{i}-{\bar {y}}_{w}}{\pi _{i}}}\right)^{2}={\frac {1}{(\sum _{i=1}^{n}w_{i})^{2}}}\sum _{i=1}^{n}w_{i}^{2}(y_{i}-{\bar {y}}_{w})^{2}.}

Thomas Lumley proporcionó una recreación similar de la prueba (con algunos errores al final) en crossvalidated. [3]

Tenemos (al menos) dos versiones de varianza para la media ponderada: una con estimación de tamaño de población conocido y otra con estimación de tamaño de población desconocido. No hay un enfoque uniformemente mejor, pero la literatura presenta varios argumentos para preferir usar la versión de estimación de población (incluso cuando se conoce el tamaño de la población). [2] : 188  Por ejemplo: si todos los valores de y son constantes, el estimador con tamaño de población desconocido dará el resultado correcto, mientras que el que tiene tamaño de población conocido tendrá cierta variabilidad. Además, cuando el tamaño de la muestra en sí es aleatorio (por ejemplo: en el muestreo de Poisson ), la versión con media de población desconocida se considera más estable. Por último, si la proporción de muestreo está correlacionada negativamente con los valores (es decir: menor probabilidad de muestrear una observación que es grande), entonces la versión de tamaño de población desconocido compensa ligeramente eso.

Para el caso trivial en el que todos los pesos son iguales a 1, la fórmula anterior es como la fórmula regular para la varianza de la media (pero observe que utiliza el estimador de máxima verosimilitud para la varianza en lugar de la varianza insesgada, es decir: dividiéndola por n en lugar de (n-1)).

Validación de arranque

Gatz et al. (1995) han demostrado que, en comparación con los métodos bootstrap , la siguiente (estimación de la varianza de la relación-media utilizando la linealización de la serie de Taylor ) es una estimación razonable para el cuadrado del error estándar de la media (cuando se utiliza en el contexto de la medición de componentes químicos): [4] : 1186 

σ x ¯ w 2 ^ = n ( n 1 ) ( n w ¯ ) 2 [ ( w i x i w ¯ x ¯ w ) 2 2 x ¯ w ( w i w ¯ ) ( w i x i w ¯ x ¯ w ) + x ¯ w 2 ( w i w ¯ ) 2 ] {\displaystyle {\widehat {\sigma _{{\bar {x}}_{w}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\left[\sum (w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})^{2}-2{\bar {x}}_{w}\sum (w_{i}-{\bar {w}})(w_{i}x_{i}-{\bar {w}}{\bar {x}}_{w})+{\bar {x}}_{w}^{2}\sum (w_{i}-{\bar {w}})^{2}\right]}

donde . Una simplificación adicional conduce a w ¯ = w i n {\displaystyle {\bar {w}}={\frac {\sum w_{i}}{n}}}

σ x ¯ 2 ^ = n ( n 1 ) ( n w ¯ ) 2 w i 2 ( x i x ¯ w ) 2 {\displaystyle {\widehat {\sigma _{\bar {x}}^{2}}}={\frac {n}{(n-1)(n{\bar {w}})^{2}}}\sum w_{i}^{2}(x_{i}-{\bar {x}}_{w})^{2}}

Gatz et al. mencionan que la formulación anterior fue publicada por Endlich et al. (1988) al tratar la media ponderada como una combinación de un estimador total ponderado dividido por un estimador del tamaño de la población, [5] basándose en la formulación publicada por Cochran (1977), como una aproximación a la media de la razón. Sin embargo, Endlich et al. no parece publicar esta derivación en su artículo (aunque mencionan que la usaron), y el libro de Cochran incluye una formulación ligeramente diferente. [1] : 155  Aun así, es casi idéntica a las formulaciones descritas en las secciones anteriores.

Estimadores basados ​​en replicación

Debido a que no existe una forma analítica cerrada para la varianza de la media ponderada, se propuso en la literatura confiar en métodos de replicación como Jackknife y Bootstrapping . [1] : 321 

Otras notas

Para las observaciones no correlacionadas con varianzas , la varianza de la media ponderada de la muestra es [ cita requerida ] σ i 2 {\displaystyle \sigma _{i}^{2}}

σ x ¯ 2 = i = 1 n w i 2 σ i 2 {\displaystyle \sigma _{\bar {x}}^{2}=\sum _{i=1}^{n}{w_{i}'^{2}\sigma _{i}^{2}}}

cuya raíz cuadrada puede llamarse el error estándar de la media ponderada (caso general) . [ cita requerida ] σ x ¯ {\displaystyle \sigma _{\bar {x}}}

En consecuencia, si todas las observaciones tienen varianza igual, , la media ponderada de la muestra tendrá varianza σ i 2 = σ 0 2 {\displaystyle \sigma _{i}^{2}=\sigma _{0}^{2}}

σ x ¯ 2 = σ 0 2 i = 1 n w i 2 , {\displaystyle \sigma _{\bar {x}}^{2}=\sigma _{0}^{2}\sum _{i=1}^{n}{w_{i}'^{2}},}

donde . La varianza alcanza su valor máximo, , cuando todos los pesos excepto uno son cero. Su valor mínimo se encuentra cuando todos los pesos son iguales (es decir, media no ponderada), en cuyo caso tenemos , es decir, degenera en el error estándar de la media , al cuadrado. 1 / n i = 1 n w i 2 1 {\textstyle 1/n\leq \sum _{i=1}^{n}{w_{i}'^{2}}\leq 1} σ 0 2 {\displaystyle \sigma _{0}^{2}} σ x ¯ = σ 0 / n {\textstyle \sigma _{\bar {x}}=\sigma _{0}/{\sqrt {n}}}

Dado que siempre se pueden transformar pesos no normalizados en pesos normalizados, todas las fórmulas de esta sección se pueden adaptar a pesos no normalizados reemplazando todos los . w i = w i i = 1 n w i {\displaystyle w_{i}'={\frac {w_{i}}{\sum _{i=1}^{n}{w_{i}}}}}

Varianza de muestra ponderada

Por lo general, cuando se calcula una media, es importante conocer la varianza y la desviación estándar de esa media. Cuando se utiliza una media ponderada, la varianza de la muestra ponderada es diferente de la varianza de la muestra no ponderada. μ {\displaystyle \mu ^{*}}

La varianza de muestra ponderada sesgada se define de manera similar a la varianza de muestra sesgada normal : σ ^ w 2 {\displaystyle {\hat {\sigma }}_{\mathrm {w} }^{2}} σ ^ 2 {\displaystyle {\hat {\sigma }}^{2}}

σ ^ 2   = i = 1 N ( x i μ ) 2 N σ ^ w 2 = i = 1 N w i ( x i μ ) 2 i = 1 N w i {\displaystyle {\begin{aligned}{\hat {\sigma }}^{2}\ &={\frac {\sum \limits _{i=1}^{N}\left(x_{i}-\mu \right)^{2}}{N}}\\{\hat {\sigma }}_{\mathrm {w} }^{2}&={\frac {\sum \limits _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}{\sum _{i=1}^{N}w_{i}}}\end{aligned}}}

donde para pesos normalizados. Si los pesos son pesos de frecuencia (y por lo tanto son variables aleatorias), se puede demostrar [ cita requerida ] que es el estimador de máxima verosimilitud de para observaciones gaussianas iid . i = 1 N w i = 1 {\displaystyle \sum _{i=1}^{N}w_{i}=1} σ ^ w 2 {\displaystyle {\hat {\sigma }}_{\mathrm {w} }^{2}} σ 2 {\displaystyle \sigma ^{2}}

En el caso de muestras pequeñas, se acostumbra a utilizar un estimador insesgado para la varianza de la población. En muestras normales no ponderadas, la N en el denominador (que corresponde al tamaño de la muestra) se cambia a N  − 1 (véase la corrección de Bessel ). En el caso de muestras ponderadas, en realidad hay dos estimadores insesgados diferentes, uno para el caso de ponderaciones de frecuencia y otro para el caso de ponderaciones de confiabilidad .

Pesos de frecuencia

Si los pesos son pesos de frecuencia (donde un peso es igual al número de ocurrencias), entonces el estimador imparcial es:

s 2   = i = 1 N w i ( x i μ ) 2 i = 1 N w i 1 {\displaystyle s^{2}\ ={\frac {\sum \limits _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}{\sum _{i=1}^{N}w_{i}-1}}}

Esto aplica efectivamente la corrección de Bessel para pesos de frecuencia.

Por ejemplo, si los valores se extraen de la misma distribución, entonces podemos tratar este conjunto como una muestra no ponderada, o podemos tratarlo como una muestra ponderada con pesos correspondientes , y obtenemos el mismo resultado de cualquier manera. { 2 , 2 , 4 , 5 , 5 , 5 } {\displaystyle \{2,2,4,5,5,5\}} { 2 , 4 , 5 } {\displaystyle \{2,4,5\}} { 2 , 1 , 3 } {\displaystyle \{2,1,3\}}

Si los pesos de frecuencia se normalizan a 1, entonces la expresión correcta después de la corrección de Bessel se convierte en { w i } {\displaystyle \{w_{i}\}}

s 2   = i = 1 N w i i = 1 N w i 1 i = 1 N w i ( x i μ ) 2 {\displaystyle s^{2}\ ={\frac {\sum _{i=1}^{N}w_{i}}{\sum _{i=1}^{N}w_{i}-1}}\sum _{i=1}^{N}w_{i}\left(x_{i}-\mu ^{*}\right)^{2}}

donde el número total de muestras es (no ). En cualquier caso, la información sobre el número total de muestras es necesaria para obtener una corrección no sesgada, incluso si tiene un significado diferente al de ponderación de frecuencia. i = 1 N w i {\displaystyle \sum _{i=1}^{N}w_{i}} N {\displaystyle N} w i {\displaystyle w_{i}}

El estimador puede ser imparcial solo si los pesos no están estandarizados ni normalizados ; estos procesos cambian la media y la varianza de los datos y conducen así a una pérdida de la tasa base (el recuento de la población, que es un requisito para la corrección de Bessel).

Pesos de confiabilidad

Si, en cambio, los pesos no son aleatorios ( pesos de confiabilidad [ se necesita una definición ] ), podemos determinar un factor de corrección para obtener un estimador imparcial. Suponiendo que cada variable aleatoria se muestrea de la misma distribución con media y varianza real , tomando las expectativas que tenemos, μ {\displaystyle \mu } σ actual 2 {\displaystyle \sigma _{\text{actual}}^{2}}

E [ σ ^ 2 ] = i = 1 N E [ ( x i μ ) 2 ] N = E [ ( X E [ X ] ) 2 ] 1 N E [ ( X E [ X ] ) 2 ] = ( N 1 N ) σ actual 2 E [ σ ^ w 2 ] = i = 1 N w i E [ ( x i μ ) 2 ] V 1 = E [ ( X E [ X ] ) 2 ] V 2 V 1 2 E [ ( X E [ X ] ) 2 ] = ( 1 V 2 V 1 2 ) σ actual 2 {\displaystyle {\begin{aligned}\operatorname {E} [{\hat {\sigma }}^{2}]&={\frac {\sum \limits _{i=1}^{N}\operatorname {E} [(x_{i}-\mu )^{2}]}{N}}\\&=\operatorname {E} [(X-\operatorname {E} [X])^{2}]-{\frac {1}{N}}\operatorname {E} [(X-\operatorname {E} [X])^{2}]\\&=\left({\frac {N-1}{N}}\right)\sigma _{\text{actual}}^{2}\\\operatorname {E} [{\hat {\sigma }}_{\mathrm {w} }^{2}]&={\frac {\sum \limits _{i=1}^{N}w_{i}\operatorname {E} [(x_{i}-\mu ^{*})^{2}]}{V_{1}}}\\&=\operatorname {E} [(X-\operatorname {E} [X])^{2}]-{\frac {V_{2}}{V_{1}^{2}}}\operatorname {E} [(X-\operatorname {E} [X])^{2}]\\&=\left(1-{\frac {V_{2}}{V_{1}^{2}}}\right)\sigma _{\text{actual}}^{2}\end{aligned}}}

donde y . Por lo tanto, el sesgo en nuestro estimador es , análogo al sesgo en el estimador no ponderado (observe también que es el tamaño de muestra efectivo ). Esto significa que para eliminar el sesgo de nuestro estimador, necesitamos dividir previamente por , lo que garantiza que el valor esperado de la varianza estimada sea igual a la varianza real de la distribución de muestreo. V 1 = i = 1 N w i {\displaystyle V_{1}=\sum _{i=1}^{N}w_{i}} V 2 = i = 1 N w i 2 {\displaystyle V_{2}=\sum _{i=1}^{N}w_{i}^{2}} ( 1 V 2 V 1 2 ) {\displaystyle \left(1-{\frac {V_{2}}{V_{1}^{2}}}\right)} ( N 1 N ) {\displaystyle \left({\frac {N-1}{N}}\right)}   V 1 2 / V 2 = N e f f {\displaystyle \ V_{1}^{2}/V_{2}=N_{eff}} 1 ( V 2 / V 1 2 ) {\displaystyle 1-\left(V_{2}/V_{1}^{2}\right)}

La estimación final imparcial de la varianza de la muestra es:

s w 2   = σ ^ w 2 1 ( V 2 / V 1 2 ) = i = 1 N w i ( x i μ ) 2 V 1 ( V 2 / V 1 ) , {\displaystyle {\begin{aligned}s_{\mathrm {w} }^{2}\ &={\frac {{\hat {\sigma }}_{\mathrm {w} }^{2}}{1-(V_{2}/V_{1}^{2})}}\\[4pt]&={\frac {\sum \limits _{i=1}^{N}w_{i}(x_{i}-\mu ^{*})^{2}}{V_{1}-(V_{2}/V_{1})}},\end{aligned}}} [6]

dónde . E [ s w 2 ] = σ actual 2 {\displaystyle \operatorname {E} [s_{\mathrm {w} }^{2}]=\sigma _{\text{actual}}^{2}}

Los grados de libertad de la varianza muestral ponderada e imparcial varían en consecuencia desde N  − 1 hasta 0.

La desviación estándar es simplemente la raíz cuadrada de la varianza anterior.

Como nota al margen, se han descrito otros enfoques para calcular la varianza de la muestra ponderada. [7]

Covarianza de muestra ponderada

En una muestra ponderada, a cada vector de fila (cada conjunto de observaciones individuales en cada una de las K variables aleatorias) se le asigna un peso . x i {\displaystyle \mathbf {x} _{i}} w i 0 {\displaystyle w_{i}\geq 0}

Entonces el vector de media ponderada viene dado por μ {\displaystyle \mathbf {\mu ^{*}} }

μ = i = 1 N w i x i i = 1 N w i . {\displaystyle \mathbf {\mu ^{*}} ={\frac {\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}}{\sum _{i=1}^{N}w_{i}}}.}

Y la matriz de covarianza ponderada viene dada por: [8]

C = i = 1 N w i ( x i μ ) T ( x i μ ) V 1 . {\displaystyle \mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}}}.}

De manera similar a la varianza de muestra ponderada, existen dos estimadores imparciales diferentes según el tipo de ponderaciones.

Pesos de frecuencia

Si los pesos son pesos de frecuencia , la estimación ponderada no sesgada de la matriz de covarianza , con la corrección de Bessel, viene dada por: [8] C {\displaystyle \textstyle \mathbf {C} }

C = i = 1 N w i ( x i μ ) T ( x i μ ) V 1 1 . {\displaystyle \mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}-1}}.}

Este estimador puede ser imparcial solo si los pesos no están estandarizados ni normalizados ; estos procesos cambian la media y la varianza de los datos y conducen así a una pérdida de la tasa base (el recuento de la población, que es un requisito para la corrección de Bessel).

Pesos de confiabilidad

En el caso de los pesos de confiabilidad , los pesos se normalizan :

V 1 = i = 1 N w i = 1. {\displaystyle V_{1}=\sum _{i=1}^{N}w_{i}=1.}

(Si no es así, divida los pesos por su suma para normalizar antes de calcular : V 1 {\displaystyle V_{1}}

w i = w i i = 1 N w i {\displaystyle w_{i}'={\frac {w_{i}}{\sum _{i=1}^{N}w_{i}}}}

Luego, el vector de media ponderada se puede simplificar a μ {\displaystyle \mathbf {\mu ^{*}} }

μ = i = 1 N w i x i . {\displaystyle \mathbf {\mu ^{*}} =\sum _{i=1}^{N}w_{i}\mathbf {x} _{i}.}

y la estimación ponderada no sesgada de la matriz de covarianza es: [9] C {\displaystyle \mathbf {C} }

C = i = 1 N w i ( i = 1 N w i ) 2 i = 1 N w i 2 i = 1 N w i ( x i μ ) T ( x i μ ) = i = 1 N w i ( x i μ ) T ( x i μ ) V 1 ( V 2 / V 1 ) . {\displaystyle {\begin{aligned}\mathbf {C} &={\frac {\sum _{i=1}^{N}w_{i}}{\left(\sum _{i=1}^{N}w_{i}\right)^{2}-\sum _{i=1}^{N}w_{i}^{2}}}\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)\\&={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{V_{1}-(V_{2}/V_{1})}}.\end{aligned}}}

El razonamiento aquí es el mismo que en la sección anterior.

Dado que suponemos que los pesos están normalizados, entonces esto se reduce a: V 1 = 1 {\displaystyle V_{1}=1}

C = i = 1 N w i ( x i μ ) T ( x i μ ) 1 V 2 . {\displaystyle \mathbf {C} ={\frac {\sum _{i=1}^{N}w_{i}\left(\mathbf {x} _{i}-\mu ^{*}\right)^{T}\left(\mathbf {x} _{i}-\mu ^{*}\right)}{1-V_{2}}}.}

Si todos los pesos son iguales, es decir , entonces la media ponderada y la covarianza se reducen a la media y la covarianza de la muestra no ponderada anteriores. w i / V 1 = 1 / N {\displaystyle w_{i}/V_{1}=1/N}

Estimaciones con valores vectoriales

Lo anterior se puede generalizar fácilmente al caso de tomar la media de estimaciones con valores vectoriales. Por ejemplo, las estimaciones de posición en un plano pueden tener menos certeza en una dirección que en otra. Como en el caso escalar, la media ponderada de múltiples estimaciones puede proporcionar una estimación de máxima verosimilitud . Simplemente reemplazamos la varianza por la matriz de covarianza y la inversa aritmética por la inversa de la matriz (ambas denotadas de la misma manera, mediante superíndices); la matriz de ponderación entonces se lee: [10] σ 2 {\displaystyle \sigma ^{2}} C {\displaystyle \mathbf {C} }

W i = C i 1 . {\displaystyle \mathbf {W} _{i}=\mathbf {C} _{i}^{-1}.}

La media ponderada en este caso es: (donde el orden del producto matriz-vector no es conmutativo ), en términos de la covarianza de la media ponderada: x ¯ = C x ¯ ( i = 1 n W i x i ) , {\displaystyle {\bar {\mathbf {x} }}=\mathbf {C} _{\bar {\mathbf {x} }}\left(\sum _{i=1}^{n}\mathbf {W} _{i}\mathbf {x} _{i}\right),} C x ¯ = ( i = 1 n W i ) 1 , {\displaystyle \mathbf {C} _{\bar {\mathbf {x} }}=\left(\sum _{i=1}^{n}\mathbf {W} _{i}\right)^{-1},}

Por ejemplo, considere la media ponderada del punto [1 0] con alta varianza en el segundo componente y [0 1] con alta varianza en el primer componente.

x 1 := [ 1 0 ] , C 1 := [ 1 0 0 100 ] {\displaystyle \mathbf {x} _{1}:={\begin{bmatrix}1&0\end{bmatrix}}^{\top },\qquad \mathbf {C} _{1}:={\begin{bmatrix}1&0\\0&100\end{bmatrix}}}
x 2 := [ 0 1 ] , C 2 := [ 100 0 0 1 ] {\displaystyle \mathbf {x} _{2}:={\begin{bmatrix}0&1\end{bmatrix}}^{\top },\qquad \mathbf {C} _{2}:={\begin{bmatrix}100&0\\0&1\end{bmatrix}}}

entonces la media ponderada es:

x ¯ = ( C 1 1 + C 2 1 ) 1 ( C 1 1 x 1 + C 2 1 x 2 ) = [ 0.9901 0 0 0.9901 ] [ 1 1 ] = [ 0.9901 0.9901 ] {\displaystyle {\begin{aligned}{\bar {\mathbf {x} }}&=\left(\mathbf {C} _{1}^{-1}+\mathbf {C} _{2}^{-1}\right)^{-1}\left(\mathbf {C} _{1}^{-1}\mathbf {x} _{1}+\mathbf {C} _{2}^{-1}\mathbf {x} _{2}\right)\\[5pt]&={\begin{bmatrix}0.9901&0\\0&0.9901\end{bmatrix}}{\begin{bmatrix}1\\1\end{bmatrix}}={\begin{bmatrix}0.9901\\0.9901\end{bmatrix}}\end{aligned}}}

lo cual tiene sentido: la estimación [1 0] es "compatible" en el segundo componente y la estimación [0 1] es compatible en el primer componente, por lo que la media ponderada es casi [1 1].

Contabilización de las correlaciones

En el caso general, supongamos que , es la matriz de covarianza que relaciona las cantidades , es la media común que se va a estimar y es una matriz de diseño igual a un vector de unos (de longitud ). El teorema de Gauss-Markov establece que la estimación de la media que tiene una varianza mínima viene dada por: X = [ x 1 , , x n ] T {\displaystyle \mathbf {X} =[x_{1},\dots ,x_{n}]^{T}} C {\displaystyle \mathbf {C} } x i {\displaystyle x_{i}} x ¯ {\displaystyle {\bar {x}}} J {\displaystyle \mathbf {J} } [ 1 , , 1 ] T {\displaystyle [1,\dots ,1]^{T}} n {\displaystyle n}

σ x ¯ 2 = ( J T W J ) 1 , {\displaystyle \sigma _{\bar {x}}^{2}=(\mathbf {J} ^{T}\mathbf {W} \mathbf {J} )^{-1},}

y

x ¯ = σ x ¯ 2 ( J T W X ) , {\displaystyle {\bar {x}}=\sigma _{\bar {x}}^{2}(\mathbf {J} ^{T}\mathbf {W} \mathbf {X} ),}

dónde:

W = C 1 . {\displaystyle \mathbf {W} =\mathbf {C} ^{-1}.}

Disminución de la fuerza de las interacciones

Considere la serie temporal de una variable independiente y una variable dependiente , con observaciones muestreadas en momentos discretos . En muchas situaciones comunes, el valor de en el momento depende no solo de , sino también de sus valores pasados. Comúnmente, la fuerza de esta dependencia disminuye a medida que aumenta la separación de las observaciones en el tiempo. Para modelar esta situación, se puede reemplazar la variable independiente por su media móvil para un tamaño de ventana . x {\displaystyle x} y {\displaystyle y} n {\displaystyle n} t i {\displaystyle t_{i}} y {\displaystyle y} t i {\displaystyle t_{i}} x i {\displaystyle x_{i}} z {\displaystyle z} m {\displaystyle m}

z k = i = 1 m w i x k + 1 i . {\displaystyle z_{k}=\sum _{i=1}^{m}w_{i}x_{k+1-i}.}

Pesos decrecientes exponencialmente

En el escenario descrito en la sección anterior, la disminución más frecuente de la fuerza de interacción obedece a una ley exponencial negativa. Si las observaciones se muestrean en momentos equidistantes, entonces la disminución exponencial es equivalente a una disminución en una fracción constante en cada paso de tiempo. Podemos definir pesos normalizados mediante 0 < Δ < 1 {\displaystyle 0<\Delta <1} w = 1 Δ {\displaystyle w=1-\Delta } m {\displaystyle m}

w i = w i 1 V 1 , {\displaystyle w_{i}={\frac {w^{i-1}}{V_{1}}},}

donde es la suma de los pesos no normalizados. En este caso es simplemente V 1 {\displaystyle V_{1}} V 1 {\displaystyle V_{1}}

V 1 = i = 1 m w i 1 = 1 w m 1 w , {\displaystyle V_{1}=\sum _{i=1}^{m}{w^{i-1}}={\frac {1-w^{m}}{1-w}},}

aproximándose para valores grandes de . V 1 = 1 / ( 1 w ) {\displaystyle V_{1}=1/(1-w)} m {\displaystyle m}

La constante de amortiguamiento debe corresponder a la disminución real de la fuerza de interacción. Si esto no se puede determinar a partir de consideraciones teóricas, entonces las siguientes propiedades de pesos que disminuyen exponencialmente son útiles para hacer una elección adecuada: en el paso , el peso es aproximadamente igual a , el área de la cola el valor , el área de la cabeza . El área de la cola en el paso es . Cuando las observaciones más cercanas importan principalmente y el efecto de las observaciones restantes se puede ignorar de manera segura, entonces elija de manera que el área de la cola sea suficientemente pequeña. w {\displaystyle w} ( 1 w ) 1 {\displaystyle (1-w)^{-1}} e 1 ( 1 w ) = 0.39 ( 1 w ) {\displaystyle {e^{-1}}(1-w)=0.39(1-w)} e 1 {\displaystyle e^{-1}} 1 e 1 = 0.61 {\displaystyle {1-e^{-1}}=0.61} n {\displaystyle n} e n ( 1 w ) {\displaystyle \leq {e^{-n(1-w)}}} n {\displaystyle n} w {\displaystyle w}

Promedios ponderados de funciones

El concepto de promedio ponderado se puede extender a las funciones. [11] Los promedios ponderados de funciones juegan un papel importante en los sistemas de cálculo diferencial e integral ponderado. [12]

Corrección de la sobre o subdispersión

Las medias ponderadas se utilizan normalmente para encontrar la media ponderada de datos históricos, en lugar de datos generados teóricamente. En este caso, habrá algún error en la varianza de cada punto de datos. Normalmente, los errores experimentales pueden subestimarse debido a que el experimentador no tiene en cuenta todas las fuentes de error al calcular la varianza de cada punto de datos. En este caso, la varianza en la media ponderada debe corregirse para tener en cuenta el hecho de que es demasiado grande. La corrección que debe realizarse es χ 2 {\displaystyle \chi ^{2}}

σ ^ x ¯ 2 = σ x ¯ 2 χ ν 2 {\displaystyle {\hat {\sigma }}_{\bar {x}}^{2}=\sigma _{\bar {x}}^{2}\chi _{\nu }^{2}}

¿Dónde está el chi-cuadrado reducido ? χ ν 2 {\displaystyle \chi _{\nu }^{2}}

χ ν 2 = 1 ( n 1 ) i = 1 n ( x i x ¯ ) 2 σ i 2 ; {\displaystyle \chi _{\nu }^{2}={\frac {1}{(n-1)}}\sum _{i=1}^{n}{\frac {(x_{i}-{\bar {x}})^{2}}{\sigma _{i}^{2}}};}

La raíz cuadrada puede denominarse error estándar de la media ponderada (pesos de varianza, corregidos por escala) . σ ^ x ¯ {\displaystyle {\hat {\sigma }}_{\bar {x}}}

Cuando todas las varianzas de los datos son iguales, , se cancelan en la varianza media ponderada, , que a su vez se reduce al error estándar de la media (al cuadrado), , formulado en términos de la desviación estándar de la muestra (al cuadrado), σ i = σ 0 {\displaystyle \sigma _{i}=\sigma _{0}} σ x ¯ 2 {\displaystyle \sigma _{\bar {x}}^{2}} σ x ¯ 2 = σ 2 / n {\displaystyle \sigma _{\bar {x}}^{2}=\sigma ^{2}/n}

σ 2 = i = 1 n ( x i x ¯ ) 2 n 1 . {\displaystyle \sigma ^{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}{n-1}}.}

Véase también

Notas

  1. ^ Técnicamente, se pueden utilizar números negativos si todos los valores son cero o negativos. Sin embargo, esto no cumple ninguna función, ya que los pesos funcionan como valores absolutos .

Referencias

  1. ^ abcd Cochran, WG (1977). Técnicas de muestreo (3.ª ed.). Nashville, TN: John Wiley & Sons. ISBN  978-0-471-16240-7
  2. ^ abcdefghijklmnopq Carl-Erik Sarndal; Bengt Swensson; Jan Wretman (1992). Muestreo de encuestas asistido por modelos . ISBN 978-0-387-97528-3.
  3. ^ Thomas Lumley (https://stats.stackexchange.com/users/249135/thomas-lumley), ¿Cómo estimar la varianza (aproximada) de la media ponderada?, URL (versión: 2021-06-08): https://stats.stackexchange.com/q/525770
  4. ^ Gatz, Donald F.; Smith, Luther (junio de 1995). "El error estándar de una concentración media ponderada: I. Bootstrapping frente a otros métodos". Atmospheric Environment . 29 (11): 1185–1193. Bibcode :1995AtmEn..29.1185G. doi :10.1016/1352-2310(94)00210-C.- enlace pdf
  5. ^ Endlich, RM; Eymon, BP; Ferek, RJ; Valdes, AD; Maxwell, C. (1988-12-01). "Análisis estadístico de las mediciones de la química de la precipitación en el este de los Estados Unidos. Parte I: Patrones y correlaciones estacionales y regionales". Journal of Applied Meteorology and Climatology . 27 (12): 1322–1333. Bibcode :1988JApMe..27.1322E. doi : 10.1175/1520-0450(1988)027<1322:SAOPCM>2.0.CO;2 .
  6. ^ "Biblioteca científica GNU – Manual de referencia: muestras ponderadas". Gnu.org . Consultado el 22 de diciembre de 2017 .
  7. ^ "Error estándar ponderado y su impacto en las pruebas de significancia (WinCross vs. Quantum y SPSS), Dr. Albert Madansky" (PDF) . Analyticalgroup.com . Consultado el 22 de diciembre de 2017 .
  8. ^ ab Price, George R. (abril de 1972). "Extensión de las matemáticas de selección de covarianza" (PDF) . Anales de genética humana . 35 (4): 485–490. doi :10.1111/j.1469-1809.1957.tb01874.x. PMID  5073694. S2CID  37828617.
  9. ^ Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth y Fabrice Rossi. Manual de referencia de la biblioteca científica GNU, versión 1.15, 2011. Sección 21.7 Muestras ponderadas
  10. ^ James, Frederick (2006). Métodos estadísticos en física experimental (2.ª ed.). Singapur: World Scientific. pág. 324. ISBN 981-270-527-9.
  11. ^ GH Hardy, JE Littlewood y G. Pólya. Desigualdades (2.ª ed.), Cambridge University Press, ISBN 978-0-521-35880-4 , 1988. 
  12. ^ Jane Grossman, Michael Grossman, Robert Katz. Los primeros sistemas de cálculo diferencial e integral ponderado, ISBN 0-9771170-1-4 , 1980. 

Lectura adicional

  • Bevington, Philip R (1969). Reducción de datos y análisis de errores para las ciencias físicas . Nueva York, NY: McGraw-Hill. OCLC  300283069.
  • Strutz, T. (2010). Ajuste de datos e incertidumbre (Una introducción práctica a los mínimos cuadrados ponderados y más allá) . Vieweg+Teubner. ISBN 978-3-8348-1022-9.
  • David Terr. "Media ponderada". MathWorld .
  • Herramienta para calcular el Promedio Ponderado
Retrieved from "https://en.wikipedia.org/w/index.php?title=Weighted_arithmetic_mean&oldid=1247980410"