Estimación imparcial de la desviación estándar

Procedimiento para estimar la desviación estándar de una muestra

En estadística y, en particular , en teoría estadística , la estimación insesgada de una desviación estándar es el cálculo, a partir de una muestra estadística , de un valor estimado de la desviación estándar (una medida de dispersión estadística ) de una población de valores, de tal manera que el valor esperado del cálculo sea igual al valor verdadero. Excepto en algunas situaciones importantes, que se describen más adelante, la tarea tiene poca relevancia para las aplicaciones de la estadística, ya que su necesidad se evita mediante procedimientos estándar, como el uso de pruebas de significación e intervalos de confianza , o mediante el uso del análisis bayesiano .

Sin embargo, para la teoría estadística, constituye un problema ejemplar en el contexto de la teoría de la estimación , que es simple de plantear y para el cual no se pueden obtener resultados en forma cerrada. También constituye un ejemplo en el que imponer el requisito de una estimación imparcial podría verse como un simple inconveniente adicional, sin ningún beneficio real.

Motivación

En estadística , la desviación estándar de una población de números se suele estimar a partir de una muestra aleatoria extraída de la población. Esta es la desviación estándar de la muestra, que se define como

s = i = 1 norte ( incógnita i incógnita ¯ ) 2 norte 1 , {\displaystyle s={\sqrt {\frac {\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}{n-1}}},}

donde es la muestra (formalmente, realizaciones de una variable aleatoria X ) y es la media de la muestra . { incógnita 1 , incógnita 2 , , incógnita norte } {\displaystyle \{x_{1},x_{2},\ldots ,x_{n}\}} incógnita ¯ {\displaystyle {\overline {x}}}

Una forma de ver que se trata de un estimador sesgado de la desviación estándar de la población es partir del resultado de que s 2 es un estimador insesgado de la varianza σ 2 de la población subyacente si dicha varianza existe y los valores de la muestra se extraen de forma independiente con reemplazo. La raíz cuadrada es una función no lineal, y solo las funciones lineales conmutan con la toma de la esperanza. Dado que la raíz cuadrada es una función estrictamente cóncava, se deduce de la desigualdad de Jensen que la raíz cuadrada de la varianza de la muestra es una subestimación.

El uso de n  − 1 en lugar de n en la fórmula para la varianza de la muestra se conoce como corrección de Bessel , que corrige el sesgo en la estimación de la varianza de la población y parte, pero no todo, el sesgo en la estimación de la desviación estándar de la población.

No es posible encontrar una estimación de la desviación estándar que no presente sesgo para todas las distribuciones de población, ya que el sesgo depende de la distribución particular. Gran parte de lo que sigue se relaciona con la estimación suponiendo una distribución normal .

Corrección de sesgo

Resultados para la distribución normal

Factor de corrección versus tamaño de muestra n . do 4 Estilo de visualización c_{4}

Cuando la variable aleatoria se distribuye normalmente , existe una pequeña corrección para eliminar el sesgo. Para derivar la corrección, observe que para X con distribución normal , el teorema de Cochran implica que tiene una distribución de chi cuadrado con grados de libertad y, por lo tanto, su raíz cuadrada, tiene una distribución de chi con grados de libertad. En consecuencia, calculando la esperanza de esta última expresión y reordenando las constantes, ( norte 1 ) s 2 / σ 2 {\displaystyle (n-1)s^{2}/\sigma ^{2}} norte 1 {\estilo de visualización n-1} norte 1 s / σ {\displaystyle {\sqrt {n-1}}s/\sigma } norte 1 {\estilo de visualización n-1}

mi [ s ] = do 4 ( norte ) σ {\displaystyle \operatorname {E} [s]=c_{4}(n)\sigma }

donde el factor de corrección es la media de escala de la distribución chi con grados de libertad, . Esto depende del tamaño de la muestra n, y se expresa de la siguiente manera: [1] do 4 ( norte ) Estilo de visualización c_{4}(n)} norte 1 {\estilo de visualización n-1} micras 1 / norte 1 {\displaystyle \mu_{1}/{\sqrt {n-1}}}

do 4 ( norte ) = 2 norte 1 Γ ( norte 2 ) Γ ( norte 1 2 ) = 1 1 4 norte 7 32 norte 2 19 128 norte 3 + O ( n 4 ) {\displaystyle c_{4}(n)={\sqrt {\frac {2}{n-1}}}{\frac {\Gamma \left({\frac {n}{2}}\right)}{\Gamma \left({\frac {n-1}{2}}\right)}}=1-{\frac {1}{4n}}-{\frac {7}{32n^{2}}}-{\frac {19}{128n^{3}}}+O(n^{-4})}

donde Γ(·) es la función gamma . Se puede obtener un estimador insesgado de σ dividiendo por . A medida que crece se acerca a 1, e incluso para valores más pequeños la corrección es menor. La figura muestra un gráfico de versus tamaño de muestra. La tabla siguiente proporciona valores numéricos de y expresiones algebraicas para algunos valores de ; se pueden encontrar tablas más completas en la mayoría de los libros de texto [ cita requerida ] sobre control de calidad estadístico . s {\displaystyle s} c 4 ( n ) {\displaystyle c_{4}(n)} n {\displaystyle n} c 4 ( n ) {\displaystyle c_{4}(n)} c 4 ( n ) {\displaystyle c_{4}(n)} n {\displaystyle n}

Tamaño de la muestraExpresión de c 4 {\displaystyle c_{4}} Valor numérico
2 2 π {\displaystyle {\sqrt {\frac {2}{\pi }}}} 0,7978845608
3 π 2 {\displaystyle {\frac {\sqrt {\pi }}{2}}} 0,8862269255
4 2 2 3 π {\displaystyle 2{\sqrt {\frac {2}{3\pi }}}} 0,9213177319
5 3 4 π 2 {\displaystyle {\frac {3}{4}}{\sqrt {\frac {\pi }{2}}}} 0,9399856030
6 8 3 2 5 π {\displaystyle {\frac {8}{3}}{\sqrt {\frac {2}{5\pi }}}} 0,9515328619
7 5 3 π 16 {\displaystyle {\frac {5{\sqrt {3\pi }}}{16}}} 0,9593687891
8 16 5 2 7 π {\displaystyle {\frac {16}{5}}{\sqrt {\frac {2}{7\pi }}}} 0,9650304561
9 35 π 64 {\displaystyle {\frac {35{\sqrt {\pi }}}{64}}} 0,9693106998
10 128 105 2 π {\displaystyle {\frac {128}{105}}{\sqrt {\frac {2}{\pi }}}} 0,9726592741
1000,9974779761
10000,9997497811
100000,9999749978
2k 2 π ( 2 k 1 ) 2 2 k 2 ( k 1 ) ! 2 ( 2 k 2 ) ! {\displaystyle {\sqrt {\frac {2}{\pi (2k-1)}}}{\frac {2^{2k-2}(k-1)!^{2}}{(2k-2)!}}}
2k+1 π k ( 2 k 1 ) ! 2 2 k 1 ( k 1 ) ! 2 {\displaystyle {\sqrt {\frac {\pi }{k}}}{\frac {(2k-1)!}{2^{2k-1}(k-1)!^{2}}}}

Es importante tener en cuenta que esta corrección solo produce un estimador insesgado para X distribuido de forma normal e independiente . Cuando se satisface esta condición, otro resultado sobre s que involucra es que el error estándar de s es [2] [3] , mientras que el error estándar del estimador insesgado es c 4 ( n ) {\displaystyle c_{4}(n)} σ 1 c 4 2 {\displaystyle \sigma {\sqrt {1-c_{4}^{2}}}} σ c 4 2 1 . {\displaystyle \sigma {\sqrt {c_{4}^{-2}-1}}.}

Regla general para la distribución normal

Si el cálculo de la función c 4 ( n ) parece demasiado difícil, existe una regla práctica simple [4] para tomar el estimador

σ ^ = 1 n 1.5 i = 1 n ( x i x ¯ ) 2 {\displaystyle {\hat {\sigma }}={\sqrt {{\frac {1}{n-1.5}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}

La fórmula difiere de la expresión habitual para s 2 sólo en que tiene n − 1,5 en lugar de n − 1 en el denominador. Esta expresión es sólo aproximada; de hecho,

E [ σ ^ ] = σ ( 1 + 1 16 n 2 + 3 16 n 3 + O ( n 4 ) ) . {\displaystyle \operatorname {E} \left[{\hat {\sigma }}\right]=\sigma \cdot \left(1+{\frac {1}{16n^{2}}}+{\frac {3}{16n^{3}}}+O(n^{-4})\right).}

El sesgo es relativamente pequeño: digamos que es igual al 2,3%, y que el sesgo ya es del 0,1%. n = 3 {\displaystyle n=3} n = 9 {\displaystyle n=9}

Otras distribuciones

En los casos en que los datos estadísticamente independientes se modelan mediante una familia paramétrica de distribuciones distintas de la distribución normal , la desviación estándar de la población, si existe, será una función de los parámetros del modelo. Un enfoque general para la estimación sería la máxima verosimilitud . Alternativamente, puede ser posible utilizar el teorema de Rao-Blackwell como una ruta para encontrar una buena estimación de la desviación estándar. En ninguno de los casos, las estimaciones obtenidas serían generalmente imparciales. En teoría, podrían obtenerse ajustes teóricos para conducir a estimaciones imparciales pero, a diferencia de los de la distribución normal, estos dependerían típicamente de los parámetros estimados.

Si el requisito es simplemente reducir el sesgo de una desviación estándar estimada, en lugar de eliminarla por completo, entonces hay dos enfoques prácticos disponibles, ambos dentro del contexto del remuestreo . Estos son jackknifing y bootstrapping . Ambos se pueden aplicar a estimaciones basadas en parámetros de la desviación estándar o a la desviación estándar de la muestra.

Para distribuciones no normales, una fórmula aproximada (hasta O ( n −1 ) términos) para el estimador insesgado de la desviación estándar es

σ ^ = 1 n 1.5 1 4 γ 2 i = 1 n ( x i x ¯ ) 2 , {\displaystyle {\hat {\sigma }}={\sqrt {{\frac {1}{n-1.5-{\tfrac {1}{4}}\gamma _{2}}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}},}

donde γ 2 denota el exceso de curtosis de la población . El exceso de curtosis puede conocerse de antemano para ciertas distribuciones o estimarse a partir de los datos.

Efecto de la autocorrelación (correlación serial)

El material anterior, para enfatizar nuevamente el punto, se aplica únicamente a datos independientes. Sin embargo, los datos del mundo real a menudo no cumplen con este requisito; están autocorrelacionados (también conocido como correlación serial). Como un ejemplo, las lecturas sucesivas de un instrumento de medición que incorpora alguna forma de proceso de “suavizado” (más correctamente, filtrado de paso bajo) estarán autocorrelacionados, ya que cualquier valor particular se calcula a partir de alguna combinación de las lecturas anteriores y posteriores.

Las estimaciones de la varianza y la desviación estándar de los datos autocorrelacionados estarán sesgadas. El valor esperado de la varianza de la muestra es [5]

E [ s 2 ] = σ 2 [ 1 2 n 1 k = 1 n 1 ( 1 k n ) ρ k ] {\displaystyle {\rm {E}}\left[s^{2}\right]=\sigma ^{2}\left[1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}\left(1-{\frac {k}{n}}\right)\rho _{k}\right]}

donde n es el tamaño de la muestra (número de mediciones) y es la función de autocorrelación (ACF) de los datos. (Tenga en cuenta que la expresión entre paréntesis es simplemente uno menos la autocorrelación promedio esperada para las lecturas). Si la ACF consiste en valores positivos, entonces la estimación de la varianza (y su raíz cuadrada, la desviación estándar) estará sesgada hacia abajo. Es decir, la variabilidad real de los datos será mayor que la indicada por un cálculo de varianza o desviación estándar no corregido. Es esencial reconocer que, si se va a utilizar esta expresión para corregir el sesgo, dividiendo la estimación por la cantidad entre paréntesis anterior, entonces la ACF debe conocerse analíticamente , no a través de una estimación a partir de los datos. Esto se debe a que la ACF estimada estará sesgada en sí misma. [6] ρ k {\displaystyle \rho _{k}} s 2 {\displaystyle s^{2}}

Ejemplo de sesgo en la desviación estándar

Para ilustrar la magnitud del sesgo en la desviación estándar, considere un conjunto de datos que consta de lecturas secuenciales de un instrumento que utiliza un filtro digital específico cuya ACF se sabe que está dada por

ρ k = ( 1 α ) k {\displaystyle \rho _{k}=(1-\alpha )^{k}}

donde α es el parámetro del filtro y toma valores de cero a uno. Por lo tanto, la ACF es positiva y geométricamente decreciente.

Sesgo en la desviación estándar para datos autocorrelacionados.

La figura muestra la relación entre la desviación estándar estimada y su valor conocido (que se puede calcular analíticamente para este filtro digital), para varias configuraciones de α como función del tamaño de muestra n . Al cambiar α se altera la relación de reducción de la varianza del filtro, que se sabe que es

V R R = α 2 α {\displaystyle {\rm {VRR}}={\frac {\alpha }{2-\alpha }}}

De modo que los valores más pequeños de α resultan en una mayor reducción de la varianza, o “suavizado”. El sesgo se indica mediante valores en el eje vertical diferentes de la unidad; es decir, si no hubiera sesgo, la relación entre la desviación estándar estimada y la conocida sería la unidad. Claramente, para tamaños de muestra modestos puede haber un sesgo significativo (un factor de dos o más).

Varianza de la media

A menudo resulta de interés estimar la varianza o desviación estándar de una media estimada en lugar de la varianza de una población. Cuando los datos están autocorrelacionados, esto tiene un efecto directo en la varianza teórica de la media de la muestra, que es [7]

V a r [ x ¯ ] = σ 2 n [ 1 + 2 k = 1 n 1 ( 1 k n ) ρ k ] . {\displaystyle {\rm {Var}}\left[{\overline {x}}\right]={\frac {\sigma ^{2}}{n}}\left[1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)\rho _{k}}\right].}

La varianza de la media de la muestra se puede estimar sustituyendo una estimación de σ 2 . Una estimación de este tipo se puede obtener a partir de la ecuación para E[s 2 ] dada anteriormente. Primero defina las siguientes constantes, suponiendo, nuevamente, una ACF conocida :

γ 1 1 2 n 1 k = 1 n 1 ( 1 k n ) ρ k {\displaystyle \gamma _{1}\equiv 1-{\frac {2}{n-1}}\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}
γ 2 1 + 2 k = 1 n 1 ( 1 k n ) ρ k {\displaystyle \gamma _{2}\equiv 1+2\sum _{k=1}^{n-1}{\left(1-{\frac {k}{n}}\right)}\rho _{k}}

de modo que

E [ s 2 ] = σ 2 γ 1 E [ s 2 γ 1 ] = σ 2 {\displaystyle {\rm {E}}\left[s^{2}\right]=\sigma ^{2}\gamma _{1}\Rightarrow {\rm {E}}\left[{\frac {s^{2}}{\gamma _{1}}}\right]=\sigma ^{2}}

Esto indica que el valor esperado de la cantidad obtenida al dividir la varianza de la muestra observada por el factor de corrección proporciona una estimación no sesgada de la varianza. De manera similar, al reescribir la expresión anterior para la varianza de la media, γ 1 {\displaystyle \gamma _{1}}

V a r [ x ¯ ] = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left[{\overline {x}}\right]={\frac {\sigma ^{2}}{n}}\gamma _{2}}

y sustituyendo la estimación por se obtiene [8] σ 2 {\displaystyle \sigma ^{2}}

V a r [ x ¯ ] = E [ s 2 γ 1 ( γ 2 n ) ] = E [ s 2 n { n 1 n γ 2 1 } ] {\displaystyle {\rm {Var}}\left[{\overline {x}}\right]={\rm {E}}\left[{\frac {s^{2}}{\gamma _{1}}}\left({\frac {\gamma _{2}}{n}}\right)\right]={\rm {E}}\left[{\frac {s^{2}}{n}}\left\{{\frac {n-1}{{\frac {n}{\gamma _{2}}}-1}}\right\}\right]}

que es un estimador insesgado de la varianza de la media en términos de la varianza de la muestra observada y de cantidades conocidas. Si las autocorrelaciones son idénticamente cero, esta expresión se reduce al resultado bien conocido para la varianza de la media para datos independientes. El efecto del operador de expectativa en estas expresiones es que la igualdad se mantiene en la media (es decir, en promedio). ρ k {\displaystyle \rho _{k}}

Estimación de la desviación estándar de la población

Teniendo en cuenta que las expresiones anteriores implican la varianza de la población y una estimación de la media de esa población, parecería lógico simplemente tomar la raíz cuadrada de estas expresiones para obtener estimaciones no sesgadas de las respectivas desviaciones estándar. Sin embargo, es el caso que, como las expectativas son integrales,

E [ s ] E [ s 2 ] σ γ 1 {\displaystyle {\rm {E}}[s]\neq {\sqrt {{\rm {E}}\left[s^{2}\right]}}\neq \sigma {\sqrt {\gamma _{1}}}}

En lugar de ello, supongamos que existe una función θ tal que se puede escribir un estimador imparcial de la desviación estándar

E [ s ] = σ θ γ 1 σ ^ = s θ γ 1 {\displaystyle {\rm {E}}[s]=\sigma \theta {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}={\frac {s}{\theta {\sqrt {\gamma _{1}}}}}}

y θ depende del tamaño de la muestra n y de la ACF. En el caso de datos NID (distribuidos de forma normal e independiente), el radicando es la unidad y θ es simplemente la función c 4 dada en la primera sección anterior. Al igual que con c 4 , θ se acerca a la unidad a medida que aumenta el tamaño de la muestra (al igual que γ 1 ).

Se puede demostrar mediante modelos de simulación que ignorando θ (es decir, tomándolo como la unidad) y usando

E [ s ] σ γ 1 σ ^ s γ 1 {\displaystyle {\rm {E}}[s]\approx \sigma {\sqrt {\gamma _{1}}}\Rightarrow {\hat {\sigma }}\approx {\frac {s}{\sqrt {\gamma _{1}}}}}

elimina casi todo el sesgo causado por la autocorrelación, lo que lo convierte en un estimador con sesgo reducido , en lugar de un estimador sin sesgo. En situaciones prácticas de medición, esta reducción del sesgo puede ser significativa y útil, incluso si permanece un sesgo relativamente pequeño. La figura anterior, que muestra un ejemplo del sesgo en la desviación estándar frente al tamaño de la muestra, se basa en esta aproximación; el sesgo real sería algo mayor que el indicado en esos gráficos, ya que el sesgo de transformación θ no está incluido allí.

Estimación de la desviación estándar de la media de la muestra

La varianza imparcial de la media en términos de la varianza de la población y la ACF se da por

V a r [ x ¯ ] = σ 2 n γ 2 {\displaystyle {\rm {Var}}\left[{\overline {x}}\right]={\frac {\sigma ^{2}}{n}}\gamma _{2}}

y como aquí no hay valores esperados, en este caso se puede tomar la raíz cuadrada, de modo que

σ x ¯ = σ n γ 2 {\displaystyle \sigma _{\overline {x}}={\frac {\sigma }{\sqrt {n}}}{\sqrt {\gamma _{2}}}}

Usando la expresión de estimación imparcial anterior para σ , una estimación de la desviación estándar de la media será entonces

σ ^ x ¯ = s θ n γ 2 γ 1 {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{\theta {\sqrt {n}}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}}

Si los datos son NID, de modo que el ACF desaparece, esto se reduce a

σ ^ x ¯ = s c 4 n {\displaystyle {\hat {\sigma }}_{\overline {x}}={\frac {s}{c_{4}{\sqrt {n}}}}}

En presencia de una ACF distinta de cero, ignorar la función θ como antes conduce al estimador de sesgo reducido

σ ^ x ¯ s n γ 2 γ 1 = s n n 1 n γ 2 1 {\displaystyle {\hat {\sigma }}_{\overline {x}}\approx {\frac {s}{\sqrt {n}}}{\frac {\sqrt {\gamma _{2}}}{\sqrt {\gamma _{1}}}}={\frac {s}{\sqrt {n}}}{\sqrt {\frac {n-1}{{\frac {n}{\gamma _{2}}}-1}}}}

Lo cual nuevamente se puede demostrar que elimina una mayoría útil del sesgo.

Véase también

Referencias

  1. ^ Ben W. Bolch, "Más sobre la estimación imparcial de la desviación estándar", The American Statistician, 22(3), pág. 27 (1968)
  2. ^ Duncan, AJ, Control de calidad y estadísticas industriales 4.ª ed., Irwin (1974) ISBN  0-256-01558-9 , pág. 139
  3. ^ * NL Johnson, S. Kotz y N. Balakrishnan, Continuous Univariate Distributions, Volumen 1 , 2.ª edición, Wiley and sons, 1994. ISBN 0-471-58495-9 . Capítulo 13, Sección 8.2. 
  4. ^ Richard M. Brugger, "Una nota sobre la estimación imparcial de la desviación estándar", The American Statistician (23) 4 p. 32 (1969)
  5. ^ Law y Kelton, Simulation Modeling and Analysis , 2.ª ed. McGraw-Hill (1991), pág. 284, ISBN 0-07-036698-5 . Esta expresión se puede derivar de su fuente original en Anderson, The Statistical Analysis of Time Series , Wiley (1971), ISBN 0-471-04745-7 , pág. 448, ecuación 51.  
  6. ^ Law y Kelton, p. 286. Este sesgo se cuantifica en Anderson, p. 448, ecuaciones 52-54.
  7. ^ Law y Kelton, p. 285. Esta ecuación se puede derivar del teorema 8.2.3 de Anderson. También aparece en Box, Jenkins, Reinsel, Time Series Analysis: Forecasting and Control , 4.ª ed. Wiley (2008), ISBN 978-0-470-27284-8 , p. 31. 
  8. ^ Law y Kelton, pág. 285
  • Douglas C. Montgomery y George C. Runger, Applied Statistics and Probability for Engineers , 3.ª edición, Wiley and Sons, 2003. (ver secciones)
  • Un gráfico interactivo de Java que muestra la PDF de Helmert de la que se derivan los factores de corrección de sesgo.
  • Demostración de simulación de Monte Carlo para la estimación imparcial de la desviación estándar.
  • http://www.itl.nist.gov/div898/handbook/pmc/section3/pmc32.htm ¿Qué son los gráficos de control de variables?

Dominio público Este artículo incorpora material de dominio público del Instituto Nacional de Estándares y Tecnología.

Retrieved from "https://en.wikipedia.org/w/index.php?title=Unbiased_estimation_of_standard_deviation&oldid=1223177893"