Normalización (estadística)

Procedimiento estadístico

En estadística y aplicaciones de la estadística, la normalización puede tener una variedad de significados. ^[1] En los casos más simples, la normalización de calificaciones significa ajustar los valores medidos en diferentes escalas a una escala nocionalmente común, a menudo antes de promediar. En casos más complicados, la normalización puede referirse a ajustes más sofisticados donde la intención es alinear todas las distribuciones de probabilidad de los valores ajustados. En el caso de la normalización de puntajes en la evaluación educativa, puede haber una intención de alinear las distribuciones a una distribución normal . Un enfoque diferente para la normalización de distribuciones de probabilidad es la normalización de cuantiles , donde los cuantiles de las diferentes medidas se alinean.

En otro uso en estadística, la normalización se refiere a la creación de versiones desplazadas y escaladas de las estadísticas, donde la intención es que estos valores normalizados permitan la comparación de los valores normalizados correspondientes para diferentes conjuntos de datos de una manera que elimine los efectos de ciertas influencias brutas, como en una serie temporal anómala . Algunos tipos de normalización implican solo un reescalado, para llegar a valores relativos a alguna variable de tamaño. En términos de niveles de medición , dichas proporciones solo tienen sentido para mediciones de proporción (donde las proporciones de las mediciones son significativas), no para mediciones de intervalo (donde solo las distancias son significativas, pero no las proporciones).

En estadística teórica, la normalización paramétrica a menudo puede conducir a cantidades fundamentales (funciones cuya distribución de muestreo no depende de los parámetros) y a estadísticas auxiliares (cantidades fundamentales que pueden calcularse a partir de observaciones, sin conocer los parámetros).

Ejemplos

Existen distintos tipos de normalizaciones en estadística (razones adimensionales de errores, residuos, medias y desviaciones típicas , que por lo tanto son invariantes en la escala ), algunas de las cuales pueden resumirse de la siguiente manera. Nótese que en términos de niveles de medición , estas razones solo tienen sentido para mediciones de razón (donde las razones de las mediciones son significativas), no para mediciones de intervalo (donde solo las distancias son significativas, pero no las razones). Véase también Categoría:Razones estadísticas .

Nombre	Fórmula	Usar
Puntuación estándar	${\frac {X-\mu} {\sigma}}$	Normalización de errores cuando se conocen los parámetros de la población. Funciona bien para poblaciones que se distribuyen normalmente ^[2]
Estadística t de Student	${\frac {{\widehat {\beta }}-\beta _{0}}{\operatorname {se} ({\widehat {\beta }})}}$	la desviación del valor estimado de un parámetro respecto de su valor hipotético, normalizado por su error estándar.
Residuo estudentizado	${\frac {{\hat {\varepsilon }}_{i}}{{\hat {\sigma }}_{i}}}={\frac {X_{i}-{\hat {\mu }}_{i}}{{\hat {\sigma }}_{i}}}$	Normalización de residuos cuando se estiman parámetros, particularmente en diferentes puntos de datos en el análisis de regresión .
Momento estandarizado	${\frac {\mu _{k}}{\sigma ^{k}}}$	Momentos de normalización, utilizando la desviación estándar como medida de escala. ${\estilo de visualización \sigma}$
Coeficiente de variación	${\frac {\sigma }{\mu }}$	Normalización de la dispersión, utilizando la media como medida de escala, particularmente para distribuciones positivas como la distribución exponencial y la distribución de Poisson . ${\estilo de visualización \mu}$
Escala de características mínimas y máximas	$X'={\frac {X-X_{\min}}{X_{\max}-X_{\min}}}$	El escalamiento de características se utiliza para llevar todos los valores al rango [0,1]. Esto también se denomina normalización basada en la unidad. Esto se puede generalizar para restringir el rango de valores en el conjunto de datos entre puntos arbitrarios y , utilizando, por ejemplo , . ${\estilo de visualización a}$ ${\estilo de visualización b}$ $X'=a+{\frac {\left(X-X_{\min }\right)\left(ba\right)}{X_{\max }-X_{\min }}}$

Tenga en cuenta que algunas otras razones, como la razón entre la varianza y la media , también se realizan para la normalización, pero no son adimensionales: las unidades no se cancelan y, por lo tanto, la razón tiene unidades y no es invariante en la escala. ${\textstyle \left({\frac {\sigma ^{2}}{\mu }}\right)}$

Otros tipos

Otras normalizaciones adimensionales que se pueden utilizar sin suposiciones sobre la distribución incluyen:

Asignación de percentiles . Esto es común en las pruebas estandarizadas. Véase también normalización de cuantiles .
Normalización mediante la suma y/o multiplicación por constantes para que los valores estén entre 0 y 1. Esto se utiliza para funciones de densidad de probabilidad , con aplicaciones en campos como la mecánica cuántica para asignar probabilidades a $| ψ | 2$ .

Véase también

Referencias

^ Dodge, Y (2003) The Oxford Dictionary of Statistical Terms , OUP. ISBN 0-19-920613-9 (entrada para normalización de puntuaciones)
^ Freedman, David; Pisani, Robert; Purves, Roger (20 de febrero de 2007). Estadísticas: Cuarta edición internacional para estudiantes. WW Norton & Company. ISBN 9780393930436.

[Dodge-1] Dodge, Y (2003) The Oxford Dictionary of Statistical Terms , OUP. ISBN 0-19-920613-9 (entrada para normalización de puntuaciones)

[2] Freedman, David; Pisani, Robert; Purves, Roger (20 de febrero de 2007). Estadísticas: Cuarta edición internacional para estudiantes. WW Norton & Company. ISBN 9780393930436.