Escalado de características

Método utilizado para normalizar el rango de variables independientes

El escalamiento de características es un método que se utiliza para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos , también se conoce como normalización de datos y generalmente se realiza durante el paso de preprocesamiento de datos .

Motivación

Dado que el rango de valores de los datos brutos varía ampliamente, en algunos algoritmos de aprendizaje automático , las funciones objetivo no funcionarán correctamente sin normalización . Por ejemplo, muchos clasificadores calculan la distancia entre dos puntos mediante la distancia euclidiana . Si una de las características tiene un amplio rango de valores, la distancia estará regida por esta característica en particular. Por lo tanto, el rango de todas las características debe normalizarse de modo que cada característica contribuya aproximadamente de manera proporcional a la distancia final.

Otra razón por la que se aplica el escalado de características es que el descenso de gradiente converge mucho más rápido con el escalado de características que sin él. [1]

También es importante aplicar escalamiento de características si se utiliza la regularización como parte de la función de pérdida (para que los coeficientes se penalicen adecuadamente).

Empíricamente, el escalamiento de características puede mejorar la velocidad de convergencia del descenso de gradiente estocástico . En las máquinas de vectores de soporte, [2] puede reducir el tiempo para encontrar vectores de soporte. El escalamiento de características también se utiliza a menudo en aplicaciones que involucran distancias y similitudes entre puntos de datos, como la agrupación y la búsqueda de similitudes. Como ejemplo, el algoritmo de agrupamiento K-means es sensible a las escalas de características.

Métodos

Reescalado (normalización mín.-máx.)

También conocido como escalamiento mínimo-máximo o normalización mínimo-máximo, el reescalamiento es el método más simple y consiste en reescalar el rango de características para escalar el rango en [0, 1] o [−1, 1]. La selección del rango objetivo depende de la naturaleza de los datos. La fórmula general para un mínimo-máximo de [0, 1] se da como: [3]

x = x min ( x ) max ( x ) min ( x ) {\displaystyle x'={\frac {x-{\text{min}}(x)}{{\text{max}}(x)-{\text{min}}(x)}}}

donde es un valor original, es el valor normalizado. Por ejemplo, supongamos que tenemos los datos de peso de los estudiantes y que los pesos de los estudiantes abarcan [160 libras, 200 libras]. Para reescalar estos datos, primero restamos 160 del peso de cada estudiante y dividimos el resultado por 40 (la diferencia entre el peso máximo y el mínimo). x {\displaystyle x} x {\displaystyle x'}

Para cambiar la escala de un rango entre un conjunto arbitrario de valores [a, b], la fórmula se convierte en:

x = a + ( x min ( x ) ) ( b a ) max ( x ) min ( x ) {\displaystyle x'=a+{\frac {(x-{\text{min}}(x))(b-a)}{{\text{max}}(x)-{\text{min}}(x)}}}

¿Dónde están los valores mínimo y máximo? a , b {\displaystyle a,b}

Normalización de medias

x = x x ¯ max ( x ) min ( x ) {\displaystyle x'={\frac {x-{\bar {x}}}{{\text{max}}(x)-{\text{min}}(x)}}}

donde es un valor original, es el valor normalizado, es la media de ese vector de características. Existe otra forma de normalización de medias que se divide por la desviación estándar y que también se denomina estandarización. x {\displaystyle x} x {\displaystyle x'} x ¯ = average ( x ) {\displaystyle {\bar {x}}={\text{average}}(x)}

Estandarización (normalización de la puntuación Z)

Efecto de la normalización de la puntuación z en la agrupación de k-medias. Se generan 4 grupos gaussianos de puntos, luego se los agrupa a lo largo del eje y y se calcula la agrupación. Sin normalización, los grupos se organizaron a lo largo del eje x , ya que es el eje con la mayor variación. Después de la normalización, los grupos se recuperan como se esperaba. k = 4 {\displaystyle k=4}

En el aprendizaje automático, podemos manejar varios tipos de datos, por ejemplo, señales de audio y valores de píxeles para datos de imágenes, y estos datos pueden incluir múltiples dimensiones . La estandarización de características hace que los valores de cada característica en los datos tengan media cero (al restar la media en el numerador) y varianza unitaria. Este método se usa ampliamente para la normalización en muchos algoritmos de aprendizaje automático (por ejemplo, máquinas de vectores de soporte , regresión logística y redes neuronales artificiales ). [4] [5] El método general de cálculo es determinar la media de distribución y la desviación estándar para cada característica. A continuación, restamos la media de cada característica. Luego dividimos los valores (la media ya está restada) de cada característica por su desviación estándar.

x = x x ¯ σ {\displaystyle x'={\frac {x-{\bar {x}}}{\sigma }}}

Donde es el vector de características original, es la media de ese vector de características y es su desviación estándar. x {\displaystyle x} x ¯ = average ( x ) {\displaystyle {\bar {x}}={\text{average}}(x)} σ {\displaystyle \sigma }

Escalabilidad robusta

El escalamiento robusto , también conocido como estandarización mediante la mediana y el rango intercuartil (RIC), está diseñado para ser robusto ante valores atípicos . Escala las características utilizando la mediana y el RIC como puntos de referencia en lugar de la media y la desviación estándar: donde son los tres cuartiles (percentil 25, 50 y 75) de la característica. x = x Q 2 ( x ) Q 3 ( x ) Q 1 ( x ) {\displaystyle x'={\frac {x-Q_{2}(x)}{Q_{3}(x)-Q_{1}(x)}}} Q 1 ( x ) , Q 2 ( x ) , Q 3 ( x ) {\displaystyle Q_{1}(x),Q_{2}(x),Q_{3}(x)}

Normalización de vectores unitarios

La normalización de vectores unitarios considera cada punto de datos individual como un vector y divide cada uno por su norma vectorial para obtener . Se puede utilizar cualquier norma vectorial, pero las más comunes son la norma L1 y la norma L2 . x = x / x {\displaystyle x'=x/\|x\|}

Por ejemplo, si , entonces su versión normalizada Lp es: x = ( v 1 , v 2 , v 3 ) {\displaystyle x=(v_{1},v_{2},v_{3})} ( v 1 ( | v 1 | p + | v 2 | p + | v 3 | p ) 1 / p , v 2 ( | v 1 | p + | v 2 | p + | v 3 | p ) 1 / p , v 3 ( | v 1 | p + | v 2 | p + | v 3 | p ) 1 / p ) {\displaystyle \left({\frac {v_{1}}{(|v_{1}|^{p}+|v_{2}|^{p}+|v_{3}|^{p})^{1/p}}},{\frac {v_{2}}{(|v_{1}|^{p}+|v_{2}|^{p}+|v_{3}|^{p})^{1/p}}},{\frac {v_{3}}{(|v_{1}|^{p}+|v_{2}|^{p}+|v_{3}|^{p})^{1/p}}}\right)}

Véase también

Referencias

  1. ^ Ioffe, Sergey; Christian Szegedy (2015). "Normalización por lotes: aceleración del entrenamiento de redes profundas mediante la reducción del desplazamiento interno de covariables". arXiv : 1502.03167 [cs.LG].
  2. ^ Juszczak, P.; DMJ Tax; RPW Dui (2002). "Escalamiento de características en descripciones de datos de vectores de soporte". Proc. 8th Annu. Conf. Adv. School Comput. Imaging : 25–30. CiteSeerX 10.1.1.100.2524 . 
  3. ^ "Normalización de mínimos y máximos". ml-concepts.com . Archivado desde el original el 5 de abril de 2023. Consultado el 14 de diciembre de 2022 .
  4. ^ Grus, Joel (2015). Data Science from Scratch (Ciencia de datos desde cero ) . Sebastopol, CA: O'Reilly. pp. 99, 100. ISBN 978-1-491-90142-7.
  5. ^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Springer. ISBN 978-0-387-84884-6.

Lectura adicional

  • Han, Jiawei; Kamber, Micheline; Pei, Jian (2011). "Transformación de datos y discretización de datos". Minería de datos: conceptos y técnicas . Elsevier. págs. 111–118. ISBN. 9780123814807.
  • Conferencia de Andrew Ng sobre escalado de funciones
Retrieved from "https://en.wikipedia.org/w/index.php?title=Feature_scaling&oldid=1241939671"