Parte de una serie sobre |
Aprendizaje automático y minería de datos |
---|
El escalamiento de características es un método que se utiliza para normalizar el rango de variables independientes o características de los datos. En el procesamiento de datos , también se conoce como normalización de datos y generalmente se realiza durante el paso de preprocesamiento de datos .
Dado que el rango de valores de los datos brutos varía ampliamente, en algunos algoritmos de aprendizaje automático , las funciones objetivo no funcionarán correctamente sin normalización . Por ejemplo, muchos clasificadores calculan la distancia entre dos puntos mediante la distancia euclidiana . Si una de las características tiene un amplio rango de valores, la distancia estará regida por esta característica en particular. Por lo tanto, el rango de todas las características debe normalizarse de modo que cada característica contribuya aproximadamente de manera proporcional a la distancia final.
Otra razón por la que se aplica el escalado de características es que el descenso de gradiente converge mucho más rápido con el escalado de características que sin él. [1]
También es importante aplicar escalamiento de características si se utiliza la regularización como parte de la función de pérdida (para que los coeficientes se penalicen adecuadamente).
Empíricamente, el escalamiento de características puede mejorar la velocidad de convergencia del descenso de gradiente estocástico . En las máquinas de vectores de soporte, [2] puede reducir el tiempo para encontrar vectores de soporte. El escalamiento de características también se utiliza a menudo en aplicaciones que involucran distancias y similitudes entre puntos de datos, como la agrupación y la búsqueda de similitudes. Como ejemplo, el algoritmo de agrupamiento K-means es sensible a las escalas de características.
También conocido como escalamiento mínimo-máximo o normalización mínimo-máximo, el reescalamiento es el método más simple y consiste en reescalar el rango de características para escalar el rango en [0, 1] o [−1, 1]. La selección del rango objetivo depende de la naturaleza de los datos. La fórmula general para un mínimo-máximo de [0, 1] se da como: [3]
donde es un valor original, es el valor normalizado. Por ejemplo, supongamos que tenemos los datos de peso de los estudiantes y que los pesos de los estudiantes abarcan [160 libras, 200 libras]. Para reescalar estos datos, primero restamos 160 del peso de cada estudiante y dividimos el resultado por 40 (la diferencia entre el peso máximo y el mínimo).
Para cambiar la escala de un rango entre un conjunto arbitrario de valores [a, b], la fórmula se convierte en:
¿Dónde están los valores mínimo y máximo?
donde es un valor original, es el valor normalizado, es la media de ese vector de características. Existe otra forma de normalización de medias que se divide por la desviación estándar y que también se denomina estandarización.
En el aprendizaje automático, podemos manejar varios tipos de datos, por ejemplo, señales de audio y valores de píxeles para datos de imágenes, y estos datos pueden incluir múltiples dimensiones . La estandarización de características hace que los valores de cada característica en los datos tengan media cero (al restar la media en el numerador) y varianza unitaria. Este método se usa ampliamente para la normalización en muchos algoritmos de aprendizaje automático (por ejemplo, máquinas de vectores de soporte , regresión logística y redes neuronales artificiales ). [4] [5] El método general de cálculo es determinar la media de distribución y la desviación estándar para cada característica. A continuación, restamos la media de cada característica. Luego dividimos los valores (la media ya está restada) de cada característica por su desviación estándar.
Donde es el vector de características original, es la media de ese vector de características y es su desviación estándar.
El escalamiento robusto , también conocido como estandarización mediante la mediana y el rango intercuartil (RIC), está diseñado para ser robusto ante valores atípicos . Escala las características utilizando la mediana y el RIC como puntos de referencia en lugar de la media y la desviación estándar: donde son los tres cuartiles (percentil 25, 50 y 75) de la característica.
La normalización de vectores unitarios considera cada punto de datos individual como un vector y divide cada uno por su norma vectorial para obtener . Se puede utilizar cualquier norma vectorial, pero las más comunes son la norma L1 y la norma L2 .
Por ejemplo, si , entonces su versión normalizada Lp es: