En matemáticas , estadística , finanzas [1] y ciencias de la computación , particularmente en aprendizaje automático y problemas inversos , la regularización es un proceso que convierte la respuesta de un problema en una más simple. Se utiliza a menudo para resolver problemas mal planteados o para evitar el sobreajuste . [2]
Aunque los procedimientos de regularización se pueden dividir de muchas maneras, la siguiente delimitación es particularmente útil:
En la regularización explícita, independientemente del problema o modelo, siempre hay un término de datos que corresponde a una probabilidad de la medición y un término de regularización que corresponde a una probabilidad previa. Al combinar ambos usando estadísticas bayesianas, se puede calcular una probabilidad posterior que incluye ambas fuentes de información y, por lo tanto, estabiliza el proceso de estimación. Al intercambiar ambos objetivos, se elige ser más adicto a los datos o imponer la regularización (para evitar el sobreajuste). Existe toda una rama de investigación que se ocupa de todas las regularizaciones posibles. En la práctica, generalmente se prueba una regularización específica y luego se determina la densidad de probabilidad que corresponde a esa regularización para justificar la elección. También puede estar motivada físicamente por el sentido común o la intuición.
En el aprendizaje automático , el término de datos corresponde a los datos de entrenamiento y la regularización es la elección del modelo o modificaciones del algoritmo. Siempre se pretende reducir el error de generalización , es decir, la puntuación de error con el modelo entrenado en el conjunto de evaluación y no con los datos de entrenamiento. [3]
Uno de los primeros usos de la regularización es la regularización de Tikhonov (regresión de cresta), relacionada con el método de mínimos cuadrados.
En el aprendizaje automático , un desafío clave es permitir que los modelos predigan con precisión los resultados en datos no vistos, no solo en datos de entrenamiento familiares. La regularización es crucial para abordar el sobreajuste (donde un modelo memoriza detalles de los datos de entrenamiento pero no puede generalizar a nuevos datos) y el subajuste , donde el modelo es demasiado simple para capturar la complejidad de los datos de entrenamiento. Este concepto refleja enseñar a los estudiantes a aplicar conceptos aprendidos a nuevos problemas en lugar de simplemente recordar respuestas memorizadas. [4] El objetivo de la regularización es alentar a los modelos a aprender los patrones más amplios dentro de los datos en lugar de memorizarlos. Técnicas como la detención temprana , la regularización L1 y L2 y el abandono están diseñadas para prevenir el sobreajuste y el subajuste, mejorando así la capacidad del modelo para adaptarse y funcionar bien con nuevos datos, mejorando así la generalización del modelo. [4]
Detiene el entrenamiento cuando el rendimiento de la validación se deteriora, evitando el sobreajuste al detenerse antes de que el modelo memorice los datos de entrenamiento. [4]
Agrega términos de penalización a la función de costo para desalentar modelos complejos:
Ignora aleatoriamente un subconjunto de neuronas durante el entrenamiento, simulando el entrenamiento de múltiples arquitecturas de redes neuronales para mejorar la generalización. [4]
El aprendizaje empírico de clasificadores (a partir de un conjunto de datos finito) es siempre un problema subdeterminado , porque intenta inferir una función de cualquier ejemplo dado .
Se añade un término de regularización (o regularizador) a una función de pérdida : donde es una función de pérdida subyacente que describe el costo de predecir cuándo la etiqueta es , como la pérdida cuadrada o la pérdida de bisagra ; y es un parámetro que controla la importancia del término de regularización. se elige típicamente para imponer una penalización a la complejidad de . Las nociones concretas de complejidad utilizadas incluyen restricciones para la suavidad y límites en la norma del espacio vectorial . [5] [ página necesaria ]
Una justificación teórica de la regularización es que intenta imponer la navaja de Occam a la solución (como se muestra en la figura anterior, donde la función verde, la más simple, puede ser la preferida). Desde un punto de vista bayesiano , muchas técnicas de regularización corresponden a la imposición de ciertas distribuciones previas a los parámetros del modelo. [6]
La regularización puede servir para múltiples propósitos, incluido el aprendizaje de modelos más simples, la inducción de modelos dispersos y la introducción de una estructura de grupo [ aclaración necesaria ] en el problema de aprendizaje.
La misma idea surgió en muchos campos de la ciencia . Una forma simple de regularización aplicada a ecuaciones integrales ( regularización de Tikhonov ) es esencialmente un equilibrio entre ajustar los datos y reducir una norma de la solución. Más recientemente, los métodos de regularización no lineal, incluida la regularización de variación total , se han vuelto populares.
La regularización puede motivarse como una técnica para mejorar la generalización de un modelo aprendido.
El objetivo de este problema de aprendizaje es encontrar una función que se ajuste o prediga el resultado (etiqueta) que minimice el error esperado sobre todas las entradas y etiquetas posibles. El error esperado de una función es: donde y son los dominios de los datos de entrada y sus etiquetas respectivamente.
Por lo general, en los problemas de aprendizaje, solo se dispone de un subconjunto de datos de entrada y etiquetas, medidos con algo de ruido. Por lo tanto, el error esperado no se puede medir y el mejor sustituto disponible es el error empírico sobre las muestras disponibles: sin límites en la complejidad del espacio de funciones (formalmente, el espacio de Hilbert del núcleo de reproducción ) disponible, se aprenderá un modelo que incurra en una pérdida cero en el error empírico sustituto. Si las mediciones (por ejemplo, de ) se realizaron con ruido, este modelo puede sufrir un sobreajuste y mostrar un error esperado deficiente. La regularización introduce una penalización por explorar ciertas regiones del espacio de funciones utilizado para construir el modelo, lo que puede mejorar la generalización.
Estas técnicas deben su nombre a Andrey Nikolayevich Tikhonov , quien aplicó la regularización a ecuaciones integrales e hizo importantes contribuciones en muchas otras áreas.
Al aprender una función lineal , caracterizada por un vector desconocido tal que , se puede agregar la norma del vector a la expresión de pérdida para preferir soluciones con normas más pequeñas. La regularización de Tikhonov es una de las formas más comunes. También se conoce como regresión de cresta. Se expresa como: donde representaría muestras utilizadas para el entrenamiento.
En el caso de una función general, la norma de la función en su espacio de Hilbert de núcleo reproductor es:
Como la norma es diferenciable , el aprendizaje puede avanzar mediante descenso de gradiente .
El problema de aprendizaje con la función de pérdida de mínimos cuadrados y la regularización de Tikhonov se puede resolver analíticamente. Escrito en forma matricial, el óptimo es aquel para el cual el gradiente de la función de pérdida con respecto a es 0. donde la tercera afirmación es una condición de primer orden .
Mediante la construcción del problema de optimización, otros valores de dan valores mayores para la función de pérdida. Esto se puede verificar examinando la segunda derivada .
Durante el entrenamiento, este algoritmo lleva tiempo . Los términos corresponden a la inversión de la matriz y al cálculo , respectivamente. La prueba lleva tiempo.
La detención temprana puede considerarse como una regularización en el tiempo. De manera intuitiva, un procedimiento de entrenamiento como el descenso de gradiente tiende a aprender funciones cada vez más complejas a medida que aumentan las iteraciones. Al regularizar en el tiempo, se puede controlar la complejidad del modelo, lo que mejora la generalización.
La detención temprana se implementa utilizando un conjunto de datos para el entrenamiento, un conjunto de datos estadísticamente independientes para la validación y otro para las pruebas. El modelo se entrena hasta que el rendimiento en el conjunto de validación ya no mejora y luego se aplica al conjunto de prueba.
Consideremos la aproximación finita de la serie de Neumann para una matriz invertible A donde :
Esto se puede utilizar para aproximar la solución analítica de mínimos cuadrados no regularizados, si se introduce γ para garantizar que la norma sea menor que uno.
La solución exacta al problema de aprendizaje de mínimos cuadrados no regularizados minimiza el error empírico, pero puede fallar. Al limitar T , el único parámetro libre en el algoritmo anterior, el problema se regulariza en el tiempo, lo que puede mejorar su generalización.
El algoritmo anterior es equivalente a restringir el número de iteraciones de descenso de gradiente para el riesgo empírico con la actualización del descenso de gradiente:
El caso base es trivial. El caso inductivo se demuestra de la siguiente manera:
Supongamos que se proporciona un diccionario con dimensión tal que una función en el espacio de funciones se puede expresar como:
La aplicación de una restricción de escasez puede dar lugar a modelos más simples e interpretables. Esto resulta útil en muchas aplicaciones de la vida real, como la biología computacional . Un ejemplo es el desarrollo de una prueba predictiva simple para una enfermedad con el fin de minimizar el costo de realizar pruebas médicas y maximizar el poder predictivo.
Una restricción de escasez sensata es la norma , definida como el número de elementos distintos de cero en . Sin embargo, se ha demostrado que resolver un problema de aprendizaje regularizado es NP-hard . [7]
La norma (ver también Normas ) se puede utilizar para aproximar la norma óptima mediante relajación convexa. Se puede demostrar que la norma induce escasez. En el caso de los mínimos cuadrados, este problema se conoce como LASSO en estadística y búsqueda de base en procesamiento de señales.
La regularización puede producir ocasionalmente soluciones no únicas. En la figura se proporciona un ejemplo sencillo cuando el espacio de posibles soluciones se encuentra en una línea de 45 grados. Esto puede ser problemático para ciertas aplicaciones y se supera combinando con la regularización en la regularización de redes elásticas , que adopta la siguiente forma:
La regularización de red elástica tiende a tener un efecto de agrupación, donde a las características de entrada correlacionadas se les asignan pesos iguales.
La regularización de red elástica se utiliza comúnmente en la práctica y se implementa en muchas bibliotecas de aprendizaje automático.
Si bien la norma no genera un problema NP-hard, es convexa pero no es estrictamente diferenciable debido al punto de inflexión en x = 0. Los métodos de subgradiente que se basan en la subderivada se pueden utilizar para resolver problemas de aprendizaje regularizado. Sin embargo, se puede lograr una convergencia más rápida mediante métodos proximales.
Para un problema que es convexo, continuo, diferenciable, con gradiente continuo de Lipschitz (como la función de pérdida de mínimos cuadrados), y es convexo, continuo y propio, entonces el método proximal para resolver el problema es el siguiente. Primero defina el operador proximal y luego itere
El método proximal realiza iterativamente un descenso de gradiente y luego proyecta el resultado nuevamente en el espacio permitido por .
Cuando es el regularizador L 1 , el operador proximal es equivalente al operador de umbral suave,
Esto permite un cálculo eficiente.
Los grupos de características se pueden regularizar mediante una restricción de escasez, lo que puede ser útil para expresar cierto conocimiento previo en un problema de optimización.
En el caso de un modelo lineal con grupos conocidos no superpuestos, se puede definir un regularizador: donde
Esto puede verse como la inducción de un regularizador sobre la norma sobre los miembros de cada grupo, seguido por una norma sobre los grupos.
Esto se puede resolver mediante el método proximal, donde el operador proximal es una función de umbral suave por bloques:
El algoritmo descrito para la dispersión de grupos sin superposiciones se puede aplicar al caso en que los grupos se superponen, en determinadas situaciones. Esto probablemente dará como resultado algunos grupos con todos los elementos cero y otros grupos con algunos elementos cero y otros distintos de cero.
Si se desea conservar la estructura del grupo, se puede definir un nuevo regularizador:
Para cada , se define como el vector tal que la restricción de al grupo es igual y todas las demás entradas de son cero. El regularizador encuentra la desintegración óptima de en partes. Puede verse como la duplicación de todos los elementos que existen en múltiples grupos. Los problemas de aprendizaje con este regularizador también se pueden resolver con el método proximal con una complicación. El operador proximal no se puede calcular en forma cerrada, pero se puede resolver de manera efectiva de manera iterativa, induciendo una iteración interna dentro de la iteración del método proximal.
Cuando las etiquetas son más caras de recopilar que los ejemplos de entrada, el aprendizaje semisupervisado puede resultar útil. Los regularizadores se han diseñado para guiar a los algoritmos de aprendizaje a aprender modelos que respeten la estructura de las muestras de entrenamiento no supervisadas. Si se proporciona una matriz de pesos simétrica, se puede definir un regularizador:
Si se codifica el resultado de alguna métrica de distancia para los puntos y , es deseable que . Este regularizador captura esta intuición y es equivalente a: donde es la matriz laplaciana del gráfico inducido por .
El problema de optimización se puede resolver analíticamente si se aplica la restricción a todas las muestras supervisadas. Por lo tanto, la parte etiquetada del vector es obvia. La parte no etiquetada de se resuelve mediante: La pseudoinversa se puede tomar porque tiene el mismo rango que .
En el caso del aprendizaje multitarea, se consideran problemas de manera simultánea, cada uno de ellos relacionado de alguna manera. El objetivo es aprender funciones, idealmente aprovechando la fuerza de la relación entre tareas, que tienen poder predictivo. Esto es equivalente a aprender la matriz .
Este regularizador define una norma L2 en cada columna y una norma L1 en todas las columnas. Puede resolverse mediante métodos proximales.
donde son los valores propios en la descomposición en valores singulares de .
Este regularizador restringe las funciones aprendidas para cada tarea para que sean similares al promedio general de las funciones en todas las tareas. Esto es útil para expresar información previa que se espera que cada tarea comparta con las demás. Un ejemplo es predecir los niveles de hierro en sangre medidos en diferentes momentos del día, donde cada tarea representa a un individuo.
donde es un grupo de tareas.
Este regularizador es similar al regularizador con restricción de media, pero en cambio impone similitud entre tareas dentro del mismo grupo. Esto puede capturar información previa más compleja. Esta técnica se ha utilizado para predecir recomendaciones de Netflix . Un grupo correspondería a un grupo de personas que comparten preferencias similares.
De manera más general que lo anterior, la similitud entre tareas se puede definir mediante una función. El regularizador estimula al modelo a aprender funciones similares para tareas similares para una matriz de similitud simétrica dada .
Los métodos de aprendizaje bayesiano utilizan una probabilidad previa que (normalmente) otorga una probabilidad menor a los modelos más complejos. Las técnicas de selección de modelos conocidas incluyen el criterio de información de Akaike (AIC), la longitud mínima de descripción (MDL) y el criterio de información bayesiano (BIC). Los métodos alternativos para controlar el sobreajuste que no implican regularización incluyen la validación cruzada .
Ejemplos de aplicaciones de diferentes métodos de regularización al modelo lineal son:
Modelo | Medida de ajuste | Medida de entropía [5] [8] |
---|---|---|
Código AIC / BIC | ||
Lazo [9] | ||
Regresión de cresta [10] | ||
Búsqueda básica de eliminación de ruido | ||
Modelo Rudin-Osher-Fatemi (TV) | ||
Modelo de Potts | ||
RLAD [11] | ||
Selector de Dantzig [12] | ||
PENDIENTE [13] |
Los modelos de estructura temporal se pueden regularizar para eliminar oportunidades de arbitraje [ sic ? ].
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )el estimador de mínimos cuadrados ordinarios no es único y sobreajustará considerablemente los datos. Por lo tanto, será necesaria una forma de regularización de la complejidad.