Parte de una serie sobre |
Aprendizaje automático y minería de datos |
---|
This article needs to be updated.(May 2024) |
La interferencia catastrófica , también conocida como olvido catastrófico , es la tendencia de una red neuronal artificial a olvidar abrupta y drásticamente la información previamente aprendida al aprender nueva información. [1] [2]
Las redes neuronales son una parte importante del enfoque conexionista de la ciencia cognitiva . La cuestión de la interferencia catastrófica al modelar la memoria humana con modelos conexionistas fue traída originalmente a la atención de la comunidad científica por la investigación de McCloskey y Cohen (1989), [1] y Ratcliff (1990). [2] Es una manifestación radical del dilema "sensibilidad-estabilidad" [3] o el dilema "estabilidad-plasticidad". [4] Específicamente, estos problemas se refieren al desafío de hacer una red neuronal artificial que sea sensible a la nueva información, pero que no se vea alterada por ella.
Las tablas de búsqueda y las redes conexionistas se encuentran en lados opuestos del espectro de plasticidad de estabilidad. [5] Las primeras permanecen completamente estables en presencia de nueva información pero carecen de la capacidad de generalizar , es decir, inferir principios generales, a partir de nuevas entradas. Por otro lado, las redes conexionistas como la red de retropropagación estándar pueden generalizar a entradas no vistas, pero son sensibles a nueva información. Los modelos de retropropagación pueden ser análogos a la memoria humana en la medida en que tienen una capacidad similar para generalizar [ cita requerida ] , pero estas redes a menudo exhiben menos estabilidad que la memoria humana. Cabe destacar que estas redes de retropropagación son susceptibles a interferencias catastróficas. Este es un problema al modelar la memoria humana, porque a diferencia de estas redes, los humanos normalmente no muestran olvido catastrófico. [6]
El término interferencia catastrófica fue acuñado originalmente por McCloskey y Cohen (1989), pero también llegó a la atención de la comunidad científica gracias a la investigación de Ratcliff (1990). [2]
McCloskey y Cohen (1989) observaron el problema de la interferencia catastrófica durante dos experimentos diferentes con modelos de redes neuronales de retropropagación.
En su primer experimento, entrenaron una red neuronal de retropropagación estándar en un único conjunto de entrenamiento que constaba de 17 problemas de un solo dígito de unos (es decir, 1 + 1 a 9 + 1, y 1 + 2 a 1 + 9) hasta que la red pudiera representar y responder adecuadamente a todos ellos. El error entre el resultado real y el resultado deseado disminuyó de manera constante a lo largo de las sesiones de entrenamiento, lo que reflejó que la red aprendió a representar mejor los resultados objetivo en los ensayos. A continuación, entrenaron la red en un único conjunto de entrenamiento que constaba de 17 problemas de un solo dígito de dos (es decir, 2 + 1 a 2 + 9, y 1 + 2 a 9 + 2) hasta que la red pudiera representar y responder adecuadamente a todos ellos. Observaron que su procedimiento era similar a cómo un niño aprendería sus operaciones de suma. Después de cada ensayo de aprendizaje sobre las operaciones de dos, se probó el conocimiento de la red sobre las operaciones de suma de unos y de dos. Al igual que las operaciones de unos, la red aprendió fácilmente las operaciones de dos. Sin embargo, McCloskey y Cohen observaron que la red ya no era capaz de responder correctamente a los problemas de suma de unos, incluso después de un ensayo de aprendizaje de los problemas de suma de dos. El patrón de salida producido en respuesta a los datos de unos a menudo se parecía más a un patrón de salida para un número incorrecto que al patrón de salida para un número correcto. Esto se considera una cantidad drástica de error. Además, los problemas 2+1 y 2+1, que se incluyeron en ambos conjuntos de entrenamiento, incluso mostraron una interrupción dramática durante los primeros ensayos de aprendizaje de los datos de dos.
En su segundo modelo conexionista, McCloskey y Cohen intentaron replicar el estudio sobre interferencia retroactiva en humanos de Barnes y Underwood (1959). Entrenaron el modelo con listas AB y AC y utilizaron un patrón de contexto en el vector de entrada (patrón de entrada) para diferenciar entre las listas. Específicamente, la red fue entrenada para responder con la respuesta B correcta cuando se le mostraba el estímulo A y el patrón de contexto AB y para responder con la respuesta C correcta cuando se le mostraba el estímulo A y el patrón de contexto AC. Cuando el modelo fue entrenado simultáneamente con los elementos AB y AC, la red aprendió rápidamente todas las asociaciones correctamente. En el entrenamiento secuencial, la lista AB fue entrenada primero, seguida por la lista AC. Después de cada presentación de la lista AC, se midió el desempeño tanto para la lista AB como para la lista AC. Encontraron que la cantidad de entrenamiento en la lista AC en el estudio de Barnes y Underwood que condujo a un 50% de respuestas correctas, condujo a casi un 0% de respuestas correctas por parte de la red de retropropagación. Además, descubrieron que la red tendía a mostrar respuestas que se parecían al patrón de respuesta C cuando se le pedía que diera el patrón de respuesta B. Esto indicaba que la lista AC aparentemente había sobrescrito la lista AB. Esto podría compararse con aprender la palabra perro, seguido de aprender la palabra taburete y luego descubrir que piensas en la palabra taburete cuando se te presenta la palabra perro.
McCloskey y Cohen intentaron reducir la interferencia mediante una serie de manipulaciones, entre ellas, cambiar la cantidad de unidades ocultas, cambiar el valor del parámetro de tasa de aprendizaje, sobreentrenar la lista AB, congelar ciertos pesos de conexión y cambiar los valores objetivo 0 y 1 en lugar de 0,1 y 0,9. Sin embargo, ninguna de estas manipulaciones redujo satisfactoriamente la interferencia catastrófica que exhibían las redes.
En general, McCloskey y Cohen (1989) concluyeron que:
Ratcliff (1990) utilizó múltiples conjuntos de modelos de retropropagación aplicados a procedimientos de memoria de reconocimiento estándar, en los que los elementos se aprendieron secuencialmente. [2] Después de inspeccionar los modelos de rendimiento de reconocimiento, encontró dos problemas importantes:
Incluso un solo ensayo de aprendizaje con nueva información resultó en una pérdida significativa de la información anterior, en paralelo con los hallazgos de McCloskey y Cohen (1989). [1] Ratcliff también descubrió que los resultados resultantes eran a menudo una mezcla de la entrada anterior y la nueva entrada. En redes más grandes, los elementos aprendidos en grupos (por ejemplo, AB y luego CD) eran más resistentes al olvido que los elementos aprendidos individualmente (por ejemplo, A, luego B y luego C...). Sin embargo, el olvido de los elementos aprendidos en grupos seguía siendo grande. Agregar nuevas unidades ocultas a la red no redujo la interferencia.
Este hallazgo contradice los estudios sobre la memoria humana, que indicaban que la discriminación aumenta con el aprendizaje. Ratcliff intentó aliviar este problema añadiendo "nodos de respuesta" que respondieran selectivamente a entradas antiguas y nuevas. Sin embargo, este método no funcionó, ya que estos nodos de respuesta se activaban para todas las entradas. Un modelo que utilizaba un patrón de contexto tampoco logró aumentar la discriminación entre elementos nuevos y antiguos.
La principal causa de interferencia catastrófica parece ser la superposición de las representaciones en la capa oculta de las redes neuronales distribuidas. [8] [9] [10] En una representación distribuida, cada entrada tiende a crear cambios en los pesos de muchos de los nodos. El olvido catastrófico ocurre porque cuando se cambian muchos de los pesos donde se "almacena el conocimiento", es poco probable que el conocimiento previo se mantenga intacto. Durante el aprendizaje secuencial, las entradas se mezclan, y las nuevas entradas se superponen a las antiguas. [9] Otra forma de conceptualizar esto es visualizar el aprendizaje como un movimiento a través de un espacio de pesos. [11] Este espacio de pesos se puede comparar con una representación espacial de todas las posibles combinaciones de pesos que podría poseer la red. Cuando una red aprende por primera vez a representar un conjunto de patrones, encuentra un punto en el espacio de pesos que le permite reconocer todos esos patrones. [10] Sin embargo, cuando la red aprende un nuevo conjunto de patrones, se moverá a un lugar en el espacio de ponderación para el cual la única preocupación es el reconocimiento de los nuevos patrones. [10] Para reconocer ambos conjuntos de patrones, la red debe encontrar un lugar en el espacio de ponderación adecuado para reconocer tanto los patrones nuevos como los antiguos.
A continuación se presentan una serie de técnicas que cuentan con respaldo empírico para reducir con éxito la interferencia catastrófica en redes neuronales de retropropagación:
Muchas de las primeras técnicas para reducir la superposición de representación implicaban hacer que los vectores de entrada o los patrones de activación de la unidad oculta fueran ortogonales entre sí. Lewandowsky y Li (1995) [12] observaron que la interferencia entre patrones aprendidos secuencialmente se minimiza si los vectores de entrada son ortogonales entre sí. Se dice que los vectores de entrada son ortogonales entre sí si el producto por pares de sus elementos a lo largo de los dos vectores suma cero. Por ejemplo, se dice que los patrones [0,0,1,0] y [0,1,0,0] son ortogonales porque (0×0 + 0×1 + 1×0 + 0×0) = 0. Una de las técnicas que pueden crear representaciones ortogonales en las capas ocultas implica la codificación de características bipolar (es decir, codificación utilizando -1 y 1 en lugar de 0 y 1). [10] Los patrones ortogonales tienden a producir menos interferencia entre sí. Sin embargo, no todos los problemas de aprendizaje pueden representarse utilizando este tipo de vectores y algunos estudios informan que el grado de interferencia todavía es problemático con vectores ortogonales. [2]
Según French (1991), [8] la interferencia catastrófica surge en redes de retropropagación de retroalimentación debido a la interacción de activaciones de nodos, o superposición de activación, que ocurre en representaciones distribuidas en la capa oculta. Las redes neuronales que emplean representaciones muy localizadas no muestran interferencia catastrófica debido a la falta de superposición en la capa oculta. Por lo tanto, French sugirió que reducir el valor de la superposición de activación en la capa oculta reduciría la interferencia catastrófica en redes distribuidas. Específicamente, propuso que esto podría hacerse cambiando las representaciones distribuidas en la capa oculta a representaciones "semidistribuidas". Una representación "semidistribuida" tiene menos nodos ocultos que están activos, y/o un valor de activación más bajo para estos nodos, para cada representación, lo que hará que las representaciones de las diferentes entradas se superpongan menos en la capa oculta. French recomendó que esto se podría hacer a través de "agudización de activación", una técnica que aumenta ligeramente la activación de una cierta cantidad de nodos más activos en la capa oculta, reduce ligeramente la activación de todas las demás unidades y luego cambia los pesos de entrada a la capa oculta para reflejar estos cambios de activación (similar a la retropropagación de errores).
Kortge (1990) [13] propuso una regla de aprendizaje para entrenar redes neuronales, llamada "regla de novedad", para ayudar a aliviar la interferencia catastrófica. Como sugiere su nombre, esta regla ayuda a la red neuronal a aprender solo los componentes de una nueva entrada que difieren de una entrada anterior. En consecuencia, la regla de novedad cambia solo los pesos que no se dedicaron previamente a almacenar información, reduciendo así la superposición en las representaciones en las unidades ocultas. Para aplicar la regla de novedad, durante el aprendizaje, el patrón de entrada se reemplaza por un vector de novedad que representa los componentes que difieren. Cuando la regla de novedad se utiliza en una red de retropropagación estándar, no se olvidan los elementos antiguos, o se olvidan menos, cuando se presentan elementos nuevos secuencialmente. [13] Sin embargo, una limitación es que esta regla solo se puede utilizar con redes autocodificadoras o autoasociativas, en las que la respuesta objetivo para la capa de salida es idéntica al patrón de entrada.
McRae y Hetherington (1993) [9] argumentaron que los humanos, a diferencia de la mayoría de las redes neuronales, no asumen nuevas tareas de aprendizaje con un conjunto aleatorio de pesos. Más bien, las personas tienden a aportar una gran cantidad de conocimiento previo a una tarea y esto ayuda a evitar el problema de la interferencia. Demostraron que cuando una red se entrena previamente con una muestra aleatoria de datos antes de comenzar una tarea de aprendizaje secuencial, este conocimiento previo limitará naturalmente la forma en que se puede incorporar la nueva información. Esto ocurriría porque una muestra aleatoria de datos de un dominio que tiene un alto grado de estructura interna, como el idioma inglés, el entrenamiento capturaría las regularidades, o patrones recurrentes, que se encuentran dentro de ese dominio. Dado que el dominio se basa en regularidades, un elemento recién aprendido tenderá a ser similar a la información aprendida previamente, lo que permitirá que la red incorpore nuevos datos con poca interferencia con los datos existentes. Específicamente, un vector de entrada que sigue el mismo patrón de regularidades que los datos entrenados previamente no debería causar un patrón drásticamente diferente de activación en la capa oculta ni alterar drásticamente los pesos.
Robins (1995) [14] describió que el olvido catastrófico puede prevenirse mediante mecanismos de repetición. Esto significa que cuando se añade nueva información, la red neuronal se vuelve a entrenar con parte de la información previamente aprendida. Sin embargo, en general, la información previamente aprendida puede no estar disponible para dicho reentrenamiento. Una solución para esto es el "pseudo-ensayo", en el que la red no se vuelve a entrenar con los datos previos reales, sino con representaciones de ellos. Varios métodos se basan en este mecanismo general.
French (1997) propuso una red de retropropagación pseudo-recurrente (ver Figura 2). [5] En este modelo la red se divide en dos subredes funcionalmente distintas pero que interactúan. Este modelo está inspirado biológicamente y se basa en la investigación de McClelland et al. (1995) [15] McClelland y colegas sugirieron que el hipocampo y el neocórtex actúan como sistemas de memoria separables pero complementarios, con el hipocampo para el almacenamiento de memoria de corto plazo y el neocórtex para el almacenamiento de memoria de largo plazo . La información almacenada inicialmente en el hipocampo puede ser "transferida" al neocórtex por medio de reactivación o reproducción. En la red pseudo-recurrente, una de las subredes actúa como un área de procesamiento temprano, similar al hipocampo, y funciona para aprender nuevos patrones de entrada. La otra subred actúa como un área de almacenamiento final, similar al neocórtex. Sin embargo, a diferencia de McClelland et al. (1995), el área de almacenamiento final envía la representación generada internamente de vuelta al área de procesamiento temprano. Esto crea una red recurrente. French propuso que este entrelazado de representaciones antiguas con representaciones nuevas es la única manera de reducir el olvido radical. Dado que el cerebro probablemente no tendría acceso a los patrones de entrada originales, los patrones que se devolverían al neocórtex serían representaciones generadas internamente llamadas pseudopatrones . Estos pseudopatrones son aproximaciones de entradas anteriores [14] y se pueden entrelazar con el aprendizaje de nuevas entradas.
Inspirados por [14] e independientemente de [5] Ans y Rousset (1997) [16] también propusieron una arquitectura neuronal artificial de dos redes con auto-refresco de memoria que supera la interferencia catastrófica cuando se llevan a cabo tareas de aprendizaje secuencial en redes distribuidas entrenadas por retropropagación. El principio es aprender nuevos patrones externos simultáneamente con pseudo-patrones generados internamente, o 'pseudo-memorias', que reflejan la información previamente aprendida. Lo que principalmente distingue a este modelo de aquellos que usan pseudo-ensayo clásico [14] [5] en redes multicapa de propagación hacia adelante es un proceso reverberante [ se necesita más explicación ] que se utiliza para generar pseudo-patrones. Después de una serie de reinyecciones de actividad a partir de una sola semilla aleatoria, este proceso tiende a subir a atractores de red no lineales que son más adecuados para capturar de manera óptima la estructura profunda del conocimiento distribuido dentro de los pesos de conexión que el único pase de propagación hacia adelante de la actividad utilizado en el pseudo-ensayo. El procedimiento de autorrefresco de la memoria resultó muy eficiente en procesos de transferencia [17] y en el aprendizaje serial de secuencias temporales de patrones sin olvido catastrófico. [18]
En los últimos años, el pseudoensayo ha recuperado popularidad gracias al progreso en las capacidades de los modelos generativos profundos . Cuando se utilizan estos modelos generativos profundos para generar los "pseudodatos" que se van a ensayar, este método se conoce normalmente como repetición generativa. [19] Esta repetición generativa puede prevenir eficazmente el olvido catastrófico, especialmente cuando la repetición se realiza en las capas ocultas en lugar de en el nivel de entrada. [20] [21]
Los conocimientos sobre los mecanismos de consolidación de la memoria durante los procesos del sueño en el cerebro humano y animal dieron lugar a otros enfoques de inspiración biológica. Si bien los recuerdos declarativos se consolidan en el cuadro clásico mediante el diálogo hipocampo-neocortical durante la fase NREM del sueño (véase más arriba), se sugirió que algunos tipos de recuerdos procedimentales no dependen del hipocampo e involucran la fase REM del sueño (por ejemplo, [22] pero véase [23] para la complejidad del tema). Esto inspiró modelos en los que las representaciones internas (recuerdos) creadas por el aprendizaje previo se reproducen espontáneamente durante períodos similares al sueño en la propia red [24] [25] (es decir, sin la ayuda de la red secundaria realizada por los enfoques de reproducción generativa mencionados anteriormente).
El aprendizaje latente es una técnica utilizada por Gutstein y Stump (2015) [26] para mitigar la interferencia catastrófica aprovechando el aprendizaje por transferencia . Este enfoque intenta encontrar codificaciones óptimas para cualquier clase nueva que se aprenda, de modo que sea menos probable que interfieran catastróficamente con las respuestas existentes. Dada una red que ha aprendido a discriminar entre un conjunto de clases utilizando códigos de salida de corrección de errores (ECOC) [27] (en lugar de códigos 1 hot ), las codificaciones óptimas para las nuevas clases se eligen observando las respuestas promedio de la red a ellas. Dado que estas respuestas promedio surgieron mientras se aprendía el conjunto original de clases sin ninguna exposición a las nuevas clases , se las conoce como "codificaciones aprendidas de forma latente". Esta terminología toma prestado del concepto de aprendizaje latente , introducido por Tolman en 1930. [28] En efecto, esta técnica utiliza el aprendizaje por transferencia para evitar la interferencia catastrófica, al hacer que las respuestas de una red a las nuevas clases sean lo más consistentes posible con las respuestas existentes a las clases ya aprendidas.
Kirkpatrick et al. (2017) [29] propusieron la consolidación elástica de pesos (EWC), un método para entrenar secuencialmente una única red neuronal artificial en múltiples tareas. Esta técnica supone que algunos pesos de la red neuronal entrenada son más importantes para tareas previamente aprendidas que otros. Durante el entrenamiento de la red neuronal en una nueva tarea, los cambios en los pesos de la red se hacen menos probables cuanto mayor sea su importancia. Para estimar la importancia de los pesos de la red, la EWC utiliza mecanismos probabilísticos, en particular la matriz de información de Fisher, pero esto también se puede hacer de otras maneras. [30] [31] [32]