Modelo de Rescorla-Wagner

El modelo de Rescorla-Wagner (" RW ") es un modelo de condicionamiento clásico , en el que el aprendizaje se conceptualiza en términos de asociaciones entre estímulos condicionados (EC) e incondicionados (IE). Una fuerte asociación EC-IE significa que las señales EC predicen el IE. Se podría decir que antes del condicionamiento, el sujeto está sorprendido por el IE, pero después del condicionamiento, el sujeto ya no está sorprendido, porque el EC predice la llegada del IE. El modelo presenta los procesos de condicionamiento en ensayos discretos, durante los cuales los estímulos pueden estar presentes o ausentes. La fuerza de predicción del IE en un ensayo se puede representar como la fuerza asociativa sumada de todos los EC presentes durante el ensayo. Esta característica del modelo representó un avance importante con respecto a los modelos anteriores y permitió una explicación sencilla de fenómenos experimentales importantes, en particular el efecto de bloqueo . Los fallos del modelo han dado lugar a modificaciones, modelos alternativos y muchos hallazgos adicionales. El modelo ha tenido cierto impacto en la neurociencia en los últimos años, ya que estudios han sugerido que la actividad fásica de las neuronas dopaminérgicas en las proyecciones DA mesostriatales en el mesencéfalo codifica el tipo de error de predicción detallado en el modelo. ^[1]

El modelo Rescorla-Wagner fue creado por los psicólogos de Yale Robert A. Rescorla y Allan R. Wagner en 1972.

Supuestos básicos del modelo

El cambio en la asociación entre un EC y un EI que ocurre cuando se combinan ambos depende de la fuerza con la que se predice el EI en esa prueba, es decir, informalmente, de lo "sorprendido" que está el organismo por el EI. La magnitud de esta "sorpresa" depende de la fuerza asociativa sumada de todas las señales presentes durante esa prueba. En cambio, los modelos anteriores derivaban el cambio en la fuerza asociativa a partir del valor actual del EC únicamente.
La fuerza asociativa de un EC se representa mediante un único número. La asociación es excitatoria si el número es positivo, inhibitoria si es negativo.
La fuerza asociativa de un estímulo se expresa directamente por el comportamiento que provoca/inhibe.
La prominencia de un CS (alfa en la ecuación) y la fuerza del US (beta) son constantes y no cambian durante el entrenamiento.
Sólo la fuerza asociativa actual de una señal determina su efecto sobre la conducta y la cantidad de aprendizaje que favorece. No importa cómo se haya llegado a ese valor de fuerza, ya sea mediante condicionamiento simple, reacondicionamiento o de otra manera.

Los dos primeros supuestos eran nuevos en el modelo Rescorla-Wagner. Los tres últimos supuestos ya estaban presentes en modelos anteriores y son menos cruciales para las predicciones novedosas del modelo RW.

Ecuación

\Delta V_{X}^{n+1}=\alpha _{X}\beta (\lambda -V_{\mathrm {tot} })

y

V_{X}^{n+1}=V_{X}^{n}+\Delta V_{X}^{n+1}

dónde

$\Delta V_{X}$ es el cambio en la fuerza, en una sola prueba, de la asociación entre el CS etiquetado como "X" y el US
${\estilo de visualización \alpha}$ es la prominencia de X (limitada por 0 y 1)
${\estilo de visualización \beta}$ es el parámetro de tasa para EE. UU. (limitado por 0 y 1), a veces llamado su valor de asociación
${\estilo de visualización \lambda}$ ¿Es el máximo condicionamiento posible para los EE.UU.?
$Estilo de visualización V_ {X}}$ es la fuerza asociativa actual de X
$V_{\mathrm {tot} }$ es la fuerza asociativa total de todos los estímulos presentes, es decir, X más cualquier otro

^[2]

El modelo RW revisado por Van Hamme y Wasserman (1994)

Van Hamme y Wasserman ampliaron el modelo Rescorla-Wagner (RW) original e introdujeron un nuevo factor en su modelo RW revisado en 1994: ^[3] Sugirieron que no solo los estímulos condicionados físicamente presentes en una prueba dada pueden experimentar cambios en su fuerza asociativa, sino que el valor asociativo de un EC también puede verse alterado por una asociación intracompuesta con un EC presente en esa prueba. Se establece una asociación intracompuesta si se presentan dos EC juntos durante el entrenamiento (estímulo compuesto). Si uno de los dos EC componentes se presenta posteriormente solo, se supone que activa también una representación del otro EC (previamente emparejado). Van Hamme y Wasserman proponen que los estímulos activados indirectamente a través de asociaciones intracompuestas tienen un parámetro de aprendizaje negativo, por lo que se pueden explicar los fenómenos de reevaluación retrospectiva.

Consideremos el siguiente ejemplo, un paradigma experimental llamado "bloqueo hacia atrás", indicativo de reevaluación retrospectiva, donde AB es el estímulo compuesto A+B:

Fase 1: AB–EE. UU.
Fase 2: A–EE. UU.

Ensayos de prueba: el grupo 1, que recibió ensayos de fase 1 y 2, genera una respuesta condicionada (CR) más débil a B en comparación con el grupo de control, que solo recibió ensayos de fase 1.

El modelo RW original no puede explicar este efecto, pero el modelo revisado sí puede: en la fase 2, el estímulo B se activa indirectamente a través de la asociación con A dentro del compuesto. Pero en lugar de un parámetro de aprendizaje positivo (normalmente llamado alfa) cuando está presente físicamente, durante la fase 2, B tiene un parámetro de aprendizaje negativo. Por lo tanto, durante la segunda fase, la fuerza asociativa de B disminuye mientras que el valor de A aumenta debido a su parámetro de aprendizaje positivo.

Por lo tanto, el modelo RW revisado puede explicar por qué la CR obtenida por B después del entrenamiento de bloqueo hacia atrás es más débil en comparación con el condicionamiento solo con AB.

Algunas fallas del modelo RW

Recuperación espontánea de la extinción y recuperación de la extinción causada por tratamientos de recordatorio (reincorporación): Es una observación bien establecida que un intervalo de tiempo de espera después de la finalización de la extinción da como resultado una recuperación parcial de la extinción, es decir, la reacción o respuesta extinguida previamente se repite, pero generalmente a un nivel más bajo que antes del entrenamiento de extinción. La reincorporación se refiere al fenómeno de que la exposición al EI solo del entrenamiento después de la finalización de la extinción da como resultado una recuperación parcial de la extinción. El modelo RW no puede explicar esos fenómenos.

Extinción de un inhibidor previamente condicionado: El modelo RW predice que la presentación repetida de un inhibidor condicionado solo (un EC con fuerza asociativa negativa) da como resultado la extinción de este estímulo (una disminución de su valor asociativo negativo). Esta es una predicción falsa. Por el contrario, los experimentos muestran que la presentación repetida de un inhibidor condicionado solo incluso aumenta su potencial inhibidor.

Recuperación facilitada después de la extinción: Una de las suposiciones del modelo es que la historia del condicionamiento de un EC no tiene ninguna influencia en su estado actual, sólo es importante su valor asociativo actual. Contrariamente a esta suposición, muchos experimentos ^[4] muestran que los estímulos que primero fueron condicionados y luego extinguidos son reacondicionados con mayor facilidad (es decir, se necesitan menos ensayos para el condicionamiento).

La exclusividad de la excitación y la inhibición: El modelo RW también supone que la excitación y la inhibición son características opuestas. Un estímulo puede tener potencial excitatorio (una fuerza asociativa positiva) o potencial inhibidor (una fuerza asociativa negativa), pero no ambos. En cambio, a veces se observa que los estímulos pueden tener ambas cualidades. Un ejemplo es el condicionamiento excitatorio regresivo en el que un EC se empareja hacia atrás con un EI (EI-EC en lugar de EC-EI). Esto suele hacer que el EC se convierta en un excitador condicionado. El estímulo también tiene características inhibidoras que pueden comprobarse mediante la prueba de retardo de adquisición. Esta prueba se utiliza para evaluar el potencial inhibidor de un estímulo, ya que se observa que el condicionamiento excitatorio con un inhibidor previamente condicionado se retrasa. El estímulo condicionado hacia atrás pasa esta prueba y, por tanto, parece tener características tanto excitatorias como inhibidoras.

Emparejamiento de un estímulo nuevo con un inhibidor condicionado: Se supone que un inhibidor condicionado tiene un valor asociativo negativo. Al presentar un inhibidor con un estímulo nuevo (es decir, su fuerza asociativa es cero), el modelo predice que la nueva señal debería convertirse en un excitador condicionado. Este no es el caso en situaciones experimentales. Las predicciones del modelo se derivan de su término básico (lambda-V). Dado que la fuerza asociativa sumada de todos los estímulos (V) presentes en la prueba es negativa (cero + potencial inhibidor) y lambda es cero (no hay EI presente), el cambio resultante en la fuerza asociativa es positivo, lo que convierte a la nueva señal en un excitador condicionado.

Efecto de preexposición CS: El efecto de preexposición al EC (también llamado inhibición latente ) es la observación bien establecida de que el condicionamiento después de la exposición al estímulo utilizado posteriormente como EC en el condicionamiento se retrasa. El modelo RW no predice ningún efecto de presentar un estímulo nuevo sin un EI.

Condicionamiento de orden superior: En el condicionamiento de orden superior, un EC previamente condicionado se combina con una señal nueva (es decir, primero EC1–EI y luego EC2–EC1). Esto suele hacer que la señal nueva EC2 provoque reacciones similares a las del EC1. El modelo no puede explicar este fenómeno, ya que durante los ensayos EC2–EC1 no hay EI presente. Pero al permitir que el EC1 actúe de manera similar a un EI, se puede reconciliar el modelo con este efecto.

Preacondicionamiento sensorial: El preacondicionamiento sensorial se refiere a la primera combinación de dos estímulos nuevos (CS1-CS2) y luego a la combinación de uno de ellos con un EI (CS2-EI). Esto convierte a CS1 y CS2 en excitadores condicionados. El modelo RW no puede explicar esto, ya que durante la fase CS1-CS2 ambos estímulos tienen un valor asociativo de cero y lambda también es cero (no hay EI presente), lo que no produce cambios en la fuerza asociativa de los estímulos.

Éxito y popularidad

El modelo Rescorla-Wagner debe su éxito a varios factores, entre ellos ^[2]

Tiene relativamente pocos parámetros libres y variables independientes.
Puede generar predicciones claras y ordinales.
Ha hecho una serie de predicciones exitosas
Expresado en términos como "predicción" y "sorpresa", el modelo tiene un atractivo intuitivo.
Ha generado una gran cantidad de investigaciones, incluidos muchos hallazgos nuevos y teorías alternativas.

Referencias

^ Hazy, Thomas E.; Frank, Michael J.; O'Reilly, Randall C. (1 de abril de 2010). "Mecanismos neuronales que sustentan las respuestas fásicas adquiridas de la dopamina en el aprendizaje: una síntesis integradora". Neuroscience and Biobehavioral Reviews . 34 (5): 701–720. doi :10.1016/j.neubiorev.2009.11.019. ISSN 0149-7634. PMC 2839018 . PMID 19944716.
^ ab Miller, Ralph R.; Barnet, Robert C.; Grahame, Nicholas J. (1995). "Evaluación del modelo Rescorla-Wagner" (PDF) . Psychological Bulletin . 117 (3). Asociación Estadounidense de Psicología: 363–386. doi :10.1037/0033-2909.117.3.363. PMID 7777644.
^ Van Hamme, LJ; Wasserman, EA (1994). "Competencia de señales en juicios de causalidad: el papel de la no presentación de elementos de estímulo compuestos" (PDF) . Aprendizaje y motivación . 25 (2): 127–151. doi :10.1006/lmot.1994.1008. Archivado desde el original (PDF) el 2014-04-07.
^ Napier, RM; Macrae, M.; Kehoe, EJ (1992). "Readquisición rápida en el condicionamiento de la respuesta de la membrana nictitante del conejo". Revista de Psicología Experimental: Procesos de comportamiento animal . 18 (2): 182–192. doi :10.1037/0097-7403.18.2.182.

Rescorla, RA y Wagner, AR (1972) Una teoría del condicionamiento pavloviano: variaciones en la efectividad del refuerzo y el no refuerzo, Condicionamiento clásico II, AH Black y WF Prokasy, Eds., págs. 64–99. Appleton-Century-Crofts.

Enlaces externos

Modelo Rescorla-Wagner de Scholarpedia
Simulador RW Simulador del modelo Rescorla-Wagner
Simulador de Rescorla-Wagner en el navegador
Simulador con diseño

[1] Hazy, Thomas E.; Frank, Michael J.; O'Reilly, Randall C. (1 de abril de 2010). "Mecanismos neuronales que sustentan las respuestas fásicas adquiridas de la dopamina en el aprendizaje: una síntesis integradora". Neuroscience and Biobehavioral Reviews . 34 (5): 701–720. doi :10.1016/j.neubiorev.2009.11.019. ISSN 0149-7634. PMC 2839018 . PMID 19944716.

[Assessment_of_model-2] Miller, Ralph R.; Barnet, Robert C.; Grahame, Nicholas J. (1995). "Evaluación del modelo Rescorla-Wagner" (PDF) . Psychological Bulletin . 117 (3). Asociación Estadounidense de Psicología: 363–386. doi :10.1037/0033-2909.117.3.363. PMID 7777644.

[3] Van Hamme, LJ; Wasserman, EA (1994). "Competencia de señales en juicios de causalidad: el papel de la no presentación de elementos de estímulo compuestos" (PDF) . Aprendizaje y motivación . 25 (2): 127–151. doi :10.1006/lmot.1994.1008. Archivado desde el original (PDF) el 2014-04-07.

[4] Napier, RM; Macrae, M.; Kehoe, EJ (1992). "Readquisición rápida en el condicionamiento de la respuesta de la membrana nictitante del conejo". Revista de Psicología Experimental: Procesos de comportamiento animal . 18 (2): 182–192. doi :10.1037/0097-7403.18.2.182.