El condicionamiento operante , también llamado condicionamiento instrumental , es un proceso de aprendizaje en el que las conductas voluntarias se modifican mediante la asociación con la adición (o eliminación) de estímulos de recompensa o aversivos. La frecuencia o duración de la conducta puede aumentar mediante el refuerzo o disminuir mediante el castigo o la extinción .
El condicionamiento operante se originó en el trabajo de Edward Thorndike , cuya ley del efecto teorizó que las conductas surgen como resultado de si sus consecuencias son satisfactorias o incómodas. En el siglo XX, el condicionamiento operante fue estudiado por psicólogos conductuales , quienes creían que gran parte, si no toda, de la mente y la conducta se puede explicar como resultado del condicionamiento ambiental. Los refuerzos son estímulos ambientales que aumentan las conductas, mientras que los castigos son estímulos que las disminuyen. Ambos tipos de estímulos pueden clasificarse además en estímulos positivos y negativos, que implican respectivamente la adición o eliminación de estímulos ambientales.
El condicionamiento operante se diferencia del condicionamiento clásico , que es un proceso en el que los estímulos se combinan con eventos biológicamente significativos para producir conductas involuntarias y reflexivas . Por el contrario, el condicionamiento operante es voluntario y depende de las consecuencias de una conducta.
El estudio del aprendizaje animal en el siglo XX estuvo dominado por el análisis de estos dos tipos de aprendizaje [1] , y todavía hoy son el núcleo del análisis del comportamiento. También se han aplicado al estudio de la psicología social , ayudando a aclarar ciertos fenómenos como el efecto del falso consenso [2] .
Condicionamiento operante | Extinción | ||||||||||||||||||||||||||||||
Refuerzo Aumentar la conducta | Castigo Disminuir la conducta | ||||||||||||||||||||||||||||||
Refuerzo positivo Añadir estímulo apetitivo después del comportamiento correcto | Refuerzo negativo | Castigo positivo Añadir estímulo nocivo después de la conducta | Castigo negativo Eliminar el estímulo apetitivo posterior a la conducta | ||||||||||||||||||||||||||||
Escapar Eliminar el estímulo nocivo siguiendo el comportamiento correcto | Evitación activa La conducta evita los estímulos nocivos. | ||||||||||||||||||||||||||||||
El condicionamiento operante, a veces llamado aprendizaje instrumental , fue estudiado extensamente por primera vez por Edward L. Thorndike (1874-1949), quien observó el comportamiento de los gatos que intentaban escapar de cajas de rompecabezas hechas en casa. [3] Un gato podía escapar de la caja con una respuesta simple como tirar de una cuerda o empujar un palo, pero cuando se lo constreñía por primera vez, los gatos tardaban mucho tiempo en salir. Con ensayos repetidos, las respuestas ineficaces ocurrían con menos frecuencia y las respuestas exitosas ocurrían con mayor frecuencia, por lo que los gatos escapaban cada vez más rápidamente. [3] Thorndike generalizó este hallazgo en su ley del efecto , que establece que las conductas seguidas de consecuencias satisfactorias tienden a repetirse y las que producen consecuencias desagradables tienen menos probabilidades de repetirse. En resumen, algunas consecuencias fortalecen la conducta y algunas consecuencias la debilitan . Al trazar el tiempo de escape contra el número de ensayos, Thorndike produjo las primeras curvas de aprendizaje animal conocidas a través de este procedimiento. [4]
Los seres humanos parecen aprender muchas conductas simples mediante el tipo de proceso estudiado por Thorndike, ahora llamado condicionamiento operante. Es decir, las respuestas se conservan cuando conducen a un resultado exitoso y se descartan cuando no lo hacen, o cuando producen efectos aversivos. Esto suele ocurrir sin que ningún "maestro" lo haya planeado, pero los padres han utilizado el condicionamiento operante para enseñar a sus hijos durante miles de años. [5]
A BF Skinner (1904-1990) se lo considera el padre del condicionamiento operante y su trabajo se cita con frecuencia en relación con este tema. Su libro de 1938 "The Behavior of Organisms: An Experimental Analysis" [6] inició su estudio permanente del condicionamiento operante y su aplicación al comportamiento humano y animal. Siguiendo las ideas de Ernst Mach , Skinner rechazó la referencia de Thorndike a estados mentales no observables como la satisfacción, basando su análisis en el comportamiento observable y sus consecuencias igualmente observables. [7]
Skinner creía que el condicionamiento clásico era demasiado simplista para ser utilizado para describir algo tan complejo como el comportamiento humano. El condicionamiento operante, en su opinión, describía mejor el comportamiento humano, ya que examinaba las causas y los efectos del comportamiento intencional.
Para implementar su enfoque empírico, Skinner inventó la cámara de condicionamiento operante , o " Caja de Skinner ", en la que sujetos como palomas y ratas estaban aislados y podían ser expuestos a estímulos cuidadosamente controlados. A diferencia de la caja de rompecabezas de Thorndike, esta disposición permitía al sujeto dar una o dos respuestas simples y repetibles, y la tasa de tales respuestas se convirtió en la principal medida conductual de Skinner. [8] Otro invento, el registrador acumulativo, produjo un registro gráfico a partir del cual se podían estimar estas tasas de respuesta. Estos registros fueron los datos primarios que Skinner y sus colegas usaron para explorar los efectos sobre la tasa de respuesta de varios programas de refuerzo. [9] Un programa de refuerzo puede definirse como "cualquier procedimiento que proporciona refuerzo a un organismo de acuerdo con alguna regla bien definida". [10] Los efectos de los programas se convirtieron, a su vez, en los hallazgos básicos a partir de los cuales Skinner desarrolló su explicación del condicionamiento operante. También se basó en muchas observaciones menos formales del comportamiento humano y animal. [11]
Muchos de los escritos de Skinner están dedicados a la aplicación del condicionamiento operante al comportamiento humano. [12] En 1948 publicó Walden Two , un relato ficticio de una comunidad pacífica, feliz y productiva organizada en torno a sus principios de condicionamiento. [13] En 1957, Skinner publicó Verbal Behavior , [14] que extendió los principios del condicionamiento operante al lenguaje, una forma de comportamiento humano que previamente había sido analizada de manera bastante diferente por los lingüistas y otros. Skinner definió nuevas relaciones funcionales como "mandos" y "tactos" para capturar algunos elementos esenciales del lenguaje, pero no introdujo nuevos principios, tratando el comportamiento verbal como cualquier otro comportamiento controlado por sus consecuencias, que incluían las reacciones de la audiencia del hablante.
Se dice que la conducta operante es "emitida", es decir, que inicialmente no es provocada por ningún estímulo en particular. Por lo tanto, uno puede preguntarse por qué sucede en primer lugar. La respuesta a esta pregunta es como la respuesta de Darwin a la pregunta sobre el origen de una "nueva" estructura corporal, es decir, variación y selección. De manera similar, la conducta de un individuo varía de un momento a otro, en aspectos tales como los movimientos específicos involucrados, la cantidad de fuerza aplicada o el momento de la respuesta. Las variaciones que conducen al refuerzo se fortalecen y, si el refuerzo es constante, la conducta tiende a permanecer estable. Sin embargo, la variabilidad conductual puede alterarse mediante la manipulación de ciertas variables. [15]
El refuerzo y el castigo son las herramientas fundamentales a través de las cuales se modifica la conducta operante. Estos términos se definen por su efecto sobre la conducta. Ambos pueden ser positivos o negativos.
Otro procedimiento se llama "extinción".
Hay un total de cinco consecuencias.
No se habla de los actores (por ejemplo, una rata) como si fueran reforzados, castigados o extinguidos; son las acciones las que se refuerzan, castigan o extinguen. El refuerzo, el castigo y la extinción no son términos cuyo uso se limite al laboratorio. Las consecuencias que ocurren naturalmente también pueden reforzar, castigar o extinguir la conducta y no siempre se planifican o se aplican a propósito.
Los programas de refuerzo son reglas que controlan la entrega del refuerzo. Las reglas especifican el momento en que el refuerzo debe estar disponible, el número de respuestas que deben darse o ambas cosas. Existen muchas reglas posibles, pero las siguientes son las más básicas y las más utilizadas [18] [9]
La eficacia del refuerzo y del castigo se puede modificar.
La mayoría de estos factores cumplen funciones biológicas. Por ejemplo, el proceso de saciedad ayuda al organismo a mantener un ambiente interno estable ( homeostasis ). Cuando un organismo ha sido privado de azúcar, por ejemplo, el sabor del azúcar es un reforzador eficaz. Cuando el nivel de azúcar en sangre del organismo alcanza o supera un nivel óptimo, el sabor del azúcar se vuelve menos eficaz o incluso aversivo.
El modelado es un método de condicionamiento que se utiliza a menudo en el adiestramiento animal y en la enseñanza de seres humanos no verbales. Depende de la variabilidad operante y del refuerzo, como se ha descrito anteriormente. El entrenador empieza por identificar la conducta final deseada (o "objetivo"). A continuación, elige una conducta que el animal o la persona ya emite con cierta probabilidad. La forma de esta conducta se va modificando gradualmente a lo largo de sucesivos ensayos reforzando conductas que se aproximan cada vez más a la conducta objetivo. Cuando finalmente se emite la conducta objetivo, se puede reforzar y mantener mediante el uso de un programa de refuerzo.
El refuerzo no contingente es la entrega de estímulos de refuerzo independientemente de la conducta del organismo. El refuerzo no contingente puede utilizarse en un intento de reducir una conducta objetivo no deseada reforzando múltiples respuestas alternativas mientras se extingue la respuesta objetivo. [21] Como no se identifica ninguna conducta medida como fortalecida, existe controversia en torno al uso del término "refuerzo" no contingente. [22]
Aunque inicialmente la conducta operante se emite sin una referencia identificada a un estímulo particular, durante el condicionamiento operante las operantes quedan bajo el control de estímulos que están presentes cuando la conducta es reforzada. Tales estímulos se denominan "estímulos discriminativos". El resultado es lo que se denomina una " contingencia de tres términos ". Es decir, los estímulos discriminativos establecen la ocasión para respuestas que producen recompensa o castigo. Ejemplo: una rata puede ser entrenada para presionar una palanca sólo cuando se enciende una luz; un perro corre a la cocina cuando escucha el ruido de su bolsa de comida; un niño alcanza un caramelo cuando lo ve sobre una mesa.
La mayor parte de la conducta está bajo control de estímulos. Se pueden distinguir varios aspectos de esto:
La mayoría de las conductas no pueden describirse fácilmente en términos de respuestas individuales reforzadas una por una. El alcance del análisis operante se amplía mediante la idea de cadenas de conducta, que son secuencias de respuestas unidas entre sí por las contingencias de tres términos definidas anteriormente. El encadenamiento se basa en el hecho, demostrado experimentalmente, de que un estímulo discriminativo no sólo establece la ocasión para una conducta posterior, sino que también puede reforzar una conducta que la precede. Es decir, un estímulo discriminativo es también un "reforzador condicionado". Por ejemplo, la luz que establece la ocasión para presionar una palanca puede utilizarse para reforzar el "giro" en presencia de un ruido. Esto da como resultado la secuencia "ruido - giro - luz - presionar la palanca - comida". Se pueden construir cadenas mucho más largas añadiendo más estímulos y respuestas.
En el aprendizaje por escape, una conducta pone fin a un estímulo (aversivo). Por ejemplo, protegerse los ojos de la luz del sol pone fin a la estimulación (aversiva) de la luz brillante en los ojos. (Este es un ejemplo de refuerzo negativo, definido anteriormente). La conducta que se mantiene evitando un estímulo se llama "evitación", como, por ejemplo, ponerse gafas de sol antes de salir al aire libre. La conducta de evitación plantea la llamada "paradoja de la evitación", ya que, cabe preguntarse, ¿cómo puede la no aparición de un estímulo servir como reforzador? Esta cuestión se aborda en varias teorías de la evitación (véase más adelante).
Se utilizan comúnmente dos tipos de configuraciones experimentales: aprendizaje de evitación discriminado y de operante libre.
Un experimento de evitación discriminada implica una serie de ensayos en los que un estímulo neutro, como una luz, es seguido por un estímulo aversivo, como una descarga eléctrica. Después de que aparece el estímulo neutro, una respuesta operante, como presionar una palanca, previene o termina el estímulo aversivo. En los primeros ensayos, el sujeto no da la respuesta hasta que se activa el estímulo aversivo, por lo que estos primeros ensayos se denominan ensayos de "escape". A medida que avanza el aprendizaje, el sujeto comienza a responder durante el estímulo neutro y, por lo tanto, evita que se produzca el estímulo aversivo. Estos ensayos se denominan "ensayos de evitación". Se dice que este experimento implica condicionamiento clásico porque un EC neutro (estímulo condicionado) se empareja con el EI aversivo (estímulo incondicionado); esta idea subyace a la teoría de dos factores del aprendizaje de evitación que se describe a continuación.
En la evitación operante libre, el sujeto recibe periódicamente un estímulo aversivo (a menudo una descarga eléctrica) a menos que se produzca una respuesta operante; la respuesta retrasa el inicio de la descarga. En esta situación, a diferencia de la evitación discriminada, ningún estímulo previo señala la descarga. Dos intervalos de tiempo cruciales determinan la velocidad de aprendizaje de la evitación. El primero es el intervalo SS (descarga-descarga), que es el tiempo transcurrido entre descargas sucesivas en ausencia de una respuesta. El segundo intervalo es el intervalo RS (respuesta-descarga), que especifica el tiempo en el que una respuesta operante retrasa el inicio de la siguiente descarga. Cada vez que el sujeto realiza la respuesta operante, el intervalo RS sin descarga comienza de nuevo.
Esta teoría fue propuesta originalmente para explicar el aprendizaje de evitación discriminada, en el que un organismo aprende a evitar un estímulo aversivo escapando de una señal para ese estímulo. Están involucrados dos procesos: el condicionamiento clásico de la señal seguido del condicionamiento operante de la respuesta de escape:
a) Condicionamiento clásico del miedo. Inicialmente, el organismo experimenta el emparejamiento de un EC con un EI aversivo. La teoría supone que este emparejamiento crea una asociación entre el EC y el EI a través del condicionamiento clásico y, debido a la naturaleza aversiva del EI, el EC llega a provocar una reacción emocional condicionada (REC): el "miedo". b) Reforzamiento de la respuesta operante por reducción del miedo. Como resultado del primer proceso, el EC ahora señala miedo; esta reacción emocional desagradable sirve para motivar respuestas operantes, y las respuestas que terminan el EC se refuerzan por la terminación del miedo. La teoría no dice que el organismo "evite" el EI en el sentido de anticiparlo, sino que el organismo "escapa" de un estado interno aversivo que es causado por el EC. Varios hallazgos experimentales parecen ir en contra de la teoría de dos factores. Por ejemplo, la conducta de evitación a menudo se extingue muy lentamente incluso cuando el emparejamiento inicial EC-EI nunca vuelve a ocurrir, por lo que podría esperarse que la respuesta de miedo se extinga (véase Condicionamiento clásico ). Además, los animales que han aprendido a evitar a menudo muestran poca evidencia de miedo, lo que sugiere que escapar del miedo no es necesario para mantener la conducta de evitación. [23]
Algunos teóricos sugieren que la conducta de evitación puede ser simplemente un caso especial de conducta operante mantenida por sus consecuencias. En esta perspectiva, la idea de "consecuencias" se amplía para incluir la sensibilidad a un patrón de eventos. Así, en la evitación, la consecuencia de una respuesta es una reducción en la tasa de estimulación aversiva. De hecho, la evidencia experimental sugiere que una "descarga no detectada" se detecta como un estímulo y puede actuar como reforzador. Las teorías cognitivas de la evitación llevan esta idea un paso más allá. Por ejemplo, una rata llega a "esperar" una descarga si no presiona una palanca y a "no esperar ninguna descarga" si la presiona, y la conducta de evitación se fortalece si se confirman estas expectativas. [23]
El acaparamiento operante se refiere a la observación de que las ratas reforzadas de una determinada manera pueden permitir que las bolitas de comida se acumulen en una bandeja de comida en lugar de recuperarlas. En este procedimiento, la recuperación de las bolitas siempre instituyó un período de extinción de un minuto durante el cual no había bolitas de comida adicionales disponibles, pero las que se habían acumulado anteriormente podían consumirse. Este hallazgo parece contradecir el hallazgo habitual de que las ratas se comportan impulsivamente en situaciones en las que hay una elección entre un objeto de comida más pequeño de inmediato y un objeto de comida más grande después de algún tiempo. Ver programas de reforzamiento . [24]
Los primeros estudios científicos que identificaron neuronas que respondían de maneras que sugerían que codificaban estímulos condicionados provinieron del trabajo de Mahlon deLong [25] [26] y de RT Richardson. [26] Demostraron que las neuronas del núcleo basal , que liberan acetilcolina ampliamente en toda la corteza cerebral , se activan poco después de un estímulo condicionado, o después de una recompensa primaria si no existe estímulo condicionado. Estas neuronas son igualmente activas para reforzadores positivos y negativos, y se ha demostrado que están relacionadas con la neuroplasticidad en muchas regiones corticales . [27] También existe evidencia de que la dopamina se activa en momentos similares. Hay evidencia considerable de que la dopamina participa tanto en el refuerzo como en el aprendizaje aversivo. [28] Las vías de dopamina se proyectan mucho más densamente en las regiones de la corteza frontal . Las proyecciones colinérgicas , por el contrario, son densas incluso en las regiones corticales posteriores como la corteza visual primaria . Un estudio de pacientes con enfermedad de Parkinson , una condición atribuida a la acción insuficiente de la dopamina, ilustra aún más el papel de la dopamina en el refuerzo positivo. [29] Mostró que mientras no tomaban su medicación, los pacientes aprendían más fácilmente con consecuencias aversivas que con refuerzo positivo. Los pacientes que tomaban su medicación mostraron lo contrario: el refuerzo positivo demostró ser la forma más efectiva de aprendizaje cuando la actividad de la dopamina es alta.
Se ha sugerido que un proceso neuroquímico en el que participa la dopamina subyace al refuerzo. Cuando un organismo experimenta un estímulo de refuerzo, se activan las vías de dopamina en el cerebro. Esta red de vías "libera un pulso corto de dopamina en muchas dendritas , transmitiendo así una señal de refuerzo global a las neuronas postsinápticas ". [30] Esto permite que las sinapsis recientemente activadas aumenten su sensibilidad a las señales eferentes (que conducen hacia el exterior), aumentando así la probabilidad de que se produzcan las respuestas recientes que precedieron al refuerzo. Estas respuestas son, estadísticamente, las que tienen más probabilidades de haber sido la conducta responsable de lograr con éxito el refuerzo. Pero cuando la aplicación del refuerzo es menos inmediata o menos contingente (menos consistente), se reduce la capacidad de la dopamina para actuar sobre las sinapsis apropiadas.
Varias observaciones parecen mostrar que la conducta operante puede establecerse sin refuerzo en el sentido definido anteriormente. El fenómeno más citado es el de automodelado (a veces llamado "seguimiento de señales"), en el que un estímulo es seguido repetidamente por un refuerzo y, en consecuencia, el animal comienza a responder al estímulo. Por ejemplo, se enciende una tecla de respuesta y luego se presenta comida. Cuando esto se repite unas cuantas veces, un sujeto paloma comienza a picotear la tecla aunque la comida venga, ya sea que el ave picotee o no. De manera similar, las ratas comienzan a manipular objetos pequeños, como una palanca, cuando se les presenta comida cerca. [31] [32] Sorprendentemente, las palomas y las ratas persisten en este comportamiento incluso cuando picotear la tecla o presionar la palanca conduce a menos comida (entrenamiento por omisión). [33] [34] Otra conducta operante aparente que aparece sin refuerzo es el contrafreeloading .
Estas observaciones y otras parecen contradecir la ley del efecto , y han impulsado a algunos investigadores a proponer nuevas conceptualizaciones del refuerzo operante (por ejemplo, [35] [36] [37] ). Una visión más general es que el automoldeo es una instancia del condicionamiento clásico ; el procedimiento de automoldeo se ha convertido, de hecho, en una de las formas más comunes de medir el condicionamiento clásico. En esta visión, muchas conductas pueden verse influenciadas tanto por contingencias clásicas (estímulo-respuesta) como por contingencias operantes (respuesta-refuerzo), y la tarea del experimentador es determinar cómo interactúan. [38]
El refuerzo y el castigo son omnipresentes en las interacciones sociales humanas, y se han sugerido e implementado muchas aplicaciones de los principios operantes. A continuación se presentan algunos ejemplos.
El refuerzo positivo y negativo desempeñan papeles centrales en el desarrollo y mantenimiento de la adicción y la dependencia de drogas . Una droga adictiva es intrínsecamente gratificante ; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensa del cerebro le asigna prominencia de incentivo (es decir, es "querida" o "deseada"), [39] [40] [41] por lo que a medida que se desarrolla una adicción, la privación de la droga conduce al ansia. Además, los estímulos asociados con el consumo de drogas (por ejemplo, la vista de una jeringa y el lugar de consumo) se asocian con el refuerzo intenso inducido por la droga. [39] [40] [41] Estos estímulos previamente neutrales adquieren varias propiedades: su aparición puede inducir ansia y pueden convertirse en reforzadores positivos condicionados del consumo continuado. [39] [40] [41] Por lo tanto, si un individuo adicto se encuentra con una de estas señales de drogas, puede reaparecer un ansia por la droga asociada. Por ejemplo, las agencias antidrogas solían utilizar carteles con imágenes de parafernalia relacionada con las drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, esos carteles ya no se utilizan debido a los efectos de la prominencia del incentivo en la recaída al ver los estímulos ilustrados en los carteles.
En los individuos dependientes de drogas, el refuerzo negativo ocurre cuando se autoadministra una droga para aliviar o "escapar" de los síntomas de dependencia física (p. ej., temblores y sudoración) y/o dependencia psicológica (p. ej., anhedonia , inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de la droga . [39]
Los entrenadores de animales y los dueños de mascotas aplicaban los principios y prácticas del condicionamiento operante mucho antes de que estas ideas fueran nombradas y estudiadas, y el entrenamiento animal todavía proporciona uno de los ejemplos más claros y convincentes de control operante. De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son los siguientes: (a) disponibilidad de refuerzo primario (por ejemplo, una bolsa de golosinas para perros); (b) el uso de refuerzo secundario (por ejemplo, hacer sonar un clicker inmediatamente después de una respuesta deseada, y luego dar una golosina); (c) contingencia, asegurar que el refuerzo (por ejemplo, el clicker) siga la conducta deseada y no otra cosa; (d) modelado, como hacer que un perro salte cada vez más alto; (e) refuerzo intermitente, como reducir gradualmente la frecuencia del refuerzo para inducir una conducta persistente sin saciedad; (f) encadenamiento, donde una conducta compleja se construye gradualmente a partir de unidades más pequeñas. [42]
El análisis de conducta aplicado es la disciplina iniciada por BF Skinner que aplica los principios del condicionamiento a la modificación de la conducta humana socialmente significativa. Utiliza los conceptos básicos de la teoría del condicionamiento, incluidos el estímulo condicionado (S C ), el estímulo discriminativo (S d ), la respuesta (R) y el estímulo reforzante (S rein o S r para reforzadores, a veces Save para estímulos aversivos). [23]
Los profesionales del análisis conductual aplicado (ABA) aplican estos procedimientos, y muchas variaciones y desarrollos de ellos, a una variedad de conductas y cuestiones socialmente significativas. En muchos casos, los profesionales utilizan técnicas operantes para desarrollar conductas constructivas y socialmente aceptables que reemplacen conductas aberrantes. Las técnicas de ABA se han aplicado de manera efectiva en cosas tales como intervenciones conductuales intensivas tempranas para niños con un trastorno del espectro autista (TEA) [43] investigación sobre los principios que influyen en la conducta delictiva , prevención del VIH, [44] conservación de recursos naturales, [45] educación, [46] gerontología , [47] salud y ejercicio , [48] seguridad industrial , [49] adquisición del lenguaje , [50] basura, [51] procedimientos médicos , [52] crianza de los hijos, [53] psicoterapia , [ cita requerida ] uso del cinturón de seguridad, [54] trastornos mentales graves , [55] deportes, [56] abuso de sustancias , fobias , trastornos de la alimentación pediátrica y gestión y cuidado de animales en zoológicos . [57] Algunas de estas aplicaciones se encuentran entre las que se describen a continuación.
El refuerzo positivo de las conductas apropiadas de los niños es un aspecto fundamental de la formación para padres en materia de gestión de conductas. Normalmente, los padres aprenden a recompensar las conductas apropiadas mediante recompensas sociales (como elogios, sonrisas y abrazos) y recompensas concretas (como pegatinas o puntos para una recompensa mayor como parte de un sistema de incentivos creado en colaboración con el niño). [58] Además, los padres aprenden a seleccionar conductas sencillas como objetivo inicial y a recompensar cada uno de los pequeños pasos que da su hijo para alcanzar una meta mayor (este concepto se denomina "aproximaciones sucesivas"). [58] [59]
Tanto los psicólogos como los economistas se han interesado en aplicar conceptos y hallazgos operantes al comportamiento de los seres humanos en el mercado. Un ejemplo es el análisis de la demanda de los consumidores, indexada por la cantidad de un producto que se compra. En economía, el grado en que el precio influye en el consumo se denomina "elasticidad precio de la demanda". Algunos productos son más elásticos que otros; por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros productos de consumo diario pueden verse menos afectados por los cambios de precio. En términos de análisis operante, dichos efectos pueden interpretarse en términos de las motivaciones de los consumidores y el valor relativo de los productos como reforzadores. [60]
Como se ha dicho antes en este artículo, un programa de proporción variable produce un refuerzo tras la emisión de un número impredecible de respuestas. Este programa suele generar una respuesta rápida y persistente. Las máquinas tragamonedas pagan según un programa de proporción variable y producen precisamente este tipo de comportamiento persistente de tirar de la palanca en los jugadores. La recompensa de proporción variable de las máquinas tragamonedas y otras formas de juego se ha citado a menudo como un factor subyacente a la adicción al juego. [61]
Los seres humanos tienen una resistencia innata a matar y son reacios a actuar de manera directa y agresiva contra miembros de su propia especie, incluso para salvar vidas. Esta resistencia a matar ha hecho que la infantería sea notablemente ineficiente a lo largo de la historia de la guerra militar. [62]
Este fenómeno no se comprendió hasta que SLA Marshall (general de brigada e historiador militar) realizó estudios de entrevistas a la infantería de la Segunda Guerra Mundial inmediatamente después de participar en el combate. El conocido y controvertido libro de Marshall, Men Against Fire, reveló que solo el 15% de los soldados disparaban sus rifles con el propósito de matar en combate. [63] Tras la aceptación de la investigación de Marshall por parte del Ejército de los EE. UU. en 1946, la Oficina de Investigación de Recursos Humanos del Ejército de los EE. UU. comenzó a implementar nuevos protocolos de entrenamiento que se asemejan a los métodos de condicionamiento operante. Las aplicaciones posteriores de dichos métodos aumentaron el porcentaje de soldados capaces de matar a alrededor del 50% en Corea y más del 90% en Vietnam. [62] Las revoluciones en el entrenamiento incluyeron la sustitución de los campos de tiro tradicionales emergentes por objetivos tridimensionales, con forma de hombre, que colapsaban cuando eran alcanzados. Esto proporcionaba una retroalimentación inmediata y actuaba como refuerzo positivo para el comportamiento de un soldado. [64] Otras mejoras en los métodos de entrenamiento militar han incluido el curso de tiro cronometrado; un entrenamiento más realista; muchas repeticiones; elogios de los superiores; recompensas por puntería; y reconocimiento grupal. El refuerzo negativo incluye la rendición de cuentas entre pares o la exigencia de repetir cursos. El entrenamiento militar moderno condiciona la respuesta del mesencéfalo a la presión del combate simulando de cerca el combate real, utilizando principalmente el condicionamiento clásico pavloviano y el condicionamiento operante skinneriano (ambas formas de conductismo ). [62]
El entrenamiento moderno de puntería es un ejemplo tan excelente de conductismo que se ha utilizado durante años en el curso introductorio de psicología que se enseña a todos los cadetes de la Academia Militar de los Estados Unidos en West Point como un ejemplo clásico de condicionamiento operante. En la década de 1980, durante una visita a West Point, BF Skinner identificó el entrenamiento moderno de puntería militar como una aplicación casi perfecta del condicionamiento operante. [64]
El teniente coronel Dave Grossman afirma lo siguiente sobre el condicionamiento operante y el entrenamiento militar de los EE. UU.:
Es perfectamente posible que nadie se haya sentado intencionadamente a utilizar técnicas de condicionamiento operante o de modificación de conducta para entrenar a soldados en esta área… Pero desde el punto de vista de un psicólogo que también es historiador y soldado de carrera, se me ha hecho cada vez más evidente que esto es exactamente lo que se ha logrado. [62]
La teoría del empujón (o nudge) es un concepto de la ciencia del comportamiento , la teoría política y la economía que sostiene que las sugerencias indirectas para intentar lograr un cumplimiento no forzado pueden influir en los motivos, los incentivos y la toma de decisiones de grupos e individuos, al menos con la misma eficacia –si no más– que la instrucción directa, la legislación o la aplicación de la ley. [ cita requerida ]
El concepto de elogio como un medio de refuerzo conductual tiene sus raíces en el modelo de condicionamiento operante de BF Skinner. Desde esta perspectiva, el elogio se ha visto como un medio de refuerzo positivo, en el que es más probable que ocurra una conducta observada al elogiar contingentemente dicha conducta. [65] Cientos de estudios han demostrado la eficacia del elogio para promover conductas positivas, en particular en el estudio del uso de elogios por parte de maestros y padres en niños para promover una mejor conducta y un mejor rendimiento académico, [66] [67] pero también en el estudio del rendimiento laboral. [68] También se ha demostrado que el elogio refuerza conductas positivas en individuos adyacentes no elogiados (como un compañero de clase del receptor del elogio) a través del refuerzo vicario. [69] El elogio puede ser más o menos eficaz para cambiar la conducta dependiendo de su forma, contenido y presentación. Para que el elogio produzca un cambio positivo en la conducta, debe ser contingente a la conducta positiva (es decir, solo administrarse después de que se realice la conducta deseada), debe especificar los detalles de la conducta que se va a reforzar y debe entregarse de manera sincera y creíble. [70]
Reconociendo el efecto del elogio como una estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivo-conductuales han incorporado el uso del elogio en sus protocolos. [71] [72] El uso estratégico del elogio se reconoce como una práctica basada en evidencia tanto en la gestión del aula [71] como en las intervenciones de capacitación para padres, [67] aunque el elogio a menudo se incluye en la investigación de intervenciones en una categoría más amplia de refuerzo positivo, que incluye estrategias como la atención estratégica y las recompensas conductuales.
Se han realizado varios estudios sobre el efecto que tienen la terapia cognitivo-conductual y la terapia operante-conductual en diferentes afecciones médicas. Cuando los pacientes desarrollaron técnicas cognitivas y conductuales que cambiaron sus conductas, actitudes y emociones, la intensidad de su dolor disminuyó. Los resultados de estos estudios mostraron una influencia de las cogniciones en la percepción del dolor y el impacto presentado explicó la eficacia general de la terapia cognitivo-conductual (TCC) y la terapia operante-conductual (TBO). [ cita requerida ]
La mayoría de los videojuegos [ cita requerida ] están diseñados en torno a un ciclo de compulsión , añadiendo un tipo de refuerzo positivo a través de un programa de ritmo variable para mantener al jugador jugando. Esto puede conducir a la patología de la adicción a los videojuegos . [73]
Como parte de una tendencia en la monetización de los videojuegos durante la década de 2010, algunos juegos ofrecían cajas de botín como recompensas o como artículos que se podían comprar con fondos del mundo real. Las cajas contienen una selección aleatoria de artículos del juego. La práctica se ha relacionado con los mismos métodos que utilizan las máquinas tragamonedas y otros dispositivos de juego para repartir recompensas, ya que sigue un programa de tarifas variables. Si bien la percepción general es que las cajas de botín son una forma de juego, la práctica solo se clasifica como tal en unos pocos países. Sin embargo, los métodos para usar esos artículos como moneda virtual para juegos de azar en línea o para intercambiarlos por dinero del mundo real han creado un mercado de juegos de azar que se encuentra bajo evaluación legal. [74]
Una de las muchas razones propuestas para los dramáticos costos asociados con la atención médica es la práctica de la medicina defensiva. Prabhu analiza el artículo de Cole y analiza cómo las respuestas de dos grupos de neurocirujanos son un comportamiento operante clásico. Un grupo ejerce en un estado con restricciones a las demandas médicas y el otro grupo no tiene restricciones. Se preguntó anónimamente al grupo de neurocirujanos sobre sus patrones de práctica. Los médicos cambiaron su práctica en respuesta a una retroalimentación negativa (miedo a la demanda) en el grupo que ejercía en un estado sin restricciones a las demandas médicas. [75]
Las recompensas en el condicionamiento operante son reforzadores positivos. ... El comportamiento operante da una buena definición de recompensas. Cualquier cosa que haga que un individuo vuelva por más es un reforzador positivo y, por lo tanto, una recompensa. Aunque proporciona una buena definición, el refuerzo positivo es solo una de varias funciones de recompensa. ... Las recompensas son atractivas. Son motivadoras y nos hacen realizar un esfuerzo. ... Las recompensas inducen un comportamiento de aproximación, también llamado comportamiento apetitivo o preparatorio, y comportamiento consumatorio. ... Por lo tanto, cualquier estímulo, objeto, evento, actividad o situación que tenga el potencial de hacer que nos acerquemos a él y lo consumamos es, por definición, una recompensa.
Las sustancias de abuso (que van desde el alcohol hasta los psicoestimulantes) se ingieren inicialmente en ocasiones regulares de acuerdo con sus propiedades de refuerzo positivas. Es importante destacar que la exposición repetida a sustancias gratificantes desencadena una cadena de eventos de refuerzo secundarios, por lo que las señales y los contextos asociados con el consumo de drogas pueden volverse ellos mismos reforzantes y, por lo tanto, contribuir al uso continuo y posible abuso de la(s) sustancia(s) de elección. ...
Una dimensión importante del refuerzo altamente relevante para el proceso de adicción (y particularmente la recaída) es el refuerzo secundario (Stewart, 1992). Los reforzadores secundarios (en muchos casos también considerados reforzadores condicionados) probablemente impulsan la mayoría de los procesos de refuerzo en humanos. En el caso específico de la adicción a las drogas, las señales y los contextos que se asocian íntima y repetidamente con el consumo de drogas a menudo se vuelven ellos mismos reforzantes... Una parte fundamental de la teoría de la sensibilización a los incentivos de la adicción de Robinson y Berridge postula que el valor de incentivo o la naturaleza atractiva de dichos procesos de refuerzo secundario, además de los propios reforzadores primarios, pueden persistir e incluso sensibilizarse con el tiempo en connivencia con el desarrollo de la adicción a las drogas (Robinson y Berridge, 1993). ...
El refuerzo negativo es una condición especial asociada con un fortalecimiento de las respuestas conductuales que terminan algún estímulo en curso (presumiblemente aversivo). En este caso, podemos definir un reforzador negativo como un estímulo motivacional que fortalece dicha respuesta de "escape". Históricamente, en relación con la adicción a las drogas, este fenómeno se ha observado sistemáticamente en humanos mediante la autoadministración de drogas de abuso para saciar una necesidad motivacional en el estado de abstinencia (Wikler, 1952).
{{cite book}}
: |journal=
ignorado ( ayuda )Cuando a un EC+ pavloviano se le atribuye prominencia de incentivos, no solo desencadena el "deseo" de su ECS, sino que a menudo la señal en sí misma se vuelve muy atractiva, incluso en un grado irracional. Esta atracción de señales es otra característica distintiva de la prominencia de incentivos. Se vuelve difícil no mirar al EC (Wiers y Stacy, 2006; Hickey et al., 2010a; Piech et al., 2010; Anderson et al., 2011). El EC incluso adquiere algunas propiedades de incentivo similares a su ECU. Un EC atractivo a menudo provoca un acercamiento motivado por la conducta y, a veces, un individuo puede incluso intentar "consumir" el EC de alguna manera como su ECU (por ejemplo, comer, beber, fumar, tener relaciones sexuales con él, tomarlo como droga). "Querer" un EC también puede convertir el estímulo anteriormente neutral en un reforzador condicionado instrumental, de modo que un individuo trabajará para obtener la señal (sin embargo, también existen mecanismos psicológicos alternativos para el refuerzo condicionado).
Un objetivo importante en el futuro para la neurociencia de la adicción es comprender cómo la motivación intensa se enfoca estrechamente en un objetivo en particular. Se ha sugerido que la adicción se debe en parte a la excesiva prominencia de incentivos producida por sistemas de dopamina sensibilizados o hiperreactivos que producen un "deseo" intenso (Robinson y Berridge, 1993). Pero no se ha explicado por completo por qué un objetivo se vuelve más "deseado" que todos los demás. En los pacientes adictos o estimulados con agonistas, la repetición de la estimulación dopaminérgica de la prominencia del incentivo se atribuye a actividades individualizadas particulares, como tomar la droga adictiva o las compulsiones particulares. En las situaciones de recompensa pavloviana, algunas señales de recompensa se vuelven más "deseadas" que otras como poderosos imanes motivacionales, de maneras que difieren entre individuos (Robinson et al., 2014b; Saunders y Robinson, 2013). ... Sin embargo, los efectos hedónicos bien podrían cambiar con el tiempo. A medida que se toma una droga repetidamente, la sensibilización dopaminérgica mesolímbica podría ocurrir en consecuencia en individuos susceptibles para amplificar el "deseo" (Leyton y Vezina, 2013; Lodge y Grace, 2011; Wolf y Ferrario, 2010), incluso si los mecanismos hedónicos opioides sufrieran una regulación negativa debido a la estimulación continua de la droga, produciendo tolerancia al "gusto". La sensibilización a los incentivos produciría adicción al magnificar selectivamente el "deseo" desencadenado por las señales de volver a tomar la droga, y así provocaría una motivación poderosa incluso si la droga se volviera menos placentera (Robinson y Berridge, 1993).