Fundamentos Del Condicionamiento Y El Aprendizaje, Ed. 1 - Michael Domjan.pdf

  • Uploaded by: YanethCortés
  • 0
  • 0
  • January 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Fundamentos Del Condicionamiento Y El Aprendizaje, Ed. 1 - Michael Domjan.pdf as PDF for free.

More details

  • Words: 112,724
  • Pages: 297
Loading documents preview...
Fundamentos del condicionamiento y el aprendizaje

2

3

Fundamentos del condicionamiento y el aprendizaje Primera edición en español,de la cuarta edición en inglés

MICHAEL DOMJAN

Traducción Lic. María Luisa Negrete Montoya Universidad del Claustro de Sor Juana

Editor responsable: Lic. Georgina Moreno Zarco Editorial El Manual Moderno

4

Nos interesa su opinión, comuníquese con nosotros: Editorial El Manual Moderno S.A. de C.V. Av. Sonora 206, Col. Hipódromo, Alcaldía Cuauhtémoc, 06100, Ciudad de México, México (52-55) 52-65-11-00 [email protected] [email protected]

Título original de la obra: The Essentials of Conditioning and Learning, Fourth Edition. Copyright © 2018 by the American Psychological Association 750 First Street, NE Washington, DC 20002 www.apa.org ISBN: 978-1-4338-2778-5 Fundamentos del condicionamiento y el aprendizaje. D.R. © 2019 por Editorial El Manual Moderno S.A. de C.V. ISBN: 978-607-448-804-3 versión electrónica Miembro de la Cámara Nacional de la Industria Editorial Mexicana, Reg. núm. 39 This Work was originally published in English under the title of: The Essentials of Conditioning and Learning, Fourth Edition as a publication of the American Psychological Association in the United States of America. Copyright © 2018 by the American Psychological Association (APA). The Work has been translated and republished in the Spanish language by permission of the APA. This translation cannot be republished or reproduced by any third party in any form without express written permission of the APA. No part of this publication may be reproduced or distributed in any form or by any means or stored in any database or retrieval system without prior permission of the APA. Esta obra fue publicada originalmente en inglés bajo el título de: The Essentials of Conditioning and Learning, Fourth Edition como una publicación de la American Psychological Association en los Estados Unidos de América. Copyright © 2018 by the American Psychological Association (APA). Esta obra ha sido traducida y publicada en español con la autorización de la APA. Esta traducción no puede ser publicada nuevamente o reproducida de ninguna

5

forma por un tercero, sin el consentimiento previo por escrito de la APA. Ninguna parte de esta publicación puede ser reproducida o distribuida de ninguna forma, ni por ningún medio, ni almacenada en ningún tipo de base de datos o sistema de recuperación sin el permiso previo de la APA. Para mayor información sobre Catálogo de producto Novedades Instrumentos de evaluación en línea y más www.manualmoderno.com

Director editorial: Dr. José Luis Morales Saavedra Editora de desarrollo: Lic. Tania Flor García San Juan Diseño de portada: DG. María Elena Frausto Sánchez

6

7

Dedicatoria A Deborah

8

9

Contenido Dedicatoria Prefacio Capítulo 1. Conceptos y definiciones básicas Capítulo 2. Estructura del comportamiento no condicionado Capítulo 3. Habituación y sensibilización Capítulo 4. Condicionamiento pavloviano: conceptos básicos Capítulo 5. Relaciones de estímulo en el condicionamiento pavloviano Capítulo 6. Mecanismos y teorías del condicionamiento pavloviano Capítulo 7. Condicionamiento operante o instrumental Capítulo 8. Programas de reforzamiento Capítulo 9. Teorías del reforzamiento Capítulo 10. Extinción de la conducta condicionada Capítulo 11. Castigo Capítulo 12. Aprendizaje de evitación Capítulo 13. Control de la conducta a través de estímulos Capítulo 14. Mecanismos de la memoria Glosario Sobre el autor Referencias

10

11

Prefacio El condicionamiento y el aprendizaje son temas centrales que han dado forma a cómo pensamos e investigamos los problemas en muchas áreas de la psicología y disciplinas afines. El propósito de este libro es proporcionar un resumen conciso, actual y sofisticado de los elementos esenciales del condicionamiento y aprendizaje para estudiantes y profesionales en esas áreas. Aunque este campo de condicionamiento y aprendizaje tiene más de 100 años, se siguen haciendo nuevos descubrimientos y se siguen explorando nuevas aplicaciones de la investigación básica para resolver problemas clínicos importantes, como el tratamiento de miedos y fobias, el desarrollo de procedimientos de capacitación para el trastorno del espectro autista y discapacidades del desarrollo, y el tratamiento de la adicción a las drogas y otras formas de comportamiento compulsivo. Investigaciones recientes han llevado a una descripción más completa de los efectos del condicionamiento instrumental, incluido el análisis económico de los efectos del condicionamiento instrumental. También se han logrado nuevos avances en la investigación básica sobre el condicionamiento pavloviano, la extinción, la consolidación de la memoria y la reconsolidación de la memoria. Este libro proporciona un resumen conciso y altamente accesible de estas nuevas perspectivas. Los conceptos de condicionamiento y aprendizaje se utilizan con frecuencia en las neurociencias, la psicología del desarrollo, la psicofarmacología y la psicología comparada. Los investigadores en estas áreas están interesados en cómo los organismos no verbales aprenden, procesan y recuerdan información. Las investigaciones de aprendizaje y cognición en sujetos no verbales requieren invariablemente el uso de procedimientos de condicionamiento de alguna manera. Los psicólogos del desarrollo, por ejemplo, utilizan con frecuencia los procedimientos de habituación y condicionamiento instrumental para estudiar la cognición infantil. Los programas de neurociencia a menudo incluyen un “núcleo de comportamiento” que se dedica a recopilar datos de comportamiento sobre el aprendizaje y la memoria para complementar los datos de más niveles moleculares de análisis. Uno de los objetivos principales de este libro es proporcionar un fácil acceso a los “elementos esenciales” de condicionamiento y aprendizaje para los estudiantes y científicos que utilizan estos procedimientos y conceptos en sus propias áreas de especialización. Los procedimientos básicos de habituación, condicionamiento clásico y condicionamiento instrumental son familiares para muchos estudiantes y profesionales. Sin embargo, nuestra comprensión de estos procedimientos ha cambiado dramáticamente en las últimas décadas y, como resultado, muchas de las presunciones comunes sobre el aprendizaje ya no son válidas. ¿Sabía, por ejemplo, que: • ¿La contigüidad entre un estímulo condicionado y uno no condicionado no es necesaria ni suficiente para el condicionamiento pavloviano?

12

• ¿En muchos casos, el resultado más importante del condicionamiento pavloviano es cómo cambia las respuestas del organismo al estímulo no condicionado en lugar del desarrollo de una nueva respuesta a un estímulo condicionado? • ¿El condicionamiento instrumental no “fortalece” la respuesta instrumental? • ¿Los procedimientos de extinción dejan intacta gran parte de la estructura asociativa del comportamiento instrumental? • ¿El hecho de no recordar algo rara vez se debe a un olvido? • ¿Las memorias consolidadas no son permanentes, pero se pueden cambiar cuando se reactivan o recuperan? Los estudios de los mecanismos de condicionamiento básico se han trasladado en gran medida a las neurociencias, con numerosos investigadores que estudian las bases neuronales del condicionamiento y el aprendizaje. Sin embargo, no se pueden examinar los mecanismos neuronales del aprendizaje sin estar bien informados sobre el condicionamiento y los procedimientos y fenómenos de aprendizaje en el nivel del comportamiento. Algunos estudiantes graduados y científicos en neurociencias han tenido poca o ninguna capacitación en técnicas de comportamiento. Otros solo están familiarizados con la pequeña cantidad de técnicas de comportamiento que son pertinentes para los experimentos en los que están trabajando. Este conocimiento limitado les impide lograr una visión más completa de cómo el comportamiento se relaciona con los mecanismos neuronales. También limita su investigación a un número notablemente pequeño de procedimientos de aprendizaje. El objetivo de este libro es abordar este problema al exponer a estos científicos al menos a los “elementos esenciales” del condicionamiento y el aprendizaje. Estudiantes y profesionales en psicología del desarrollo y clínica enfrentan desafíos similares. Estos investigadores también confían en los procedimientos de condicionamiento y aprendizaje, pero su conocimiento a menudo se limita a procedimientos específicos, sin comprender el contexto intelectual más amplio para esos procedimientos o los análisis teóricos contemporáneos de esos fenómenos. Una exposición tan limitada al campo del condicionamiento y el aprendizaje en general impide que estos investigadores exploten completamente los procedimientos de condicionamiento para avanzar en sus áreas de investigación. Por ejemplo, la terapia “estándar” para superar los temores patológicos y las fobias implica algún tipo de extinción. La extinción es una de las áreas más emocionantes de la investigación contemporánea en condicionamiento y aprendizaje, con numerosas nuevas técnicas y perspectivas descubiertas en los últimos años. Sin embargo, pocos de estos se han introducido en el plan de estudios de psicología clínica. Otra área que está estrechamente relacionada con los estudios de condicionamiento y aprendizaje es el análisis de comportamiento aplicado, que se originó en estudios de condicionamiento operante realizados por B. F. Skinner y sus descendientes intelectuales. Desafortunadamente, desde su aparición como un campo separado, el análisis de comportamiento aplicado no ha mantenido fuertes vínculos con la ciencia básica sobre la cual se fundó. Por ejemplo, muchas

13

caracterizaciones del condicionamiento pavloviano en textos sobre el comportamiento aplicado están seriamente desfasadas. Al hacer que las perspectivas contemporáneas estén disponibles en un formato breve y accesible, este libro puede fomentar la actualización de las raíces científicas del análisis del comportamiento aplicado. Este libro puede servir como texto principal para un curso introductorio sobre condicionamiento y aprendizaje. También puede servir como texto complementario para cursos de neurociencia, psicología clínica, análisis de comportamiento aplicado, psicología del desarrollo y psicofarmacología. Finalmente, el libro puede usarse para proporcionar las bases para un curso avanzado, complementado con artículos de revistas y otras lecturas asignadas. Para facilitar eso, cada capítulo termina con una lista de lecturas sugeridas. Como recurso adicional para los profesores, también he creado un sitio web complementario con muestras de diapositivas de PowerPoint, preguntas de prueba y más (consulte http://pubs.apa.org/books/supp/domjan) (solo disponible en su versión en inglés). Al preparar este libro, fui guiado por mis alumnos, quienes me han alentado durante los últimos 45 años para seguir buscando formas de explicar conceptos de manera más simple y directa. Esta cuarta edición incluye actualizaciones y aclaraciones del texto que son demasiado numerosas para enumerarlas. También incluye numerosas referencias nuevas y lecturas sugeridas. Me gustaría agradecer a Chris Kelaher, Beth Hatch y a todos los demás miembros de la American Psychological Association que trabajaron en el libro con gran profesionalidad y entusiasmo. También me gustaría agradecer a mi esposa, Deborah Stote, por su firme apoyo.

14

Capítulo 1

15

Conceptos y definiciones básicas Sabía usted que: • ¿El aprendizaje puede resultar en un aumento o una disminución en la respuesta? • ¿El aprendizaje puede no ser evidente en las acciones de un organismo? Es posible que se requieran procedimientos de prueba especiales para ver los resultados del aprendizaje. • ¿Se puede investigar el aprendizaje a nivel del comportamiento, circuitos neuronales y sistemas neurotransmisores o neuronas individuales y sus sinapsis? • ¿El aprendizaje es una causa de cambio del comportamiento? Por lo tanto, el aprendizaje sólo puede investigarse con métodos experimentales que identifiquen variables causales. • ¿Los procedimientos de control son tan importantes en los estudios de aprendizaje como la capacitación o los procedimientos experimentales? El aprendizaje es de gran interés porque es el principal medio por el cual los organismos hacen ajustes a largo plazo en su comportamiento para estar mejor sintonizados con el mundo en el que viven. El aprendizaje requiere flexibilidad en la forma en que las personas responden al medio ambiente y, por lo tanto, Darwin y otros primeros psicólogos comparativos la consideraron como evidencia de inteligencia (Darwin, 1897; Romanes, 1882). Los científicos contemporáneos estudian el aprendizaje para comprender mejor cómo la experiencia altera los mecanismos del comportamiento. Los procedimientos del aprendizaje a menudo se utilizan en estudios de psicología clínica, del desarrollo y cognitiva, así como en neurociencia conductual y psicofarmacología. El aprendizaje es una característica generalizada del comportamiento humano y también es evidente en muchas otras especies animales; se ha encontrado en criaturas tan diversas como moscas de la fruta, babosas marinas, abejas, roedores, aves y monos. Por lo tanto, el aprendizaje es una de las características fundamentales del comportamiento.

16

CARACTERÍSTICAS FUNDAMENTALES DEL APRENDIZAJE Las personas aprenden a reconocer a los amigos como diferentes de los extraños. Aprenden cómo sostener un teléfono y cómo responderlo cuando suena o vibra. También aprenden a nadar, andar en bicicleta y a evitar los baches. En todos estos casos, el aprendizaje se identifica por un cambio en el comportamiento. Un nadador o ciclista experimentado se comporta de manera muy diferente a alguien que no ha aprendido a nadar o andar en bicicleta. Aprender a nadar o andar en bicicleta implica aprender nuevos movimientos de manos, piernas y cuerpo y coordinar estos movimientos para lograr el equilibrio y la locomoción hacia adelante. Muchas, pero no todas, las instancias de aprendizaje involucran la adquisición de nuevas respuestas. También aprenden a no hacer ciertas cosas. Los niños aprenden a quedarse callados en la iglesia, a quedarse quietos cuando los examina un médico y a no correr a la calle sin mirar primero si es seguro. Aprender a inhibir o suprimir el comportamiento es a menudo tan importante como aprender nuevas respuestas. Andar en bicicleta, por ejemplo, requiere aprender a pedalear, así como aprender a no inclinarse demasiado hacia un lado o hacia el otro. Por lo tanto, el cambio en el comportamiento que se utiliza para identificar el aprendizaje puede ser un aumento o una disminución en una respuesta particular. Aprendizaje y otras formas de cambio de comportamiento Aunque todo el aprendizaje se identifica por algún tipo de cambio en el comportamiento, no todos los casos en los que se altera el comportamiento son ejemplos de éste (figura 1-1). Por lo tanto, es importante distinguir el aprendizaje de otras fuentes de cambio de comportamiento.

17

Figura 1-1. Posibles mecanismos que pueden dar lugar a cambios en el comportamiento. Se debe tomar en cuenta que el aprendizaje es sólo una de las varias fuentes posibles de cambio del comportamiento.

Una característica importante del aprendizaje que lo diferencia de otras formas de cambio de comportamiento es que el aprendizaje es relativamente duradero. Esto sirve para distinguir el aprendizaje de varios cambios temporales o de corto plazo en el comportamiento. La fatiga y la somnolencia pueden causar cambios grandes y generalizados en el comportamiento (muchas de sus acciones se vuelven más lentas y menos vigorosas). Sin embargo, estos cambios son temporales y pueden ser revertidos por un buen descanso. Los cambios importantes a corto plazo en el comportamiento también pueden ser causados por cambios en la motivación. Por ejemplo, las personas son más reactivas a los estímulos relacionados con los alimentos cuando tienen hambre que después de una comida abundante. Los

18

cambios en las condiciones de estímulo también pueden causar cambios generalizados, pero a corto plazo, en el comportamiento. Si entra una piedra en el zapato, es probable que la incomodidad cambie la forma de caminar y haga detener la marcha para vaciar el zapato. Pero es probable que la interrupción sea de corta duración; se reanudará la marcha habitual una vez que se retire la piedra. El aprendizaje, por el contrario, implica cambios a largo plazo. El supuesto es que una vez que se aprende algo, será recordado por un tiempo sustancial. Por ejemplo, no se considera que haya aprendido un nuevo concepto discutido en clase si no es posible recordarlo al día siguiente. Si bien el aprendizaje implica cambios de comportamiento duraderos, no todos los cambios a largo plazo se deben al aprendizaje. Los cambios a largo plazo en el comportamiento también pueden deberse al crecimiento físico o la maduración. Los niños se vuelven más hábiles para levantar objetos pesados y alcanzar un tarro de galletas en un estante alto a medida que crecen. Estos cambios resultan del crecimiento físico y la maduración en lugar del aprendizaje. Los cambios de comportamiento debidos al aprendizaje y los cambios debidos a la maduración pueden estar interrelacionados y ser difíciles de distinguir. A medida que un niño se vuelve más fuerte y más alto con la edad, estos cambios de maduración facilitan el aprendizaje de nuevas habilidades. Sin embargo, una diferencia importante entre aprendizaje y maduración es que la maduración no requiere práctica con cosas específicamente relacionadas con la habilidad que se está adquiriendo. Una niña será capaz de alcanzar estantes altos a medida que crezca, practique o no alcanzar el tarro de las galletas. La práctica no es necesaria para la maduración, pero es necesaria para el aprendizaje. La práctica es necesaria para aprender una habilidad como nadar o andar en bicicleta. Para convertirse en un ciclista experto es necesaria una práctica extensa con el pedaleo, el manejo y el equilibrio. Otras cosas se pueden aprender con rapidez. Un niño aprenderá a no tocar un tronco en llamas en una chimenea después de una quemadura dolorosa. Sin embargo, independientemente de la cantidad de práctica involucrada, todo aprendizaje requiere algo de práctica o experiencia relacionada con el comportamiento adquirido. Otra diferencia entre la maduración y el aprendizaje es que el mismo proceso de maduración puede producir cambios de comportamiento en distintas situaciones. A medida que la niña crece, podrá alcanzar estantes más altos, trepar árboles más altos y atrapar mariposas que vuelan más alto. En contraste, los cambios de comportamiento debidos al aprendizaje están más limitados a la respuesta practicada. Aprender a operar una estufa le ayudará a cocinar en interiores, pero no mejorará su habilidad para hacer fuego para cocinar en un campamento. Esto no quiere decir que aprender sobre una cosa no puede ayudarle a hacer otra. Puede presentarse alguna generalización del aprendizaje. Sin embargo, la generalización del aprendizaje tiende a ser limitada. Lo que se aprende en una situación sólo se generaliza a otras situaciones similares. Por ejemplo, aprender a operar una estufa de gas en particular mejorará su capacidad para trabajar con otras estufas similares, pero es posible que no le ayude si está tratando de cocinar con un horno de microondas.

19

Otro tipo de cambio a largo plazo que debe distinguirse del aprendizaje es el cambio debido a la evolución. Esta última puede cambiar no sólo los atributos físicos de los organismos sino también su comportamiento. Además, los cambios evolutivos, como el aprendizaje, son el resultado de interacciones con el entorno. Sin embargo, los cambios evolutivos se producen a través de generaciones. En contraste, el aprendizaje crea cambios en el comportamiento de manera más rápida durante la vida de un organismo individual. Aunque el aprendizaje se distingue de la evolución, el aprendizaje es sin duda el producto de los procesos evolutivos. Considerando lo generalizado que es el aprendizaje en el reino animal, es seguro asumir que ha evolucionado en lugares ambientales particulares porque los organismos con la capacidad de aprender son más exitosos en la producción de crías en este reino (Domjan, Mahometa, & Matthews, 2012). La capacidad reproductiva de los individuos con la capacidad de aprender aumenta la probabilidad de que sus genes (y las bases genéticas del aprendizaje) se transmitan a las generaciones futuras. Este proceso evolutivo produce cambios en los mecanismos de comportamiento de una generación a la siguiente. El aprendizaje, en cambio, implica cambios en el comportamiento durante la vida de una persona. Aprendizaje, ejecución y niveles de análisis Que el aprendizaje se haya producido sólo puede determinarse observando un cambio en el comportamiento; sin embargo, el cambio sólo puede ser evidente en circunstancias especiales. Un estudiante de física, por ejemplo, puede no ser capaz de proporcionar una definición adecuada de un quark, lo que sugiere que no ha aprendido el concepto. Sin embargo, el mismo estudiante puede elegir la definición correcta de una lista de posibles alternativas. Los niños pueden aprender muchas cosas sobre la conducción de un automóvil al ver a los adultos conducir. Pueden aprender qué hace el volante y cuáles son las funciones del acelerador y el pedal para frenar. Sin embargo, es posible que no muestren evidencia de este conocimiento hasta que tengan la edad suficiente para tomar clases de manejo. Estos ejemplos ilustran que el aprendizaje puede ser silencioso desde el punto de vista del comportamiento, sin tener una manifestación visible del comportamiento. En tales casos, deben usarse procedimientos especiales para determinar lo que el individuo ha aprendido. El aprendizaje puede no ser evidente en las acciones de un organismo por una variedad de razones. Una posibilidad es que lo que se aprende es una relación entre estímulos o eventos en el entorno en lugar de una respuesta particular. Por ejemplo, se aprende a asociar el color rojo con las fresas maduras. El aprendizaje de una asociación entre dos estímulos se denomina aprendizaje estímulo-estímulo (E-E). Una asociación aprendida entre el rojo y la madurez no se reflejará en la vida diaria a menos que se asigne una tarea especial, como juzgar la madurez de las fresas según su color. El aprendizaje E-E por lo general no es evidente en las acciones de un organismo a menos que se utilicen procedimientos de prueba especiales. Las cosas que un individuo hace, las acciones observables de una persona, se les nombra ejecución. Ésta depende de muchas cosas, incluida la motivación y las

20

condiciones de estímulo o las oportunidades de comportamiento proporcionadas por el entorno. El aprendizaje es sólo uno de los muchos factores que determinan la ejecución. Una persona puede ser un excelente flautista, pero si no tiene la oportunidad o la inclinación para tocar la flauta, nadie podrá decir qué tan buen músico es. En los siguientes capítulos se describen varias formas de condicionamiento y aprendizaje silenciosas en cuanto a la conducta. Los ejemplos de aprendizaje silencioso desde el punto de vista conductual sugieren que el aprendizaje no puede equipararse con un cambio en el comportamiento. Más bien, el aprendizaje implica un cambio en el potencial para hacer algo. ¿Dónde reside el cambio en el potencial de acción? El comportamiento es el producto del sistema nervioso. Por lo tanto, el aprendizaje implica cambios duraderos en los mecanismos neuronales del comportamiento. De hecho, los primeros neurocientíficos, como Iván Pavlov, consideraron que los estudios conductuales de aprendizaje son aquellos en cómo funciona el sistema nervioso. Pavlov consideraba los procedimientos de aprendizaje como técnicas para la investigación de la función neural. Debido a que el aprendizaje involucra cambios en el sistema nervioso, se puede investigar en una variedad de niveles de análisis (figura 1-2). Es posible estudiar el aprendizaje a nivel de los cambios moleculares en las células nerviosas (o neuronas) y sus conexiones (o sinapsis).

Figura 1-2. Niveles de análisis del aprendizaje. Los mecanismos de aprendizaje pueden investigarse a nivel orgánico, a nivel de circuitos neuronales y sistemas transmisores, y a nivel de células nerviosas (neuronas) y sus sinapsis.

También se puede estudiar el aprendizaje a nivel de los sistemas neuronales, como los sistemas neurotransmisores y los circuitos neuronales. Por último, es posible estudiar el aprendizaje a nivel de cambios en el comportamiento de los organismos intactos.

21

Históricamente, los estudios de aprendizaje comenzaron a nivel del organismo intacto, y el aprendizaje se ha investigado más extensamente a nivel conductual. Sin embargo, con los recientes avances en las neurociencias, los conceptos y términos desarrollados para el análisis conductual del aprendizaje también se han aplicado a las investigaciones a nivel de circuitos neuronales y sistemas de neurotransmisores, así como a nivel celular y molecular. De hecho, los estudios de los mecanismos neuronales del aprendizaje representan una de las áreas más grandes de la investigación contemporánea en el aprendizaje. Un desafío importante en los próximos años será integrar el conocimiento de los estudios de aprendizaje que se concentran en diferentes niveles de análisis. Comprender cómo se produce el aprendizaje en el nivel de comportamiento es fundamental para esta integración (Delamater & Lattal, 2014). Esta obra describe el análisis de comportamiento del aprendizaje. Una definición de aprendizaje Identifique una serie de características de aprendizaje en el apartado anterior. El aprendizaje implica un cambio en el potencial o mecanismos neuronales del comportamiento. Este cambio es relativamente duradero y es el resultado de la experiencia con eventos ambientales específicamente relacionados con el comportamiento en cuestión. Estas características se combinan en la siguiente definición: El aprendizaje es un cambio relativamente duradero en el potencial de participar en un comportamiento particular como resultado de la experiencia con eventos ambientales específicamente relacionados con ese comportamiento.

OBSERVACIONES NATURALISTAS CONTRA EXPERIMENTALES El comportamiento ocurre de muchas maneras y en muchas situaciones. Sin embargo, sólo hay dos enfoques disponibles para el estudio del comportamiento: las observaciones naturalistas y las observaciones experimentales. Las observaciones naturalistas implican observar y medir el comportamiento tal como ocurre en condiciones naturales, en ausencia de intervenciones o manipulaciones introducidas por el investigador. En contraste, las observaciones experimentales implican medir el comportamiento en condiciones específicamente diseñadas por el investigador para probar factores o variables particulares que podrían influir en el aprendizaje o el desempeño del comportamiento. El lector deberá considerar, por ejemplo, las actividades que realizan las ardillas en la búsqueda de alimentos en los árboles. El forraje puede ser investigado utilizando observaciones naturalistas. Se pueden ver ardillas en un parque, por ejemplo, y contar la frecuencia con la que recogen una semilla, la frecuencia con la que la comen y la frecuencia con la que la entierran para su posterior recuperación. Realizar estas observaciones a lo largo del día y durante las estaciones proporcionaría información detallada sobre el comportamiento de forraje de las

22

ardillas en ese parque. Sin embargo, tales observaciones no revelarían por qué las ardillas llevan a cabo estas acciones. Observar a las ardillas sin molestarlas no explica por qué seleccionan un tipo de semilla en lugar de otra, por qué dedican más esfuerzo a alimentarse durante una parte del día que en otra, o por qué comen unas semillas de inmediato y entierran otras para comerlas más tarde. Las observaciones naturalistas no pueden proporcionar respuestas a preguntas que indagan las causas del comportamiento. Pueden ayudar a formular preguntas o hipótesis sobre por qué los animales hacen ciertas cosas, pero las observaciones naturalistas no pueden identificar las variables causales. Las causas del comportamiento sólo se pueden descubrir usando métodos experimentales. Las observaciones experimentales requieren que el investigador manipule el ambiente de manera que facilite llegar a una conclusión causal. Al usar observaciones naturalistas, es posible que las ardillas entierren más semillas en otoño que en invierno. ¿Qué podría causar este resultado? Una posibilidad es que haya más semillas disponibles en otoño que en invierno. Es posible probar esta posibilidad comparando ardillas bajo dos condiciones diferentes: la primera que a las ardillas se les proporcionaría un exceso de alimento al esparcir muchos cacahuates en el área de observación; la segunda, las ardillas no recibirían cacahuates adicionales. En todos los demás aspectos relevantes, las condiciones de prueba serían las mismas. La temperatura, los cambios en la luz de varios días y la extensión del follaje en los árboles serían idénticos. Dadas estas condiciones idénticas, si las ardillas enterraran más semillas cuando la comida es abundante que cuando escasea, es posible concluir que el exceso de comida alienta o causa el enterramiento de semillas. Aunque las observaciones experimentales permiten sacar conclusiones sobre las causas de la conducta, es importante darse cuenta de que no se pueden observar de manera directa. Más bien, las causas deben inferirse de las diferencias en el comportamiento observadas en diferentes condiciones experimentales. Cuando se concluye que el exceso de alimentos causa el entierro de las semillas, no se describe algo que realmente se observó. Lo visto en el experimento hipotético es que las ardillas entierran más semillas cuando la comida es abundante que cuando la comida escasea. La conclusión de que el exceso de alimentos causa el entierro de semillas es una inferencia que se obtiene al comparar las dos condiciones experimentales. Las conclusiones causales son inferencias basadas en una comparación de dos (o más) condiciones experimentales. Las observaciones naturalistas no controladas pueden proporcionar gran cantidad de información descriptiva sobre el comportamiento. Se ha aprendido mucho de las observaciones naturalistas sobre la búsqueda de alimentos, el cortejo y el comportamiento sexual, el comportamiento maternal, el comportamiento de los padres y el comportamiento defensivo y territorial. Teniendo en cuenta que, en última instancia, el aprendizaje también es evidente en el comportamiento de los humanos y otros animales, se podría suponer que las técnicas de observación también pueden ser útiles en el estudio del aprendizaje. De hecho, algunos autores han defendido que las investigaciones detalladas del aprendizaje deberían comenzar con observaciones naturalistas de los fenómenos de aprendizaje (Miller, 1985). Sin

23

embargo, las observaciones naturalistas son inherentemente inadecuadas para los estudios de aprendizaje porque no pueden identificar variables causales.

EL EXPERIMENTO FUNDAMENTAL DE APRENDIZAJE Un aspecto crítico de la definición desarrollada en este capítulo es que el aprendizaje es el resultado de experiencias pasadas. Como tal, el aprendizaje es una variable causal, que involucra experiencias pasadas con eventos ambientales relevantes. Para concluir que el aprendizaje ha ocurrido, es necesario asegurarse de que el cambio en el comportamiento que se observa es causado por la experiencia pasada. Como se mencionó, las causas no se pueden observar de modo directo. En su lugar, tienen que ser inferidos de observaciones experimentales. Esta idea tiene profundas implicaciones para el estudio del aprendizaje, debido a que el aprendizaje es una variable causal, no se puede observar de modo directo. Más bien, el aprendizaje sólo puede investigarse mediante manipulaciones experimentales que sirven para aislar una experiencia pasada específica como la causa de un cambio en el comportamiento. Para concluir que un cambio en el comportamiento se debe a una experiencia o aprendizaje específico en el pasado, se tienen que comparar individuos con y sin esa experiencia bajo circunstancias idénticas. La experiencia pasada específica es la variable independiente (VI), y el cambio resultante en el comportamiento es la variable dependiente (VD). Considere, por ejemplo, el hecho de que la mayoría de los niños de 8 años pueden andar en bicicleta con destreza, mientras que los niños de 3 años no. Una interpretación razonable es que los niños mayores son mejores ciclistas porque han tenido más tiempo para practicar. Es decir, el cambio en el comportamiento de 3 a 8 años de edad puede ser causado por la experiencia de andar en la bicicleta. Para apoyar esta conclusión, no es suficiente señalar el hecho de que los niños de 8 años son mejores corredores que los de 3 años. Tal diferencia podría deberse al crecimiento físico y la maduración. Tampoco es convincente señalar que los niños de 8 años pasan más tiempo montando bicicletas que los niños de 3 años porque esto puede ser un efecto y no una causa de la mayor habilidad de los niños de 8 años. Se debe realizar algún tipo de experimento para demostrar que la conducción competente es el resultado de la experiencia pasada o el aprendizaje. Una forma de demostrar que la bicicleta es una habilidad aprendida sería realizar un experimento con niños de 3 años que nunca han montado una bicicleta. Es posible asignar a los niños al azar a 1 de 2 grupos de tratamiento: un grupo experimental y un grupo de control. El grupo experimental recibiría tres lecciones de una hora en bicicleta. (Ésta sería la habilidad VI). El grupo de control también recibiría tres lecciones de una hora a través de las cuales se familiarizarían con las bicicletas. Sin embargo, a los niños en el grupo de control no se les enseñaría a montar. Más bien, se les diría acerca de las distintas partes de una bicicleta y cómo encajan entre sí. Al final de las lecciones, ambos grupos de niños serían evaluados por su habilidad para montar. La habilidad en ciclismo sería la VD. Si se aprende a manejar con habilidad a través de la práctica relevante, entonces los niños en el grupo experimental deben ser más competentes que los niños en el grupo de

24

control. El ejemplo anterior ilustra el experimento de aprendizaje fundamental (figura 1-3, panel izquierdo). Para concluir que un cambio de comportamiento es el resultado del aprendizaje, es necesario comparar el comportamiento de los individuos en dos condiciones. En la condición experimental, los participantes reciben la experiencia o capacitación ambiental relevante. En la condición de control, los participantes no reciben la capacitación relevante, pero son tratados de manera idéntica en todos los demás aspectos. La aparición del aprendizaje se deduce de una comparación entre las dos condiciones. No se puede concluir que el aprendizaje haya ocurrido observando sólo a las personas que han adquirido la habilidad de interés. Más bien, las conclusiones sobre el aprendizaje requieren una comparación entre las condiciones experimentales y de control.

Figura 1-3. Dos versiones del experimento de aprendizaje fundamental. En el panel izquierdo, se comparan dos grupos de individuos. El procedimiento de capacitación se proporciona para los participantes en el grupo experimental, pero no para los participantes en el grupo de control. En el panel derecho, se observa una sola persona antes y durante el entrenamiento. El comportamiento del individuo durante el entrenamiento se compara con lo que se asume que su comportamiento hubiera sido sin éste.

El problema del control en estudios de aprendizaje ¿Hay consecuencias especiales porque el aprendizaje sólo puede inferirse de una comparación entre individuos con un historial de entrenamiento particular y otros que carecen de ese historial? Sí, en efecto. Una consecuencia importante es que el aprendizaje no se puede investigar utilizando observaciones naturalistas. En circunstancias naturales, los individuos con un historial de entrenamiento particular a menudo difieren en varios aspectos de los individuos que no tienen el mismo historial. Por lo tanto, los requisitos del experimento de aprendizaje fundamental no se satisfacen en circunstancias completamente naturales. Una segunda consecuencia importante del hecho de que el aprendizaje requiere comparar una condición experimental con una condición de control es que el procedimiento de control debe diseñarse con tanto cuidado como el procedimiento experimental. De hecho, algunas contribuciones históricas al estudio del aprendizaje

25

no provienen de análisis de procedimientos experimentales para producir aprendizaje sino de análisis de procedimientos de control (p. ej., Church, 1964; Rescorla, 1967; Papini y Bitterman, 1990). Diferentes procedimientos de entrenamiento requieren diferentes procedimientos de control. Este tema se discutirá con mayor detalle a lo largo de esta obra. Por ahora, basta con decir que el diseño de un procedimiento de control está dado por el aspecto particular de la experiencia pasada que se desea aislar como responsable del cambio de comportamiento en el interés. En el ejemplo de los niños que aprenden a andar en bicicleta, era de importancia saber si la práctica de la conducción era fundamental para convertirse en un ciclista hábil. Los niños que practican la conducción también aprenden mucho sobre cómo funciona una bicicleta (p. ej., cómo hacen girar las ruedas los pedales). Ésta es la razón por la que se diseñó el procedimiento para el grupo de control para que los niños de ese grupo aprendan sobre las partes de una bicicleta y cómo se combinan. Sin embargo, a los niños del grupo de control no se les proporcionó la práctica de sentarse en una bicicleta y pedalearla. Por lo tanto, el diseño del procedimiento de control permitió aislar la práctica de la conducción como el factor crítico involucrado en aprender a andar en bicicleta. Una tercera consecuencia importante del hecho de que el aprendizaje sólo puede inferirse de una comparación entre las condiciones experimentales y de control es que el aprendizaje por lo general se investiga con al menos dos grupos independientes de participantes, un grupo experimental y un grupo control. Un diseño experimental que involucra la comparación de dos grupos separados de participantes se denomina diseño experimental entre sujetos. Una excepción importante al diseño experimental tradicional entre sujetos se desarrolló en la tradición skinneriana de la investigación del aprendizaje. Skinner abogó por la investigación extensa de sujetos individuales en lugar de grupos de participantes. Esto llevó al desarrollo de diseños experimentales de un solo sujeto (Sidman, 1960). Sin embargo, incluso los experimentos de un solo sujeto implican comparaciones entre condiciones experimentales y de control (figura 1-3, panel derecho). Los experimentos de un solo sujeto requieren que el comportamiento del individuo se entienda lo suficiente como para permitir suposiciones precisas sobre cómo se habría comportado el individuo si no hubiera recibido un entrenamiento o intervención. Considere, por ejemplo, a un niño de 4 años de edad que no puede atrapar una pelota que le lanzan. Si se le enseña al niño durante varias horas al día cómo atrapar una pelota, se volverá competente en unos pocos días. De esto se puede concluir que el niño ha aprendido a atrapar una pelota. Sin embargo, es necesario tener en cuenta que esta conclusión se basa en la simple suposición de que el niño no habría adquirido la habilidad tan rápido si no hubiera tenido instrucción. Sólo si se tiene el conocimiento suficiente para hacer esta hipótesis se puede inferir que el niño aprendió a atrapar la pelota. Por lo tanto, el estudio del aprendizaje en sujetos individuales también implica una comparación entre una condición experimental y una de control. La única diferencia es que la condición de control no la proporciona un grupo de control explícito sino la evidencia obtenida de otras fuentes que dan la

26

confianza de que el comportamiento no habría cambiado sin el procedimiento de capacitación.

EL PROCESO GENERAL DE APROXIMACIÓN AL ESTUDIO DEL APRENDIZAJE Además de confiar en técnicas experimentales, los investigadores del aprendizaje suelen utilizar un enfoque de proceso general. Este enfoque asume que los fenómenos de aprendizaje son el producto de procesos fundamentales o básicos que operan de manera muy similar en diferentes situaciones de aprendizaje. El enfoque del proceso general es común en ciencia e ingeniería. Por ejemplo, al diseñar automóviles, los ingenieros asumen que los principios básicos de cómo funciona un motor de combustión interna son prácticamente los mismos, ya sea que se use el motor para impulsar un pequeño sedán de cuatro puertas o un vehículo deportivo utilitario. De manera análoga, se asume que los principios básicos involucrados en el aprendizaje son los mismos, ya sea que el aprendizaje involucre a los niños que aprenden a operar una tableta o ratas que navegan por un laberinto para obtener alimentos. El enfoque del proceso general se centra en aspectos comunes subyacentes en las situaciones de aprendizaje, con el objetivo de identificar los principios del aprendizaje universal. La suposición de que las leyes de asociación universales y básicas son responsables de los fenómenos de aprendizaje no niega la diversidad de estímulos que los animales pueden conocer, la diversidad de respuestas que pueden aprender a realizar y las diferencias de especies en las tasas de aprendizaje. Se asume que la generalidad existe en las reglas o procesos de aprendizaje, no en los contenidos o la velocidad de aprendizaje. Si se asume que existen reglas universales de aprendizaje, entonces se podría poder descubrir esas reglas en cualquier situación en la que ocurra el aprendizaje. Por lo tanto, una implicación metodológica importante del enfoque del proceso general es que las reglas generales de aprendizaje pueden descubrirse estudiando cualquier especie o sistema de respuesta que muestre el aprendizaje. El enfoque general del proceso de aprendizaje se ha desafiado por los descubrimientos de varias “restricciones biológicas” que han fomentado un enfoque más ecológico para el análisis del aprendizaje animal. Sin embargo, incluso los estudios contemporáneos que incorporan una perspectiva ecológica han tratado de identificar los principios generales que son aplicables a todas las especies y situaciones de aprendizaje (Krause y Domjan, 2017).

EL USO DE PARTICIPANTES NO HUMANOS EN LA INVESTIGACIÓN DEL APRENDIZAJE Muchos de los principios básicos del aprendizaje que se describen a lo largo de esta obra se establecieron por primera vez en investigaciones con animales y sólo se extendieron después a los humanos. Hay muchas ventajas al estudiar el aprendizaje en sujetos de laboratorio no humanos. Estos incluyen:

27

Un mejor conocimiento y control de las experiencias de aprendizaje previas de los participantes de la investigación. b) Mayor precisión y control sobre el ambiente de aprendizaje y administración de los procedimientos de aprendizaje. c) La capacidad de observar a los mismos individuos bajo las mismas condiciones en repetidas pruebas de entrenamiento y pruebas. d) Conocimiento y capacidad para controlar la genética de los participantes. e) Mayor control sobre las variables motivacionales que podrían afectar el aprendizaje. f) Mejor oportunidad para minimizar el papel del lenguaje. g) Mejor oportunidad de minimizar los esfuerzos de los participantes para complacer o desagradar al experimentador. a)

Sin el uso de animales de laboratorio como ratas y ratones, los científicos tampoco podrían desarrollar tareas de comportamiento y pruebas que sean críticas para el estudio de la neurobiología y la neurofarmacología del aprendizaje y la memoria. Estos estudios están comenzando a proporcionar tratamientos para enfermedades graves como la enfermedad de Alzheimer. Aunque los animales de laboratorio no humanos proporcionan numerosas ventajas para el estudio del aprendizaje, algunos han argumentado a favor de alternativas. Se han propuesto cuatro alternativas comunes: 1. Investigación observacional. 2. Estudiar plantas. 3. Estudiar cultivos de tejidos. 4. Estudiar simulaciones por computadora.

Como se señaló, las técnicas de observación no implican el tipo de manipulaciones experimentales precisas que son críticas para los estudios de aprendizaje. Estudiar las plantas no es una alternativa viable ya que éstas no tienen un sistema nervioso, lo cual es fundamental para el aprendizaje. Los cultivos de tejidos pueden ser útiles para aislar la operación de procesos celulares específicos. Sin embargo, sin una investigación conductual que involucre organismos intactos no se puede determinar la importancia de un proceso celular en particular para los cambios de comportamiento que caracterizan el aprendizaje a nivel orgánico. Por último, las simulaciones por computadora no pueden reemplazar la investigación experimental porque primero se debe descubrir cómo se produce el aprendizaje en organismos vivos antes de poder construir una simulación por computadora del aprendizaje.

RESUMEN Aunque el aprendizaje es una experiencia humana común, lo que es y cómo debe investigarse no es obvio. El aprendizaje es evidente en un cambio en el comportamiento, ya sea la adquisición de una nueva respuesta o la supresión de una respuesta existente. Sin embargo, no todas las instancias de comportamiento

28

alterado implican aprendizaje, y no todas las instancias de aprendizaje producen cambios observables de inmediato en la conducta. El término aprendizaje se limita a los casos en que existe un cambio duradero en el potencial de participar en un comportamiento particular que resulta de la experiencia previa con eventos ambientales específicamente relacionados con ese comportamiento. Los mecanismos de aprendizaje pueden examinarse a nivel de organismos intactos, el nivel de los circuitos o sistemas neuronales o el nivel de las neuronas y sus sinapsis. Sin embargo, dado que el aprendizaje es una variable causal, sólo se puede investigar con métodos experimentales. Las observaciones naturalistas pueden proporcionar sugerencias sobre el aprendizaje, pero no pueden proporcionar evidencia definitiva. El experimento de aprendizaje básico consiste en comparar una condición experimental y una condición de control. La condición experimental incluye el procedimiento de entrenamiento o la experiencia cuyos efectos se están probando. La condición de control es similar, pero omite la experiencia de entrenamiento relevante. El aprendizaje se infiere de una diferencia en los resultados entre las condiciones experimentales y de control. Por esta razón, los procedimientos de control son importantes para los estudios de aprendizaje como los procedimientos experimentales. Los estudios de aprendizaje se han basado en un enfoque de proceso general, que asume que diversos fenómenos de aprendizaje reflejan el funcionamiento de los procesos elementales universales. Este enfoque de proceso general y otras consideraciones conceptuales y metodológicas han fomentado el uso de sujetos animales no humanos en experimentos de aprendizaje. Dada la naturaleza de los fenómenos de aprendizaje, las alternativas al estudio de organismos intactos no son viables.

Términos técnicos Aprendizaje Aprendizaje estímulo-estímulo Condición de control Condición experimental Evolución Experimento de un solo sujeto Experimentos entre sujetos Fatiga Madurez Motivación Observación experimental Observación naturalista Práctica Ejecución

29

Capítulo 2

30

Estructura del comportamiento no condicionado Sabía usted que: • ¿El aprendizaje está restringido por el comportamiento no condicionado o no aprendido del organismo? • ¿El comportamiento no condicionado está organizado de formas complejas y sistemáticas? • ¿La conducta provocada organizada puede resultar en interacciones sociales bien coordinadas? • ¿El comportamiento en un entorno complejo puede ser conducido por características de estímulo pequeñas y aisladas? • A veces, el estímulo más efectivo para provocar una respuesta no es un estímulo natural sino un estímulo “supranormal” artificial. • ¿El comportamiento característico o instintivo de una especie no es “invariante” sino que está modulado por el estado motivacional del animal? El aprendizaje permite a los organismos beneficiarse de la experiencia. A través del aprendizaje, el comportamiento puede modificarse de manera que los individuos sean efectivos para interactuar con su entorno. Los animales pueden buscar de manera natural aprender dónde y cuándo sea probable que haya alimentos disponibles (Stephens, Brown, & Ydenberg, 2007). Pueden defenderse de forma eficaz aprendiendo cuándo y dónde sea factible que se encuentren con un depredador (p. ej., Hollis, 1999). Y pueden ser más efectivos en sus respuestas sexuales y procrear mayor número de descendientes al aprender cuándo y dónde sea viable que haya un encuentro con una posible pareja sexual (Domjan y Akins, 2011).

FORMAS Y SUSTRATOS DE COMPORTAMIENTO HOMOGÉNEO Y HETEROGÉNEO En todos los casos de aprendizaje, el comportamiento de un organismo es modificado o moldeado por su experiencia previa. B.F. Skinner introdujo el término conformación en referencia a un tipo particular de procedimiento de condicionamiento que se describe con mayor detalle en el capítulo 6. Para propósitos de este tema, es suficiente señalar que, a través de la conformación, el comportamiento de un organismo puede cambiar de forma gradual para permitirle realizar nuevas respuestas. Los movimientos no coordinados de brazos y piernas de un niño, por ejemplo, pueden configurarse de modo paulatino para permitirle nadar rápido a través de una piscina. Skinner utilizó el término conformación por analogía con la forma en que un escultor cambia poco a poco y moldea un trozo de arcilla en un objeto reconocible

31

(Skinner, 1953). Un escultor interesado en hacer una estatua de un cisne, por ejemplo, comienza con un trozo de arcilla sin forma; luego corta el exceso de arcilla de diferentes lugares y moldea lo que queda de forma especial, a medida que este proceso continúa, un cisne reconocible emerge paso a paso. De manera análoga, el aprendizaje puede cambiar o moldear el comportamiento de un organismo, con el resultado de que el individuo responde de nuevas maneras. La analogía de moldear un bloque de arcilla en un cisne captura algunos de los aspectos de cómo el comportamiento cambia a través del aprendizaje. Sin embargo, la analogía tiene una seria deficiencia. La arcilla es una sustancia homogénea que se puede moldear en cualquier dirección con la misma facilidad. El comportamiento no es así, puesto que no se puede cambiar en ninguna dirección con la misma facilidad. Los cambios en el comportamiento ocurren en el contexto de predisposiciones que de manera genética están programadas, lo cual hace que ciertos cambios sean más fáciles de producir que otros. Por ejemplo, es más fácil entrenar a los animales para que se acerquen y manipulen los estímulos relacionados con los alimentos (Hearst y Jenkins, 1974) que entrenarlos para liberarlos o retirarlos de los estímulos relacionados con los alimentos (Breland y Breland, 1961; Timberlake, Wahl, & King, 1982). Los procedimientos de aprendizaje no configuran el comportamiento nuevo de la manera en que un escultor moldea la arcilla en un nuevo objeto. La madera en lugar de la arcilla proporciona una analogía más adecuada para el sustrato de comportamiento del aprendizaje (Rachlin, 1976). A diferencia de la arcilla, la madera tiene una consistencia heterogénea o desigual. Es granulada y tiene nudos. Cortar la fibra es más fácil y da como resultado una línea más suave, y cortar alrededor de los nudos es más fácil que cortarlos directamente. Debido a esta heterogeneidad, si se está tallando una estatua en madera, debe prestarse mucha atención a cómo se orienta la estatua en relación con la fibra y los nudos en la madera. De forma análoga, los psicólogos deben prestar mucha atención a cómo las nuevas habilidades que tratan de enseñar encajan con las tendencias de comportamiento preexistentes del organismo. Este capítulo está dedicado a una descripción de estas tendencias de comportamiento preexistentes. Todos los casos de aprendizaje reflejan una interacción entre los procedimientos de capacitación utilizados y el comportamiento preexistente del individuo. Los cambios provocados por el aprendizaje no se aplican a un sustrato homogéneo modificable, sino que, el aprendizaje se superpone a una estructura de comportamiento preexistente heterogénea, por lo tanto, comprender cómo se produce el aprendizaje requiere una apreciación del sustrato de comportamiento heterogéneo que los organismos llevan a una situación de aprendizaje. La dependencia del aprendizaje en aspectos no aprendidos del comportamiento se enfatiza en algunas áreas del aprendizaje más que en otras. La interacción entre los aspectos condicionados y no condicionados de la conducta ha sido el centro de atención en los estudios de condicionamiento pavloviano y aprendizaje de evitación (capítulos 4 y 12). Sin embargo, como se verá, las tendencias de comportamiento no aprendidas también son importantes en muchas formas de aprendizaje.

32

EL CONCEPTO DEL REFLEJO La unidad más pequeña de comportamiento incondicionado es el reflejo. El concepto fue formulado por el filósofo francés René Descartes (1596-1650). Descartes hizo numerosas contribuciones a la filosofía occidental, incluidas algunas ideas sobre el comportamiento que son familiares hoy en día, pero que fueron innovadoras en el siglo XVII. Al igual que otros filósofos de su tiempo, Descartes creía que ciertos aspectos importantes del comportamiento humano eran voluntarios. Sin embargo, también le impresionó la aparente naturaleza automática e involuntaria de algunas acciones y propuso el concepto de reflejo para caracterizar el comportamiento involuntario. Descartes basó el concepto del reflejo en estatuas animadas que vio en los parques públicos de Francia. Los sofisticados personajes animados, como los creados por Disney Studios, no estaban disponibles en la época de Descartes. Pero algunos de los parques que Descartes frecuentaba tenían estatuas cuyas extremidades se movían cuando alguien pasaba. A través de una serie de palancas y enlaces, las extremidades y las articulaciones de la estatua estaban conectadas a escalones a lo largo de la pasarela cerca de la estatua. Cada vez que alguien pisaba una de estas piedras, la presión sobre el escalón se transfería a la estatua, haciendo que su brazo o pierna se moviera. Las estatuas en movimiento parecían reales, y a Descartes le parecía que algunos aspectos del comportamiento humano y animal eran similares al comportamiento de las estatuas. Descartes señaló que los animales y las personas también realizan ciertas acciones en respuesta a estímulos ambientales particulares. Por ejemplo, retiramos rápido el dedo cuando se toca una estufa caliente, las personas se sobrecogen “instintivamente” cuando escuchan un ruido repentino y extienden el brazo cuando pierden el equilibrio. Estas respuestas a estímulos particulares son ejemplos de comportamientos provocados. Los movimientos de las estatuas que Descartes vio eran provocados por el estímulo o la fuerza aplicada a los escalones asociados. Así, los movimientos eran reflejos del estímulo provocador. Descartes acuñó el término reflejo para captar esta idea de que el comportamiento es un reflejo de un estímulo provocador. La unidad completa, desde la entrada de estímulo hasta la salida de respuesta, se denominó arco reflejo (figura 2-1). Los reflejos están involucrados en muchos aspectos del comportamiento que son importantes para sostener las funciones vitales de la vida. Los reflejos respiratorios nos proporcionan suficiente ingesta de aire. El reflejo de succión proporciona el primer contacto de un recién nacido con la leche. Masticar, tragar y los reflejos digestivos son importantes para obtener nutrientes durante la vida. Los reflejos posturales permiten mantener posiciones corporales estables y los reflejos de abstinencia protegen de las fuentes focalizadas de lesión.

33

Figura 2-1. Organización neuronal de los reflejos simples. El estímulo ambiental para la respuesta refleja activa una neurona sensorial, que transmite el mensaje sensorial a la médula espinal. Aquí los impulsos neuronales se transmiten a una interneurona, que a su vez pasa los impulsos a la neurona motora. La neurona motora activa los músculos involucrados en la respuesta refleja.

Cerca de 250 años después de Descartes, los investigadores de los reflejos se preocuparon sobre todo por cuestiones fisiológicas. Los científicos estudiaron los circuitos neurales del arco reflejo, los mecanismos de conducción neural y el papel de los reflejos en varios sistemas fisiológicos. Estas investigaciones continuaron a un ritmo acelerado en el siglo XX. Además, la idea de comportamiento provocado se extendió a formas más complejas de comportamiento. Gran parte de este trabajo se realizó en el nuevo campo de la etología, que es una especialidad en biología relacionada con la evolución y el desarrollo de unidades funcionales de comportamiento (Baerends, 1988).

FORMAS COMPLEJAS DE COMPORTAMIENTO PROVOCADO Los etólogos descubrieron que el comportamiento social complejo en varias especies se estructura por componentes de respuesta que son provocados por los estímulos sociales. Un pez espinoso macho, por ejemplo, establece un pequeño territorio y construye un túnel de nido durante la temporada de apareamiento. Una vez que el territorio ha sido establecido, el enfoque de un intruso masculino provoca una respuesta defensiva-agresiva del macho residente. Por el contrario, si una hembra ingresa al territorio, el macho residente participa en movimientos de natación en zig-zag de cortejo. Los movimientos de cortejo en zig-zag estimulan a la hembra a seguir al macho residente hasta el túnel del nido. Una vez que la hembra está en el túnel, con la cabeza en un extremo y la aleta caudal en el otro, el macho pincha la base de la aleta caudal de la hembra. Esto hace que la hembra

34

suelte sus huevos. La hembra deja el nido y el macho entra y fertiliza los huevos. Después ahuyenta a la hembra y abanica los huevos para proporcionar oxígeno hasta que éstos incuban (Tinbergen, 1952). En este complejo dúo de comportamiento, el macho y la hembra tienen cada uno su propio papel especial. Los estímulos proporcionados por la hembra activan ciertas acciones por parte del macho residente (natación en zig-zag); el comportamiento del macho a su vez proporciona estímulos que provocan otras respuestas por parte de la hembra (siguiendo al macho residente hasta el nido); el comportamiento de la hembra conduce a nuevas respuestas del macho; y así de forma sucesiva. El resultado es una secuencia de respuestas sociales bien coordinadas. La secuencia de comportamiento progresa sólo si el comportamiento del macho proporciona la estimulación necesaria para obtener la siguiente respuesta de la hembra y viceversa. Si la respuesta de un participante no produce la siguiente respuesta en su compañero, se interrumpe la secuencia de acciones y la interacción social puede llegar a su fin. Patrones de acción modal Las observaciones cuidadosas de los etólogos han revelado numerosos ejemplos de comportamientos sociales y no sociales complejos que se componen de secuencias de respuestas provocadas del tipo ilustrado por el comportamiento sexual de los peces espinosos. Se ha demostrado que las respuestas provocadas están involucradas, entre otras cosas, en la construcción de nidos, el pastoreo, la alimentación de los jóvenes, el aseo y el comportamiento defensivo (Alcock, 2013). Cada unidad de comportamiento provocada se compone de una respuesta característica y su correspondiente estímulo provocador. Las unidades de comportamiento provocadas que se han expuesto se denominan por lo general patrones de acción modal (PAM). El patrón de acción de la frase se usa en lugar de la respuesta porque las actividades involucradas no se limitan a un solo movimiento muscular, como el parpadeo de un ojo o la flexión de un músculo de la pierna. Las respuestas provocadas involucradas en el aseo, el pastoreo, el cortejo y comportamiento de los padres requieren la coordinación de diferentes músculos. La palabra modal se usa para indicar que la mayoría de los miembros de las especies realizan el patrón de acción en cuestión y lo hacen de una manera muy similar. Un patrón de acción es una característica de la especie. Por ejemplo, los mamíferos recién nacidos se alimentan de la leche de forma normal, las gaviotas suelen hacerlo recibiendo alimentos de los padres, y los pollos alimentándose picoteando pequeños puntos en el suelo. Debido a que los patrones de acción modal son característicos, llegan a ser ejemplos del comportamiento típico de una especie. Desde su origen, los patrones de acción modal se denominaban patrones de acción fijos, para enfatizar que son una característica estable de una especie. Sin embargo, las respuestas no son “fijas” en el sentido de que ocurren de la misma manera cada vez de manera exacta. Debido a que existe cierta variabilidad en las respuestas provocadas de una ocasión a otra, la frase “patrón de acción modal” en la actualidad ha cambiado su uso por “patrón de acción fijo”.

35

Los patrones de acción modales son evidentes en el comportamiento de todos los animales, incluidos los humanos. Las expresiones faciales (como sonreír o expresar enojo) son respuestas típicas de una especie provocadas por estímulos sociales y algunos otros. Amamantar a los bebés es un patrón de acción modal, como lo es masticar en personas mayores. La forma de confortar en forma mutua también refleja los patrones de acción modal típico de las especies. Señal de estímulos Los patrones de acción modal se producen en el contexto de abundantes y complejas matrices de estimulación. Considere, por ejemplo, una codorniz macho que se siente de manera sexual atraída por una hembra que aparece a la vista. La hembra es una fuente de una variedad de señales visuales proporcionadas por el aspecto de su cabeza, cuello, torso, patas y por sus movimientos. También puede proporcionar estimulación auditiva y olfativa, y si se acerca lo suficiente al macho, proporciona estimulación táctil. De forma extraña, la mayoría de estas señales no son críticas para provocar el comportamiento sexual en las codornices masculinas. Para determinar cuáles de los diversos estímulos proporcionados por una codorniz hembra son suficientes para atraer a un macho motivado de modo sexual, los experimentadores probaron a los machos con hembras vivas y modelos taxidérmicos de hembras (figura 2-2). En un estudio (Domjan y Nash, 1988), por ejemplo, algunos de los modelos consistían en la cabeza y todo el cuerpo de una hembra. Otros modelos consistían en solo la cabeza y el cuello de la hembra, otros modelos consistían en sólo la cabeza y el cuello de la hembra o sólo el cuerpo sin la cabeza. La figura 2-3 muestra la tendencia de las codornices masculinas a acercarse y permanecer cerca de estos diversos tipos de estímulos femeninos.

36

Figura 2-2. Fotografía de una codorniz hembra viva (A) y de un modelo taxidérmico de cabeza y cuello femenino (B).

Figura 2-3. Respuesta de aproximación de codornices masculinas con experiencia sexual a una hembra viva y a modelos taxidérmicos que consisten en todo el cuerpo de una hembra, sólo en la cabeza y el cuello de una hembra y en el cuerpo de una hembra sin la cabeza y el cuello. Reproducida con autorización de “Stimulus Control of Social Behaviour in Male Japanese Quail, Coturnix Japonica,” por M. Domjan y S. Nash, 1988, Animal Behavior, 36, pág. 1013. Copyright 1988 por Elsevier.

Las codornices macho respondieron con tanto vigor a un modelo taxidérmico completo de una hembra como respondieron a una hembra viva. Este resultado muestra que las señales de movimiento, los estímulos auditivos y olfativos proporcionados por una hembra viva no son necesarios para obtener la respuesta de aproximación. Los machos también respondieron de forma vigorosa a las señales visuales de la cabeza y el cuello de una hembra. De hecho, se acercaron al modelo de cabeza y cuello casi tanto como respondieron a un modelo femenino completo. Éste es un resultado notable. Es evidente que la codorniz masculina puede identificar a una hembra sólo con las indicaciones visuales de la cabeza y el cuello de la hembra. El resto de su cuerpo, sus llamadas, su olor, sus movimientos son innecesarios. El conjunto restringido de estímulos que se requieren para obtener un patrón de acción modal se denomina señal de estímulo. En lo que respecta a las codornices macho, la cabeza y el cuello de la hembra son la “señal” de que es una hembra. Se han obtenido resultados similares con los pavos (Schein & Hale, 1965). Una señal de estímulo es a menudo una parte muy pequeña de las señales que de forma normal preceden a un patrón de acción modal. La respuesta del picoteo de los polluelos de gaviota, por ejemplo, es provocada por un punto rojo prominente en la punta del pico de su madre o padre (figura 2-4).

37

Figura 2-4. El signo de estímulo para la respuesta del picoteo de los polluelos de gaviota es un punto rojo cerca de la punta del pico del padre.

La forma puntiaguda del pico de los padres, junto con este lugar prominente, estimula a los polluelos a picotear el pico de los padres, lo que hace que nutran a la cría regurgitando los alimentos. Otros aspectos de la madre (la forma de su cabeza, sus ojos, cómo aterriza en el nido, los ruidos que hace) no son importantes (Tinbergen y Perdeck, 1950). Los modelos artificiales se utilizan en general para aislar el estímulo de los signos que es crítico para provocar una respuesta de comportamiento. Una vez que se ha identificado una señal de estímulo, se puede aumentar en tamaño e intensidad para producir una respuesta aún mayor. Tales formas exageradas de estímulos naturales que provocan se llaman estímulos supranormales. Las señales de estímulo también son prominentes en el control de varios aspectos del comportamiento humano, y las empresas se han vuelto muy hábiles para mejorar la efectividad de estas señales al crear estímulos supranormales (Barrett, 2010). El sabor del azúcar y la grasa, por ejemplo, son señales de estímulo para la selección e ingestión de alimentos humanos. La industria alimentaria ha aprovechado esto para aumentar las ventas al aumentar el contenido de azúcar y

38

grasa en varios productos alimenticios. La creación de estímulos supranormales es también el objetivo de la industria cosmética, aumentar el atractivo sexual. De manera similar, la violencia excesiva en los videojuegos implica el uso de estímulos supranormales que provocan un comportamiento agresivo.

LA ORGANIZACIÓN DE LA CONDUCTA PROVOCADA Si cada patrón de acción reflejo o modal ocurriera en automático cada vez que se encontrara su estímulo, el comportamiento sería algo desorganizado. Las respuestas provocadas no ocurren de forma independiente unas de otras. Más bien, están organizados de manera especial. Como se verá en los siguientes capítulos, parte de esta organización es el resultado del aprendizaje y la experiencia. En este capítulo se describen aspectos de la organización del comportamiento que no son producto del aprendizaje. Factores motivacionales Un factor prominente que sirve para coordinar los patrones de acción modal es el estado motivacional del organismo. En numerosas especies, por ejemplo, el cortejo y las respuestas sexuales ocurren sólo durante la temporada de reproducción o en presencia de niveles altos de hormonas sexuales. De hecho, las condiciones necesarias pueden ser aún más restrictivas. Los machos cortejan a las hembras sólo si están en la época de reproducción y que de manera previa establecieron un territorio y construyeron un nido. Estas condiciones sirven para estimular o crear la motivación para el cortejo. Se han identificado factores motivacionales para una variedad de patrones de acción modal, que incluyen agresión, alimentación y diversos aspectos del comportamiento paterno y sexual. El estado motivacional establece el escenario para un patrón de acción modal, cuya ocurrencia real se desencadena mediante una señal de estímulo. En cierto sentido, la señal de estímulo libera el patrón de acción modal cuando el animal está en un estado motivacional particular. Por esta razón, una señal de estímulo también se conoce como estímulo liberador. Los etólogos consideraron que el estado motivacional del organismo era uno de los factores clave involucrados en la organización del comportamiento (p. ej., Lorenz, 1981). Usando conceptos motivacionales, formularon un modelo influyente de cómo se organizan los patrones de acción modal, denominado modelo de comportamiento hidráulico. Este modelo asume que ciertos factores conducen a la acumulación de un tipo particular de motivación o impulso. El término hidráulico se usó por analogía con un motor hidráulico, en el que la acumulación de presión hace que los pistones se muevan hasta que la presión se libere o se disipe. El impulso del hambre, por ejemplo, es creado por el gasto de energía y la utilización de nutrientes. Este impulso, a su vez, induce una atención selectiva a los estímulos relacionados con los alimentos y reduce el umbral para activar los patrones de acción modal relacionados con los alimentos. Una vez que se encuentra y se ingiere la comida, se descarga el estado motivacional del hambre. Por lo tanto, el estado motivacional facilita los patrones de acción modal relacionados con la alimentación,

39

y la oportunidad de realizar esas respuestas, que a su vez reduce el estado motivacional. Comportamiento apetitivo y consumatorio El comportamiento provocado también se organiza en una secuencia. Ciertas respuestas tienden a ocurrir antes que otras. Los etólogos caracterizaron la secuencia de respuesta involucrada en la descarga de un estado de manejo que consta de dos componentes principales. El primero de éstos es el comportamiento del apetito. En el caso del sistema de alimentación, el comportamiento del apetito consiste en respuestas involucradas en la búsqueda de alimento. Este comportamiento es bastante variable y ocurre en respuesta a señales espaciales generales. Por ejemplo, en la búsqueda de comida, una ardilla se centrará en señales espaciales que ayudan a identificar árboles y arbustos que pueden contener frutos secos y frutas. El comportamiento del apetito tiende a ocurrir en un área amplia e involucra una variedad de actividades posibles. Durante el transcurso de la búsqueda, la ardilla puede correr a través del pasto, trepar sobre rocas, árboles, saltar de una rama a otra, de manera sucesiva. Una vez que la ardilla encuentra una nuez comestible, su comportamiento se vuelve más estereotipado y restringido. Ahora la ardilla permanece en un lugar, se recuesta sobre sus patas traseras y cola, toma la nuez en sus patas delanteras, la abre, la mastica y traga la comida. Estas actividades típicas de especies más estereotipadas son ejemplos de comportamiento consumatorio porque completan o consuman la secuencia de respuesta. Los patrones de acción modal conclusiva finalizan la secuencia de respuesta porque éstas descargan la motivación o el estado de activación. En el sistema de alimentación, el comportamiento consumatorio implica el consumo de alimentos, pero la aparente similitud en la redacción en este caso es sólo una coincidencia. En el sistema de comportamiento sexual, el comportamiento consumatorio consiste en las respuestas de cópula o coito que sirven para completar una interacción sexual. En el sistema de comportamiento defensivo, el comportamiento consumatorio consiste en las respuestas al ataque de un animal cuando no sólo está amenazado sino que es atacado por un depredador (capítulo 12). Otra característica acerca del comportamiento apetitivo y consumatorio es que el comportamiento aparente consiste en actividades que permiten que un organismo entre en contacto con las señales de estímulos que provocarán los patrones de acción modal que permitan completar la secuencia de respuesta. Por ejemplo, el comportamiento sexual del macho implica la búsqueda de una hembra. Una vez que se encuentra a la hembra, los estímulos proporcionados por ella provocan un rango más restringido de cortejo y respuestas de copulación. Estas respuestas de coito o copulación despiden la motivación para participar en el comportamiento sexual, consumiendo así o terminando la secuencia de comportamiento sexual. Sistemas de comportamiento Investigaciones recientes sobre la estructura del comportamiento no condicionado

40

sugieren que las secuencias de comportamiento provocadas deben subdividirse en más que sólo las dos categorías de respuesta (respuestas apetitivas y conclusivas) proporcionadas por la etología clásica. Timberlake (2001), por ejemplo, caracterizó el sistema de alimentación como un componente de al menos tres componentes (figura 2-5). Según esta vista, más detallada, la secuencia de comportamiento de alimentación inicia con el modo de búsqueda general en el que el animal reacciona a las características generales del entorno con respuestas que le permiten entrar en contacto con una variedad de fuentes potenciales de alimentos. Una abeja, por ejemplo, puede volar buscando arbustos u otras plantas con flores.

Figura 2-5. Componentes del sistema de comportamiento alimentario. La secuencia del comportamiento de alimentación comienza con una búsqueda general de sitios potenciales de alimentos. Una vez que se ha identificado un sitio potencial de alimento, el animal se involucra en una búsqueda focalizada de ese sitio. Al encontrarlo, se involucra en el manejo de los alimentos y las respuestas de ingestión.

Una vez que un animal ha identificado una fuente potencial de alimento, cambia a un modo de respuesta más restringido, el modo de búsqueda focalizada. En el modo de búsqueda focalizada, la abeja se concentrará en un arbusto, yendo de flor en flor. Al encontrarse con una flor específica la abeja cambiará al modo de manejo de alimentos e ingestión. Este último modo de respuesta es similar a lo que los etólogos denominan comportamiento consumatorio y consiste en las respuestas necesarias para extraer el néctar de la flor e ingerir el néctar. Los sistemas de comportamiento se han descrito para una variedad de funciones que los organismos deben cumplir en la vida: cuidar a los jóvenes, arreglarse, defenderse y reproducirse. Como se podrá observar, los sistemas de comportamiento son bastante relevantes para predecir las manifestaciones de comportamiento del aprendizaje. Varias características de los sistemas de comportamiento son importantes en los estudios contemporáneos de aprendizaje: Los sistemas de comportamiento en general consisten en una secuencia de tres o más modos de comportamiento, en lugar de sólo un comportamiento del apetito y consumatorio. El organismo se mueve de un modo de responder a otro (búsqueda general a búsqueda focalizada) dependiendo de los eventos ambientales que encuentre. 2. La secuencia de modos de respuesta es lineal. Un animal se mueve de un modo de respuesta de forma normal al siguiente sin saltarse ningún paso en la secuencia. Una ardilla no puede manejar alimentos, por ejemplo, sin haber encontrado primero el alimento en su modo de búsqueda focalizada. 3. Aunque la secuencia de respuesta es lineal, no es unidireccional. Un animal puede avanzar o retroceder en la secuencia dependiendo de las circunstancias. Si el comportamiento de búsqueda focalizada de una ardilla no logra ubicar las nueces, la 1.

41

ardilla volverá a su modo de búsqueda general. 4. Debido a que las secuencias de respuesta están ordenadas de manera lineal, también están organizadas en el tiempo. Las respuestas generales de alimentación tienden a ocurrir más lejos en el tiempo desde el final de la secuencia del comportamiento de alimentación que las respuestas de ingesta. Debido a esto, las variables temporales en el aprendizaje están relacionadas con factores temporales en sistemas de comportamiento preexistentes. 5. Al final, cada modo de respuesta implica no sólo respuestas características sino también una mayor sensibilidad o atención a tipos particulares de estímulos. En el modo de búsqueda general es probable que una abeja que busca comida busque arbustos con flores en lugar de arbustos que no tengan éstas. En el modo de búsqueda focalizada, es probable que se centre en donde están las flores en el arbusto que ha elegido buscar y qué flor está lista para cosechar para obtener el néctar. En conclusión, en el modo de manejo de alimentos, se centrará en la parte de la flor que contiene el néctar. Por lo tanto, varios modos de comportamiento difieren no sólo en términos de los tipos de respuesta que están involucrados sino también en los tipos de estímulos que guían el comportamiento.

RESUMEN Todas las instancias de aprendizaje reflejan una interacción entre los procedimientos de capacitación que se utilizan y las estructuras de comportamiento preexistentes del individuo. Por lo tanto, comprender cómo se produce el aprendizaje requiere una apreciación de los mecanismos conductuales no condicionados. El comportamiento no condicionado no es homogéneo y modificable en ninguna dirección sino que tiene su propia estructura determinada. La unidad más simple de comportamiento no condicionado es el reflejo, que consiste en un estímulo de provocación específico y una respuesta provocada correspondiente. Las formas más complejas de comportamiento provocado, estudiadas por los etólogos, involucran patrones de acción modal que son provocados por estímulos de signos o estímulos liberadores. Los etólogos identificaron los factores motivacionales involucrados en el control de los patrones de acción modales y señalaron que la conducta provocada consiste en una secuencia predecible de actividades que comienza con respuestas apetitivas y termina con una conducta conclusiva. Estas ideas se han extendido en conceptualizaciones contemporáneas de sistemas de comportamiento. Un sistema de comportamiento es un conjunto de modos de respuesta que se activan de manera coordinada para lograr un resultado de comportamiento importante como nutrición, defensa o reproducción. Los modos de respuesta están organizados en secuencias, y cada modo de respuesta se caracteriza por respuestas particulares y una mayor sensibilidad a tipos particulares de estímulos.

LECTURAS SUGERIDAS Baerends, G.P. (1988). Ethology. In R.C. Atkinson, R.J. Herrnstein, G. Lindzey, R.D. Luce (Eds.), Stevens'

42

handbook of experimental psychology (Vol. 1, pp. 765–830). New York, NY: Wiley. Barrett, D. (2010). Supernormal stimuli: How primal urges overran their evolutionary purpose. New York, NY: Norton. Timberlake, W. (2001). Motivational modes in behavior systems. In R.R. Mowrer & S.B. Klein (Eds.), Handbook of contemporary learning theories (pp. 155–209). Mahwah, NJ: Erlbaum. Tinbergen, N. (1951). The study of instinct. Oxford, England: Clarendon Press.

Términos técnicos Arco reflejo Comportamiento consumatorio Comportamiento del apetito Comportamiento provocado Comportamiento típico de la especie Etología Estímulo liberador Modelo hidráulico Modo de búsqueda focalizada Modo de búsqueda general Patrón de acción modal Reflejo Signo estímulo Sistema de comportamiento

43

Capítulo 3

44

Habituación y sensibilización Sabía usted que: • ¿El comportamiento reflexivo no es automático e invariable, pero puede aumentar o disminuir como resultado de la experiencia? • ¿Se modifica el vigor de la conducta provocada por procesos opuestos de habituación y sensibilización? • ¿La conducta provocada está determinada no sólo por el estímulo provocador sino también por otros eventos que recién se han encontrado? • ¿Los efectos de habituación son evidentes en la disminución de la respuesta? ¿Son evidentes los efectos de sensibilización en mayor respuesta? • ¿Los efectos de habituación y sensibilización están determinados por la intensidad y la frecuencia del estímulo provocador? • ¿La habituación es más específica del estímulo provocador que la sensibilización? • ¿La habituación es una propiedad inherente de todo comportamiento provocado? • ¿La sensibilización refleja una influencia moduladora en los mecanismos de comportamiento provocado? Una vez considerada la estructura del comportamiento no condicionado en el capítulo 2, se examinarán algunas de las formas en que la experiencia puede cambiar o modificar el comportamiento. Se comenzará con los fenómenos de habituación y sensibilización, ya que éstos son dos de las formas más simples y más comunes de cambio de comportamiento. También es importante considerar la habituación y la sensibilización en una etapa temprana del aprendizaje, ya que cualquiera de ellos puede ocurrir en algunos de los procedimientos de aprendizaje más complejos que se describen en los siguientes capítulos. La habituación y sensibilización se han investigado de forma amplia en los sistemas reflejos. Un reflejo es una respuesta bastante simple que se produce en reacción a un estímulo específico de provocación. La succión, por ejemplo, se produce más fácil en un bebé recién nacido al colocar un objeto con forma de pezón en la boca de éste. Como se señala en el capítulo 2 el concepto del reflejo fue formulado en un principio por Descartes, quien asumió que los reflejos tienen dos características principales. Primero, él creía que el vigor de la respuesta provocada está relacionada con la intensidad del estímulo provocador de manera directa. De hecho, pensó que la energía requerida para la respuesta refleja era proporcionada por el estímulo que provocaba. Segundo, creía que siempre se producirá una respuesta refleja cuando se presente su estímulo provocador. Para Descartes, los reflejos fueron reacciones “automáticas” o inevitables a los estímulos provocados. Descartes acertó al señalar que ciertas acciones se activan provocando estímulos. Pero se equivocó al caracterizar los reflejos como invariantes y energizados por sus estímulos provocadores. Sin embargo, sus puntos de vista continúan dominando

45

cómo cualquier civil piensa acerca de los reflejos. La gente suele considerar que los reflejos son automáticos y fijos. De hecho, el término reflexivo a veces se usa como sinónimo de automático. Sin embargo, los científicos han demostrado que esta visión de los reflejos es incorrecta. Como se verá en este capítulo, la conducta provocada y reflexiva puede ser flexible con notoriedad. Las respuestas a un estímulo provocador pueden aumentar (mostrando sensibilización) o disminuir (mostrar habituación), según las circunstancias. ¿Por qué debería ser modificable el comportamiento reflexivo? ¿Por qué es necesaria la habituación y la sensibilización? En esencia, estos procesos ayudan a evitar responder a estímulos que son irrelevantes y que permiten enfocar las acciones en cosas que son importantes. La habituación y sensibilización modulan las respuestas reflejo y aumentan la eficiencia de las interacciones con el medio ambiente. Tanto los humanos como animales viven en entornos complejos que proporcionan distintas formas de estimulación todo el tiempo. Incluso durante una actividad sin incidentes en apariencia como lo es sentarse con tranquilidad en una silla, una persona es bombardeada por estímulos visuales, auditivos, olfativos, táctiles y fisiológicos internos. Todos éstos son capaces de provocar respuestas, pero si lo hicieran (como pensaba Descartes en un principio), habría una reacción a muchas cosas que no son importantes. Sin la habituación y sensación, el comportamiento estaría en su totalidad determinado a los cambios del medio ambiente. Es necesario considerar, por ejemplo, la respuesta orientadora. Al observar y voltear a ver nuevos estímulos visuales y auditivos (p. ej., alguien que entra en la habitación). Sin embargo, si todos los estímulos del entorno fueran para provocar una respuesta de orientación, se perdería gran parte del esfuerzo en buscar en todas partes. Muchos estímulos no son importantes como para justificar la atención. Al hablar con alguien en la sala de estar, no es necesario voltear a ver al refrigerador que vibra en el fondo o a un automóvil que pasa por la calle. La habituación y sensibilización sirven para modular una respuesta. Aseguran que se responde de manera vigorosa a algunos estímulos mientras se ignoran otros. En el capítulo 2, se observó que el vigor de la conducta provocada está determinado por factores motivacionales y que la secuencia de respuestas provocadas está acotada por la estructura inherente del sistema de conducta que se activa. También se consideró que los sistemas de respuesta en ocasiones se organizan por aprendizaje y experiencia. La habituación y sensibilización son los primeros principios de comportamiento que sirven para organizar una conducta basada en la experiencia.

EFECTOS DE LA PRESENTACIÓN REPETIDA DE UN ESTÍMULO PROVOCADOR Las relaciones que se describen aquí para habituación y sensibilización son características generales que pueden observarse para casi cualquier forma de comportamiento provocado. Los procedimientos de habilitación son utilizados con mayor amplitud en los estudios de atención visual infantil (Colombo y Mitchell, 2009). El método experimental básico se ilustra en la figura 3-1. El bebé está

46

sentado frente a una pantalla que se utiliza para presentar estímulos visuales. Cuando aparece un estímulo en la pantalla, el bebé mira hacia ésta. La atención visual del bebé se cuantifica al medir el tiempo que sus ojos permanecen fijos en el estímulo antes de desviar la mirada hacia otro lado. El tiempo durante el cual el niño observa el estímulo depende de qué es y con qué frecuencia se ha presentado.

Figura 3-1. Configuración experimental para el estudio de la atención visual en lactantes. El bebé está sentado frente a una pantalla que se utiliza para presentar diversos estímulos visuales. El tiempo que el bebé mira la pantalla antes de desviar su mirada hacia otro lado se mide en cada prueba.

La figura 3-2 muestra los resultados de un experimento simple que se realizó con dos grupos de bebés de cuatro meses (Bashinski, Werner y Rudy, 1985). Para cada grupo, se le presentó un estímulo visual de 10 segundos cada ocho veces, con un intervalo de 10 segundos entre los ensayos. La complejidad del estímulo visual difería para los dos grupos. Se presentó un patrón de tablero de ajedrez de 4 × 4 a un grupo y al otro grupo se presentó un patrón de tablero de ajedrez más complejo de 12 × 12. Teniéndose en cuenta que la duración de la fijación visual provocada por cada estímulo no fue invariable o “automática”, sino que, el tiempo de fijación cambió de diferentes maneras según el estímulo. Con el complejo patrón de 12 × 12, la fijación aumentó de la prueba 1 a la prueba 2, y luego declinó. Con el patrón de 4 × 4 más simple, la fijación visual disminuyó de cada prueba a la siguiente.

47

Figura 3-2. El tiempo de fijación visual para dos grupos de lactantes presentó un estímulo visual en ocho pruebas sucesivas. El estímulo fue un patrón de tablero de ajedrez de 12 × 12 para un grupo y un patrón de tablero de ajedrez 4 × 4 para el otro grupo. Reproducida con autorización de Determinants of Infant Visual Fixation: Evidence for a Two-Process Theory,” by H. S. Bashinski, J. S. Werner, and J. W. Rudy, 1985, Journal of Experimental Child Psychology, 39, p. 588. Copyright 1985 por Elsevier.

Una disminución en el vigor de la conducta provocada se llama efecto de habituación. En contraste, un aumento en la capacidad de respuesta se llama efecto de sensibilización. La habituación fue evidente durante el experimento con el patrón de tablero de ajedrez de 4 × 4. La habituación también fue clara con el patrón de 12 × 12 de la prueba 2 a la prueba 8, pero la sensibilización se produjo de la prueba 1 a la prueba 2. Otra preparación experimental común para el estudio de la habituación y la sensibilización implica la respuesta de sobresalto. La respuesta de sobresalto es un movimiento repentino o estremecimiento causado por un nuevo estímulo. Si alguien rompe un globo detrás suyo (haciendo un fuerte sonido de estallido), de repente se encorvará de hombros y tirará de su cuello. El sobresalto es una reacción humana común en una variedad de culturas (Simons, 1996). El movimiento repentino que caracteriza el reflejo de sobresalto se puede medir de manera fácil, lo que ha fomentado numerosos estudios de habituación y sensibilización del reflejo de sobresalto en una variedad de especies (p. ej., Davis, Antoniadis, Amaral y

48

Winslow, 2008; Halberstadt y Geyer, 2009). Un sonido repentino, pero suave puede hacer que se sobresalte las primeras veces que ocurre, pero dejará de responder al sonido en poco tiempo. Se obtienen resultados similares con estímulos táctiles leves. Cuando se usa un par de zapatos cómodos por primera vez, se siente la suave presión contra los pies. Sin embargo, a pesar de que la presión táctil permanece, la reacción se habitúa pronto; por lo que no se dará cuenta de que los lleva puestos. Si el estímulo táctil es más intenso (porque el zapato no encaja bién), será más difícil acostumbrarse a él, y el patrón de respuesta puede ser similar al que observa en la figura 3-2, con la atención visual de infantes a un patrón de tablero de ajedrez de 12 × 12. En tales casos, la respuesta aumenta al principio y luego disminuye. Se obtienen resultados similares con el reflejo de sobresalto si el estímulo provocador tiene un tono intenso. Si el estímulo provocador es muy intenso, las repeticiones del estímulo pueden resultar en un aumento sostenido en la respuesta. Si una piedra en su zapato crea una presión intensa, su irritación aumentará con la exposición continua a ese estímulo, y esto durará tanto como la piedra permanezca en su zapato. De manera similar, un aumento sostenido en la respuesta de sobresalto puede ocurrir si el estímulo provocador es un ruido intenso. Los soldados y civiles en una zona de guerra no se acostumbran al sonido de los disparos cercanos. Como denotan estos ejemplos, el comportamiento provocado puede cambiar de forma variada con las repeticiones del estímulo provocador. A veces la respuesta muestra una disminución constante o efecto de habituación. En otros casos, al principio se produce un efecto de sensibilización seguido de una disminución en la respuesta. La conducta provocada también puede mostrar evidencia de sensibilización sostenida. Características de los efectos de habituación Se han encontrado numerosos factores que influyen en el curso de los efectos de habituación y sensibilización. En este capítulo se consideran algunas de las variables principales. Efectos del cambio de estímulo Quizás la característica más importante de la habituación es que es específica del estímulo particular que se ha presentado de manera repetida. Si se presenta un nuevo estímulo, la respuesta habituada se recuperará, y el grado de recuperación se determinará según la similitud del estímulo nuevo con el habituado. La especificidad del estímulo es una característica definitoria de la habituación (Rankin et al., 2009). La especificidad del estímulo de la habituación resulta ser una propiedad muy útil para ayudar a descartar la fatiga como una posible causa de la disminución de la respuesta. La fatiga de la respuesta es un causante muy obvio cuando la respuesta disminuye con los estímulos repetidos. Sin embargo, si la habituación se debe a la fatiga, el participante no respondería incluso cuando se cambiara el estímulo provocador. La recuperación de la respuesta que ocurre con un cambio en el

49

estímulo provocador descarta la fatiga de la respuesta y es una de las pruebas que indican que la habituación refleja un proceso neuronal central en lugar de cambios en los mecanismos motores periféricos. Las pruebas con estímulos novedosos se llevan a cabo de forma rutinaria en estudios de habituación con bebés. Los bebés pueden dejar de mirar un estímulo visual por muchas razones. Pueden estar cansados, quisquillosos o pueden quedarse dormidos. Para asegurarse de que todavía están prestando atención y participando de manera activa en el experimento, se introducen nuevos estímulos. Los resultados del experimento se consideran válidos sólo si los estímulos novedosos producen la recuperación de la respuesta habitual. Los investigadores han aprovechado la especificidad del estímulo de la habituación para estudiar una amplia gama de problemas en la percepción y la cognición infantil (Colombo y Mitchell, 2009). Antes de que puedan hablar, los bebés no pueden expresar con palabras los estímulos que consideran similares y los que consideran diferentes. Sin embargo, pueden proporcionar respuestas a tales preguntas en respuesta a los estímulos de prueba después de la habituación. La tarea de habituación infantil se ha utilizado, por ejemplo, para determinar si los bebés de cinco meses perciben posturas corporales basadas en una representación holística del cuerpo o representaciones de partes individuales del cuerpo. En un experimento (Hock, White, Jubran y Bhatt, 2016), los bebés se acostumbraron primero a la imagen de una persona en una postura particular (figura 3-3A) o a un brazo desconectado y una pierna presentada en posiciones similares (figura 3-3B). Después de la habituación, un brazo de una persona se presentó en una posición nueva, con un cambio similar en el brazo desconectado. Los bebés mostraron una recuperación de la respuesta de atención visual sólo con la imagen de la persona en una nueva postura (figura 3-3A). No reconocieron el brazo desconectado presentado en una nueva posición como un nuevo estímulo (figura 33B). Este resultado sugiere que los bebés estaban procesando posturas corporales basadas en una representación holística del cuerpo en lugar de sus partes.

50

Figura 3-3. Estímulo especificidad de la habituación. Los bebés se acostumbraron por primera vez a la imagen de una persona en una postura particular (A) o a un brazo desconectado y una pierna presentada en posiciones similares (B). Después de la habituación, los bebés fueron examinados con un cambio en la posición del brazo. Los bebés mostraron una recuperación de la respuesta de atención visual sólo cuando el brazo era parte de una persona. Reproducida con autorización de “The Whole Picture: Holistic Body Posture Recnognition in Infancy”, por A. Hock, H. White, R. Jubran y R. S. Bhatt, 2016, Psychonomic Bulletin & Review, 23, p. 428. Copyright 2016 por Springer.

Efectos de tiempo sin estimulación Los efectos de habituación son a menudo temporales. Se disipan o pierden a medida que pasa el tiempo sin presentar el estímulo provocador. Una pérdida del efecto de

51

habituación es evidente en una recuperación de la respuesta (figura 3-4). Debido a que la recuperación de la respuesta se produce por un periodo sin estimulación (un periodo de descanso), el fenómeno se denomina recuperación espontánea.

Figura 3-4. Recuperación espontánea de una respuesta habituada. Entre los puntos A y B se produjo un periodo de reposo sin estímulos, lo que provocó una recuperación de la respuesta habitual. Los datos son hipotéticos.

La recuperación espontánea es una característica común de la habituación (Rankin et al., 2009). Si un compañero de cuarto enciende la radio mientras está estudiando, puede que la note al principio, pero luego ignorará el sonido si no es demasiado alto. Sin embargo, si la radio se apaga durante 1 o 2 horas y luego vuelve a encenderse, lo notará de inmediato. El grado de recuperación espontánea está relacionado con la duración del periodo sin la reproducción de la radio. Los periodos más largos sin la presentación del estímulo provocador resultan en una mayor recuperación de la respuesta. Cada vez se produce menos recuperación espontánea con las repeticiones del procedimiento de recuperación espontánea. El periodo de descanso que se requiere para observar la recuperación espontánea de la habituación varía según las diferentes situaciones. Por ejemplo, la habituación de la respuesta de novedad al sabor muestra poca recuperación espontánea, incluso después de una semana o dos. Tanto las personas como los animales, son cautelosos al ingerir un alimento o bebida que tiene un sabor desconocido. Este fenómeno se conoce como neofobia al sabor. Es probable que la neofobia al sabor evolucionó porque las cosas que tienen un sabor nuevo o desconocido bien pueden ser venenosas. Con la exposición repetida a un nuevo sabor, la respuesta neofóbica disminuye. El café, por ejemplo, a menudo provoca una respuesta de aversión en un niño que lo prueba por primera

52

vez. Sin embargo, después de tomar un café sin ningún efecto, la respuesta neofóbica del niño disminuirá o se habituará. Una vez que esto haya ocurrido, es probable que la habituación sea duradera. Habiéndose acostumbrado al sabor del café, es probable que una persona no experimente una respuesta neofóbica, incluso si pasa un par de semanas sin tomar café. Los estudios con ratas de laboratorio no han demostrado una recuperación espontánea de la neofobia del sabor durante periodos de hasta 17 y 24 días (Domjan, 1976). Los efectos de habituación se han clasificado de acuerdo a su recuperación espontánea. Los casos en que se produce una recuperación espontánea sustancial se denominan habituación a corto plazo, mientras que los casos en que no se produce una recuperación espontánea significativa se denominan habituación a largo plazo. La habituación a corto y largo plazo no se anulan mutuamente (a veces se observan ambos efectos). Los efectos de habituación a largo plazo son efectos de aprendizaje genuinos porque satisfacen el criterio de ser duraderos. En contraste, los efectos de habituación a corto plazo proporcionan una evidencia menos convincente de aprendizaje porque son menos duraderos. Efectos de la frecuencia del estímulo La frecuencia de un estímulo se refiere a la regularidad con la que se repite el estímulo en un tiempo determinado; por ejemplo, con qué frecuencia se produce el estímulo por minuto. Cuanto mayor sea la frecuencia del estímulo, más corto será el periodo de reposo entre las repeticiones del estímulo. Como se observó en el fenómeno de la recuperación espontánea, la duración del descanso entre estimulaciones puede influir de manera significativa en la respuesta. Debido a que las frecuencias de estímulo más altas permiten menos recuperación espontánea entre los ensayos, la respuesta por lo general disminuye más rápido con presentaciones más frecuentes del estímulo (Davis, 1970). Una forma de reducir la habituación es aumentar la cantidad de tiempo que transcurre entre las repeticiones de un estímulo provocador. Efectos de la intensidad del estímulo La habituación también está determinada por la intensidad del estímulo provocador. En general, la respuesta disminuye de modo lento si el estímulo provocador es más intenso (Rankin et al., 2009). Por ejemplo, las ratas de laboratorio pierden más lento su respuesta neofóbica a un sabor fuerte que a un sabor débil (Domjan y Gillan, 1976). Efectos de la exposición a un segundo estímulo Una de las características notables de una respuesta habitual es que no está determinada sólo por el estímulo que lo provoca. El nivel de respuesta también está influenciado por otros estímulos que el organismo encuentra en ese momento. En particular, la exposición a un estímulo nuevo puede resultar en la recuperación de la respuesta cuando se reintroduce el estímulo habituado con anterioridad. Este fenómeno se llama deshabituación (Rankin et al., 2009).

53

Los resultados de un experimento de deshabituación se resumen en la figura 3-5. La fijación visual de los bebés humanos se midió en respuesta a un patrón de tablero de ajedrez 4 × 4 (Kaplan, Werner y Rudy, 1990). Como se esperaba, la repetición del estímulo visual dio lugar a una disminución o habituación de la respuesta de los bebés. Después de la prueba ocho, se presentó un tono (1 000 Hz, 75 dB) como un estímulo deshabituado junto con el patrón de tablero de ajedrez. La figura 3-5 muestra que la presentación del tono causó una recuperación significativa de la fijación visual al patrón 4 × 4. Por lo tanto, la respuesta al estímulo visual habituado original se mejoró mediante la presentación del tono deshabituado.

Figura 3-5. Deshabituación de una respuesta habituada. La fijación visual en los bebés se habituó a un estímulo de tablero de ajedrez presentado en las pruebas 1 a 8. La presentación de un tono con el estímulo visual causó la deshabituación de la respuesta de atención durante un ensayo de prueba posterior (T). Reproducida con autorización de Advances in Infancy Research (Vol. 6, p. 98), por C. Rovee-Collier y L. P. Lipsitt (Eds.), 1990, Norwood, NJ: Ablex. Copyright 1990 por Elsevier.

54

Los fenómenos de deshabituación son útiles para descartar la adaptación sensorial como causa de habituación. La adaptación sensorial es una reducción en la eficacia de un receptor sensorial para responder a la estimulación. Si la disminución en la respuesta al estímulo visual en la figura 3-5 se hubiera debido a la adaptación sensorial del sistema visual, la presentación de un tono de deshabituación no habría producido la recuperación de la respuesta de atención visual. La deshabituación, junto con la especificación del estímulo de la habituación, indica que la habituación refleja un proceso neuronal central en lugar de cambios en los mecanismos sensoriales o motores periféricos. Es desafortunado que, el término deshabituación se use de manera inconsistente en la literatura de investigación. En estudios con bebés, el término deshabituación se usa para referirse a la recuperación de una respuesta habitual que se produce cuando se modifica el estímulo y se prueba un nuevo estímulo (p. ej., Kavšek, 2013). En contraste, en la investigación con otras especies y sistemas de respuesta, la deshabituación se reserva para casos en los que la introducción de un segundo estímulo produce una recuperación al responder al estímulo habituado original. Este último uso fue defendido por Thompson y Spencer (1966) en su trabajo fundamental que proporcionó las bases de la investigación contemporánea sobre la habituación. La distinción entre la especificidad del estímulo de la habituación y la deshabituación sigue siendo importante en la neurociencia contemporánea (Rankin et al., 2009). CARACTERÍSTICAS DE LOS EFECTOS DE SENSIBILIZACIÓN Los efectos de sensibilización están influenciados por los mismos factores de intensidad de estímulo y tiempo que rigen los fenómenos de habituación. En general, se producen elevados efectos de sensibilización (mayores aumentos en la respuesta) con estímulos de provocación más intensos (Groves, Lee y Thompson, 1969). Al igual que la habituación, los efectos de sensibilización pueden ser a corto o largo plazo (p. ej., Davis, 1974). La sensibilización a corto plazo decae como una función del tiempo sin presentaciones del estímulo. A diferencia de la decadencia de la habituación a corto plazo, a la que se le nombra recuperación espontánea, la decadencia de la sensibilización a corto plazo no tiene un nombre especial. No se le denomina recuperación espontánea porque la respuesta disminuye (en lugar de recuperarse) a medida que se disipa la sensibilización. En contraste, la sensibilización a largo plazo es evidente incluso después de periodos apreciables sin estimulación. Como fue el caso con la habituación a largo plazo, los efectos de sensibilización a largo plazo satisfacen el criterio de durabilidad del aprendizaje, mientras que los efectos de sensibilización a corto plazo no lo hacen. Un aspecto importante en el que la sensibilización es diferente de la costumbre es que la sensibilización no es tan específica de un estímulo particular. Como se señaló, la habituación producida por la exposición repetida a un estímulo no será evidente si el estímulo se altera de modo sustancial. En contraste, la sensibilización no es tan específica del estímulo. Por ejemplo, la respuesta de sobresalto a un

55

estímulo auditivo breve y fuerte puede sensibilizarse mediante la exposición a un estímulo que provoca miedo. El sobresalto potenciado por el miedo ha sido bastante documentado en estudios con animales de laboratorio (Davis et al., 2008) y con humanos (Bradley, Moulder y Lang, 2005). De manera similar, la experiencia de la enfermedad aumenta o sensibiliza la respuesta de la neofobia de sabor, y una vez que ésta se ha sensibilizado, los participantes muestran una mayor delicadeza ante una variedad de diferentes estímulos del gusto (Domjan, 1977).

TEORÍA DE PROCESO DUAL DE HABITUACIÓN Y SENSIBILIZACIÓN Hasta ahora, se han descrito los fenómenos de comportamiento de la habituación y la sensibilización. No se ha discutido qué procesos o maquinaria subyacentes pueden producir estos efectos de comportamiento. En este apartado se considera una teoría prominente de la habituación y la sensibilización, la teoría del proceso dual de Groves y Thompson (1970). Aunque la teoría fue propuesta hace algún tiempo, sigue siendo relevante (Thompson, 2009). La teoría se basó en estudios neurofisiológicos de habituación y sensibilización, pero se describe cerca del nivel de una teoría de la conducta. La teoría del proceso dual se basa en dos procesos subyacentes, uno de habituación y otro de sensibilización. De manera infortuna, los procesos tienen los mismos nombres que los fenómenos de comportamiento que se describieron con anterioridad. Sin embargo, los procesos de habituación y sensibilización son distintos de los fenómenos o efectos de habituación y sensibilización. Éstos últimos son efectos de ejecución; son cambios observables en el comportamiento. En contraste, los procesos de habituación y sensibilización se refieren a los eventos neuronales subyacentes que son responsables de los cambios de comportamiento observados. El sistema E-R y el sistema de estado De acuerdo con la teoría del proceso dual, los procesos de habituación y sensibilización operan en diferentes partes del sistema nervioso. Uno de éstos es el sistema E-R; el otro se llama sistema de estado. El sistema E-R es el camino más corto en el sistema nervioso entre un estímulo provocador y la respuesta provocada resultante. El sistema E-R corresponde al arco reflejo de Descartes. Es la maquinaria fisiológica mínima involucrada en un reflejo. Como mínimo, el sistema E-R consta de tres neuronas: la neurona sensorial (o aferente), una interneurona y una neurona eferente (o motora). El estímulo provocador activa a la neurona aferente. La neurona aferente a su vez activa a la interneurona, que luego activa la neurona eferente. La neurona eferente forma una sinapsis con los músculos involucrados en hacer la respuesta provocada y desencadena la respuesta de comportamiento. El sistema de estado consta de todos los procesos neuronales que no son una parte integral del sistema E-R, pero que influyen en la capacidad de respuesta del sistema E-R. Los reflejos espinales, por ejemplo, consisten en una neurona aferente

56

que se sincroniza con una interneurona en la médula espinal y una neurona eferente que se extiende desde la médula espinal hasta el músculo correspondiente (figura 21). Éste es el sistema E-R de un reflejo espinal. Sin embargo, la médula espinal también contiene vías neurales que ascienden al cerebro y otras que descienden del cerebro. Estas fibras ascendentes y descendentes sirven para modular los reflejos espinales y conforman el sistema de estados para los reflejos espinales. Una vez que se comprende la distinción entre el sistema E-R y el sistema de estado, el resto de la teoría del proceso dual es bastante simple. Como se señaló, la teoría del proceso dual presupone la existencia de procesos de habituación y sensibilización separados. Un aspecto crítico de la teoría se refiere a dónde se ubican estos procesos. Se cree que el proceso de habituación tiene lugar en el sistema E-R, mientras que el proceso de sensibilización se lleva a cabo en el sistema de estado. Los procesos de habituación y sensibilización no son evidentes de forma directa en el comportamiento del organismo. Más bien, el comportamiento observable refleja el efecto neto de estos procesos. Los procesos de habituación y sensibilización sirven como mecanismos opuestos que modulan la capacidad de respuesta refleja. Cuando el proceso de habituación es más fuerte que el proceso de sensibilización, el efecto neto es una disminución en la ejecución del comportamiento. Esto se ilustra en el lado izquierdo de la figura 3-6. Ocurre lo contrario si el proceso de sensibilización es más fuerte que el proceso de habituación. En ese caso, el efecto neto de los dos procesos es un aumento en la ejecución del comportamiento. Esto se ilustra en el lado derecho de la figura 3-6.

Figura 3-6. Mecanismos de la teoría del proceso dual de habituación y sensibilización. Las líneas discontinuas indican la fuerza de la habituación (H) y el proceso de sensibilización (S) a través de ensayos. Las líneas continuas indican la red (o combinación) de los efectos de ambos. En el panel izquierdo, el proceso de habituación se vuelve más fuerte que el proceso de sensibilización, lo que lleva a una disminución progresiva en la respuesta. En el panel derecho, el proceso de sensibilización se hace más fuerte que el de habituación, lo que conduce a un incremento progresivo en la respuesta.

57

Después de activarse, se supone que tanto el proceso de habituación como el proceso de sensibilización decaen con el tiempo. Este supuesto de deterioro temporal es necesario para explicar la habituación a corto plazo y los efectos de sensibilización a corto plazo. Implicaciones de la teoría del proceso dual Al igual que el arco reflejo de Descartes, el sistema E- R es el mecanismo mínimo o más primitivo de comportamiento provocado. Por lo tanto, el sistema E- R se activa cada vez que se presenta un estímulo provocador. Debido a que el proceso de habituación opera en el sistema E-R, cada activación del sistema E-R resulta en una acumulación del proceso de habituación. Esto hace que la habituación sea una característica general de la conducta provocada. Cuando se presenta un estímulo provocador, el proceso de habituación se activa en cierta medida. La universalidad del proceso de habituación no significa que siempre se observará un decremento en la respuesta. Si un efecto de habituación es evidente dependerá de si el proceso de habituación se contrarresta con la activación del proceso de sensibilización. Otro factor importante es el intervalo entre presentaciones sucesivas del estímulo provocador. Si este intervalo es suficientemente largo, la habituación creada por la presentación previa del estímulo tendrá una oportunidad de decaer antes de que se repita el estímulo, y no se observará una disminución en la respuesta. Por otro lado, si el intervalo entre las presentaciones de estímulos es demasiado corto para permitir el deterioro del proceso de habituación, se producirá una disminución en la respuesta. En contraste con el proceso de habituación, el proceso de sensibilización no siempre está involucrado cuando se presenta un estímulo provocador. La sensibilización se produce en el sistema de estado. El sistema de estado modula la capacidad de respuesta del sistema E-R, pero no es esencial para la aparición de un comportamiento provocado. El comportamiento provocado puede ocurrir a través del sistema E-R solo. Por lo tanto, la sensibilización no es una propiedad universal de la conducta provocada. ¿Cuándo se activa el proceso de sensibilización? Una manera informal de pensar sobre esto es que la sensibilización representa la excitación. La sensibilización o la activación ocurre si el organismo encuentra un estímulo que es en particular intenso o significativo. Puede despertarse con un ruido fuerte e inesperado o con alguien que le diga en voz baja que un amigo cercano resultó herido de gravedad en un accidente. El sistema de estado y el proceso de sensibilización se activan por estímulos intensos o significativos. El proceso de sensibilización se puede activar mediante el mismo estímulo que provoca la respuesta refleja de interés. Éste es el caso si se utiliza un estímulo intenso o significativo como estímulo provocador. El lado derecho de la figura 3-6 ilustra esta situación. En ese ejemplo, el estímulo que provocó produjo un grado sustancial de sensibilización, con el resultado de que el efecto de comportamiento neto fue un aumento en la respuesta. El proceso de sensibilización también puede activarse por algún evento que no sea el estímulo provocador. Debido a que el sistema de estado está separado del

58

sistema E-R, el sistema de estado puede activarse mediante estímulos que no están registrados en el sistema E-R de la respuesta que se está midiendo. Ésta es una característica crítica de la teoría del proceso dual y otro aspecto en el que la sensibilización es diferente de la habituación. En contraste con la habituación, la sensibilización no se produce de manera necesaria por el estímulo de interés que provoca. El hecho de que los procesos de sensibilización y habituación se pueden activar mediante diferentes estímulos permite que la teoría del proceso dual explique una serie de fenómenos clave, incluida la deshabituación. Como se señaló con anterioridad (figura 3-5), la presentación de un estímulo deshabituado puede resultar en la recuperación de una respuesta habituada. En el ejemplo resumido en la figura 3-5, la presentación de un tono causó la recuperación de la respuesta de fijación visual acostumbrada a un patrón de tablero de ajedrez. De acuerdo con la teoría del proceso dual, esto ocurrió porque el tono activó el sistema de estado y produjo suficiente sensibilización para superar la acumulación previa de habituación al estímulo visual. En otras palabras, la deshabituación se produce por la adición del proceso de sensibilización a una situación de comportamiento en lugar de la reversión o el debilitamiento del proceso de habituación (para otras pruebas que apoyan esta interpretación, Groves y Thompson [1970] y Thompson [2009]). La teoría del proceso dual es con notoriedad exitosa en la caracterización de la habitabilidad a corto plazo y los efectos de sensibilización a corto plazo. Sin embargo, la teoría no fue diseñada para explicar la habituación a largo plazo y la sensibilización a largo plazo. Las explicaciones de ambas suelen incluir mecanismos de aprendizaje asociativo, los cuales se analizan en los capítulos 4 a 6.

RESUMEN De forma común, el comportamiento reflexivo o provocado es considerado como una consecuencia automática e invariable del estímulo provocador. Contraria a esta noción, las presentaciones repetidas de un estímulo provocador pueden generar una disminución monótona en la respuesta (un efecto de habituación), un aumento en la respuesta (un efecto de sensibilización) seguido de una disminución o un aumento sostenido en la respuesta. Por lo tanto, lejos de ser invariante, el comportamiento provocado es con evidencia sensible a diferentes formas de experiencia previa. La magnitud de los efectos de habituación y sensibilización dependen de la intensidad y frecuencia del estímulo provocador. La respuesta provocada por un estímulo también puede ser alterada por la presentación previa de un evento diferente (como en el fenómeno de la deshabituación). Muchos de los hallazgos relacionados con la habituación y sensibilización pueden explicarse por la teoría del proceso dual, que sostiene que los procesos que proporcionan una respuesta disminuida ocurren en el sistema E-R, mientras que los procesos que generan sensibilización ocurren en el sistema de estado. El sistema ER se activa cada vez que se presenta un estímulo provocador, lo que hace que la habituación sea una propiedad universal de la conducta provocada. La

59

sensibilización, por el contrario, ocurre sólo cuando el organismo encuentra un estímulo que es lo suficiente intenso o significativo para activar el sistema de estados. A través de sus efectos aditivos, los procesos de habituación y sensibilización sirven para modular el vigor de la conducta provocada.

LECTURAS SUGERIDAS Colombo, J., y Mitchell, D.W. (2009). Infant visual habituation. Neurobiology of Learn- ing and Memory, 92, 225–234. http://dx.doi.org/10.1016/j.nlm.2008.06.002 Epstein, L.H., Temple, J.L., Roemmich, J.N., y Bouton, M.E. (2009). Habituation as a determinant of food intake. Psychological Review, 116, 384–407. http://dx.doi. org/10.1037/a0015074 Kavšek, M. (2013). The comparator model of infant visual habituation and dishabituation: Recent insights. Developmental Psychobiology, 55, 793–808. http:// dx.doi.org/10.1002/dev.21081 Rankin, C.H., Abrams, T., Barry, R.J., Bhatnagar, S., Clayton, D.F., Colombo, J., Thompson, R.F. (2009). Habituation revisited: An updated and revised description of the behavioral characteristiEC of habituation. Neurobiology of Learning and Memory, 92, 135–138. http://dx.doi.org/10.1016/j.nlm.2008.09.012

Términos técnicos Deshabituación Efecto de habituación Efecto de sensibilización Habituación a corto plazo Habituación a largo plazo Interneurona Neofobia al sabor Neurona aferente Neurona eferente Neurona motora Neurona sensorial Sensibilización a corto plazo Sensibilización a largo plazo Sistema de estado Sistema E-R Recuperación espontánea Respuesta de orientación Respuesta de sobresalto

60

Capítulo 4

61

Condicionamiento pavloviano: conceptos básicos Sabía usted que: • ¿Pavlov veía el condicionamiento clásico como una técnica para estudiar el cerebro? • ¿El condicionamiento clásico no se limita a las respuestas glandulares y viscerales? • ¿La respuesta condicionada no siempre es como la respuesta no condicionada? • ¿Los estímulos condicionados se convierten en parte del sistema de un comportamiento activado por el estímulo no condicionado? • ¿El condicionamiento no solo da como resultado nuevas respuestas al estímulo condicionado sino que cambia la forma en que los organismos interactúan con el estímulo no condicionado? • ¿Qué estímulo puede servir como uno condicionado en el condicionamiento clásico que depende del estímulo no condicionado que se utiliza? • ¿Es posible el aprendizaje asociativo en el procedimiento de control aleatorio? • ¿El condicionamiento pavloviano está involucrado con una amplia gama de comportamientos, incluyendo preferencias y aversiones, miedos y fobias, tolerancia a las drogas y adicción, y comportamiento materno y sexual? En el capítulo 3, se mencionan las formas en que el comportamiento cambia con la experiencia con estímulos individuales. La habituación requiere presentar el mismo estímulo una y otra vez y en ocasiones se le denomina aprendizaje de estímulo único. Hasta aquí es posible considerar cómo los organismos aprenden a unir las cosas, cómo asocian un evento con otro. El aprendizaje asociativo es diferente del aprendizaje de estímulo único en que el cambio en el comportamiento que se desarrolla en un estímulo depende de cuándo ocurrió ese estímulo en relación con un segundo estímulo. El aprendizaje asociativo implica aprender sobre combinaciones de estímulos. La primera forma de aprendizaje asociativo que se debe considerar es el condicionamiento pavloviano o clásico.

LA CAMPANA PAVLOVIANA Los elementos básicos del condicionamiento pavloviano o clásico son familiares para la mayoría de los estudiantes. Los relatos suelen describir un experimento apócrifo en el que el profesor Pavlov hizo sonar una campana justo antes de dar un poco de polvo de comida a los perros que estaba amaestrando. Los perros estaban sueltos pero enganchados a un aparato que permitía a Pavlov medir cuánto salivaban. Al principio, éstos salivaban sólo cuando se les daba la comida en polvo. Sin embargo, después de muchas pruebas con la campana sonando cuando se les daba la comida, los perros también salivaban cuando ésta sonaba.

62

La historia del profesor Pavlov entrenando a sus perros para salivar al escuchar una campana es útil para introducir un vocabulario técnico importante. Un estímulo como el polvo de comida que provoca la respuesta de interés sin entrenamiento previo se llama estímulo no condicionado (ENC). La salivación provocada por el polvo de comida es un ejemplo de una respuesta no condicionada (RNC). La campana es un ejemplo de un estímulo condicionado (EC) y la salivación que se desarrolla por escuchar la campana se llama respuesta condicionada (RC). La campana de Pavlov ilustra el aprendizaje asociativo porque la salivación debido a la campana depende de presentar la campana en combinación con comida en polvo. Al tocar el timbre cada vez que el perro está a punto de recibir un poco de comida, es probable que se asocie el timbre con el alimento. Una vez que el perro asocia la campana con la comida comienza a responder a la campana como si fuera comida; saliva cuando oye la campana. Aunque la campana de Pavlov es muy conocida y útil para introducir los términos técnicos utilizados para describir el condicionamiento pavloviano o clásico, la historia es engañosa de varias maneras. Primero, Pavlov rara vez, usaba una campana en sus experimentos. Las demostraciones iniciales del condicionamiento clásico se realizaron con EC visuales (mostrar la comida que se colocaría en la boca del perro) en lugar de señales auditivas. En segundo lugar, la historia sugiere que el condicionamiento clásico implica la modificación de las respuestas viscerales y glandulares. B.F. Skinner elevó esta implicación a un axioma, postulando que el condicionamiento clásico solo puede modificar las respuestas glandulares y viscerales (p. ej., Skinner, 1953). Sin embargo, investigaciones posteriores demostraron que esta suposición es injustificada (Domjan, 2016). El condicionamiento pavloviano puede producir muchos tipos de RC, incluso la aproximación de una señal en forma de comida o la taza de comida, que son respuestas esqueléticas en lugar de glandulares o viscerales.

SITUACIONES DE CONDICIONAMIENTO CONTEMPORÁNEO Aunque el condicionamiento clásico se descubrió en estudios de condicionamiento salival con perros, éstos ya no se utilizan en dichos experimentos y la salivación pocas veces es la respuesta condicionada. En cambio, las palomas, ratas, conejos y estudiantes universitarios suelen participar en los experimentos, y se condicionan varias respuestas esqueléticas y fisiológicas. En algunas situaciones de condicionamiento pavloviano contemporáneo, los ENC resultan ser un estímulo deseable o del apetito, como la comida. Estas preparaciones se utilizan para estudiar el condicionamiento apetitivo. En otras situaciones, un evento desagradable o aversivo se utiliza como en los ENC. Tales preparaciones se utilizan para estudiar el condicionamiento aversivo o del miedo. Condicionamiento apetitivo Este condicionamiento se investiga con frecuencia en palomas y ratas de laboratorio. Las palomas que sirven en experimentos de condicionamiento apetitivo tienen un poco de hambre y se analizan en una pequeña cámara experimental

63

llamada caja de Skinner (figura 4-1). El EC es un punto de luz circular proyectado en un pequeño disco de plástico o pantalla táctil sobre una taza de comida. Los picotazos en la luz se detectan automáticamente. El proceso de condicionamiento consiste en encender la luz de la tecla durante unos segundos y luego presentar una pequeña cantidad de comida.

Figura 4-1. Ensayo típico para condicionamiento de señales de rastreo o automoldeamiento en palomas. El estímulo condicionado (EC) es la iluminación de un pequeño disco circular o una tecla de picoteo durante 6 segundos. El estímulo no condicionado (ENC) es el acceso a los alimentos durante 4 segundos. Los ensayos EC-ENC se repiten con un intervalo entre ensayos de aproximadamente un minuto.

Después de varios emparejamientos de la luz clave con la comida, las palomas se acercan y pican la tecla cuando está encendida (Hearst y Jenkins, 1974; Tomie, Brooks y Zito, 1989). La aproximación condicionada y el comportamiento de picoteo se desarrollan incluso si la luz clave se encuentra a cierta distancia de la taza de comida (Boakes, 1979). La luz se convierte en una señal para la comida, y las palomas van donde se encuentra la luz. Por lo tanto, este tipo de respuesta condicionada se denomina seguimiento de signos. Debido a que el procedimiento da como resultado que las palomas picotean la clave de respuesta sin que el experimentador los entrene o enseñe, el procedimiento también se denomina automoldeamiento. Las diferencias individuales en el seguimiento de signos frente al seguimiento de objetivos han atraído un gran interés porque son reflejos de las diferencias individuales en la propensión a adquirir incentivos. La motivación de incentivos juega un papel importante en las adicciones, donde la exposición a las señales de la recompensa de elección hace que la obtención de un reforzador apetitoso sea irresistible. Las personas adictas al alcohol, por ejemplo, encuentran la necesidad de beber irresistible cuando ven o huelen una-bebida alcohólica. Para estas personas, la vista y el olor del alcohol se han convertido en un fuerte estímulo de incentivo. Las respuestas a la vista y el olor del alcohol son signos de seguimiento de RC (Zito y

64

Tomie, 2014). Investigaciones recientes han demostrado que las diferencias individuales en el seguimiento de los signos y de los objetivos tienen una base genética y están relacionadas con las diferencias neurobiológicas asociadas con la impulsividad y el abuso de fármacos (Flagel et al., 2011). Las ratas de laboratorio también se utilizan en estudios de condicionamiento pavloviano con alimentos como los ENC. Si se utiliza una señal auditiva como el EC que se presenta antes de cada entrega de alimentos, las ratas se acercarán y registrarán la taza de alimentos como RC para la señal auditiva (Meyer, Cogan y Robinson, 2014). Este tipo de comportamiento se conoce como seguimiento de objetivos porque la RC rastrea la ubicación del objeto o alimento objetivo. El seguimiento de signos y el de objetivos también se han encontrado en el condicionamiento sexual con codornices domesticadas, donde el EC muestra el acceso a una posible pareja sexual (Burns y Domjan, 2001). Ya sea que el seguimiento de signos o el seguimiento de objetivos se desarrolle, la RC depende del EC que se emplea y otros detalles del procedimiento de condicionamiento. Además, hay diferencias individuales significativas que determinan qué tipo de comportamiento condicionado ocurre. Estas diferencias individuales se han descubierto en estudios con ratas que utilizan un aparato con palanca retráctil (Flagel, Akil y Robinson, 2009). En estos experimentos, la extensión de una palanca de respuesta en la cámara experimental se usó como el EC. Cada prueba de condicionamiento comenzó con la extensión de la palanca de respuesta, seguida de la entrega de alimentos en una taza para alimentos (la figura 4-2 muestra el ejemplo de una rata en un aparato de presionar con palanca). Con este procedimiento, alrededor de un tercio de las ratas desarrollaron un sistema de señales y se acercaron e hicieron contacto con la palanca. Otro tercio de las ratas mostró seguimiento de aciertos y se acercó y registró la taza de comida. La población restante mostró una combinación de estas respuestas.

Figura 4-2. Rata en un experimento de supresión condicionada. Al presionar la palanca de respuesta

65

ocasionalmente arroja un pellet de comida. Periódicamente se presenta un tono, que termina en un shock a través del piso de la cuadrícula. La rata presiona la palanca durante el tono.

Condicionamiento aversivo o de miedo El condicionamiento aversivo se ha investigado exhaustivamente mediante la respuesta de parpadeo del ojo. Este último es un componente temprano del reflejo de sobresalto. El condicionamiento de parpadeo ocular se desarrolló por primera vez en humanos (Kimble, 1961, págs. 55–59). Un soplo suave de aire a un ojo sirvió como el ENC y un haz de luz sirvió como el EC. Después de varios emparejamientos de la luz con el soplo de aire, la luz llegó a provocar una respuesta condicionada de parpadeo del ojo. Posteriormente, también se desarrollaron técnicas para estudiar el condicionamiento de parpadeo para su uso con conejos y ratas albinas para facilitar las investigaciones de la neurofisiología del aprendizaje. En estas especies, la irritación de la piel cerca de un ojo sirve como un ENC, y una breve indicación visual o auditiva sirve como EC. Los emparejamientos del EC y los ENC dan como resultado una respuesta condicionada de parpadeo cuando se presenta el EC (Gormezano, Kehoe y Marshall, 1983). Otra técnica de laboratorio común para los estudios del condicionamiento aversivo es el condicionamiento del miedo. Este procedimiento, que por lo general se lleva a cabo con ratas o ratones, aprovecha el hecho de que los animales (incluidas las personas) suelen volverse inmóviles o congelarse cuando tienen miedo. Un tono o luz sirve como el EC y una breve descarga aplicada a través de un piso de rejilla sirve como el ENC. Después de algunos emparejamientos del tono o la luz con la descarga, el EC provoca una respuesta de congelación. En la postura de congelación, la rata muestra una falta total de movimiento, excepto para respirar (N.S. Jacobs, Cushman y Fanselow, 2010). En una variante de condicionamiento del miedo conocida como el procedimiento de supresión condicionada, las ratas se colocan en una cámara experimental que tiene una palanca de respuesta que está presente de manera continua (en lugar de insertarse en la cámara como una señal para el alimento). Las ratas están entrenadas para presionar la palanca y así obtener un pellet de comida. Luego se proporciona alimento sólo de forma intermitente para cuando se presiona la palanca, lo que mantiene a las ratas presionando ésta a un ritmo constante. Después de que la presión de la palanca está bien establecida, se introducen pruebas de condicionamiento aversivo. En cada una de estas pruebas, se presenta un tono o luz de EC durante un minuto, seguido de una breve descarga de pie. En unos pocos ensayos de condicionamiento, la presentación del EC da como resultado la supresión de la respuesta de presionar la palanca reforzada con los alimentos. El grado de supresión de la presión de la palanca proporciona una medida de cuánto se ha condicionado el miedo al EC (Ayres, 2012).

NATURALEZA DE LA RESPUESTA CONDICIONADA En los experimentos de condicionamiento salival de Pavlov, la RC (salivación a un

66

EC) fue una respuesta visceral de la glándula similar en forma a la RNC (salivación al alimento en polvo). Estas características de la RC se consideraron universales del condicionamiento clásico durante gran parte del siglo XX. Se consideró que el condicionamiento pavloviano era principalmente un mecanismo para ajustar las respuestas fisiológicas y glandulares al ambiente a través de la experiencia (Skinner, 1938), y se asumió que la RC siempre era similar a la RNC (p. ej., Mackintosh, 1974). Sin embargo, ninguno de estos supuestos es válido para las situaciones de laboratorio que se usan en la investigación contemporánea sobre el condicionamiento pavloviano. El seguimiento de signos, el seguimiento de objetivos y las respuestas condicionadas de parpadeo son respuestas esqueléticas en lugar de glandulares. En el condicionamiento de parpadeo, la RC es similar a la RNC. Pero éste no es el caso en el condicionamiento del miedo. Aquí, el shock en el pie que sirve como ENC provoca una respuesta vigorosa de alarma y sobresalto, pero el EC llega a provocar una respuesta de congelación contrastante. En muchas situaciones pavlovianas, la RC no es similar a las respuestas que son provocadas por los ENC. Si no se asume que la RC siempre será similar a la RNC, ¿cómo se puede predecir qué tipo de comportamiento se desarrollará con el condicionamiento pavloviano? Ésta sigue siendo una pregunta desafiante. Un enfoque prometedor para responder esta pregunta se basa en la identificación de sistemas de comportamiento preexistentes que pueden activarse mediante un procedimiento de condicionamiento pavloviano. En el capítulo 2 se menciona el concepto de sistemas de comportamiento. El concepto es relevante para la presente discusión porque los ENC en un procedimiento de condicionamiento pavloviano activan el sistema de comportamiento relevante para esos ENC. El presentar alimentos a un animal hambriento activa el sistema de alimentación, las presentaciones de shock activan el sistema de comportamiento defensivo y las presentaciones de un ENC sexual activan el sistema de comportamiento reproductivo. La RC que se desarrolla depende de cómo el EC se incorpora al sistema de comportamiento activado por los ENC (Domjan & Krause). El sistema de alimentación, por ejemplo, implica una secuencia de modos de respuesta que comienza con la búsqueda general y luego pasa a la búsqueda focalizada y al comportamiento ingestivo o consumatorio (figura 4-3). Si se presenta un EC antes de que el animal reciba cada porción de alimento, el EC se incorporará a uno de los modos de respuesta del sistema de comportamiento de alimentación, que a su vez determinará qué tipo de RC realizará el organismo (Timberlake, 2001). Si el EC se incorpora al modo de búsqueda focalizada, la RC consistirá en respuestas de búsqueda focalizada, como el seguimiento de signos o el seguimiento de objetivos (Wasserman, Franklin, y Hearst, 1974). Por el contrario, si el EC se incorpora al modo de respuesta ingestiva y consumatoria, la RC implicará el manejo y la masticación del EC (Boakes, Poli, Lockwood y Goodall, 1978).

67

Figura 4-3. Sistemas de comportamiento y condicionamiento pavloviano. Los procedimientos de condicionamiento con alimentos como estímulo no condicionado (ENC) involucran el sistema de alimentación. Como resultado de los emparejamientos del estímulo condicionado (EC) con los alimentos, el EC se incorpora al sistema de alimentación y se activa para obtener respuestas relacionadas con los alimentos.

En el condicionamiento aversivo, la naturaleza de la RC está determinada por el sistema de comportamiento defensivo (Rau y Fanselow, 2007). El shock del pie utilizado en los estudios del miedo condicionado es una fuente externa de dolor, muy parecido a ser mordido por un depredador, y la respuesta al shock es similar a la respuesta al ser mordido. Cuando una rata es mordida por una serpiente, da un gran salto. Del mismo modo, las ratas saltan cuando reciben una breve conmoción en el pie. La respuesta defensiva de la rata a un ataque inminente o posible es diferente de su respuesta al ataque en sí. Si una rata ve o huele a una serpiente que está a punto de morderla, la rata se congela. En el procedimiento de condicionamiento del miedo, el EC señala un ataque inminente. Por lo tanto, el EC provoca el congelamiento del comportamiento defensivo. Debido a que el EC por lo general precede a la presentación de un ENC, en un procedimiento de condicionamiento pavloviano, las respuestas al EC son respuestas anticipatorias. El tipo de anticipación que sea apropiado depende de cuánto tiempo tenga que esperar durante el EC antes de que se presenten los ENC, por lo tanto, el intervalo entre la aparición del EC y la aparición de los ENC es fundamental para determinar la naturaleza de la RC. En el condicionamiento aversivo, por ejemplo, un largo intervalo entre EC y ENC produce ansiedad condicionada, mientras que un breve intervalo entre EC y ENC produce miedo o pánico condicionados (Waddell, Morris y Bouton, 2006). En el condicionamiento sexual, un largo intervalo ECENC activa el modo de búsqueda general, mientras que un corto intervalo EC-ENC activa el modo de búsqueda focalizada (Akins, 2000).

MODIFICACIONES CONDICIONADAS DE LA RESPUESTA NO CONDICIONADA En el apartado anterior, se mencionó la práctica común de hablar sobre el condicionamiento pavloviano como aprender a anticipar un evento biológicamente significativo -los ENC. ¿Por qué deberían los organismos responder en anticipación de algo? ¿Cuál sería la ventaja de esta anticipación? El valor de anticipar un evento es que puede manejar éste de manera más efectiva cuando se presenta. Esto sugiere que el condicionamiento pavloviano debería alterar la forma en cómo los organismos interactúan en EUA. Ése es, de hecho, el caso. Existe suficiente evidencia que confirma que la presentación de un EC altera la forma en cómo los organismos interactúan con los ENC.

68

Una de las primeras áreas de investigación en las que se descubrió que el condicionamiento pavloviano cambia la forma en cómo los organismos interactúan con los ENC es el condicionamiento de los medicamentos. Cuando se ingiere un medicamento ya sea por motivos recreativos o terapéuticos, se esperan los efectos farmacológicos o no condicionados. Sin embargo, también hay un fuerte componente de condicionamiento ya que los medicamentos se administran mediante un procedimiento de algún tipo. Los efectos farmacológicos de la cafeína o una copa de vino, por ejemplo, están precedidos por el olor y el sabor de las bebidas así como el lugar o la hora particular del día en que se ingieren los medicamentos. El olor, el sabor y otras señales relacionadas con la administración de medicamentos funcionan como EC que se asocian con los efectos farmacológicos no condicionados de la cafeína y el alcohol. Los fármacos interrumpen el funcionamiento fisiológico normal o la homeostasis fisiológica. Con las administraciones repetidas de un fármaco, el cuerpo anticipa estos efectos disruptivos y realiza ajustes compensatorios en anticipación a la droga. Los ajustes anticipatorios son provocados por señales condicionadas por el fármaco y sirven para atenuar el impacto de éste una vez que se ingiere. A través de este proceso, el impacto del fármaco se reduce de modo gradual, un resultado conocido como tolerancia al fármaco. Una implicación importante de estos mecanismos de aprendizaje es que la tolerancia a un medicamento se puede revertir si se administra éste de manera diferente o en ausencia de las indicaciones habituales de administración de medicamentos. Investigaciones recientes han confirmado esta tolerancia, así como otras implicaciones del modelo de condicionamiento de la tolerancia a los medicamentos (Siegel, 2008). Una consecuencia de la reversión de la tolerancia al fármaco es que las dosis familiares de un fármaco que antes no eran letales se vuelven mortales si se toma el fármaco en ausencia de las pautas habituales de administración de fármacos (Siegel, 2016). El modelo de condicionamiento de la tolerancia al fármaco no sólo tiene importancia clínica, también apoya la idea de que el condicionamiento pavloviano sirve para modificar la forma en que los organismos responden al ENC. Esta nueva perspectiva ha sido documentada en una variedad de situaciones de condicionamiento pavloviano, incluyendo el condicionamiento del miedo, el condicionamiento defensivo y el condicionamiento sexual (Domjan, 2005). En el condicionamiento sexual de las codornices masculinas, por ejemplo, un EC se empareja con el acceso a una hembra sexualmente receptiva y la consiguiente cópula o coito. Con emparejamientos repetidos, el EC adquirirá propiedades motivacionales de incentivo y provocará el seguimiento de signos. Sin embargo, un resultado más importante es que la exposición a un EC sexual cambia significativamente la forma en que el macho copula con la hembra. El EC sexual reduce la latencia del macho para iniciar la cópula, aumenta las respuestas de cortejo, incrementa la eficiencia del comportamiento de copulación y mejora la liberación de esperma y la fertilización de los óvulos (Domjan y Akins, 2011). Estos cambios en el comportamiento representan cambios en la forma en que el hombre interactúa con el ENC, que en este caso es una pareja sexual femenina.

69

FACTORES DE ESTÍMULO EN EL CONDICIONAMIENTO CLÁSICO Los primeros investigadores del condicionamiento pavloviano asumieron que casi cualquier estímulo que el organismo pudiera detectar podría usarse efectivamente como un EC. Esta suposición ha resultado ser incorrecta. En esta sección, se mencionan dos factores que determinan la efectividad de un EC: la novedad del EC y la naturaleza del ENC. La novedad de EC y el efecto de inhibición latente La novedad de un estímulo es un factor que determina su impacto en el comportamiento. Como se mencionó en el capítulo 3, las exposiciones repetidas a un estímulo pueden resultar en un efecto de habituación, haciendo que los estímulos familiares sean menos efectivos para provocar reacciones conductuales vigorosas que los estímulos novedosos. La habituación también puede reducir la efectividad de un estímulo que se puede utilizar como un EC en un procedimiento de condicionamiento pavloviano. Este fenómeno se denomina efecto de inhibición latente (Lubow & Weiner, 2010). Los estudios del efecto de inhibición latente se realizan por lo general en dos fases, la fase previa a la exposición y la fase de condicionamiento. En la fase previa a la exposición, los participantes reciben presentaciones repetidas del estímulo que se utilizará más adelante como el EC; por ejemplo, un tono que posteriormente se emparejará con la comida puede presentarse un número de veces durante la fase de preexposición; durante esta fase, el tono se presenta solo, sin el ENC. Después de la fase de preexposición, el tono se empareja con los alimentos del ENC, utilizando procedimientos de condicionamiento clásicos convencionales. El resultado típico es que la preexposición al EC retrasa el desarrollo posterior de la respuesta condicionada al tono. El efecto de preexposición de EC se ha interpretado como un reflejo de los procesos de atención. Se supone que las presentaciones repetidas de un tono durante la fase previa a la exposición reducen la atención del participante al tono, y se supone que esto a su vez interrumpe el condicionamiento posterior del tono pavloviano (p. ej., Schmajuk, 2010). Debido a la participación de los procesos de atención, el efecto de inhibición latente se ha vuelto popular como una técnica para estudiar mecanismos y trastornos cerebrales, como la esquizofrenia, que involucra déficits en la atención (Lubow, 2011). La relevancia EC-ENC y asociaciones selectivas La efectividad de un estímulo como el EC en el condicionamiento pavloviano también depende del ENC que se utilice. Como se mencionó, las presentaciones de un ENC (p. ej., los alimentos) sirven para activar el sistema de comportamiento relevante para ese ENC. Por lo tanto, el sistema de comportamiento de alimentación se activa cuando los alimentos se presentan repetidamente a una paloma hambrienta. Como se señaló, cada sistema de comportamiento está asociado con sus

70

propias respuestas. Los sistemas de comportamiento también se caracterizan por una mayor reactividad a un conjunto distintivo de estímulos. Las palomas, por ejemplo, tienden a ubicar los alimentos a la vista y suelen estar atentas a las señales visuales cuando se activa su sistema de alimentación. Esto hace que las señales visuales sean especialmente eficaces en el condicionamiento pavloviano con alimentos para palomas. La primera evidencia clara de que la efectividad de un EC depende del ENC que se utiliza se obtuvo en estudios de condicionamiento de aversión en ratas de laboratorio. El fenómeno de la supresión condicionada ilustra un tipo de condicionamiento de aversión. Por ejemplo, un tono o una luz se emparejan con el shock, con el resultado de que el EC adquiere propiedades aversivas. Otro tipo de condicionamiento de la aversión es el aprendizaje de la aversión al sabor. En este caso, a un sabor novedoso le sigue una enfermedad posicional (p. ej., un caso leve de intoxicación por alimentos), y el organismo aprende una aversión al sabor novedoso como resultado. La supresión condicionada y los fenómenos de aprendizaje de aversión al sabor demuestran que tanto las señales auditivas como las visuales y las señales de gusto son muy efectivas como EC. Sin embargo, es interesante que solo son efectivas en combinación con su propio ENC (figura 4-4). Las ratas no aprenden fácilmente una aversión a una señal auditiva o visual combinada con una enfermedad, tampoco lo hacen con respecto a una aversión de señal gustativa combinada con una conmoción (García y Koelling, 1966). Los resultados ilustran el fenómeno de la relevancia EC-ENC, o asociación selectiva. El efecto de asociación selectiva de GarcíaKoelling se encontró con un gran escepticismo cuando se informó por primera vez, pero gran parte de ese escepticismo se debió a una investigación posterior que confirmó el fenómeno en una variedad de contextos y en circunstancias que excluyeron varias interpretaciones alternativas (Domjan, 2015).

Figura 4-4. Procedimientos y resultados del experimento de Garcia y Koelling (1966) que demuestran asociaciones selectivas en el aprendizaje de aversión.

71

Al igual que las ratas de laboratorio, las personas aprenden aversiones a los estímulos de forma selectiva. Las personas que experimentan algún tipo de enfermedad gastrointestinal son más propensas a aprender una aversión a un alimento nuevo que comieron justo antes de enfermarse que a aprender una aversión a otros tipos de estímulos que pueden haber encontrado. De acuerdo con el efecto de asociación selectiva, las personas no informan haber adquirido aversión a los alimentos si se lastiman en un accidente físico o si desarrollan una erupción cutánea irritante (Logue, Ophir y Strauss, 1981; Pelchat y Rozin, 1982). Sólo las experiencias de enfermedad son efectivas para inducir una aversión a los alimentos. Desde la demostración inicial del efecto de asociación selectiva en el aprendizaje por aversión, estos efectos también se han encontrado en otras formas de aprendizaje. Por ejemplo, Shapiro, Jacobs y LoLordo (1980) encontraron que las palomas tienen más probabilidades de asociar un estímulo visual que un estímulo auditivo con la comida. Sin embargo, cuando las aves están condicionadas por el shock, es más probable que la señal auditiva se condicione más que la señal visual. Las asociaciones selectivas también se presentan en el condicionamiento del miedo de los primates (Mineka y Öhman, 2002). Los monos y las personas aprenden a temer más fácilmente a las serpientes que a las flores. Esto parece ser el resultado de una predisposición evolutiva. Se ha observado una mayor sensibilidad a la vista de las serpientes en los bebés humanos desde los 8 a los 14 meses de edad (LoBue y DeLoache, 2010).

PROBLEMA DEL CONTROL EN EL CONDICIONAMIENTO PAVLOVIANO La característica crítica del condicionamiento pavloviano es que implica la formación de una asociación entre un EC y un ENC. Por lo tanto, antes de que cualquier cambio en el comportamiento pueda atribuirse al condicionamiento pavloviano, se debe demostrar que el efecto no se produce por otros factores que no involucran una asociación. Para promover el desarrollo de una asociación, los condicionados y los no condicionados deben presentarse en combinación unos con otros. Es particularmente efectivo, por ejemplo, presentar el EC justo antes de la presentación del ENC en cada prueba de condicionamiento (en el capítulo 5 se detalla más sobre este tema). Además, por lo general se necesitan varias pruebas de condicionamiento para obtener un efecto de aprendizaje. Por lo tanto, un procedimiento de condicionamiento pavloviano involucra repetidas presentaciones de los EC y ENC. Sin embargo, como se mencionó en el capítulo 3, las presentaciones repetidas de estímulos también pueden resultar en efectos de habituación y sensibilización. Esto implica que pueden producirse efectos de habituación y sensibilización durante el curso del condicionamiento pavloviano. Los efectos de la habituación y la sensibilización debidos a las presentaciones repetidas de EC y ENC no dependen de la formación de una asociación entre estas mismas y, por lo tanto, no constituyen condicionamiento pavloviano. Los efectos de la habilitación suelen ser poco preocupantes porque la habituación da como resultado una respuesta disminuida, mientras que el condicionamiento pavloviano

72

implica una mayor respuesta al EC. El aumento en la respuesta al EC puede deberse a la sensibilización resultante de las exposiciones al EC o a la deshabituación o sensibilización resultante de las presentaciones en el ENC. Deben utilizarse procedimientos de control para descartar estos efectos de sensibilización en estudios de condicionamiento pavloviano. No se ha encontrado una solución aceptable y de aplicación universal para el problema del control en el condicionamiento pavloviano. En su lugar, se han utilizado una variedad de procedimientos de control, cada uno con sus propias ventajas y desventajas. En un procedimiento, los efectos de sensibilización del EC se evalúan presentando de manera repetida al EC por sí mismo. Dicho procedimiento, llamado control de EC solo, es inadecuado porque no tiene en cuenta la posibilidad de una mayor respuesta al EC debido a los efectos de deshabituación o sensibilización del ENC. Otro procedimiento de control implica la presentación repetida del ENC (control de ENC solo) para medir la sensibilización inducida por el ENC. Este procedimiento, sin embargo, no considera los posibles efectos de sensibilización debido a las repetidas presentaciones del EC. En 1967, Rescorla propuso una solución ingeniosa, conocida como el procedimiento de control aleatorio, que parecía superar las deficiencias del control EC solo y del control ENC solo. En el procedimiento de control aleatorio, el EC y el ENC se presentan repetidamente, pero en momentos aleatorios entre sí. El tiempo aleatorio de las presentaciones del EC y del ENC está destinado a evitar la formación de una asociación entre ellas sin interferir en los procesos de sensibilización. El procedimiento de control aleatorio se hizo popular poco después de su introducción, pero cuando los investigadores comenzaron a examinarlo en detalle, descubrieron algunas dificultades graves (Papini y Bitterman, 1990). Los estudios demostraron que este procedimiento no es completamente sin efecto, o neutral, en la producción de aprendizaje. El aprendizaje asociativo puede desarrollarse en un procedimiento de control aleatorio (p. ej., Kirkpatrick & Church, 2004). Una fuente de este aprendizaje es que las presentaciones aleatorias de EC y ENC permiten instancias ocasionales en las que se presenta el EC junto con el ENC. Si estos emparejamientos ocasionales entre el EC y ENC se producen al principio de una secuencia de presentaciones aleatorias del EC y ENC, se puede desarrollar una respuesta condicionada (Benedict y Ayres, 1972). El aprendizaje asociativo también puede resultar cuando se presenta el ENC sin el EC en un procedimiento de control aleatorio. En tales casos, al ENC se les presentan las claves contextuales de fondo de la cámara experimental. Estas señales de fondo se ignoraron durante gran parte del desarrollo inicial de la teoría del condicionamiento pavloviano; sin embargo, investigaciones más recientes han demostrado que la presentación repetida de un ENC en ausencia de un EC explícito puede dar como resultado un condicionamiento sustancial de las señales de fondo (Balsam y Tomie, 1985). Aunque no se dispone de un procedimiento de control totalmente satisfactorio para el condicionamiento pavloviano, el procedimiento de control discriminativo es una estrategia razonable. Este procedimiento se resume en la figura 4-5. El

73

control discriminativo involucra dos EC, un EC+ y un EC–. Los dos EC pueden ser, por ejemplo, un tono y luz breve. En la mitad de las pruebas, el EC+ se presenta y se empareja con en ENC (el signo + indica que el ENC ha sido presentado con el EC). En los ensayos restantes, se presenta el EC y el ENC no se produce. (El signo – indica que se omite el ENC.) Los ensayos EC+ y EC– se alternan de forma aleatoria. Para la mitad de los participantes, el tono sirve como EC+, y la luz sirve como EC–; para el resto de los participantes, estas asignaciones de estímulo se invierten.

Figura 4-5. Diagrama del procedimiento de control discriminativo para el condicionamiento pavloviano. Dos tipos de ensayos ocurren en alternancia aleatoria. En algunos ensayos, un estímulo condicionado, el EC+, se empareja con el estímulo no condicionado (ENC). En las pruebas restantes, otro estímulo condicionado, el EC–, se presenta solo. Una respuesta condicionada más fuerte a EC+ que a EC– es evidencia de aprendizaje asociativo en lugar de alguna forma de sensibilización.

¿Qué pasaría si la presentación del ENC solo sensibilizara la respuesta a los EC de luz y tono? La sensibilización no se basa en una asociación y, por lo tanto, no depende del emparejamiento de un estímulo con el ENC. Por lo tanto, se espera que la sensibilización aumente la respuesta tanto al EC+ como al EC–. Si sólo se produjera sensibilización en el procedimiento de control discriminativo, los participantes responderían a EC+ y EC– de manera similar. ¿Cómo es el aprendizaje asociativo? En contraste con la sensibilización, el aprendizaje asociativo debe ser específico al estímulo que se empareja con el ENC. Por lo tanto, el aprendizaje asociativo debería elevar la respuesta al EC+ más que la EC–. Una mayor respuesta al EC+ que al EC– en el control discriminativo proporciona una fuerte evidencia de aprendizaje asociativo. El procedimiento de control discriminativo permite la evaluación de los efectos asociativos dentro de un solo grupo de sujetos (basado en cómo estos sujetos responden de manera diferente al EC+ y al EC–). Otro enfoque que se utiliza con frecuencia es el procedimiento de control no emparejado. En este procedimiento, el EC y el ENC se presentan repetidamente, pero las presentaciones de estímulo se programan deliberadamente para que el EC y el ENC nunca se produzcan juntos o en la misma prueba. Este procedimiento se administra a un grupo de control, que se compara con un grupo experimental que recibe el EC emparejado con el ENC. Una mayor respuesta en el grupo emparejado en comparación con el grupo no emparejado se considera evidencia de condicionamiento pavloviano asociativo.

74

PREVALENCIA DEL CONDICIONAMIENTO PAVLOVIANO El condicionamiento clásico suele investigarse en situaciones de laboratorio. Sin embargo, no es necesario saber mucho sobre el condicionamiento clásico para dar cuenta de que también es común fuera del laboratorio. El condicionamiento clásico es más probable que se desarrolle cuando un evento (el EC) ocurre de manera confiable poco antes que otro (el ENC). Esto sucede en muchas áreas de la vida. La mayoría de los estímulos que ocurren en una secuencia temporal ordenada debido a las restricciones físicas de la causalidad. Algunas cosas simplemente no pueden suceder antes de que otras hayan ocurrido. Las instituciones sociales y las costumbres también aseguran que los eventos ocurran en una secuencia confiable. Cada vez que un estímulo precede a otro de manera confiable, se puede llevar a cabo un condicionamiento clásico, lo que le permite predecir qué sucederá a continuación sobre la base de eventos precedentes que sirven como EC. Un área de investigación que ha sido de particular interés es cómo las personas juzgan un evento debido a la causa de otro. En estudios de juicios causales humanos, las personas están expuestas a repetidas ocurrencias de dos eventos (p. ej., imágenes de una flor y una regadera que se presentan mediante una pantalla de computadora) en varios arreglos temporales. En un arreglo, por ejemplo, el riego puede ocurrir siempre antes de la flor; en otro, ocurre en momentos aleatorios con respecto a la flor. Después de observar numerosas presentaciones de ambos objetos, se les pide a los participantes de la investigación que den su punto de vista en cuanto a la fuerza de la relación causal entre ellos. Los estudios del juicio causal humano son análogos a los estudios del condicionamiento de Pavlov en cuanto ambos involucran experiencias repetidas con dos eventos y respuestas basadas en la medida en que esos dos eventos están relacionados entre sí. En vista de estas similitudes, se podría esperar que haya una gran similitud entre los resultados del juicio causal y los experimentos de condicionamiento pavloviano. Esa expectativa se ha confirmado en numerosos estudios (Allan, 2005), lo que sugiere que los mecanismos asociativos de Pavlov pueden jugar un papel en los numerosos juicios informales de causalidad que se lleva a cabo en el curso de la vida diaria. Al inicio de este capítulo se describió cómo el condicionamiento pavloviano puede resultar en la adquisición del miedo. Los mecanismos del condicionamiento del miedo son de gran interés debido al papel del condicionamiento del miedo en los trastornos de ansiedad, las fobias y el desorden de pánico (Craske, Hermans y Vansteenwegen, 2006; Oehlberg y Mineka, 2011). Como se comentó, el condicionamiento pavloviano también está involucrado en la tolerancia a los fármacos y la adicción (Siegel, 2008). Las señales que acompañan de manera confiable a la administración de medicamentos pueden llegar a provocar respuestas relacionadas con los medicamentos a través del condicionamiento. Al hablar de este tipo de aprendizaje por parte de los adictos al crack, el Dr. Scott Lukas, del hospital McLean en Massachusetts, describió los efectos de los estímulos condicionados por los fármacos al decir que “estas señales activan los recuerdos relacionados con el crack y los adictos responden como los perros de Pavlov” (Newsweek Staff, 2001, p. 40).

75

El condicionamiento pavloviano también está involucrado en las respuestas maternas e infantiles durante la lactancia. La succión implica una estimulación mutua para el bebé y la madre. Para amamantar con éxito, la madre tiene que sostener al bebé en una posición especial, lo que proporciona estímulos táctiles especiales tanto para el bebé como para la madre. Los estímulos táctiles experimentados por el niño pueden ser condicionados para obtener orientación y respuestas de succión por parte del bebé (Blass, Ganchrow y Steiner, 1984). Las señales olfativas experimentadas por el bebé también se condicionan durante los episodios de succión. Los bebés prefieren las señales asociadas con el amamantamiento, y esta preferencia es evidente hasta un año después del episodio de condicionamiento (Delaunay-El Allam et al., 2010). El condicionamiento pavloviano es importante para aprender sobre situaciones sexuales. Las observaciones clínicas indican que el comportamiento sexual humano puede moldearse mediante experiencias de aprendizaje, pero la evidencia experimental más extensa para el condicionamiento sexual se ha obtenido en estudios con animales de laboratorio (Domjan y Akins, 2011). En estos estudios, los varones suelen actuar como participantes, y el ENC se proporciona a través de la vista hacia una mujer sexualmente receptiva o mediante la aceptación física de una mujer. Los sujetos se acercan a estímulos que señalan la disponibilidad de una pareja sexual. La presentación de un EC sexual facilita varios aspectos del comportamiento reproductivo. Después de la exposición a un EC sexual, los hombres muestran mayor percepción para realizar respuestas coitales, compiten con más éxito con otros pares para cortejar a una mujer, muestran mayor comportamiento de cortejo, liberan mayores cantidades de esperma, muestran niveles más altos de testosterona y hormona luteínica y tienen más descendencia.

RESUMEN Aunque los estudios del condicionamiento pavloviano iniciaron con el condicionamiento de la salivación y otras respuestas glandulares en los perros, las investigaciones contemporáneas se centran en el condicionamiento de las respuestas esqueléticas en el rastreo de signos, el condicionamiento del miedo y el condicionamiento del parpadeo de los ojos. Estas investigaciones han demostrado que pueden desarrollarse diferentes tipos de EC, dependiendo de la naturaleza del EC y del sistema de comportamiento activado por el ENC. Debido a que el condicionamiento pavloviano implica el aprendizaje de una asociación entre un EC y un ENC, los cambios de comportamiento debidos a la repetición del EC y ENC deben excluirse. El procedimiento de control aleatorio no es efectivo en este sentido porque puede resultar en un aprendizaje asociativo. Aunque no se dispone de un procedimiento de control satisfactorio, el control discriminativo y los procedimientos de control no pareados son razonablemente efectivos. En el procedimiento de control discriminativo, un EC se empareja con el ENC y otro EC se presenta sin el ENC. La respuesta diferencial a los dos EC proporciona evidencia de aprendizaje asociativo. En el procedimiento de control no emparejado el EC se presenta en momentos en que es seguro que no ocurrirá en el

76

ENC. El condicionamiento pavloviano puede ocurrir donde un evento precede de manera confiable a otro. Los ejemplos incluyen juicios de causalidad, tolerancia a los fármacos y adicción, amamantamiento y enfermería, y aprender a predecir posibles encuentros sexuales.

LECTURAS SUGERIDAS Bouton, M.E., Mineka, S., y Barlow, D.H. (2001). A modern learning theory perspective on the etiology of panic disorder. Psychological Review, 108, 4–32. http://dx.doi. org/10.1037/0033-295X.108.1.4 Domjan, M. (2005). Pavlovian conditioning: A functional perspective. Annual Review of Psychology, 56, 179–206. http://dx.doi.org/10.1146/annurev.psych.55.090902.141409 Flagel, S.B., Akil, H., y Robinson, T.E. (2009). Individual differences in the attribution of incentive salience to reward-related cues: Implications for addiction. Neuropharmacology, 56 (Suppl. 1), 139–148. Papini, M.R., y Bitterman, M.E. (1990). The role of contingency in classical conditioning. Psychological Review, 97, 396–403. Siegel, S. (2008). Learning and the wisdom of the body. Learning & Behavior, 36, 242–252. http://dx.doi.org/10.3758/LB.36.3.242 Términos técnicos Aprendizaje asociativo Aprendizaje de aversión al sabor Asociación selectiva Automoldeamiento Caja de Skinner Condicionamiento apetitivo Condicionamiento aversivo Control aleatorio Control discriminativo Estímulo condicionado (EC) Estímulo no condicionado (ENC) Inhibición latente Procedimiento de control no emparejado Relevancia EC-ENC Respuesta condicionada (RC) Respuesta no condicionada (RNC) Seguimiento de señales Supresión condicionada

77

Capítulo 5

78

Relaciones de estímulo en el condicionamiento pavloviano Sabía usted que: • ¿Retrasar un poco el estímulo no condicionado (ENC) después de que se inicie el estímulo condicionado (EC) produce una mayor evidencia de condicionamiento que presentan el EC y el ENC? • ¿Una brecha de apenas medio segundo entre el EC y el ENC puede interrumpir de manera seria el condicionamiento del miedo excitador? • ¿Se pueden aprender las aversiones al sabor con una demora de varias horas entre los estímulos condicionados? • ¿La contigüidad entre EC-ENC no es necesaria ni suficiente para el condicionamiento pavloviano? • ¿Las diferentes contingencias entre EC y ENC producen diferentes niveles de respuesta condicionada debido a las diferencias en el condicionamiento de las señales contextuales? • ¿Además de las asociaciones EC-ENC los organismos pueden aprender relaciones de orden superior en las que un EC señala cómo se unirá un segundo EC con el ENC? En el capítulo 4, se trató el condicionamiento pavloviano como un tipo de aprendizaje que implica establecer una asociación entre dos estímulos, el EC y el ENC. Para que dos estímulos o eventos se asocien entre ellos, tienen que estar relacionados entre sí de alguna manera. En el presente capítulo, se describen varias relaciones que pueden existir entre un EC y un ENC. También se describen cómo las diferentes relaciones de estímulo determinan lo que se aprende en el condicionamiento pavloviano.

RELACIÓN TEMPORAL ENTRE EC Y ENC De modo histórico, la relación más prominente en el condicionamiento pavloviano es la relación temporal entre el EC y el ENC, por lo que en el tiempo los estímulos ocurren unos con respecto a otros. Al pensar en varios arreglos temporales que son posibles entre un EC y un ENC, considere un cruce de ferrocarril en una carretera. Los cruces de ferrocarril tienen luces intermitentes que indican que un tren está por llegar. En este ejemplo, las luces intermitentes son el EC, y el tren que cruza la calle es el ENC. Procedimientos comunes de condicionamiento Condicionamiento simultáneo

79

Quizás el arreglo temporal más simple es la presentación de un EC y un ENC al mismo tiempo. Dicho procedimiento se denomina condicionamiento simultáneo e implica una perfecta contigüidad temporal, o coincidencia, entre el EC y el ENC (figura 5-1). Debido a que el condicionamiento simultáneo aproxima al EC lo más posible del ENC, se podría suponer que sería la relación temporal más efectiva para producir un aprendizaje asociativo. De manera sorprendente, el condicionamiento simultáneo rara vez produce una fuerte evidencia de aprendizaje. Por ejemplo, el condicionamiento simultáneo no produce una respuesta de parpadeo ante el EC (M. C. Smith, Coleman y Gormezano, 1969). Usando la analogía del cruce de ferrocarril, si se usara el condicionamiento simultáneo, las luces intermitentes comenzarían cuando el tren se encontrase en el cruce. En este caso, la luz intermitente no proporcionaría ninguna información nueva o predictiva sobre la llegada del tren. No podría evitar ser arrollado por el tren respondiendo a las luces parpadeantes. Por lo tanto, el condicionamiento simultáneo no conduce a una respuesta condicionada anticipatoria. Sin embargo, un EC que se presenta al mismo tiempo con un shock adquiere propiedades aversivas, que son evidentes si uno mide la retirada o el escape del EC (Esmorís-Arranz, Pardo-Vázquez y Vásquez-García, 2003). Condicionamiento diferido La mayor parte de la evidencia del aprendizaje asociativo proviene de un tipo de procedimiento en el que el EC comienza poco antes del ENC en cada prueba (Schneiderman y Gormezano, 1964). Dicho procedimiento se denomina condicionamiento diferido porque el ENC se retrasa después del inicio del EC (panel central de la figura 5-1). Debe tenerse en cuenta que, en el procedimiento de condicionamiento diferido, el EC permanece presente hasta que se produce el ENC, sin una brecha entre los estímulos. Las medidas comunes de condicionamiento (parpadeo condicionado, seguimiento de signos y seguimiento de objetivos, así como la congelación condicionada) reflejan la anticipación del ENC, en donde se observa con facilidad un procedimiento de condicionamiento diferido. Las señales de advertencia en los cruces de ferrocarril suelen utilizar un procedimiento de condicionamiento diferido. Las luces intermitentes comienzan antes de que el tren llegue al cruce, lo que le permite anticipar que el tren llegará pronto. El procedimiento de condicionamiento retardado más efectivo es aquel en el que el EC comienza poco antes del ENC. De manera lamentable, ese no suele ser el caso de los cruces de ferrocarril. Las luces comienzan a parpadear un poco antes de la llegada del tren, no de inmediato antes de que llegue el tren. Esto anima a las personas a cruzar las vías rápido, antes de que aparezca el tren. El uso de un intervalo más corto entre la señal y la llegada del tren desalentaría tal comportamiento arriesgado.

80

Figura 5-1. Procedimientos de condicionamiento simultáneo, diferido y de traza. Se muestra un ensayo de condicionamiento (que incluye una presentación del estímulo condicionado [EC] y el estímulo no condicionado [ENC]) para cada procedimiento. En un experimento típico, el ensayo de condicionamiento se repite hasta que se desarrolle evidencia de aprendizaje.

Condicionamiento de traza La introducción de una brecha entre el EC y el ENC cambia un procedimiento de condicionamiento diferido en condicionamiento de traza. En el panel inferior de la figura 5-1 se presenta una prueba de condicionamiento de traza para el contraste con la prueba de condicionamiento diferido que se muestra en el panel central. La brecha entre el EC y el ENC se denomina intervalo de traza. Utilizando el ejemplo de cruce de ferrocarril, un procedimiento de condicionamiento de traza sería uno en el que las luces intermitentes terminaran 5 o 10 segundos antes de que llegara el tren. Si se conociera que las luces intermitentes finalizan antes de que llegara el tren, es menos probable que se quede fuera de las vías cuando las luces empiecen a parpadear. Más bien, se evitarían las pistas cuando las luces intermitentes terminaran. La introducción de un espacio de intervalo o traza entre el EC y el ENC puede reducir de forma drástica el grado de respuesta condicionada que se desarrolla. En un experimento inicial sobre el condicionamiento del miedo, Kamin (1965) descubrió que la introducción de un intervalo de rastreo de tan solo medio segundo

81

reducía de modo significativo el nivel de respuesta condicionada que se producía. Desde el trabajo de Kamin (1965), los investigadores han encontrado mayor evidencia de condicionamiento de traza en una serie de situaciones de aprendizaje diferentes. El condicionamiento de traza es de considerable interés porque requiere de un proceso que salve la brecha en el tiempo entre el EC y el ENC. Este proceso de puente de tiempo no es necesario para el condicionamiento diferido. Las investigaciones de las bases neurales del condicionamiento de traza han identificado varias formas en que los circuitos neurales requeridos para el condicionamiento de traza son diferentes de los que están involucrados en el condicionamiento diferido (Kalmbach, Ohyama, Kreider, Riusech, y Mauk, 2009; Raybuck y Lattal, 2014). EFECTOS DEL INTERVALO EC-ENC Otra relación temporal crítica para el aprendizaje asociativo es la cantidad de tiempo que transcurre entre el inicio del EC y la presentación del ENC en cada prueba de condicionamiento. El intervalo entre el momento en que comienza el EC y el momento en que se presenta el ENC se denomina intervalo EC-ENC o intervalo entre estímulos. Como se señaló con anterioridad, en muchas situaciones de condicionamiento, hay poca evidencia de aprendizaje con condicionamiento simultáneo, donde el intervalo EC-ENC es cero. La respuesta condicionada es más probable con los procedimientos de condicionamiento demorado, donde el intervalo EC-ENC es mayor que cero. Sin embargo, los beneficios de retrasar al ENC después del inicio del ENC son limitados. A medida que el intervalo EC-ENC se hace más y más largo, la evidencia de aprendizaje disminuye. La rapidez con la que la respuesta disminuye a medida que aumenta el intervalo EC-ENC depende del sistema de respuesta que está siendo condicionado. La figura 5-2 ilustra los efectos del intervalo EC-ENC en tres preparaciones de condicionamiento. El panel de la izquierda representa datos del condicionamiento de la respuesta de membrana nictitante de conejos. La membrana nictitante es un párpado secundario presente en muchas especies. Al igual que el cierre del párpado primario, el cierre de la membrana nictitante se puede provocar mediante una bocanada de aire en el ojo. Los mejores resultados en el condicionamiento de la respuesta de la membrana nictitante se obtienen con intervalos EC-ENC de 0.2 a 0.5 segundos. Si el intervalo EC-ENC es más corto, se desarrolla una respuesta menos condicionada. Además, la respuesta condicionada disminuye con rapidez a medida que el intervalo EC-ENC se extiende más allá de medio segundo. Poco o nada de aprendizaje es evidente si el intervalo EC-ENC es mayor a dos segundos. El condicionamiento del miedo o la supresión condicionada representa un caso intermedio. El temor más fuerte se aprende con un intervalo EC-ENC inferior a un minuto, pero el aprendizaje también puede ocurrir con intervalos EC-ENC en el rango de 2 a 3 minutos. El aprendizaje en los intervalos más largos entre EC-ENC se ve en el aprendizaje por aversión al gusto. En el procedimiento de aversión al sabor condicionado, la ingesta de un alimento (o bebida) con sabor novedoso produce algún tipo de enfermedad o malestar interoceptivo (Lin, Arthurs y Reilly, 2017; Reilly y

82

Schachtman, 2009). El sabor novedoso es el EC, y la experiencia de la enfermedad sirve como el ENC. Se puede aprender una aversión del gusto incluso si la experiencia de la enfermedad se retrasa varias horas después de la ingestión del nuevo sabor. Este fenómeno fue documentado por primera vez por John García y asociados (p. ej., García, Ervin y Koelling, 1966) y se denomina aprendizaje a largo plazo porque representa el aprendizaje con intervalos EC-ENC que son mayores que los intervalos que soportan el condicionamiento de parpadeo o supresión condicionada. Sin embargo, como lo ilustra la figura 5-2, incluso con el aprendizaje de aversión al sabor, se observa una respuesta menos condicionada con intervalos más largos del EC-ENC.

Figura 5-2. Fuerza de la respuesta condicionada en función del estímulo condicionado (EC): intervalo de estímulo condicionado (ENC). En el condicionamiento de la respuesta de membrana nictitante de conejos (datos de Schneiderman y Gormezano [1964] y MC Smith, Coleman y Gormezano [1969]) supresión condicionada (datos de Kamin [1965]), y aprendizaje de aversión al gusto (datos de JC Smith y Roll [1967]).

CODIFICACIÓN TEMPORAL CUANDO OCURREN LOS ENC Las diferencias en el aprendizaje que se producen entre el condicionamiento simultáneo, el retraso y el seguimiento y los efectos del intervalo EC-ENC que se describieron ilustran que el condicionamiento pavloviano es bastante sensible a los factores del tiempo. Una creciente e impresionante línea de evidencia indica que los participantes aprenden mucho sobre el momento preciso en que se presenta el ENC en relación con el EC. Este tipo de aprendizaje se denomina codificación temporal (Molet y Miller, 2014). La evidencia de codificación temporal indica que el condicionamiento pavloviano implica más que una simple “asociación” entre el EC y el ENC. Más bien, el condicionamiento pavloviano implica el aprendizaje de información precisa sobre cuándo ocurren los ENC en relación con otros eventos en

83

el medio ambiente. De hecho, algunos han sugerido que este tipo de aprendizaje temporal es más central para lo que ocurre en el condicionamiento pavloviano que el concepto familiar de una asociación EC-ENC (Balsam, Drew, y Gallistel, 2010). Los conductores que cruzan una vía de ferrocarril cuando las luces en el cruce comienzan a parpadear demuestran la codificación temporal. Han aprendido no sólo que las luces intermitentes están asociadas con la llegada del tren sino también el tiempo que permanecen encendidas las luces antes de que en realidad llegue el tren. El conocimiento del momento de llegada del tren alienta a los conductores a cruzar las vías antes de que las luces hayan estado encendidas por mucho tiempo. De manera inoportuna, el aprendizaje de información temporal precisa requiere un poco de práctica. En un cruce de ferrocarril, el aprendizaje temporal inadecuado puede tener consecuencias fatales.

RELACIÓN DE SEÑAL ENTRE EC Y ENC En la sección anterior, se describieron algunas de las formas en que la relación temporal EC y el ENC es importante en el condicionamiento pavloviano (otro factor de relevancia es la relación de señal, o relación informativa, entre el EC y el ENC). En general, la respuesta condicionada se desarrolla rápido con procedimientos en los que el EC proporciona información confiable sobre la ocurrencia de los ENC. En estos casos, el EC sirve como una señal confiable para el ENC. En el típico procedimiento de condicionamiento diferido, cada prueba de condicionamiento consiste en la presentación del EC, seguida en breve por la presentación del ENC. Además, el ENC no ocurre a menos que esté precedido por el EC. Por lo tanto, las ocurrencias de los ENC se pueden predecir con perfección a partir de las ocurrencias de los EC. El EC señala con exactitud las ocurrencias del ENC, lo que da como resultado la rápida adquisición de una respuesta condicionada al EC. Efecto de bloqueo ¿Cómo podría interrumpirse la relación de señal entre el EC y el ENC? Una forma es presentar el EC objetivo con otra señal que ya predice al ENC. Si existiera dicha señal, el EC de destino será redundante y es posible que no se aprenda mucho al respecto. Si uno de los pasajeros ya ha indicado que el automóvil está a punto de quedarse sin combustible, una advertencia similar de un segundo pasajero es redundante y es menos probable que llame la atención. Esta idea, desarrollada por primera vez en un experimento por Kamin, se conoce como efecto de bloqueo (Kamin, 1969). Kamin estudió el efecto de bloqueo utilizando el procedimiento de supresión condicionada con ratas de laboratorio, pero el fenómeno se puede ilustrar con mayor eficacia en un ejemplo hipotético de aprendizaje de aversión del gusto humano. Suponga que es alérgico a los camarones y se enferma un poco cada vez que los come. Debido a estas experiencias, adquiere una aversión al sabor de los camarones. Pongamos por ejemplo que un clérigo le invita a una cena privada, y el

84

plato principal es camarón servido con un vegetal al vapor que no recuerda haber comido antes. Debido a que no quiere ofender al anfitrión, come algo de verduras y camarones. Las verduras saben bastante bien, pero termina enfermándose un poco después de la comida. ¿Atribuirá la enfermedad a los camarones o a la nueva verdura que comió? Dado su historial de malas reacciones a los camarones, es probable que atribuya su enfermedad a los camarones y que no adquiera una aversión a los vegetales. En esta situación, la presencia de los camarones acondicionados de forma previa bloquea el condicionamiento del nuevo vegetal, a pesar de que éste estuvo muy cerca de la enfermedad como ENC. El efecto de bloqueo muestra que lo que los individuos aprenden acerca de un EC que está influenciado por la presencia de otras señales que con anterioridad estaban condicionadas con los mismos ENC. Los EC que Kamin usó en sus experimentos seminales fueron una luz y un ruido de banda ancha (figura 5-3). Para el grupo de bloqueo, el EC como ruido primero se acondicionó emparejándolo con el choque del pie un número suficiente de veces para producir una supresión condicionada fuerte a esta señal auditiva. En la siguiente fase del experimento, los EC de ruido y luz se presentaron de forma simultánea, terminando en el choque del ENC. Un grupo de control también recibió el compuesto ruido-luz emparejado con el choque, pero para este grupo, el ruido no se había condicionado con anterioridad. Para el grupo de control, el ruido y la luz fueron estímulos novedosos. El enfoque del experimento fue sobre cuánto miedo se condicionó al nuevo y ligero EC. Debido al condicionamiento previo del ruido en el grupo de bloqueo, se desarrolló una supresión menos condicionada a la luz en el grupo de bloqueo que en el grupo de control.

Figura 5-3. Diagrama del procedimiento de bloqueo en un experimento de supresión condicionada. Durante la fase 1, un estímulo condicionado por el ruido (EC) se condiciona con un choque del pie en el grupo experimental hasta que el ruido produzca la supresión condicionada máxima. El grupo de control no recibe un procedimiento de condicionamiento en la fase 1. En la fase 2, ambos grupos reciben pruebas de condicionamiento en las que el ruido EC se presenta junto con una nueva luz EC, y el compuesto ruido-luz se combina con el shock. Al final, durante la fase de prueba, se mide la respuesta a la luz presentada sola. Se produce una supresión menos condicionada a la luz en el grupo experimental que en el grupo de control.

85

El fenómeno de bloqueo es importante porque ilustra que la continuidad temporal entre un EC y un ENC no es suficiente para el éxito del condicionamiento pavloviano. Una relación de señal fuerte también es importante. La relación temporal entre el nuevo y ligero EC y el shock del ENC fue idéntica para los grupos de bloqueo y control. Sin embargo, se desarrolló una fuerte supresión condicionada sólo si la luz no se presentaba con el ruido condicionado de manera previa. El condicionamiento previo del ruido redujo la relación de señal entre la luz y el choque y el miedo interrumpido condicionando a la luz. CONTINGENCIA EC-ENC A nivel histórico, un enfoque importante que caracteriza la relación de señal entre un EC y un ENC ha fungido en términos de la contingencia entre los dos estímulos (Rescorla, 1967). La “contingencia” entre dos eventos es una caracterización formal de la medida en que la presencia de un estímulo puede servir como base para predecir el otro. La contingencia EC-ECN se define en términos de dos probabilidades (figura 5-4). Una de ellas es la probabilidad de que ocurra un ENC dado que el EC se ha presentado [p(ENC/EC)]; la otra es la probabilidad de que ocurra un ENC dado que el EC no ha ocurrido [p(EC/no EC)].

Figura 5-4. Contingencia entre un estímulo condicionado (EC) y un estímulo no condicionado (ENC). La contingencia entre un EC y un ENC está determinada por la probabilidad de que ocurra el ENC dado que

86

ha ocurrido el EC (representado en el eje horizontal) y la probabilidad de que ocurra el ENC dado que el EC no ha ocurrido (representado en el eje vertical). Cuando las dos probabilidades son iguales (la línea de 45 grados), la contingencia EC-ENC es cero.

Una situación en la que el EC siempre ocurre con el EC y nunca ilustra por sí misma una contingencia positiva perfecta entre el EC y el ENC: el humo, por ejemplo, siempre indica que algo se está quemando. Por lo tanto, la presencia de un ENC (fuego) se puede predecir a la perfección a partir de la presencia del EC (humo). En contraste, una situación en la que el ENC ocurre cuando el EC está ausente, pero nunca ocurre en las pruebas con el EC ilustra una contingencia negativa perfecta. En este caso, el EC señala la ausencia del ENC. Si se usa bloqueador solar cuando está en la playa, es probable que evite las quemaduras que de otra manera podría sufrir al pasar un día en la playa. El bloqueador solar señala la ausencia de una quemadura solar aversiva. Al final, si el ENC ocurre a menudo con y sin el EC, se dice que la contingencia EC-ENC es cero. Cuando la contingencia entre el EC y el ENC es cero, el EC no proporciona información útil sobre si ocurrirá o no el ENC. Éste es el caso en donde un perro ladra de manera indistinta si hay un intruso presente o no. Una contingencia cero EC-ENC también es una característica del procedimiento de control aleatorio que se describe en el capítulo 4. Al principio, se pensaba que la contingencia entre un EC y un ENC determinaba la formación de asociaciones EC-ENC de forma directa. Desde entonces, se ha vuelto común considerar la contingencia EC-EN como una variable de procedimiento que predice cuánta respuesta condicional se desarrollará. Los análisis contemporáneos de los efectos de contingencia se han centrado en el condicionamiento de las señales de fondo que están presentes en cualquier situación en la que un organismo se encuentre con presentaciones repetidas de estímulos discretos condicionados e incondicionados. Los procedimientos que involucran diferentes contingencias EC-ENC dan como resultado diferentes grados de condicionamiento del contexto. Considérese, por ejemplo, un procedimiento que involucra una contingencia cero EC-ENC. Dicho procedimiento incluirá presentaciones del ENC por sí mismo, presentaciones del EC per se y presentaciones ocasionales de EC junto al ENC. Los ensayos solo en el ENC pueden dar como resultado el condicionamiento de las claves de contexto o contextuales en las que se lleva a cabo el experimento. La presencia de estas señales contextuales de fondo condicionadas puede bloquear el condicionamiento futuro del EC explícito en las pocas ocasiones en que el EC se empareja con el ENC (Tomie, Murphy, Fath y Jackson, 1980) o interrumpir el rendimiento de la respuesta condicionada a través de un proceso comparador, que se tratará en el capítulo 6.

RELACIONES DE ORDEN SUPERIOR EN EL CONDICIONAMIENTO PAVLOVIANO: INHIBICIÓN CONDICIONADA 87

En los ejemplos de condicionamiento pavloviano que se han discutido hasta ahora, el foco de interés se centraba en cómo un EC está relacionado de forma directa con el ENC. Ahora pasemos a relaciones de estímulo más complejas en el condicionamiento pavloviano. En relaciones de estímulo de orden superior, el foco de interés no está en cómo un EC señala al ENC sino en cómo un EC proporciona información sobre la relación entre un segundo EC y el ENC. Por lo tanto, el término relación de estímulo de orden superior se refiere a la señalización o modulación de un par simple EC-ENC por otro EC. La frase de adjetivo de orden superior se usa porque uno de los elementos de esta relación es una unidad asociativa EC-ENC. Al considerar las relaciones de estímulo de orden superior, primero se discute la inhibición condicionada o la configuración de ocasión negativa. Luego se da paso al fenómeno de la facilitación o el establecimiento positivo de la ocasión. Procedimientos de condicionamiento inhibitorio La inhibición condicionada fue la primera relación de señal de orden superior que se investigó de manera amplia. Los conceptos de inhibición son prominentes en varias áreas de la fisiología. Siendo fisiólogo, a Pavlov le interesaban no solo los procesos que activan el comportamiento sino también los responsables de la inhibición de la respuesta. Esto lo llevó a investigar la inhibición condicionada. Consideró que el condicionamiento de la inhibición es tan importante como el condicionamiento de la excitación (Pavlov, 1927). En los procedimientos de condicionamiento excitatorio, el EC se convierte en una señal para la presentación inminente del ENC. En el condicionamiento inhibitorio, por el contrario, el EC de interés se convierte en una señal para la ausencia del ENC. Sin embargo, esto sólo ocurre en circunstancias especiales porque, en general, la ausencia de algo no tiene un significado psicológico particular. Si le digo de manera clara que he decidido no darle mil dólares, es probable que no esté molesto porque no tenía motivos para esperar que yo le diera tanto dinero. Si la ausencia de algo no es significativo de modo psicológico, un EC no puede convertirse en una señal para ese evento. Para que el condicionamiento inhibitorio tenga éxito, la ausencia del ENC debe ser destacada o importante. Se puede decepcionar al no recibir el premio; al decirle que participó en un concurso de sorteos y que fue seleccionado como el ganador de un premio de mil dólares. La ausencia de algo es poderosa a nivel psicológico si tiene razones para creer que el evento tendrá lugar. En los procedimientos de condicionamiento inhibitorio, la ausencia de un ENC se destaca por el condicionamiento excitatorio que crea una expectativa positiva de que el ENC ocurra. El procedimiento de inhibición condicionada estándar El procedimiento de inhibición condicionada estándar es análogo a una situación en la que se introduce algo que impide un resultado que de otro modo ocurriría. Un semáforo en rojo en una intersección concurrida es una señal de peligro potencial (el ENC). Sin embargo, si un oficial de policía indica que debe cruzar la intersección a pesar de la luz roja (quizás porque los semáforos no funcionan ), es

88

probable que no suceda un accidente. La luz roja y los gestos del oficial juntos no serán seguidos por el peligro con factibilidad. Los gestos inhiben o bloquean sus dudas para cruzar la intersección debido a la luz roja. El procedimiento de inhibición condicionada estándar involucra dos EC diferentes (A y B) y un ENC (figura 5-5). En el ejemplo de un semáforo en mal funcionamiento, el estímulo A era el semáforo en rojo y el estímulo B era el gesto del oficial de policía para que cruzara la intersección. En experimentos de laboratorio, el estímulo A podría ser una luz, el estímulo B un tono y el ENC un breve shock. En algunos ensayos, el estímulo A se empareja con el ENC. Estos ensayos se representan como A+ (A más), con el signo “+” que indica los emparejamientos con el ENC. Como resultado de las pruebas A+, el participante espera que el ENC se encuentre con el estímulo A. Esto prepara el escenario para el condicionamiento inhibitorio.

Figura 5-5. El procedimiento estándar para la inhibición condicionada. En las pruebas A+, el estímulo A se empareja con el estímulo no condicionado (ENC). En los ensayos AB, el estímulo B se presenta con el estímulo A y se omite el ENC. El procedimiento es eficaz para condicionar la inhibición del estímulo B.

En los ensayos de condicionamiento inhibitorio, el estímulo B se presenta con el estímulo A (que forma el estímulo compuesto AB), pero el ENC no ocurre. Estos ensayos se representan como AB- (AB menos), con el signo “-” que indica la ausencia del ENC. La presencia del estímulo A en los ensayos AB crea la expectativa de que el ENC ocurrirá. Esto hace que la ausencia del ENC sea significativa en un nivel psicológico y sirva para condicionar las propiedades inhibitorias al estímulo B. Es normal que, los ensayos A+ y AB- se presenten en un orden mezclado en el procedimiento de condicionamiento inhibitorio estándar. A medida que avanza el entrenamiento, el estímulo A adquiere de forma gradual propiedades excitatorias condicionadas y el estímulo B se convierte en un inhibidor condicionado (Campolattaro, Schnitker y Freeman, 2008). En general, el condicionamiento excitatorio de A se desarrolla más rápido que el condicionamiento inhibitorio de B porque el condicionamiento inhibitorio depende del aprendizaje previo de una expectativa del ENC.

89

Figura 5-6. Procedimientos de contingencia negativa para producir inhibición condicionada. El estímulo no condicionado (ENC) se presenta en momentos aleatorios por sí solo, pero no si el estímulo condicionado (EC) ha ocurrido de forma reciente.

Contingencia negativa EC-ENC El procedimiento estándar de condicionamiento inhibitorio (A+, AB-) es en especial efectivo para hacer de B un inhibidor condicionado, pero también existen otros procedimientos exitosos de condicionamiento inhibitorio. En el procedimiento de contingencia negativo entre EC y ENC, por ejemplo, sólo se utiliza un EC explícito (un tono), junto con un ENC (figura 5-6). El tono y el ENC producen en momentos irregulares, con la estipulación de que el ENC no se presenta si el tono se ha producido en forma reciente. Esta estipulación establece una contingencia negativa entre el tono EC y el ENC. Esto asegura que p(ENC/EC) sea menor que p(ENC/no EC) y sirve para hacer que el EC sea un inhibidor condicionado. Considere la posibilidad de un niño que sus compañeros de clase lo molestan cuando el maestro está fuera del salón. Esto es similar a obtener un constante estímulo aversivo o un ENC. Cuando el maestro regresa, el niño puede estar seguro de que no será molestado. El maestro funciona como un EC-, lo que indica un periodo libre de acoso. La presencia del profesor señala la ausencia de un ENC. ¿Qué proporciona el contexto excitador para el condicionamiento inhibitorio del tono EC en el procedimiento de contingencia negativa? Debido a que el ENC se produce cuando el EC está ausente, las indicaciones contextuales de fondo de la situación experimental se asocian con el ENC. Esto permite entonces el condicionamiento de las propiedades inhibitorias del EC. La ausencia del ENC cuando se produce el EC en este contexto excitador hace que la EC sea un inhibidor condicionado. Medición del comportamiento de una inhibición condicionada Las manifestaciones de comportamiento del condicionamiento excitatorio son bastante obvias. Los organismos dan una nueva respuesta, la respuesta condicionada al EC. ¿Qué sucede en el caso de la inhibición condicionada? Un estímulo inhibitorio condicionado tiene efectos conductuales que son opuestos a los efectos conductuales de una señal excitatoria condicionada. Un inhibidor condicionado suprime o inhibe la respuesta condicionada excitatoria. Es desafortunado que, a menudo se requieren procedimientos especiales para ver esta supresión de respuesta. Considere, por ejemplo, la respuesta de los conejos en su parpadeo. Los conejos parpadean con poca frecuencia, tal vez una o dos veces por hora. Un estímulo inhibitorio condicionado (EC-) suprime de forma activa el parpadeo. Pero debido a

90

que los conejos rara vez parpadean en circunstancias normales, la supresión del parpadeo durante un EC es difícil de detectar. Prueba de sumación de inhibición La inhibición del parpadeo sería fácil de determinar si la tasa de referencia del parpadeo fuera elevada. Si los conejos parpadearon 60 veces por hora y se presenta un estímulo inhibitorio condicionado (EC-), el parpadeo debería disminuir por debajo de la tasa de 60 por hora. Por lo tanto, el problema de medir la inhibición condicionada se puede resolver elevando la tasa de comparación de la línea de base de respuesta. ¿Cómo puede elevarse la tasa de referencia de respuesta? Quizás la forma más sencilla es condicionar otro estímulo como una señal excitatoria condicionada (EC+). La respuesta sustancial debe ser evidente cuando esta nueva señal excitadora (EC+) se presente por sí misma. Usando esto como una referencia de respuesta, se pueden probar los efectos de un estímulo inhibitorio condicionado (EC-) presentando el EC- al mismo tiempo que el EC+. Dicha estrategia de prueba se denomina prueba de sumación para la inhibición condicionada. La figura 5-7 presenta resultados hipotéticos de una prueba de resumen. Se observa una respuesta considerable cuando el EC+ se presenta por sí mismo. Agregar un estímulo inhibitorio condicionado (EC-) al EC+ da como resultado una respuesta mucho menor que cuando el EC+ se presenta solo. Éste es el resultado esperado si el EC ha adquirido propiedades inhibitorias. Sin embargo, la presentación del EC podría interrumpir la respuesta con tan solo crear una distracción. Esta posibilidad se evalúa en la prueba de resumen al determinar cómo se modifica la respuesta a la EC+ cuando se presenta un estímulo neutral sin antecedentes de entrenamiento excitatorio o inhibitorio. Este estímulo neutral está representado por EC0 en la figura 5-7. En los resultados mostrados en la figura 5-7, EC0 reduce un poco la respuesta al EC+. Esto refleja los efectos de distracción de agregar cualquier estímulo al EC+. Sin embargo, la reducción en la respuesta es mayor cuando el EC- se presenta con el EC+. Este resultado muestra que el EC tiene propiedades inhibitorias condicionadas (R. P. Cole, Barnet y Miller, 1997).

91

Figura 5-7. Procedimiento y resultados hipotéticos para la prueba de resumen de inhibición condicionada. En algunos ensayos, un estímulo excitatorio condicionado (EC+) se presenta sólo, y se observa un alto nivel de respuesta condicionada. En los otros ensayos, el EC+ se presenta con un estímulo inhibitorio condicionado (EC-) o un estímulo neutral (EC0). El hecho de que el EC- interrumpa la respuesta el EC+ mucho más que el EC0 es evidencia de las propiedades inhibitorias condicionadas del EC-.

Prueba del retraso en la adquisición de la inhibición La prueba de sumación es una prueba de inhibición basada en el rendimiento. La suposición básica es que el comportamiento condicionado excitatorio será suprimido por un estímulo inhibitorio condicionado. Un segundo enfoque popular para medir la inhibición condicionada es una prueba de adquisición o aprendizaje. Esta prueba se basa en el supuesto de que las propiedades inhibitorias condicionadas interferirán con la adquisición de propiedades excitatorias de ese estímulo. Por lo tanto, se denomina prueba del retraso en la adquisición. La prueba del retraso en la adquisición implica comparar las tasas de condicionamiento excitatorio para dos grupos de participantes. El mismo EC (p. ej., un tono) se usa en ambos grupos. Para el grupo experimental, el tono se entrena primero como un inhibidor condicionado. Para el grupo de comparación, se usa un procedimiento de control durante esta etapa que deja el tono “neutral” de forma relativa (p. ej., el tono se puede presentar sin par con el ENC). En la segunda parte del experimento, el tono se empareja con el ENC para ambos grupos de participantes, y se observa el desarrollo de una respuesta excitadora al tono. Si el

92

condicionamiento inhibitorio tuvo éxito en la primera etapa del experimento, la respuesta condicionada excitatoria debería desarrollarse de forma lenta en el grupo experimental que en el grupo de control durante la segunda etapa. Por tradición, la sumación y las pruebas del retraso en la adquisición se usaron en combinación para desarrollar evidencia de inhibición condicionada (Rescorla, 1969). En la investigación contemporánea, el uso de ambas pruebas ha dado paso a depender por principio de la prueba de resumen en estudios de inhibición condicionada (p. ej., Harris, Kwok y Andrew, 2014).

RELACIONES DE ORDEN SUPERIOR EN EL CONDICIONAMIENTO PAVLOVIANO: FACILITACIÓN CONDICIONADA En las relaciones de estímulo de orden superior, el foco de interés no está en la relación directa entre un EC (A) y el ENC sino en cómo un segundo estímulo (B) proporciona información sobre la relación A-ENC (Schmajuk y Holland, 1998). En un procedimiento de inhibición condicionada, el segundo estímulo B indica cuando la relación A–ENC no está vigente. Sin el estímulo B, el estímulo A está emparejado con el ENC. Con el estímulo B, el estímulo A ocurre sin el ENC. En estas circunstancias, el estímulo B se convierte en un inhibidor condicionado e indica cuándo el participante no debe responder al estímulo A. La facilitación condicionada implica la relación de orden superior opuesta. En este caso, el estímulo B indica cuándo el estímulo A se empareja con el ENC. Las diferencias entre la facilitación y la inhibición se ilustran en la figura 5-8. En la inhibición condicionada, el estímulo B se produce en las pruebas cuando A no es seguido por el ENC (AB → no ENC o AB-), y B está ausente cuando A está emparejado con el ENC (A → ENC o A+). Esta disposición se invierte en un procedimiento de facilitación. En la facilitación condicionada, el estímulo B ocurre en las pruebas cuando A se refuerza (AB → ENC, o AB+), y B está ausente en las pruebas cuando A no está reforzado (A → no ENC, o A-). El resultado de un procedimiento de facilitación es que el participante responde a A sólo cuando B ha sido presentado (Holland, 1992). El estímulo B facilita la respuesta condicionada a A o establece la ocasión para responder a A.

Figura 5-8. Comparación de los tipos de ensayos que se generan en los procedimientos para la inhibición condicionada y la facilitación condicionada. A y B representan dos estímulos condicionados diferentes. ENC = estímulo no condicionado.

93

Las relaciones condicionales capturadas por el procedimiento de facilitación no se limitan a la investigación experimental. Considere la señal de tráfico “resbaladizo cuando está mojado”. La señal indica que de forma normal la carretera es segura, pero que puede ser peligrosa cuando está mojada. Estas circunstancias ejemplifican la relación de facilitación básica. En este ejemplo, los estímulos de la carretera están representados por “A”, la humedad o la lluvia están representadas por “B”, y el peligro es el ENC. El peligro ocurre sólo cuando se encuentran señales de la carretera en combinación con la lluvia (AB → ENC). No hay peligro cuando se encuentran señales de la carretera sin lluvia (A → no ENC). Asociaciones aprendidas en un resumen del procedimiento de facilitación condicionada Los procedimientos utilizados para producir asociaciones de orden superior son complejos y dan como resultado más de un tipo de asociación. En un procedimiento de facilitación, los ensayos AB+ se mezclan con los ensayos A-, y el ENC sólo se presenta en los ensayos cuando se produce el estímulo B. Debido a que el estímulo A se empareja al ENC la mitad del tiempo, se desarrolla una asociación entre el estímulo A y el ENC. El estímulo B se empareja con los ENC cada vez que ocurre, lo que permite una asociación directa entre el estímulo B y el ENC. Además de estas asociaciones directas con el ENC, es probable que el estímulo B llegue a señalar cuándo el ENC será seguido por el estímulo A. Ésa es la asociación de orden superior. La tarea principal en el estudio de la facilitación es determinar qué aspecto del comportamiento refleja las asociaciones directas A–EC y B–EC o refleja la asociación de orden superior B (A–EC). Tipos de respuestas condicionadas provocadas por los estímulos A y B Una forma de determinar qué tipo de asociación es responsable de la respuesta condicionada que se produce en un experimento de facilitación es usar el EC en el rol de A y B que generan diferentes respuestas condicionadas. Este enfoque se utilizó de manera amplia en muchos de los primeros estudios de facilitación en el condicionamiento del apetito (Holland, 1992). Las ratas, por ejemplo, crecen en respuesta a una luz que ha sido emparejada con la comida, pero muestran una respuesta tonta a un tono emparejado con la comida (Holland, 1977). Considere, entonces, lo que podría ocurrir con un procedimiento de facilitación que consiste en pruebas Tono/Luz → Alimentos y Luz → no Alimentos. Una asociación Luz–Comida resultará en una crianza cuando la luz se presente en un test de prueba. Si el tono ha llegado a señalar la asociación Luz– Comida, los participantes deberían mostrar un aumento en la crianza de la luz si se anuncia por la presentación del tono. Sin embargo, debe tenerse en cuenta que la crianza facilitada en los ensayos de Tono–Luz no se puede atribuir a una asociación del tono con la comida porque una asociación Tono–Comida produce una respuesta condicionada, no una respuesta de crianza. Otra estrategia para aislar la asociación de orden superior B (A–ENC) como la

94

fuente de respuesta facilitada al objetivo A implica el uso de pautas de fondo o contextuales como el estímulo B para el establecimiento de la ocasión. Los organismos por lo general no responden a señales contextuales con respuestas fáciles de observar. Sin embargo, los participantes pueden aprender a acercarse a un estímulo objetivo A en el contexto de un conjunto de estímulos de fondo, pero no de otro (Leising, Hall, Wolf y Ruprecht, 2015). Una categoría en particular interesante de las claves contextuales o de fondo trata sobre los fármacos que controlan el estado de ánimo. La investigación ha demostrado que las sensaciones subjetivas creadas por varios fármacos pueden servir como estímulos para establecer la ocasión que indican si un EC objetivo se emparejará (o no) con un ENC (Bevins y Murray, 2011). En estos estudios, algunas sesiones experimentales se llevan a cabo después de que a las ratas se les haya inyectado un medicamento (estímulo B) y otras se llevan a cabo en ausencia del medicamento. Durante las sesiones sin fármacos , se puede emparejar una luz con la comida, proporcionando los ensayos AB → ENC del procedimiento de facilitación (figura 5-9). Durante las sesiones sin medicamentos, el estímulo A se presenta, pero no se empareja con los alimentos, lo que proporciona los ensayos A → no ENC. El resultado típico es que el estado farmacológico facilita el condicionamiento alimentario que responde al estímulo A.

Figura 5-9. Esquema de un procedimiento de facilitación en el que un estado farmacológico sirve como el estímulo de orden superior que indica cuando una luz es emparejada con alimentos.

Efectos de extinción del estímulo B Una estrategia alternativa para distinguir las relaciones B–ENC y B (A–ENC) en un procedimiento de facilitación consiste en probar los efectos de la extinción del estímulo B. La extinción de B implica la presentación repetida del estímulo B por sí mismo (B–no ENC). Presentar el estímulo B sin el ENC es contrario a una relación B-ENC y reduce la respuesta que depende de esa relación (se ahondará acerca de la extinción en el capítulo 10). Sin embargo, la presentación repetida del estímulo B por sí misma no es contraria a una relación B (A–ENC). El opuesto de B (A–ENC) es B (A–no ENC), no B–no ENC. Por lo tanto, la extinción del estímulo B no debe interrumpir la respuesta mediada por una relación B (A–ENC). Numerosos estudios han demostrado que la extinción de un organizador o

95

facilitador de la ocasión (estímulo B) no reduce la efectividad de B para modular la respuesta a un estímulo A objetivo (p. ej., Holland, 1989; Leising et al., 2015; Rescorla, 1985). De hecho, la falta de sensibilidad de la facilitación y la configuración de la ocasión a la extinción del estímulo modulador se considera una característica distintiva de la configuración de la ocasión. Por último, debe señalarse que los organismos no siempre aprenden una relación B (A–ENC) como resultado de un procedimiento de facilitación. A veces, los procedimientos que involucran una mezcla de ensayos AB–ENC y ensayos A–no ENC resultan sólo en el aprendizaje de una relación B–ENC; en otros casos, los participantes aprenden tanto una relación B–ENC como una relación B de orden superior (A–ENC). Varios factores que van más allá del alcance de la presente discusión determinan si un procedimiento particular favorece la adquisición de una relación B–ENC o una relación B (A–ENC) (Holland, 1992; Schmajuk & Holland, 1998).

RESUMEN El condicionamiento pavloviano implica la formación de una asociación o conexión entre dos eventos. De forma típica, los eventos son estímulos individuales, el EC y el ENC. Sin embargo, en casos más complejos, uno de los eventos puede ser un modulador o un estímulo para establecer la ocasión y el otro es una unidad asociativa EC-ENC. Estos casos representan relaciones de orden superior. El desarrollo de la respuesta condicionada es lo bastante sensible a la relación temporal entre el EC y el ENC. Los procedimientos de condicionamiento tardío producen la respuesta más vigorosa. La introducción de un intervalo de traza de tan sólo medio segundo entre el EC y el ENC puede interrumpir de manera grave el desarrollo del comportamiento condicionado. La respuesta condicionada también es una función del intervalo EC-ENC, pero la relación cuantitativa precisa depende del sistema de respuesta que está siendo condicionado. El condicionamiento pavloviano también es muy sensible a la relación de señal entre el EC y el ENC, es decir, en la medida en que el EC proporciona información sobre el ENC. Esto se ilustra por el fenómeno del bloqueo y por los efectos de contingencia EC-ENC. En un principio, se consideró que las variaciones en la contingencia entre EC y ENC influían de manera directa en los procesos asociativos. La evidencia más reciente sugiere que los diferentes grados de condicionamiento del contexto son responsables de los efectos de contingencia ECENC. Las relaciones de orden superior en el condicionamiento pavloviano se han investigado en el contexto de la inhibición condicionada y la facilitación condicionada. En la inhalación condicionada, un estímulo modulador (estímulo B) indica cuándo otro EC (estímulo A) no está emparejado con el ENC. El resultado es que B viene a inhibir la respuesta condicionada que de forma normal ocurre con el estímulo A. En la facilitación condicionada, el estímulo modulador B indica cuándo el estímulo A está emparejado con el ENC. El resultado es que la respuesta condicionada ocurre sólo cuando el estímulo B está presente. La prueba de que los

96

resultados reflejan el aprendizaje de una relación de orden superior B (A–ENC) a menudo implica información sobre la topografía de la respuesta condicionada, los efectos del estímulo B de extinción o ambos.

LECTURAS SUGERIDAS Holland, P. C. (1992). Occasion setting in Pavlovian conditioning. In G. Bower (Ed.), The psychology of learning and motivation (Vol. 28, pp. 69–125). Orlando, FL: Academic Press. Lin, J.-Y., Arthurs, J., & Reilly, S. (2017). Conditioned taste aversions: From poisons to pain to drugs of abuse. Psychonomic Bulletin & Review, 24, 335–351. http://dx.doi.org/ 10.3758/s13423-016-1092-8 Molet, M., & Miller, R. R. (2014). Timing: An attribute of associative learning. Behavioural Processes, 101, 4–14. http://dx.doi.org/10.1016/j.beproc.2013.05.015 Raybuck, J. D., & Lattal, K. M. (2014). Bridging the interval: Theory and neurobiology of trace conditioning. Behavioural Processes, 101, 103–111. http://dx.doi.org/ 10.1016/j.beproc.2013.08.016 Urcelay, G. P., & Miller, R. R. (2014). The functions of contexts in associative learning. Behavioural Processes, 104, 2–12. http://dx.doi.org/10.1016/j.beproc.2014.02.008 Términos técnicos Condicionamiento de traza Establecimiento positivo de la ocasión Aprendizaje a largo plazo Codificación temporal Condicionamiento demorado Condicionamiento simultaneo Contigüidad temporal Contingencia EC-ENC Efecto de bloqueo Facilitación Inhibición condicionada Intervalo de traza Intervalo EC-ENC Intervalo entre estímulos Prueba del retraso en la adquisición Prueba de sumación Relación de estímulo de orden superior

97

Capítulo 6

98

Mecanismos y teorías del condicionamiento pavloviano Sabía usted que: • El condicionamiento pavloviano por lo general no implica el aprendizaje de un nuevo reflejo condicionado o una conexión de estímulo-respuesta (E–R) sino el aprendizaje de una nueva conexión de estímulo-estímulo (E–E). • ¿Se puede aumentar o disminuir la respuesta condicionada cambiando el valor del estímulo no condicionado (ENC), que es una intervención que no implica presentar el estímulo condicionado (EC)? • De acuerdo con todos los modelos contemporáneos de aprendizaje, ¿lo que se aprende acerca de un estímulo depende del valor asociativo de otros estímulos presentes de forma simultánea? • ¿Un EC puede perder fuerza asociativa, aunque esté emparejada con un ENC? • ¿Las teorías de atención asumen que lo que sucede en un ensayo determina cuánta atención se le presta al ENC en el próximo ensayo? • ¿Muchas teorías importantes sobre el aprendizaje no consideran el tiempo en sus formulaciones? • ¿La duración absoluta del EC no es tan importante para el aprendizaje como la relación entre la duración del EC y el intervalo entre las sucesivas presentaciones con el ENC? • ¿La respuesta condicionada depende del valor asociativo del EC en comparación con el valor asociativo de otras señales que estaban presentes en el momento en que el EC estaba condicionado? En un principio, se consideraba que el condicionamiento pavloviano era una forma simple de aprendizaje que dependía sólo de los emparejamientos de un EC con un ENC, lo que daba lugar al condicionamiento de un nuevo reflejo. Esta perspectiva ingenua ha resultado ser incorrecta de diversas maneras. El aprendizaje aversión del gusto a largo plazo, las asociaciones selectivas y el efecto de bloqueo desafían la visión de que el condicionamiento pavloviano es una forma simple de aprendizaje. En este capítulo, se documenta la riqueza y complejidad del condicionamiento pavloviano centrado en los mecanismos y teorías subyacentes que abordan esta forma de aprendizaje. Se discuten dos preguntas principales: (a) ¿Qué se aprende en el condicionamiento pavloviano? Y (b) ¿Cómo se aprende?

¿QUÉ SE APRENDE EN EL CONDICIONAMIENTO PAVLOVIANO? El resultado de la firma de un procedimiento de condicionamiento pavloviano es que el participante realiza una respuesta condicionada (RC) cuando se presenta el EC. ¿Qué mecanismo es responsable de esta RC? Hay dos alternativas prominentes.

99

De acuerdo con el primer mecanismo, el EC obtiene la RC de manera directa. Esto se denomina aprendizaje E–R y es el más simple de los dos mecanismos. Los mecanismos E–R dominaron las teorías de aprendizaje hasta la “revolución cognitiva” que se extendió sobre la psicología en los años setenta. Esa revolución alentó más teorías “cognitivas” de aprendizaje y la posibilidad de que a través del condicionamiento pavloviano el EC llegue a activar una representación del ENC. Esa representación o memoria del ENC a su vez genera la RC. Este segundo mecanismo se llama aprendizaje E–E. Debido a que los mecanismos de aprendizaje E–R y E–E pueden generar la RC, ¿cómo puede distinguirse entre ellos? De acuerdo con el mecanismo de aprendizaje E–R, el condicionamiento clásico conduce a la formación de una asociación entre el EC y la RC. Como resultado de esta asociación EC-RC, la presentación del EC activa la RC directa y automáticamente. Tal aprendizaje E–R es lo que implica la noción tradicional de que el condicionamiento pavloviano resulta en el aprendizaje de una nueva respuesta refleja al EC. Cómo el aprendizaje E–E genera una respuesta condicionada es un poco más complicado. De acuerdo con el mecanismo de aprendizaje E–E, el condicionamiento pavloviano resulta en el aprendizaje de la asociación EC-ENC. Una vez que se adquiere esta asociación, la presentación del EC activará una representación neuronal del ENC. (figura 6-1). Expresado de manera informal, esto significa que, al encontrarse con el EC, el participante comenzará a pensar en el ENC. Esta activación de la representación del ENC no genera una respuesta automática. Más bien, lo que el participante hará dependerá de su motivación para responder al ENC en ese momento.

Figura 6-1. Distinción entre aprendizaje estímulo-respuesta (E–R) y estímulo-estímulo (E–E). En el aprendizaje E–R, se establece una conexión o asociación directa entre el estímulo condicionado (EC) y la respuesta condicionada (RC), de manera que la RC se obtiene de forma directa en la presentación del EC. En el aprendizaje E–E, el EC activa una representación del estímulo no condicionado (ENC), que a su vez conduce a la RC.v

Robert Rescorla (1973) popularizó una técnica para diferenciar los mecanismos E–R y E–E y es de forma básica una prueba de rendimiento. La prueba implica evaluar la firmeza de la respuesta condicionada después de que se haya cambiado la

100

motivación del individuo para responder al ENC. En un tipo de experimento, por ejemplo, se reduce la motivación para responder al ENC. Esta manipulación se llama devaluación del ENC (tabla 6-1).

Tabla 6-1 Diseño y predicciones del estudio de devaluación del ENC Fase 1

Fase 2

Predicción E–R

Predicción E–E

Grupo experimental Condicionamiento

Devaluación del EC

Sin cambio en la RC

Disminución en la RC

Grupo de control Condicionamiento

Sin devaluación

Sin cambio en la RC

Sin cambio en la RC

Nota. RC: respuesta condicionada; E-R: estímulo respuesta; E-E: estímulo-estímulo; EC: estímulo condicionado.

Considere, por ejemplo, un estudio de condicionamiento pavloviano sexual que se realizó con codornices macho domesticadas (Holloway y Domjan, 1993). La exposición breve a una luz EC se emparejó con el acceso a un ave hembra una vez al día. Al inicio, el EC visual no provocó ningún comportamiento significativo. Sin embargo, debido a que los machos estaban motivados de forma sexual, siempre se acercaron y copularon con facilidad con la hembra que fue liberada al final de cada prueba de condicionamiento. Con repetidas pruebas de condicionamiento, los machos también comenzaron a acercarse al EC. Después de 10 ensayos de condicionamiento, el EC provocó un fuerte enfoque o una respuesta de seguimiento de signos, de manera independiente de dónde se encontraban los machos al inicio del ensayo. De acuerdo con el mecanismo de aprendizaje E–R, la respuesta condicionada refleja el establecimiento de una conexión directa entre el EC y la RC. Si se ha establecido tal conexión directa, entonces cambiar la motivación del animal para realizar la respuesta no condicionada no debería influir en su respuesta condicionada. Por lo tanto, una interpretación E–R predice que una vez que la codorniz haya aprendido la respuesta de aproximación sexual condicionada, la presentación del EC provocará la RC incluso si las aves ya no tienen motivaciones sexuales. Holloway y Domjan (1993) probaron la predicción E–R reduciendo el deseo sexual de un grupo de aves. La motivación sexual se redujo al cambiar el ciclo de luz en el laboratorio para imitar las condiciones de invierno, cuando las aves no se reproducen. Los resultados del experimento se resumen en la figura 6-2. De modo contrario a las predicciones basadas en el mecanismo E–R, una reducción en la motivación sexual redujo la respuesta condicionada al EC visual.

101

Figura 6-2. Efectos de la devaluación del estímulo no condicionado (ENC) sobre el comportamiento sexual condicionado por el enfoque. Tres sesiones de prueba se realizaron a intervalos de una semana después de que dos grupos de codornices hubieran adquirido una respuesta de enfoque condicionada. Durante la fase de prueba, se redujo la motivación sexual de un grupo de aves. Esta devaluación en el ENC produjo una disminución en la respuesta condicionada. Adaptado de “Sexual Approach Conditioning: Tests of Unconditioned Stimulus Devaluation Using Hormone Manipulations,” by K. S. Holloway and M. Domjan, 1993, Journal of Experimental Psychology: Animal Behavior Processes, 19, p. 49. Copyright 1993 by the American Psychological Association.

102

Los resultados resumidos en la figura 6-2 indican que el aprendizaje E–E se había producido en el experimento. El aprendizaje E–E no implica aprender una RC específica. Más bien, implica aprender una asociación entre el EC y el ENC. Una vez establecida la asociación EC-ENC, la presentación del EC activa una representación del ENC. Esto a su vez conduce a una respuesta condicionada, pero sólo si los participantes están motivados para responder al ENC. En el experimento de las codornices, el EC provocó un comportamiento de acercamiento condicionado, pero sólo si las aves estaban motivadas de manera sexual. En el experimento anterior, la motivación para responder al ENC se redujo como prueba para el aprendizaje E–E. Otro enfoque es aumentar la motivación para responder al ENC. Esto se llama inflación del ENC. Si la respuesta condicionada está mediada por el aprendizaje E–E, la inflación del ENC tiene como resultado una mayor respuesta al EC. Aunque los estudios sobre la devaluación del ENC son más comunes que los estudios sobre los efectos de la inflación del ENC, ambos tipos de resultados se han obtenido en una variedad de formas diferentes de condicionamiento pavloviano (p. ej., Delamater, Campese, LoLordo y Sclafani, 2006; Fudim, 1978; Storsve, McNally, y Richardson, 2012). Estos resultados indican que el condicionamiento pavloviano de manera típica involucra el aprendizaje E–E en lugar del aprendizaje de un nuevo reflejo E–R. Una implicación en particular interesante de estos hallazgos es que es posible alterar las respuestas a un EC usando procedimientos que involucran manipulaciones que apuntan al ENC en lugar de al EC en sí. La mayoría de las intervenciones clínicas que buscan reducir la RC inadaptadas implican cambiar las propiedades del EC mediante el uso de algo parecido a un procedimiento de extinción (capítulo 10). Los efectos de la devaluación del ENC sugieren una vía alternativa. Centrarse en cambiar el valor de del ENC puede ser bastante útil en situaciones clínicas en las que el EC problemático no se puede identificar o manipular tan fácil.

¿CÓMO SE APRENDEN LAS ASOCIACIONES PAVLOVIANAS? Se deben considerar los posibles mecanismos involucrados en el aprendizaje de las asociaciones de Pavlov. La era moderna en las teorías del aprendizaje asociativo se inició con el descubrimiento del efecto de bloqueo, que demostró que la contigüidad EC-ENC no es suficiente para aprender. La primera y más influyente teoría moderna del aprendizaje fue el modelo Rescorla-Wagner. Otros modelos y teorías pronto siguieron. Estas alternativas buscaron explorar diferentes formas de caracterizar el aprendizaje y superar algunas de las deficiencias del modelo Rescorla-Wagner. Sin embargo, el modelo de Rescorla-Wagner sigue siendo el estándar contra el cual se evalúan otras teorías. El modelo Rescorla-Wagner

103

Debido a que el efecto de bloqueo fue crítico en la configuración del desarrollo de la teoría del aprendizaje contemporáneo, los aspectos básicos se revisan en la figura 6-3. Los participantes primero reciben un EC (A) emparejado con el ENC. Después de que la respuesta condicionada a A está bien establecida, se agrega un nuevo estímulo (B) y en el compuesto A + B se empareja el ENC. Se dice que el bloqueo ocurre si la presencia del estímulo A condicionado con anterioridad bloquea el condicionamiento del nuevo estímulo agregado B.

Figura 6-3. Revisión del diseño de un experimento de bloqueo. En la Fase 1, el grupo experimental recibe el estímulo A condicionado a la asíntota. En la Fase 2, tanto el grupo experimental como el de control reciben los estímulos A y B presentados en simultáneo y combinados con el estímulo no condicionado (ENC). Al final, ambos grupos son evaluados para responder al estímulo B.

¿Por qué la presencia del estímulo A condicionado de forma previa bloquea la adquisición de la respuesta al estímulo B? Kamin (1969), quien de modo original identificó el efecto de bloqueo, explicó el fenómeno al proponer que el ENC debe ser sorprendente para producir aprendizaje. Si el ENC recibe una señal de un EC de la que se enteró antes, no será sorprendente y, por lo tanto, no estimulará el “esfuerzo mental” necesario para la formación de una asociación. Los eventos esperados son cosas que el participante ya ha aprendido. Por lo tanto, los eventos esperados no activarán los procesos que conducen a un nuevo aprendizaje. Para ser efectivo, el ENC debe ser inesperado o sorprendente. La idea de que la efectividad de un ENC está determinada por su grado de sorpresa es la forma en que se basa en el modelo de Rescorla-Wagner (Rescorla y Wagner, 1972; Wagner y Rescorla, 1972). Con el uso de este modelo, las implicaciones del concepto de sorpresa del ENC se extendieron a una amplia variedad de fenómenos de condicionamiento. El modelo de Rescorla-Wagner tuvo un gran impacto en el campo del condicionamiento y el aprendizaje (Siegel y Allan, 1996) y continúa siendo utilizado en una variedad de áreas de la psicología, informática y neurociencia. ¿Qué significa decir que algo es sorprendente? Por definición, un evento es sorprendente si es diferente de lo que se espera. Si un niño espera un pequeño regalo para su cumpleaños y obtiene un auto, estará muy sorprendido. Esto es

104

análogo a un ENC inesperadamente grande. Del mismo modo, si espera un coche y recibe una caja de caramelos, también se sorprenderá. Esto es análogo a un ENC inesperadamente pequeño. De acuerdo con el modelo de Rescorla-Wagner, un ENC inesperadamente grande es la base para el condicionamiento excitatorio o aumentos en el valor asociativo. En contraste, un ENC inesperadamente pequeño es la base para el condicionamiento inhibitorio o la disminución del valor asociativo. Un componente crítico del modelo es la suposición de lo sorprendido que esté por el ENC. Depende de todas las señales presentes en una prueba de condicionamiento. Una respuesta condicionada fuerte indica una fuerte expectativa de que el ENC ocurra, mientras que una respuesta condicionada débil indica una expectativa baja del ENC. Al utilizar la magnitud de la RC como un representante de la expectativa del ENC, se puede inferir que el ENC es muy sorprendente al comienzo del entrenamiento y no del todo sorprendente cuando la respuesta condicionada ha alcanzado una asíntota o un límite. Por lo tanto, la distancia de la asíntota del aprendizaje puede ser utilizada como una medida de la sorpresa del ENC. Las ideas básicas del modelo Rescorla-Wagner se expresan matemáticamente usando l para representar la asíntota de aprendizaje posible con el ENC que se está utilizando y V para representar el valor asociativo de los estímulos que preceden al ENC. El grado de sorpresa del ENC será entonces (l - V). De acuerdo con el modelo de Rescorla-Wagner, se supone que la cantidad de aprendizaje en un ensayo dado es proporcional a (l - V), o la sorpresa del ENC. El valor de (l - V) es grande al comienzo del aprendizaje porque V (el valor asociativo de los estímulos que preceden al ENC) está cerca de cero en este punto. Por lo tanto, se producen incrementos sustanciales en la fuerza asociativa durante los primeros ensayos de condicionamiento. A medida que aumenta el valor asociativo de las señales que preceden al ENC, el término de diferencia (l - V) se reducirá y se producirá un aprendizaje menos adicional. Aprender en una prueba de condicionamiento dada es el cambio en el valor asociativo de un estímulo. Este cambio puede ser representado como DV. Usando estos símbolos, la idea de que el aprendizaje depende de la sorpresa del ENC se puede expresar de la siguiente manera:

DV = k(l − V). En esta ecuación, k es una constante relacionada con la prominencia del EC y del ENC, y (l - V) es una medida de la sorpresa del ENC. DV = k (l - V) es la ecuación fundamental del modelo Rescorla-Wagner. Aplicación al efecto de bloqueo Las ideas básicas del modelo Rescorla-Wagner predicen de forma clara el efecto de bloqueo. Al aplicar el modelo, es importante tener en cuenta que las expectativas del ENC se basan en todas las señales disponibles para el organismo durante la prueba de condicionamiento. Como se ilustra en la figura 6-3, el diseño de bloqueo primero implica un condicionamiento extenso del estímulo A para que los participantes adquieran una expectativa perfecta de que el ENC se producirá

105

basándose en la presentación del estímulo A. Por lo tanto, al final de la Fase 1, VA es igual a la asíntota de aprendizaje (VA = l). En la Fase 2, el estímulo B se presenta junto con el estímulo A, y el ENC sigue los dos EC. De acuerdo con el modelo de Rescorla-Wagner, no se producirá ningún condicionamiento del estímulo B en la Fase 2 porque el ENC ahora están predichos a la perfección por la presencia del estímulo A: (l - VA+B) = 0. El grupo de control recibe el mismo entrenamiento en la Fase 2, pero para ellos la presencia del estímulo A no lleva a una expectativa del ENC. Por lo tanto, el ENC es sorprendente para el grupo de control en la Fase 2 y produce un nuevo aprendizaje. Pérdida de valor asociativo a pesar de emparejamientos con el ENC El modelo de Rescorla-Wagner es consistente con hechos tan fundamentales del condicionamiento clásico como la adquisición y el efecto de bloqueo. Sin embargo, gran parte de la importancia del modelo proviene de sus inusuales predicciones. Una de esas predicciones es que, bajo ciertas circunstancias, las propiedades condicionadas de los estímulos disminuirán a pesar de los emparejamientos continuos con el ENC. Eso es en su mayoría contrario a la intuición. ¿Por qué un EC debería perder valor asociativo si continúa emparejado con el ENC? El modelo de Rescorla-Wagner predice que los estímulos perderán valor asociativo cuando estén emparejados con el ENC si hay una sobre expectativa de ese ENC. El diseño de un experimento de sobre expectativa del ENC se describe en la figura 6-4. En la Fase 1, los estímulos A y B se combinan con el mismo ENC, (p. ej., una bolita de alimento) en ensayos separados. Esto continúa hasta que cada uno de los estímulos A y B predice a la perfección el único gránulo de alimentos del ENC, o VA = VB = l. Entonces se inicia la Fase 2. En esta última fase, los estímulos A y B se presentan en simultáneo por primera vez, y el compuesto de estímulo A+B es seguido por el único sedimento de alimentos del ENC.

Figura 6-4. Diseño del experimento sobrexpectativa. En la Fase 1, los participantes reciben los estímulos A y B, cada uno combinado con el estímulo no condicionado (ENC; una bolita de alimentos). En la Fase 2, los estímulos A y B se presentan juntos, creando una expectativa de más de una bolita de ENC. Como consecuencia, los valores asociativos de los estímulos A y B disminuyen en la Fase 2.

Cuando los estímulos A y B se presentan a la par al inicio de la Fase 2, se asume que las expectativas basadas en los estímulos individuales se suman, con el

106

resultado de que se pronostican dos gránulos de alimentos como los ENC (VA + VB = 2 l). Esto es una expectativa excesiva, porque el ENC sólo es un gránulo de alimentos. Por lo tanto, existe una discrepancia entre lo que se espera (dos bolitas) y lo que ocurre (una bolita). Al comienzo de la Fase 2, los participantes consideran que los ENC son pequeños de modo sorpresivo. Para alinear sus expectativas de los ENC con lo que en realidad sucede en la Fase 2, los participantes tienen que disminuir su expectativa de los ENC basándose en los estímulos individuales A y B. Por lo tanto, se predice que los estímulos A y B perderán un valor asociativo, a pesar de las continuas presentaciones de los mismos ENC. Se predice que la pérdida de valor asociativo continuará hasta que la suma de las expectativas basadas en A + B sea igual a un pequeño alimento. La pérdida que se predijo de RC a los estímulos individuales A y B en el experimento de sobre expectación es bastante contraintuitiva, pero se ha verificado en repetidas ocasiones (p. ej., Kehoe y White, 2004; Lattal y Nakajima, 1998; Sissons y Miller, 2009). Inhibición condicionada El modelo de Rescorla-Wagner considera el desarrollo de la inhibición condicionada como otra ilustración de las consecuencias de la sobre expectativa del ENC. Considérese, por ejemplo, el procedimiento de condicionamiento inhibitorio estándar (figura 5-5). Este procedimiento involucra ensayos cuando se presenta el ENC (ensayos reforzados) y ensayos cuando se omite el ENC (ensayos no reforzados). En las pruebas reforzadas, un estímulo excitatorio condicionado (EC+) se empareja con el ENC. En los ensayos no reforzados, el EC+ se presenta junto con el estímulo inhibitorio condicionado (EC-). Para aplicar el modelo de Rescorla-Wagner al procedimiento de inhibición condicionada, es útil considerar los ensayos reforzados y no reforzados por separado. Para anticipar con precisión al ENC en ensayos reforzados, el EC+ debe obtener propiedades excitatorias condicionadas. El condicionamiento excitatorio implica la adquisición de un valor asociativo positivo y cesa una vez que el organismo predice al ENC a la perfección en cada prueba reforzada. Esto se ilustra en el panel izquierdo de la figura 6-5.

107

Figura 6-5. Valores asociativos predichos de estímulo excitatorio condicionado (EC+) y estímulo inhibitorio condicionado (EC-) durante el curso del entrenamiento de inhibición condicionada (panel izquierdo) y extinción (panel derecho) Durante el entrenamiento de inhibición condicionada, cuando el EC+ se presenta solo, se empareja con el estímulo incondicionado (ENC); en contraste, cuando el EC+ se presenta con el EC-, se omite el ENC. El valor asociativo neto de EC+ y EC- es la suma de los valores asociativos de los estímulos individuales. Durante la extinción, los EC se presentan solos, y el ENC nunca ocurre.

En los ensayos no reforzados, tanto el EC+ como el EC- ocurren. Una vez que el EC+ haya adquirido algún grado de excitación condicionada (debido a su presentación en ensayos reforzados), el organismo esperará al ENC cada vez que se produzca el EC+, incluso en ensayos no reforzados. Sin embargo, el ENC no sucede en juicios no reforzados. Esto crea una expectativa excesiva del ENC, similar al ejemplo de la figura 6-4. Para predecir con precisión la ausencia del ENC en ensayos no reforzados, el valor asociativo del EC+ y el valor del EC deben sumar cero (el valor representado por ningún ENC). Dado el valor asociativo positivo del EC+, la única manera de lograr una expectativa neta de cero del ENC en los ensayos no reforzados es hacer que el valor asociativo del EC sea negativo. Por lo tanto, el modelo de RescorlaWagner explica la inhibición condicionada al asumir que el EC adquiere un valor asociativo negativo (panel izquierdo de la figura 6-5). Extinción de la excitación e inhibición condicionada En un procedimiento de extinción, el EC se presenta de forma repetida sin el ENC (se abordará la extinción en el capítulo 10). Deben considerarse las predicciones del modelo de extinción de Rescorla-Wagner. Estas predicciones se ilustran en el panel derecho de la figura 6-5. Cuando el EC+ se presenta por primera vez sin la extinción

108

del ENC, una sobre expectativa del mismo (porque el ENC está previsto, pero no se produce). Con la presentación continuada del EC+ por sí misma, la expectativa provocada por el EC+ en lo sucesivo irá en línea con la ausencia del ENC, mediante reducciones graduales en el valor asociativo del EC+. Este proceso continuará hasta que el valor asociativo del EC+ se reduzca a cero. El modelo de Rescorla-Wagner predice un escenario análogo para la extinción de la inhibición condicionada. Al comienzo de la extinción, el EC- tiene un valor asociativo negativo. Se puede considerar que esto crea una subpredicción del ENC: el organismo predice menos del ENC que se produce en los ensayos de extinción. Para alinear las expectativas con la ausencia del ENC, el valor asociativo negativo del EC- se reduce de forma gradual hasta que el EC- termina con una fuerza asociativa cero. Problemas con el modelo de Rescorla-Wagner El modelo Rescorla-Wagner ha estimulado una gran cantidad de investigaciones y ha llevado al descubrimiento de muchos fenómenos nuevos e importantes en el condicionamiento clásico (Siegel y Allan, 1996). Sin embargo, sin ser inesperado, el modelo también ha tenido algunas dificultades desde que fue propuesto en 1972 (Miller, Barnet y Grahame, 1995). Una de las dificultades con el modelo que se hizo evidente desde el principio es que su análisis de la extinción de la inhibición condicionada es incorrecto. Como se señaló en la sección anterior (figura 6-5), el modelo predice que las presentaciones repetidas de un inhibidor condicionado (EC-) por sí mismas conducirán a la pérdida de la inhibición condicionada. Sin embargo, esto no ocurre (Witcher y Ayres, 1984; Zimmer-Hart y Rescorla, 1974). De hecho, algunos investigadores han encontrado que el no refuerzo repetido de un EC puede mejorar sus propiedades inhibitorias condicionadas (p. ej., DeVito y Fowler, 1987; Hallam, Grahame, Harris y Miller, 1992). Es curioso, que un procedimiento eficaz para reducir las propiedades inhibitorias condicionadas de un EC no implica presentar el EC- en absoluto. Más bien, implica la extinción de las propiedades excitadoras del EC+ con las que se presentó el EC- durante el entrenamiento inhibitorio (Best, Dunn, Batson, Meachum, y Nash, 1985; Lysle y Fowler, 1985). Otra dificultad es que el modelo de Rescorla-Wagner considere a la extinción como lo contrario de la adquisición, o el retorno del valor asociativo de un EC a cero. Sin embargo, como se analizará en el capítulo 10, un creciente cuerpo de evidencia indica que la extinción no es sólo la reversión de la adquisición. Más bien, la extinción parece involucrar el aprendizaje de una nueva relación entre el EC y el ENC (es decir, que el ENC ya no sigue al EC). Modelos de atención de condicionamiento Dado que el condicionamiento clásico se ha estudiado a lo largo de un siglo, una teoría exhaustiva debe explicar muchos hallazgos diversos. Ninguna teoría ha sido exitosa por completo en el logro de ese objetivo. No obstante, se siguen proponiendo y examinando nuevas ideas interesantes sobre el condicionamiento clásico. Algunas de estas propuestas complementan el modelo Rescorla-Wagner.

109

Otros son incompatibles con el modelo y mueven el debate teórico en otras direcciones. Los psicólogos norteamericanos han favorecido mecanismos de aprendizaje como el modelo Rescorla-Wagner que se centran en los cambios en el valor sorpresa o la efectividad del ENC. En contraste, los psicólogos británicos han abordado fenómenos como el efecto de bloqueo al postular cambios en la forma en que el EC llama la atención. El supuesto general es que para que ocurra el condicionamiento, los participantes deben prestar mucha atención al EC. Se espera que los procedimientos que interrumpen la atención al EC también interrumpan el aprendizaje (Mitchell y Le Pelley, 2010). Cuán notable es un estímulo, o cuánta atención atrae, se denomina la prominencia del estímulo. Las teorías de atención difieren en sus suposiciones acerca de lo que determina la importancia de un EC en un ensayo determinado. Pearce y Hall (1980), por ejemplo, asumieron que la atención que un participante dedica al EC en un ensayo dado está determinada por lo sorprendente que fue el ENC en el ensayo anterior ( Hall, Kaye y Pearce, 1985; McLaren & Mackintosh, 2000). Los individuos tienen mucho que aprender si el ENC les sorprendió en la prueba anterior. Por lo tanto, bajo tales condiciones, la prominencia del EC aumentará y prestarán más atención al EC en la próxima prueba. Por el contrario, si a un EC le siguió el ENC esperado, la atención a ese EC disminuirá. Una característica importante de las teorías de atención es que asumen que el grado de sorpresa del ENC en un ensayo dado altera el grado de atención que exige el EC en los ensayos futuros. Por ejemplo, si el ensayo 10 finaliza en un estado de sorpresa del ENC, la importancia del EC aumentará del ensayo 10 al ensayo 11. Por lo tanto, se supone que la sorpresa del ENC sólo tiene una influencia prospectiva o proactiva sobre la atención y el condicionamiento. Ésta es una diferencia importante con respecto a los modelos de reducción del ENC, como el modelo de Rescorla-Wagner, en el que el grado de sorpresa del ENC en un ensayo dado determina lo que se aprende en ese mismo ensayo. La suposición de que el ENC en un ensayo dado puede cambiar lo que se aprende sobre un EC en el próximo ensayo ha recibido apoyo experimental (p. ej., Mackintosh, Bygrave y Picton, 1977). Sin embargo, este mismo supuesto ha dificultado que los modelos de atención expliquen otros hallazgos. En particular, los modelos de atención no pueden explicar el bloqueo que se produce en el primer ensayo de la Fase 2 del experimento de bloqueo ( p. ej., Azorlosa y Cicala, 1986; Balaz, Kasprow y Miller, 1982; Dickinson, Nicholas y Mackintosh, 1983). De acuerdo con los modelos de atención, el bloqueo se produce porque en la Fase 2 del experimento de bloqueo, la falta de sorpresa del ENC reduce la atención al EC agregado. Sin embargo, tal reducción de la prominencia puede ocurrir sólo después del primer ensayo de la Fase 2. Por lo tanto, los modelos de atención no pueden explicar el bloqueo que se produce en el primer ensayo de la Fase 2 del experimento de bloqueo. Factores temporales y respuesta condicionada Ni el modelo de Rescorla-Wagner ni los modelos de atención fueron diseñados para

110

explicar los efectos del tiempo en el condicionamiento. Sin embargo, el tiempo es de manera obvia un factor crítico. Una variable temporal importante es el intervalo EC-ENC. Como se señaló en el capítulo 5, los procedimientos con intervalos más largos entre un EC y un ENC producen menos respuesta (figura 5-2). Esta relación parece ser por principio una característica de las respuestas en estrecho relacionadas con el ENC (p. ej., búsqueda focal). Si se miden los comportamientos que por lo normal se eliminan más lejos del ENC (p. ej., la búsqueda general), la respuesta es mayor con los procedimientos que implican intervalos más largos de EC-ENC. Ambos hallazgos ilustran que la duración del EC es un factor importante en el condicionamiento. Otra variable temporal importante es el intervalo entre ensayos sucesivos. En general, se observa una respuesta más condicionada con procedimientos en los cuales los ensayos están más separados. De mayor interés, sin embargo, es el hecho de que el intervalo entre ensayos y la duración del EC actúan en combinación para determinar la respuesta. Numerosos estudios han demostrado que el factor crítico es la duración relativa de estas dos variables temporales en lugar del valor absoluto de cualquiera de ellas por sí misma (Balsam y Gallistel, 2009). Considérese, por ejemplo, un experimento realizado por Holland (2000). El experimento se realizó con ratas de laboratorio y los alimentos presentados por periodos en una taza fueron los ENC. Las presentaciones de los alimentos fueron señaladas por un EC auditivo. Al inicio, las ratas fueron a la taza de comida solo cuando la comida fue entregada. Sin embargo, a medida que avanzaba el condicionamiento, comenzaron a ir a la taza de alimentos tan pronto como escucharon el EC auditivo. Por lo tanto, el olfato de la taza de comida (una forma de búsqueda focal) se desarrolló como la RC. Cada grupo se condicionó con una de las dos duraciones de EC, ya sea 10 segundos o 20 segundos, y uno de seis intervalos entre pruebas (que van desde 15 segundos a 960 segundos). Cada procedimiento podría caracterizarse en términos de la relación (I/T) entre el intervalo entre juicios (I) y la duración del EC, que Holland denominó duración del ensayo (T). Los resultados del experimento se resumen en la figura 6-6. El tiempo dedicado a la detección de la taza de comida durante el EC se muestra en función del valor relativo del intervalo entre ensayos (I) y la duración del ensayo (T) para cada grupo de sujetos. Observe que la respuesta condicionada estaba de modo directo relacionada con la relación I/T. En cada relación I/T, los grupos que recibieron el EC de 10 segundos respondieron de manera similar a los que recibieron el EC de 20 segundos.

111

Figura 6-6. Porcentaje de tiempo que las ratas pasaron olfateando la taza de comida durante un estímulo auditivo condicionado (EC) en condicionamiento con una duración de prueba de 10 o 20 segundos (T) y varios intervalos interensayos (I) que crearon relaciones I/T que varían de 1.5 a 48.0. Los datos se muestran en relación con la respuesta durante los periodos de referencia cuando la CS estaba ausente. Reproducido con autorización de “Trial and Intertrial Durations in Appetitive Condition in Rats”, por P. C. Holland, 2000, Animal Learning & Behavior, 28, pág. 125. Copyright 2000 de Springer. Adaptado con permiso.

Se han ofrecido varias interpretaciones de por qué la respuesta condicionada está determinada tan fuerte por la relación I/T (Gallistel y Gibbon, 2000; Jenkins, Barnes y Barrera, 1981). Sin embargo, todos capturan la noción de que la relación I/T determina qué tan bien el EC reduce la ambigüedad sobre la próxima aparición del ENC (Balsam y Gallistel, 2009). El EC reduce la ambigüedad sobre el ENC si proporciona mejor información sobre el ENC que las claves de fondo de la situación experimental. Con una alta relación I/T, el participante pasa mucho más tiempo en el contexto experimental (I) que en la presencia del EC (T) antes de que ocurra el ENC. Esto hace que el EC sea mucho más informativo sobre la próxima aparición del ENC que las claves contextuales de fondo, y por lo tanto el EC llega a provocar un alto nivel de respuesta condicionada. La ventaja informativa del EC sobre las señales contextuales de fondo se pierde si las duraciones de I y T son similares. Como consecuencia, se desarrolla una respuesta menos condicionada al EC con relaciones I/T bajas. Los modelos informativos de aprendizaje que fueron diseñados para explicar los efectos de la relación I/T se basan en experimentos que involucran múltiples pruebas de condicionamiento (para que el organismo pueda conocer las duraciones de I y T y las tasas de entrega en el ENC durante cada uno de estos intervalos). Sin embargo, existe evidencia sustancial de que el condicionamiento pavloviano puede

112

ocurrir en un solo ensayo. El aprendizaje en un ensayo se produce muy fácil en estudios de condicionamiento del miedo, aprendizaje de aversión al gusto y condicionamiento sexual. Los ejemplos de aprendizaje de un ensayo son desafiantes para los modelos informativos de condicionamiento. La hipótesis del comparador Los estudios de la relación I/T y los modelos informativos de aprendizaje han enfatizado que la respuesta condicionada depende no sólo de lo que sucede durante el EC sino también de lo que sucede en la situación experimental en general. La idea de que ambos factores influyen en lo que se observa en los experimentos de condicionamiento ha sido desarrollada con mayor detalle por Ralph Miller et. al en la hipótesis del comparador (R. R. Miller y Matzel, 1988; Stout y Miller, 2007). La hipótesis del comparador es similar a los modelos informativos al suponer que la respuesta condicionada depende de la relación entre el EC objetivo y el ENC, así como de la relación entre otras señales en la situación (p. ej., el contexto de fondo) y el ENC. La fuerza asociativa de otras señales presentes durante el entrenamiento con el EC objetivo es en especial importante. Otra limitación de la hipótesis del comparador es que sólo permite la formación de asociaciones excitadoras con el ENC. Se considera que la respuesta condicionada refleja la excitación o inhibición que está determinada por las fortalezas relativas de la excitación condicionada al EC objetivo en comparación con el valor excitatorio de las señales contextuales que estaban presentes con el EC objetivo durante el entrenamiento. El proceso de comparación está representado por el balance en la figura 6-7. En esta figura, se hace una comparación entre el valor excitatorio del EC objetivo y el valor excitatorio de las otras señales que están presentes durante el entrenamiento de ese EC. Si la excitación del EC excede el valor excitador de las señales contextuales, el balance de la comparación se inclinará a favor de la respuesta excitadora al EC objetivo.

113

Figura 6-7. Ilustración de la hipótesis del comparador. La respuesta al estímulo condicionado (EC) está representada por la lectura de la balanza. Si el valor excitador del EC objetivo supera el valor excitador de las otras señales presentes durante el entrenamiento del EC objetivo, el equilibrio se inclina a favor de la respuesta excitatoria. A medida que aumenta el valor asociativo de las señales contextuales, la comparación se vuelve menos favorable para la respuesta excitadora y puede inclinarse a favor de la respuesta inhibitoria.

A medida que el valor excitatorio de las otras señales se hace más fuerte, el equilibrio de la comparación se volverá menos favorable para la respuesta excitatoria. De hecho, si el valor excitador de las señales contextuales se vuelve fuerte con suficiencia, el equilibrio puede inclinarse a favor de la respuesta inhibitoria al EC objetivo. A diferencia de los modelos informativos, la hipótesis comparativa enfatiza las asociaciones en lugar del tiempo. Una versión simplificada de la hipótesis del comparador, presentada en la figura 6-8, involucra tres asociaciones diferentes. La primera asociación (enlace 1 en la figura 6-8) es entre el EC objetivo (X) y el ENC. La segunda asociación (enlace 2) se encuentra entre los EC de destino (X) y las

114

señales contextuales del comparador. Al final, existe una asociación entre los estímulos comparativos y el ENC (enlace 3). Con todos estos enlaces en su lugar, cuando se presenta el EC, se activa la representación del ENC de forma directa (a través del enlace 1) y de manera indirecta (a través de los enlaces 2 y 3). Una comparación entre las activaciones directas e indirectas de la representación del ENC determina el grado de respuesta excitatoria o inhibitoria que se observa.

Figura 6-8. La estructura asociativa de la hipótesis del comparador. El estímulo condicionado objetivo (EC) se representa como X. Las asociaciones excitatorias dan como resultado la activación de la representación del estímulo no condicionado (ENC), ya sea de forma directa por el objetivo (enlace 1) o de manera inderecta (a través de los enlaces 2 y 3). Reproducido con autorización de “Comparator Mechanisms and Conditioned Inhibition: Conditioned Stimulus Preexposure Disrupts Pavlovian Conditioned Inhibition but Not Explicitly Unpaired Inhibition,” by B. X. Friedman, A. P. Blaisdell, M. Escobar, and R. R. Miller, 1998, Journal of Experimental Psychology: Animal Behavior Processes, 24, p. 454. Copyright 1998 por la Asociación Americana de Psicología.

Es importante tener en cuenta que la hipótesis del comparador no hace suposiciones sobre cómo se establecen las asociaciones. Más bien, describe cómo las asociaciones EC-ENC y el contexto del ENC. Más bien, determina la respuesta al EC objetivo. Por lo tanto, a diferencia de los modelos de modificación y atención del ENC, la hipótesis comparativa es una teoría del rendimiento, no una teoría del aprendizaje. Un corolario importante de la hipótesis del comparador es que la comparación

115

entre asociaciones EC-ENC y el contexto del ENC se realiza en el momento de la prueba de respuesta condicionada. Como consecuencia de esta suposición, la hipótesis del comparador hace una predicción inusual de que la extinción de las asociaciones de contexto del ENC. Después del entrenamiento de un EC objetivo mejorará la respuesta a ese EC objetivo. Esta predicción se ha confirmado en repetidas ocasiones (p. ej., Blaisdell, Gunther y Miller, 1999). La modificación del ENC y las teorías de atención del aprendizaje no pueden explicar tales resultados. El hecho de que la extinción poscondicionante de las señales contextuales mejora la respuesta a un EC de destino indica que la respuesta a un EC de destino puede modificarse cambiando las propiedades de las señales de comparación. Este tipo de resultado se llama efecto de revalorización. La investigación sobre la hipótesis del comparador ha identificado un número creciente de efectos de revaluación. Uno de los efectos de revaluación más provocativos se refiere al efecto de bloqueo. En la fase crítica del experimento de bloqueo, un nuevo estímulo (B) se condiciona en presencia de un CS (A) condicionado de manera previa. Debido a que el estímulo A está presente cuando el estímulo B está siendo condicionado, el estímulo A sirve como comparador para el estímulo B. De acuerdo con la hipótesis del comparador, el estímulo B no provocará una respuesta demasiado condicionada porque su comparador (estímulo A) tiene una fuerza excitadora alta, desviando el equilibrio del estímulo B. Si la falta de respuesta al estímulo B refleja este tipo de comparación, una manipulación de revalorización podría desenmascarar la respuesta al estímulo B. En particular, la hipótesis del comparador predice que los participantes aumentarán la respuesta al estímulo B si el comparador (estímulo A) se extingue. Es curioso que esta predicción se haya confirmado en varios experimentos (Blaisdell et al., 1999; Boddez, Baeyens, Hermans y Beckers, 2011). La hipótesis del comparador también se ha probado en estudios de inhibición condicionada. La hipótesis atribuye la respuesta inhibitoria a situaciones en las que la asociación del EC objetivo con el ENC es más débil que la asociación de señales contextuales con el ENC. Las señales contextuales en este caso son los estímulos que proporcionan el contexto excitatorio para el condicionamiento inhibitorio. De forma curiosa, la hipótesis predice que la extinción de estos estímulos excitatorios condicionados después del condicionamiento inhibitorio reducirá la respuesta inhibitoria. Por lo tanto, la hipótesis del comparador es única al predecir que la extinción de la inhibición condicionada se logra mejor no presentando el EC- solo, sino extinguiendo las señales EC+ que proporcionaron el contexto excitador para el condicionamiento inhibitorio. Esta predicción inusual se ha confirmado en varios estudios (Best et al., 1985; Lysle y Fowler, 1985). (Para efectos adicionales de revaluación, ver McConnell, Urushihara, y Miller, 2010; Miguez, Witnauer, y Miller, 2012.)

RESUMEN Varios casos de condicionamiento pavloviano reflejan el aprendizaje de una asociación E–E en lugar de una asociación E–R. Esta conclusión está respaldada por experimentos que muestran que el vigor del comportamiento condicionado

116

puede aumentar o disminuir por cambios en el valor del ENC (inflación o devaluación del ENC) después de la adquisición. Se han propuesto una variedad de mecanismos para explicar el aprendizaje pavloviano. El modelo de RescorlaWagner elaboró la idea de que la supremacía del ENC es la fuerza motriz que produce el aprendizaje y llevó al descubrimiento de numerosos fenómenos de aprendizaje nuevo. Los modelos de atención abordaron la misma amplia gama de fenómenos que el modelo de Rescorla-Wagner, pero tuvieron algunas de las mismas dificultades que ese modelo. Los modelos informativos se enfocaron en las variables temporales en los procedimientos de condicionamiento, como la relación I/T. La hipótesis del comparador se ha extendido a una gama más amplia de fenómenos, pero es una teoría del rendimiento en lugar del aprendizaje. No proporciona una explicación de cómo se adquieren las asociaciones en primer lugar. Todos estos modelos han sido importantes para dirigir la atención a aspectos que fueron de forma previa ignorados del condicionamiento clásico y cada uno ha identificado importantes manipulaciones y variables de condicionamiento novedosas.

LECTURAS SUGERIDAS Balsam, P. D., & Gallistel, C. R. (2009). Temporal maps and informativeness in associative learning. Trends in Neuroscience, 32, 73–78. http://dx.doi.org/10.1016/j.tins. 2008.10.004 Delamater, A. R., Campese, V., LoLordo, V. M., & Sclafani, A. (2006). Unconditioned stimulus devaluation effects in nutrient-conditioned flavor preferences. Journal of Experimental Psychology: Animal Behavior Processes, 32, 295–306. Hogarth, L., Dickinson, A., & Duka, T. (2010). Selective attention to conditioned stimuli in human discrimination learning: Untangling the effects of outcome prediction, valence, arousal, and uncertainty. In C. J. Mitchell & M. E. Le Pelley (Eds.), Attention and associative learning (pp. 71–97). Oxford, England: Oxford University Press. McLaren, I. P. L., & Mackintosh, N. J. (2000). An elemental model of associative learning: I. Latent inhibition and perceptual learning. Animal Learning & Behavior, 28, 211–246. http://dx.doi.org/10.3758/BF03200258 Stout, S. C., & Miller, R. R. (2007). Sometimes-competing retrieval (SOCR): A formalization of the comparator hypothesis. Psychological Review, 114, 759–783. http:// dx.doi.org/10.1037/0033295X.114.3.759 [Correction published in 2008, Psycho- logical Review, 115, 82.] Términos técnicos Aprendizaje E–E Aprendizaje E–R Asíntota Devaluación del ENC Sobreexpectativa Hipótesis del comparador Inflación del ENC Prominencia Relación I/T

117

Capítulo 7

118

Condicionamiento operante o instrumental Sabía usted que: • ¿Aprender nuevas respuestas instrumentales implica organizar componentes familiares de respuesta en distintas combinaciones? • ¿La variación en la conducta es de gran ventaja para aprender nuevas respuestas? • ¿Los efectos nocivos en el retraso del reforzamiento suelen superarse al presentar un estímulo de marcado después de la respuesta instrumental? • ¿La ley del efecto de Thorndike no involucra una asociación entre la respuesta instrumental y el refuerzo? • ¿El condicionamiento instrumental puede conducir al aprendizaje de tres asociaciones binarias y una de orden superior? • ¿Las asociaciones pavlovianas adquiridas durante los procedimientos de condicionamiento instrumental pueden interrumpir el desempeño de las respuestas instrumentales, creando restricciones biológicas para el condicionamiento instrumental? • ¿Las diversas asociaciones que se desarrollan en el condicionamiento instrumental son difíciles de aislar entre sí, lo cual crea problemas al momento de estudiar la neurofisiología del aprendizaje instrumental? Los diferentes procedimientos descritos hasta ahora (habituación, sensibilización y condicionamiento pavloviano) implican la presencia de distintos tipos de estímulos de acuerdo con diferentes arreglos. Los procedimientos producen cambios en la conducta -aumento y disminución de las respuestas- como resultado de estos programas de presentación. A pesar de que difieren de manera significativa, una característica importante que es común en los procedimientos de habituación, sensibilización y condicionamiento pavloviano es que se administran de manera independiente a las acciones del organismo. Lo que los participantes llevan a cabo como resultado de los procedimientos no tiene influencia en los programas de presentación del estímulo. En cierto sentido, los estudios en torno a la habituación, sensibilización y condicionamiento pavloviano representan cómo los organismos aprenden sobre eventos que están fuera de su control. La adaptación a eventos incontrolables es importante porque muchos aspectos del ambiente están fuera de control. El día en que una clase está programada, cuánto tiempo lleva hervir un huevo, la distancia entre las cuadras en una ciudad y cuándo abre la tienda de abarrotes de la localidad se encuentra fuera del control propio de una persona. Aunque aprender respecto a los eventos incontrolables es importante, no todo el aprendizaje suele ser de este tipo. Otra categoría involucra situaciones en que el modo en que ocurre un evento significativo o un estímulo no condicionado (ENC) depende de las acciones del

119

individuo. Estos casos implican condicionamiento instrumental u operante. En los procedimientos de condicionamiento instrumental, si un estímulo significativo o un evento se presenta o no depende de la conducta del participante. Ejemplos generales de la conducta instrumental incluyen levantar las cobijas para calentarse en la cama, mezclar los ingredientes para hacer limonada, cambiar el canal de la televisión para encontrar un programa y saludar a alguien para obtener un saludo a cambio. En todos los casos, se requiere una respuesta particular para conseguir un estímulo específico o un resultado consecuente. Debido a que la respuesta es instrumental para producir el resultado, la respuesta se conoce como conducta instrumental. Al resultado consecuente (el calor, la limonada, el programa de televisión, el saludo recíproco) se le llama reforzador. La conducta operante es un subconjunto especial de conductas instrumentales que se define por cómo la conducta cambia al ambiente. Por ejemplo, girar una manija lo suficiente para que se abra una puerta es una respuesta operante ya que cambia el estado de la puerta de cerrada a abierta. Al identificar las instancias de esta respuesta operante, no es relevante si la manija se gira con la mano izquierda de la persona, la mano derecha, las puntas de los dedos o con un agarre completo sobre la manija. Dichas variaciones en la topografía de la respuesta son ignoradas en los estudios de la conducta operante. El foco está en el cambio ambiental común que produce la conducta operante. Un ejemplo típico de conducta operante en la investigación con animales es la de una rata de laboratorio que presiona una palanca de respuesta dentro de una pequeña cámara experimental (figura 7-1). Si la respuesta de presionar la palanca se ha presentado o no se determina mediante la colocación de un micro interruptor debajo de la palanca. En un experimento típico, las ocasiones en que se presiona la palanca con suficiente fuerza para activar el micro interruptor son contabilizadas como instancias de la respuesta operante de presionar la palanca. No es importante saber si la rata presiona la palanca con su pata derecha o izquierda, o con su nariz, en tanto que active el micro interruptor. Otro ejemplo común de conducta operante en investigaciones con animales es el de una paloma que picotea un disco o un estímulo en una pared. Se ignoran las diversas maneras de picotear siempre y cuando los picoteos sean detectados por la pantalla táctil en la pared.

120

Figura 7-1. Una preparación común de laboratorio para el estudio de la conducta operante. El dibujo muestra a una rata en una cámara de presionar palancas. Un recipiente de comida está colocado debajo de la palanca.

LAS TRADICIONES DE THORNDIKE Y SKINNER Las tradiciones intelectuales del condicionamiento clásico fueron establecidas por Ivan Pavlov. En contraste, las tradiciones intelectuales del condicionamiento instrumental u operante tienen sus raíces en el trabajo de dos psicólogos norteamericanos del siglo XX, Edward L. Thorndike y B. F. Skinner (figuras 7-2 y 7-3). Los métodos empíricos, así como los puntos de vista teóricos de estos dos científicos eran notablemente diferentes, pero las tradiciones que cada uno fundó han perdurado hasta el día de hoy. En primer lugar se considerarán los métodos experimentales distintivos empleados por Thorndike y Skinner y, después, se señalaran algunas de las diferencias en sus perspectivas teóricas.

121

Figura 7-2. Edward L. Thorndike. Tomado de Wikimedia Commons: https://upload.wikimedia.org/wikipedia/commons/6/66/PSM_V80_D211_Edward_Lee_Thorndike.png. Del dominio público.

122

Figura 7-3. B. F. Skinner. Tomado de Wikimedia Commons: https://commons.wikimedia.org/wiki/File:B.F._Skinner_at_Harvard_circa_1950.jpg. Del dominio público.

Consideraciones metodológicas Thorndike se interesaba en estudiar la “inteligencia” animal. Con la finalidad de

123

llevar a cabo esto diseñó un número de cajas problema para gatos jóvenes como parte de un proyecto que se convirtió en su tesis doctoral (Thorndike, 1898). Se requería un tipo diferente de respuesta para salir de cada caja. El problema era descifrar cómo escapar de la caja. Thorndike ponía un gatito dentro de una caja problema en ensayos sucesivos y medía cuánto tiempo le tomaba al gatito salir de la caja y obtener un pedazo de pescado. En algunas cajas problema, el gatito sólo debía realizar un tipo de respuesta para salir (p. ej., girar un pestillo). En otras, se requerían varias acciones que debía llevar a cabo en un orden particular. Thorndike descubrió que después de varios ensayos repetidos los gatitos se volvían cada vez más rápidos para escapar de la caja. Sus latencias de escape disminuían. Método de ensayos discretos Los experimentos de Thorndike ilustran el método de ensayos discretos utilizado en el estudio de la conducta instrumental. En este método, el participante tiene la oportunidad de desempeñar la respuesta instrumental sólo en ciertas ocasiones (durante los ensayos discretos), según determine el experimentador. En el caso de los experimentos de Thorndike, el gatito sólo podía llevar a cabo la respuesta instrumental de escape luego de que se le colocara dentro de una caja problema. Cuando presentaba la respuesta requerida, era liberado de ésta. El siguiente ensayo no iniciaba sino hasta que Thorndike volvía a poner al gatito dentro de la caja. El método de ensayos discretos fue adoptado subsecuentemente por investigadores que usaban laberintos de varios tipos para estudiar el condicionamiento instrumental. Los laberintos se utilizan con ratas y ratones de laboratorio. Éstos fueron introducidos al área de investigación científica conductual por Willard Small, quien construyó un laberinto con el objetivo de imitar las estructuras con forma de túnel de las madrigueras subterráneas en las que viven las ratas (Small, 1900, 1901). Un tipo común de laberinto es la pista recta (figura 7-4). En este tipo de pistas, primero se coloca a la rata en la caja de inicio. Después, la puerta de la caja de inicio se levanta para permitir que la rata se dirija hacia la caja objetivo al otro extremo de la pista. Al llegar a la caja objetivo, se le da a la rata un pequeño trozo de comida y, después, se le retira hasta que llega el momento del siguiente ensayo. La velocidad con la que corre de la caja de inicio hasta la caja objetivo se mide en cada ensayo. El aprendizaje tiene como resultado mayores velocidades al momento de correr.

124

Figura 7-4. Vista superior de una pista recta y de un laberinto en T. I es la caja de inicio y O es la caja objetivo.

Otro ensayo común es el laberinto en T. Éste también tiene una caja de inicio. Luego de que el participante es liberado de la caja de inicio, se le permite ir a un punto en el que tiene que elegir uno de los dos brazos de la T para entrar en cualquiera de ellos. El laberinto en T es, por tanto, muy útil para medir la conducta de selección. El método de ensayos discretos requiere de numerosas manipulaciones. El experimentador tiene que tomar a la rata, ponerla en la caja de inicio, esperar a que llegue a la caja objetivo, retirarla de la caja objetivo y, después, ponerla en un área de espera para el intervalo entre ensayos. Otra característica distintiva del método de ensayos discretos es que el tiempo que el participante tiene que esperar entre los ensayos está determinado por el experimentador. Método operante libre La alternativa principal al método de ensayos discretos para el estudio de la conducta instrumental es el método operante libre, desarrollado por B. F. Skinner (1938). Éste realizó numerosas contribuciones, tanto metodológicas como conceptuales, al estudio de la conducta y estos dos tipos de contribuciones estaban interrelacionadas con frecuencia. El método operante libre es un ejemplo de ello. El desarrollo del método operante libre por parte de Skinner comenzó con el interés por diseñar un laberinto automatizado para las ratas -un laberinto en el cual éstas pudieran regresar automáticamente a la caja de inicio después de cada ensayo.

125

Dicho aparato tendría la ventaja de que la rata sólo sería manejada al inicio y al final de una sesión de entrenamiento, liberando al experimentador para hacer otras cosas en el intermedio. Un laberinto automatizado también permitiría a la rata decidir, en lugar del experimentador, cuándo iniciar el siguiente ensayo. Esto permitiría la investigación no sólo saber qué tan rápido la rata completa una respuesta instrumental sino también la libertad de elegir la frecuencia de llevar a cabo la respuesta. Así, un laberinto automatizado prometía proporcionar información nueva que no podía ser obtenida mediante el método de ensayos discretos. Skinner usó varias aproximaciones para automatizar el procedimiento del laberinto de ensayos discretos. Cada aproximación incorporaba algunas mejoras respecto al diseño previo, pero conforme avanzaba el trabajo, el aparato se parecía cada vez menos a un laberinto (Skinner, 1956). El resultado final fue lo que ha llegado a conocerse como la caja de Skinner, en la cual una rata tiene que presionar una palanca para obtener un pedazo de comida que es depositado en un recipiente cerca de la palanca. En la caja de Skinner, la respuesta de interés se define en términos del cierre de un micro interruptor. La interfaz de la computadora ignora si la rata presiona la palanca con una pata o con la otra, o con su cola. Otra característica de la caja de Skinner es que la respuesta operante puede presentarse en cualquier momento. El intervalo entre respuestas sucesivas está determinado por el participante en lugar del experimentador. Debido a que la respuesta operante se puede realizar en cualquier momento, al método se le llama método operante libre. La principal ventaja conceptual del método operante libre es la de permitirle al participante iniciar en repetidas ocasiones la respuesta instrumental. Skinner se enfocó en este aspecto de la conducta. Qué tan a menudo la rata que inicia la respuesta operante puede cuantificarse en términos de la frecuencia de la respuesta en un determinado periodo de tiempo, o la tasa de respuesta. La tasa de respuesta es la medida primordial de la conducta en los experimentos que utilizan el método operante libre.

EL APRENDIZAJE INICIAL DE UNA RESPUESTA INSTRUMENTAL U OPERANTE Las personas piensan con frecuencia en el condicionamiento instrumental u operante como una técnica para el entrenamiento de nuevas respuestas. Balancear un bate, lanzar una pelota de fútbol o tocar la batería implican todas respuestas instrumentales que los jugadores o músicos expertos aprendieron a través de la práctica. No obstante, ¿en qué sentido son nuevas estas respuestas? ¿El condicionamiento instrumental siempre establece respuestas completamente nuevas? De forma alternativa, ¿el condicionamiento instrumental combina respuestas familiares de nuevas maneras o establece una respuesta familiar en cada nueva situación? Aprender hacia dónde y para qué correr

126

Considere, por ejemplo, una rata hambrienta aprendiendo a correr de un extremo a otro de una pista por un poco de comida. Una rata experimentalmente ingenua en un principio es lenta para correr a lo largo de toda la pista. Sin embargo, esto no sucede porque haya ingresado al experimento sin la habilidad motora de correr. A las ratas no se les tiene que enseñar a correr, al igual que a los niños no se les enseña a caminar. Lo que sí debe enseñárseles es hacia dónde y para qué correr. En una pista recta, el procedimiento de condicionamiento instrumental proporciona el control del estímulo y la motivación para correr. Esto no establece correr como una nueva respuesta en el repertorio del participante. Construir nuevas respuestas a partir de componentes familiares La respuesta instrumental de presionar una palanca es algo distinta a la de correr. Una rata experimentalmente ingenua quizá nunca haya encontrado una palanca antes y tal vez nunca tuvo una respuesta de presionar alguna palanca. A diferencia de correr, presionar una palanca tiene que aprenderse en una situación experimental. ¿Pero tiene que ser aprendido desde cero? Difícilmente. Una rata no entrenada no es tan ingenua respecto a presionar una palanca como podría pensarse. Presionar una palanca consiste en varios pasos a seguir: balancearse en las patas traseras, extender una pata hacia adelante por encima de la palanca y, después, bajar la pata con suficiente fuerza para presionar la palanca y activar el micro interruptor. Las ratas llevan a cabo respuestas muy similares a estos pasos en varios momentos cuando exploran sus jaulas, cuando se exploran entre ellas o cuando manejan bolitas de comida. Lo que deben aprender en la situación de condicionamiento operante es cómo juntar los diversos componentes de la respuesta para poder así presionar la palanca. Presionar una palanca es una nueva respuesta sólo en el sentido de que involucra nuevas combinaciones de componentes de respuesta que ya existen en el repertorio del participante. En este caso, el condicionamiento instrumental implica la construcción o síntesis de una nueva unidad conductual a partir de componentes de respuesta preexistentes (Balsam et al., 1998). Moldear nuevas respuestas ¿Puede usarse también el condicionamiento instrumental para condicionar respuestas completamente nuevas -respuestas que un individuo jamás realizaría sin condicionamiento instrumental? Por supuesto. El condicionamiento instrumental se utiliza para moldear mejoras en el desempeño en los deportes, el patinaje sobre hielo, el ballet y la música -proezas que casi desafían a la naturaleza. Un perro policía puede ser entrenado para trepar un obstáculo vertical de 12 pies, un velocista puede aprender a correr una milla en cuatro minutos y un profesional del golf puede aprender a que con un solo golpe la pelota llegue a 200 yardas. Dichas respuestas son extraordinarias ya que difieren por completo a lo que otra persona podría hacer sin entrenamiento especial. En un procedimiento de condicionamiento instrumental, el individuo tiene que llevar a cabo la respuesta requerida antes de que el resultado o reforzador se entregue. Dada esta restricción, ¿cómo se pueden emplear los procedimientos

127

instrumentales para condicionar respuestas que nunca se presentan por sí mismas? El aprendizaje de respuestas completamente nuevas es posible a causa de la variabilidad de la conducta. Esta última es, quizá, el rasgo más obvio de la conducta. Los organismos casi nunca hacen lo mismo dos veces exactamente de la misma manera. La variabilidad de la respuesta usualmente se considera indeseable pues refleja falta de precisión y hace que predecir la conducta sea difícil. No obstante, para aprender nuevas respuestas, la variabilidad es de mucha ayuda. En el condicionamiento instrumental, la entrega de un reforzador (p. ej., una bolita de comida) no tiene como resultado la repetición exacta de la misma respuesta que produjo el reforzador. Si una rata, por ejemplo, es reforzada con una bolita de comida por presionar la palanca con una fuerza de dos gramos, no presionará la palanca con la misma fuerza después. A veces responderá con menos presión y, otras, con más. El primer panel de la figura 7-5 muestra la distribución de respuestas en un experimento donde presionar la palanca sólo se refuerza si se utiliza una fuerza mayor a dos gramos. Observe que muchas, pero no todas las respuestas exceden el criterio de los dos gramos. Sólo pocas respuestas exceden una fuerza de tres gramos, pero ninguna excede los cuatro gramos. A causa de que la variabilidad de la conducta incluye respuestas tan contundentes como los tres gramos, es posible cambiar el criterio de respuesta de manera que el reforzador sólo se proporcione si la rata presiona la palanca con una fuerza que exceda los tres gramos. Después de varias sesiones con este nuevo requerimiento de fuerza, la distribución de las presiones de palanca se verá de forma parecida a lo que se muestra en el segundo panel de la figura 7-5.

128

Figura 7-5. Frecuencia de las respuestas de presionar la palanca que involucran varios grados de fuerza. En el primer panel, sólo las respuestas mayores a los dos gramos tuvieron como resultado la entrega del reforzador. En el segundo panel, sólo las respuestas mayores a los tres gramos fueron reforzadas. En el tercer panel, sólo las respuestas mayores a cuatro gramos fueron reforzadas (los datos son hipotéticos).

Las respuestas continúan siendo variables después de este cambio en el requerimiento de respuesta. El aumento del requerimiento de fuerza mueve la distribución de ésta hacia la derecha de modo que la mayoría de las presiones de palanca excedan los tres gramos. Una consecuencia de este cambio es que la rata en ocasiones presiona la palanca con una fuerza de cuatro gramos o más. Observe que estas respuestas son por completo nuevas. No se presentaron de principio. Ya que se han obtenido respuestas que exceden los cuatro gramos, es momento de incrementar de nuevo el requerimiento de respuesta. Se debe cambiar el procedimiento de manera que sólo se otorgue la bolita de comida a las respuestas que tengan una fuerza de, por lo menos, cuatro gramos. Esto dará como resultado en la distribución de la fuerza hacia valores aún más altos, como se muestra en el tercer panel de la figura 7-5. Ahora, la mayoría de las respuestas exceden los cuatro

129

gramos y, en ocasiones, la rata presiona la palanca con una fuerza mayor a los cinco gramos. Las respuestas con dicha fuerza son muy diferentes a lo que la rata comenzó haciendo. Este procedimiento descrito se llama moldeamiento. El moldeamiento se utiliza cuando el objetivo es condicionar respuestas instrumentales que no existen en el repertorio conductual del participante. La nueva conducta se moldea a través de una serie progresiva de requerimientos de respuesta. Los requerimientos progresivos de respuesta conducen gradualmente al participante de su repertorio conductual de inicio hasta la respuesta objetivo (p. ej., Deich et al., 1988; Galbicka, 1988; Pear y Legris, 1987; Stokes et al., 1999). Al configurar un procedimiento de moldeamiento, el desempeño deseado final debe estar bien definido. Esto establece el objetivo o punto final del procedimiento de moldeamiento. Después, el repertorio conductual existente del participante tiene que ser documentado de modo que el punto de partida se entienda bien. Por último, debe diseñarse una secuencia de pasos de entrenamiento para conducir al participante de su conducta inicial a la respuesta objetivo final. La secuencia de los pasos de entrenamiento involucra aproximaciones sucesivas a la respuesta final. Por lo tanto, el moldeamiento se define como reforzamiento de aproximaciones sucesivas. El moldeamiento es útil no sólo para el entrenamiento de respuestas completamente nuevas sino también para el entrenamiento de nuevas combinaciones de componentes de respuesta existentes. Andar en bicicleta, por ejemplo, implica tres componentes de respuesta centrales: conducir, pedalear y mantener el equilibrio. Los niños que aprenden a andar en bicicleta por lo general inician por aprender a pedalear. Esto último es una nueva respuesta. Quizá no se parece a nada de lo que el niño ha hecho antes de subirse a una bicicleta. Con la finalidad de permitir que el niño aprenda a pedalear sin tener que equilibrarse, éste suele iniciar con un triciclo o una bicicleta con ruedas de entrenamiento. Mientras aprende a pedalear, posiblemente el niño no preste mucha atención a conducir y necesitará ayuda para asegurar que no choque con algo o se baje de la acera. Una vez que el niño ha aprendido a pedalear, está ahora listo para conducir. Sólo después de que el niño ha aprendido a combinar el pedaleo con la conducción, está preparado para el siguiente paso que es el equilibrio. Agregar el componente del equilibrio es la parte más difícil de la tarea. Es por ello que los padres, con frecuencia, esperan a que el niño aprenda a andar en una bicicleta con ruedas de entrenamiento antes de dejarlo andar sin ellas.

LA IMPORTANCIA DEL REFORZAMIENTO INMEDIATO El condicionamiento instrumental es, en principio, un proceso de selección de respuesta. La respuesta (o la combinación particular de componentes de respuesta) que tiene como resultado la entrega del reforzador se selecciona entre una variedad de acciones que realiza el organismo en la situación. Es crítico para este proceso de selección de respuesta que el reforzador sea entregado inmediatamente después de la respuesta deseada u objetivo. Si el reforzador se retrasa, otras actividades están obligadas a intervenir antes del reforzador y una de éstas podría ser reforzada en

130

lugar de la respuesta objetivo (figura 7-6).

Figura 7-6. Diagrama del reforzamiento inmediato y retardado de la conducta objetivo RX. R1, R2, R3, y R4 representan diferentes actividades del organismo. C representa la entrega del reforzador. Observe que cuando se retrasa el reforzamiento después de RX, se presentan otras respuestas de forma más cercana al reforzador.

Proporcionar un reforzador primario inmediatamente después de la respuesta objetivo no siempre es práctico. Por ejemplo, la oportunidad de ir al patio de juegos es un reforzador efectivo para los niños de escuela primaria. No obstante, sería disruptivo permitir a un niño que salga cada vez que termine un problema de matemáticas. Una aproximación más práctica sería entregar al niño una estrella por cada logro completado y, luego, intercambiar estas estrellas por la oportunidad de salir al patio de juegos. Con dicho procedimiento, el reforzador primario (acceso al patio de juegos) se retrasa después de la respuesta instrumental, pero la respuesta instrumental es seguida por un estímulo (la estrella) que está asociado con el reforzador primario. Un estímulo que está asociado con un reforzador primario se le llama reforzador condicionado o secundario. La entrega de un reforzador condicionado inmediatamente después de la respuesta instrumental permite superar la inoperancia del reforzamiento retardado en el condicionamiento instrumental (p. ej., Winter y Perkins, 1982). La ineficacia del reforzamiento retardado puede superarse presentando un estímulo de marcado inmediatamente después de la respuesta objetivo. Un estímulo de marcado no es un reforzador condicionado y no proporciona información respecto a una oportunidad futura de obtener reforzamiento primario. En lugar de esto, es una breve señal visual o auditiva que distingue a la respuesta objetivo de las otras actividades que quizá realizará el participante durante el intervalo de retraso. Así, el estímulo de marcado vuelve más memorable la respuesta instrumental y ayuda a superar los efectos nocivos del retraso en el reforzador (Lieberman et al., 1979; B. A. Williams, 1999).

MECANISMOS ASOCIATIVOS EN EL CONDICIONAMIENTO INSTRUMENTAL Una vez discutidas las principales cuestiones de procedimiento en el condicionamiento instrumental, se deben considerar los mecanismos asociativos subyacentes. El condicionamiento instrumental se distingue del condicionamiento pavloviano por sus diferencias de procedimiento. Se requiere una respuesta para la

131

procuración del reforzador en el condicionamiento instrumental, pero no en el condicionamiento pavloviano. Las dos formas de condicionamiento también pueden distinguirse con base en algunas (aunque no todas) asociaciones que se aprenden en el condicionamiento instrumental y pavloviano. La asociación R-C Metodológicamente, los eventos más obvios en el condicionamiento instrumental son la respuesta instrumental y el reforzador. La respuesta puede representarse con R y la consecuencia de la respuesta con C. Al tratarse sobre las relaciones que se aprenden en el condicionamiento instrumental, una asociación entre la respuesta instrumental y el reforzador puede ser la primera que venga a la mente. A esto se le llama asociación R–C. A pesar de que existe una fuerte evidencia de asociaciones R–C (Colwill y Rescorla, 1990; Hogarth y Chase, 2011; Ostlund et al., 2008), una asociación R–C por sí misma no es suficiente para explicar la aparición de la conducta instrumental. Una asociación R–C significa que llevar a cabo R activa el recuerdo de C. Una asociación R–C se lleva a cabo cuando la respuesta se realiza, pero eso no dice por qué se presenta la respuesta en primer lugar. Por lo tanto, una asociación R–C no es suficiente para explicar el inicio de una respuesta instrumental. La asociación E–R y la ley del efecto de Thorndike Desde el inicio de los esfuerzos teóricos más tempranos, los investigadores estuvieron conscientes de que hay más en una situación de condicionamiento instrumental que la mera respuesta y el resultado del reforzador. Thorndike señaló que los organismos experimentan un conjunto de estímulos únicos cuando llevan a cabo una respuesta instrumental. En los experimentos de Thorndike, dichos estímulos eran provistos por la caja problema en la que se colocaba a un participante al inicio de un ensayo de entrenamiento. Cada caja problema tenía características distintivas. Una vez que un participante era asignado a una caja problema, experimentaba un conjunto particular de señales cuando realizaba la respuesta de escape requerida. Esos estímulos pueden representarse como E. Thorndike propuso que, durante el curso del condicionamiento instrumental, llega a establecerse una asociación entre la respuesta R y los estímulos ambientales E (figura 7-7). De hecho, Thorndike creía que esta asociación E–R era lo único que se aprendía en el condicionamiento instrumental. Resumió su pensamiento en la ley del efecto, la cual afirma que el aprendizaje instrumental implica la formación de una asociación entre la respuesta instrumental R y los estímulos E en presencia de los cuales se lleva a cabo la respuesta. El reforzador entregado después de la respuesta sirve para hacer más fuerte o “estampar” la asociación E–R.

132

Figura 7-7. Diagrama de la asociación E−R en el condicionamiento instrumental.

La ley del efecto de Thorndike es contraintuitiva y, a menudo, caracterizada de manera incorrecta. Observe que, de acuerdo con la ley del efecto, el condicionamiento instrumental no involucra aprender a asociar la respuesta con el reforzador. No implica el establecimiento de una asociación R–C o aprender sobre el reforzador. En cambio, el condicionamiento instrumental tiene como resultado el establecimiento de una asociación E–R. El resultado del reforzador C es significativo sólo como un catalizador para el aprendizaje de la asociación E–R, pero no es una parte de esa asociación. La ley del efecto es una adaptación del concepto de conducta provocada al aprendizaje instrumental. La conducta provocada es una respuesta a un estímulo particular. De igual modo, la ley del efecto considera a la respuesta instrumental R como una respuesta al contexto de estímulos E. La ley del efecto proporcionó, así, una explicación causal bastante sencilla respecto a la conducta instrumental. Aunque fue propuesta hace más de un siglo, la ley del efecto continúa siendo prominente en los análisis contemporáneos de la conducta. Ya que E llega a producir R sin ningún proceso de intervención, la asociación E–R de la ley del efecto ha sido reconocida como el mecanismo primario responsable por las acciones habituales que realizan las personas de manera automática, sin mucho pensamiento o deliberación, como cepillarse los dientes o beber el café de la mañana (Duhigg, 2012; Wood y Neal, 2007). Un área importante de la investigación contemporánea en la que el mecanismo E–R de Thorndike juega un papel fundamental es el análisis de la drogadicción y otras formas de conducta compulsiva (Hogarth et al., 2013; Zapata et al., 2010). Sentarse en un bar y beber una copa de whisky es una respuesta instrumental. Las drogas de abuso se consumen de inicio a causa de sus efectos reforzadores. Sin embargo, con el uso habitual, el consumo de la droga se convierte en una reacción automática a las señales asociadas con la conducta. Un alcohólico sentado en un bar con una copa de whisky enfrente no puede resistir tomar un trago. La naturaleza compulsiva de la drogadicción refleja el control E–R de la conducta. El juego compulsivo y la conducta sexual compulsiva tienen rasgos similares. Una vez que las señales relevantes para la conducta se localizan, el mecanismo E–R influye en las intenciones cognitivas o la “fuerza de voluntad” para abstenerse. La asociación E–C

133

A pesar de que la relación E–R es interesante, ésta no opera de modo aislado. Otra relación importante que tiene sus raíces en el estudio de la conducta instrumental es la relación entre estímulos antecedentes E y la consecuencia del reforzador C (figura 7-8). Ya que la respuesta instrumental R tiene como resultado la entrega del reforzador C en presencia de señales contextuales particulares E, y esta última sirve como una señal confiable para C. Lo que provoca el aprendizaje de la asociación E– C (Hull, 1930, 1931).

Figura 7-8. Diagrama de la asociación E−C en el condicionamiento instrumental.

La asociación E–C es muy parecida a la asociación pavloviana estímulo condicionado-estímulo no condicionado (EC–ENC) y tiene algunas de las mismas consecuencias conductuales. Por ejemplo, el establecimiento de la asociación E–C hace que las respuestas condicionadas pavlovianas sean provocadas por E. Algo más importante para comprender la conducta instrumental, la asociación E–C significa que los procesos pavlovianos contribuyen al control de las respuestas instrumentales (Rescorla y Solomon, 1967). Estas contribuciones se presentan en Pavlovian-instrumental transfer experiments (Holmes et al, 2010). Los experimentos de transferencia pavloviana instrumental se han vuelto comunes en la neurociencia conductual como una manera de estudiar los efectos de la motivación con incentivos en la respuesta instrumental. Dichos experimentos por lo general tienen dos fases de entrenamiento y una fase de prueba de transferencia. Una fase de entrenamiento involucra el condicionamiento instrumental (p. ej., reforzar el presionar la palanca con comida). La segunda fase de entrenamiento implica al condicionamiento pavloviano (p. ej., emparejar un tono EC con comida). Como resultado del condicionamiento pavloviano, el tono llegará a activar el recuerdo de la comida y, así, creará el incentivo de comer. Los efectos de tal motivación con incentivo son evidentes durante la prueba de transferencia, cuando se encuentra que la presentación del tono pavloviano incrementa el presionar de la palanca reforzado con comida. Con anterioridad se mencionó otro ejemplo de transferencia pavloviana instrumental cuando se describió el procedimiento de supresión condicionada como una técnica para estudiar el condicionamiento del miedo (capítulo 4). En el procedimiento de supresión condicionada, se menciona que un EC pavloviano emparejado con un choque eléctrico suprime el presionar la palanca para obtener comida. Esto es lo opuesto de lo que sucede si el EC pavloviano está emparejado

134

con comida. Los resultados contrastantes ilustran que un EC pavloviano puede tanto facilitar como suprimir la respuesta instrumental para conseguir comida, dependiendo del grado hasta el cual sean compatibles las propiedades incentivadoras del EC pavloviano y las del reforzador instrumental (comida). La asociación E(R–C) Las tres relaciones de eventos que hemos considerado hasta ahora, R–C, E–R y E– C, son binarias o asociaciones directas entre pares de elementos de la situación de condicionamiento instrumental. Otra forma en la que E, R y C pueden llegar a relacionarse en el condicionamiento instrumental es a través de una relación de orden superior que puede referirse como la asociación E(R–C) (figura 7-9). Uno de los primeros científicos en reconocer la relación E(R–C) fue B. F. Skinner (1969).

Figura 7-9. Diagrama de la asociación E(R−C) en el condicionamiento instrumental.

Skinner enfatizó que, en el condicionamiento instrumental, la presentación del reforzador C es contingente a la ocurrencia previa de la respuesta R, no a la presencia previa de E. La relación R–C, no obstante, está vigente sólo en presencia de E. Por lo tanto, sugirió que se establece una relación de orden superior en la que E señala la existencia de la contingencia R–C o la prepara para la asociación R–C. Skinner se refirió a esto como contingencia de tres términos. Esta contingencia puede representarse como E(R–C). La relación E(R–C) en el condicionamiento instrumental es análoga a la relación de orden superior B(A–ENC) en el condicionamiento pavloviano, la cual se menciona en el capítulo 5. Las investigaciones experimentales de la estructura asociativa del condicionamiento instrumental han proporcionado evidencia para las cuatro asociaciones descritas: R–C, E–R, E–C y E(R–C). Entonces, la conducta instrumental no es una forma “simple” de aprendizaje sino que involucra un número de relaciones diferentes, las cuales contribuyen al control de las respuestas instrumentales de muchas maneras.

IMPLICACIONES DE LAS RESTRICCIONES BIOLÓGICAS EN 135

EL CONDICIONAMIENTO INSTRUMENTAL Entender la estructura asociativa del condicionamiento instrumental ayuda a resolver algunos de los problemas persistentes en el aprendizaje instrumental. En algunas de las cajas problema de Thorndike, los gatitos tenían que bostezar o rascarse para que se les dejara salir (Thorndike, 1911). El aprendizaje procedía con lentitud en esas cajas. Incluso después de un entrenamiento extenso, los gatitos no llevaban a cabo respuestas vigorosas y bona fide de bostezar, en lugar de eso, realizaban rápidos bostezos abortivos. Thorndike obtuvo resultados similares cuando se requería que los gatitos se rascaran para ser sacados de la caja. En este caso, los gatitos hacían intentos rápidos y sin entusiasmo de rascarse. Estos ejemplos ilustran el descubrimiento general de que las respuestas de autocuidado y acicalamiento son difíciles de condicionar con reforzamiento de alimento. Otra categoría de conducta instrumental que es difícil de condicionar con reforzamiento alimenticio es dejar caer una moneda o ficha. Dos estudiantes de posgrado de Skinner, Keller Breland y Marian Breland, quedaron fascinados con las posibilidades del entrenamiento animal e hicieron un negocio que proporcionaba animales entrenados para ser exhibidos en parques de diversiones, escaparates de tiendas departamentales y zoológicos. Como parte de su negocio, los Brelands entrenaron numerosas especies de animales para hacer muchas cosas entretenidas (Breland y Breland, 1961). Para una demostración, trataron de hacer que un cerdo levantara una moneda y que la depositara en una alcancía de cochinito para obtener comida. Aunque el cerdo hizo lo que debía unas pocas veces, conforme progresó el entrenamiento se volvió reacio a soltar la moneda y, en su lugar, la arrastraba por el suelo. La conducta de arrastrar se volvió predominante y el proyecto tuvo que ser abandonado. Los Brelands llamaron a esto “mala conducta”, porque era contrario al resultado que debería haber ocurrido con base en los principios del condicionamiento instrumental. Subsecuentemente, otros nombraron ejemplos de conductas similares como restricciones biológicas para el aprendizaje. Diversos factores son quizá responsables por las restricciones para el aprendizaje que se han encontrado en el condicionamiento de las conductas de acicalado y de soltar monedas (Shettleworth, 1975). Uno de los factores más importantes parece ser el desarrollo de asociaciones E–C en estos procedimientos de condicionamiento instrumental (Timberlake et al., 1982). En la tarea de soltar la moneda, esta última se asocia con el reforzador de la comida y sirve como un estímulo E en la asociación E–C. En el reforzamiento instrumental del acicalamiento, el estímulo E es provisto por las señales contextuales de la situación de condicionamiento. Debido a que las asociaciones E–C son muy parecidas a las asociaciones pavlovianas entre EC y ENC, las respuestas condicionadas pavlovianas relacionadas con el reforzador llegan a ser provocadas por E. Las respuestas pavlovianas condicionadas consisten en aproximar y manipular el estímulo condicionado. Estas respuestas anticipatorias a la comida son incompatibles con el autocuidado y el acicalamiento. También son incompatibles con soltar y abandonar, así, una moneda que ha llegado a señalar la disponibilidad de comida.

136

IMPLICACIONES DEL CONDICIONAMIENTO INSTRUMENTAL PARA LOS MECANISMOS NEURONALES La complejidad de la estructura asociativa del aprendizaje instrumental plantea serios retos para los científicos que intentan descubrir los mecanismos neuronales y los circuitos neuronales subyacentes a la conducta instrumental. Esta situación es diferente a la del condicionamiento pavloviano. Como se menciona en los capítulos 4 y 5, existen tanto formas simples como complejas de condicionamiento pavloviano. Las formas simples del condicionamiento pavloviano excitatorio están mediadas sólo por una asociación E-E. Las formas más complejas implican relaciones de orden superior, B(A–ENC). Sin embargo, pueden examinarse los mecanismos neuronales de las asociaciones E–E mediante procedimientos que no involucren relaciones de orden superior B(A–ENC). Desafortunadamente, tal simplificación procedimental no es posible para los estudios de condicionamiento instrumental. El aprendizaje instrumental implica asociaciones binarias (E–R, E–C y R–C), así como la relación de orden superior E(R–C). Además, no puede diseñarse un procedimiento de condicionamiento instrumental que involucre una de estas asociaciones al grado de excluir las otras. Es decir, no puede diseñarse un procedimiento instrumental que permita asociaciones E–C sin permitir asociaciones R–C, ya que una de las características inherentes al condicionamiento instrumental es que la entrega de C es contingente a R. Tampoco puede crearse un procedimiento instrumental que permita asociaciones E–R sin permitir asociaciones R–C y E(R– C). Por último, no puede diseñarse un procedimiento que sólo tenga como resultado una asociación R–C porque tan pronto como se defina una respuesta, también se habrán definido un conjunto de señales E que se presentan cuando se lleva a cabo la respuesta. La única forma de aislar una de las asociaciones hasta excluir las otras es empleando diseños experimentales complejos que mantengan constantes todas, excepto una de las asociaciones subyacentes (Colwill y Rescorla, 1990). Por ejemplo, es posible entrenar a dos grupos de participantes con procedimientos que produzcan asociaciones E–R y E–C idénticas, pero asociaciones R–C distintas. Averiguar cómo variar con éxito una asociación y, al mismo tiempo, mantener todas las demás iguales puede ser un gran reto. Ésta puede ser una de las razones por las que se sabe mucho más acerca de los mecanismos neuronales del condicionamiento pavloviano de aquello sobre los mecanismos neuronales del condicionamiento instrumental.

RESUMEN En el condicionamiento instrumental, la entrega de un evento biológicamente significativo o reforzador depende de la ocurrencia previa de una respuesta instrumental u operante específica. La conducta instrumental puede ser una respuesta preexistente que el organismo debe desempeñar en una nueva situación, un conjunto de componentes de respuesta familiares que el organismo debe

137

organizar en una combinación desconocida o una actividad completamente nueva para el organismo. El aprendizaje exitoso para cada caso requiere entregar el reforzador inmediatamente después de la respuesta instrumental o proporcionar un reforzador condicionado o un estímulo de marcado inmediatamente después de la respuesta. El condicionamiento instrumental fue examinado por primera vez por Thorndike, quien desarrolló procedimientos de ensayos discretos que le permitieron medir cómo cambia la latencia de una respuesta instrumental con ensayos de entrenamiento sucesivos. Los esfuerzos de Skinner para automatizar el procedimiento de ensayos discretos condujeron a desarrollar el método operante libre, que permite la medición de la probabilidad o tasa de una conducta instrumental. Tanto el procedimiento de ensayos discretos como el operante libre consisten en tres componentes: estímulos contextuales E, la respuesta instrumental R, y el resultado del reforzador C. El reforzamiento de R en la presencia de E permite el establecimiento de cuatro tipos de asociaciones: E–R, E–C, R–C y E(R– C). Ya que estas asociaciones no pueden separarse unas de otras, investigar la neurofisiología del aprendizaje instrumental es más difícil que estudiar la neurofisiología del condicionamiento pavloviano. Más aún, la asociación E–C puede crear graves restricciones para las respuestas en el condicionamiento instrumental.

LECTURAS SUGERIDAS Cole, M. R. (1999). Molar and molecular control in variable-interval and variable-ratio schedules. Journal of the Experimental Analysis of Behavior, 71, 319–328. http://dx.doi.org/ 10.1901/jeab.1999.71-319 Dallery, J., & Soto, P. L. (2013). Quantitative description of environment–behavior relations. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and principles (pp. 219–250). Washington, DC: American Psychological Association. Jozefowiez, J., & Staddon, J. E. R. (2008). Operant behavior. In J. H. Byrne (Ed.), Learning and memory: A comprehensive reference: Vol. 1. Learning theory and behavior (pp. 75–102). Oxford, England: Elsevier. Vandervelt, A., Oliveira, L., & Green, L. (2016). Delay discounting: Pigeon, rat, human— Does it matter? Journal of Experimental Psychology: Animal Learning and Cognition, 42, 141–162. http://dx.doi.org/10.1037/xan0000097 Términos técnicos Asociación E(R–C) Asociación E–C Asociación E–R Asociación R–C Caja problema Condicionamiento instrumental Condicionamiento operante Conducta instrumental Conducta operante Estímulo de marcado Laberinto en T Ley del efecto Método de ensayos discretos Método operante libre Moldeamiento Pista recta Reforzador Reforzador condicionado

138

Reforzador secundario Restricciones para el aprendizaje Tasa de respuesta

139

Capítulo 8

140

Programas de reforzamiento Sabía usted que: • ¿Los programas de reforzamiento determinan las tasas y los patrones de respuesta? • ¿Los programas de razón producen tasas de respuesta más altas en comparación con los programas de intervalo? • ¿Los programas de intervalo no proporcionan el reforzador de manera automática después de que ha pasado un intervalo de tiempo específico? • ¿Los resultados de los programas están relacionados con la función de retroalimentación que caracteriza a cada programa de reforzamiento? • ¿Algunos programas de reforzamiento se enfocan en la opción y proporcionan reforzamiento para dos (o más) respuestas alternativas? • ¿La ley de igualación describe el comportamiento de elección? De acuerdo con la ley de igualación, las tasas relativas de respuesta son iguales a las tasas relativas de reforzamiento. • ¿El autocontrol se investiga a través de la utilización de programas de reforzamiento concurrentes? • ¿El valor de una recompensa disminuye en función del tiempo de espera? En el capítulo 7 se describieron ejemplos del condicionamiento instrumental, se infirió que se entrega el resultado del reforzamiento cada vez que hay una respuesta instrumental requerida. Las situaciones naturales en la que existe un vínculo causal directo entre la respuesta instrumental y su reforzador se aproximan a este ideal. Casi siempre que se abre la llave del grifo sale el agua; la mayoría de las veces que se envía un mensaje de texto a un amigo, éste es entregado; la mayoría de las veces que se compra en la repostería se come algo delicioso. Sin embargo, hasta en casos como estos, la relación entre llevar a cabo la respuesta y obtener el reforzador no siempre es perfecta. Tal vez la tubería principal podría estar rota o el teléfono no funcione y la repostería podría estar rancia. En muchas de las situaciones de condicionamiento instrumental, no todas las respuestas instrumentales producirán con éxito el reforzador. Que un incidente en específico de una respuesta instrumental proporcione el reforzador puede depender de diversos factores. Algunas veces, la respuesta se tiene que repetir en diversas ocasiones antes de que el reforzador se entregue. En otras situaciones, la respuesta sólo se refuerza después de que ha pasado cierto tiempo. En otros casos, tanto la repetición de la respuesta como el paso del tiempo son críticos. A la regla que especifica qué incidente de la respuesta instrumental se refuerza se le llama programa de reforzamiento. Los programas de reforzamiento han sido de gran interés para determinar muchos aspectos del comportamiento instrumental (Ferster y Skinner, 1957; Jozefowiez y Staddon,2008). La tasa de crecimiento y el patrón de respuestas, al igual que la persistencia en la extinción, están determinadas por el programa de reforzamiento.

141

Los cambios triviales en un programa de reforzamiento pueden producir resultados profundos dependiendo de la frecuencia con que responde un organismo y cuándo realiza una actividad en vez de otra. La programación del reforzamiento determina la persistencia del comportamiento instrumental en la extinción, es decir, cuando el reforzamiento ya no está disponible.

EL REGISTRO ACUMULATIVO De manera típica se investigan las tasas de crecimiento y los patrones de respuestas producidas por varios programas de reforzamiento a través de la utilización de procedimientos operantes libres. Las computadoras se programan para que registren las incidencias de las respuestas operantes (que las ratas accionen las palancas) y también calculan qué palanca accionada está siendo reforzada. Las sesiones de entrenamiento tienen una duración de casi una hora diaria y, por lo regular, se realizan numerosas sesiones. Después de una extensa experiencia con algún programa de reforzamiento específico, las tasas de crecimiento y los patrones de respuesta se estabilizan. Estos resultados se presentan de manera conveniente en términos de un registro acumulativo. Un registro acumulativo es una gráfica especial en la cual el eje horizontal representa el transcurso del tiempo y el eje vertical representa el total o el número acumulativo de respuestas que se han realizado durante un momento específico (figura 8-1). Si el participante no responde durante algún tiempo, su número total o acumulativo de respuestas permanece igual y la línea en el registro acumulativo es horizontal, como se muestra entre los puntos A y B de la figura 8-1. Cada respuesta es añadida al total previo. Por lo tanto, cada vez que el participante responda, el registro acumulativo aumenta. Ya que las respuestas no se pueden eliminar, el registro acumulativo jamás baja.

142

Figura 8-1. Registro acumulativo utilizado para representar los patrones de respuesta a lo largo del tiempo. No hay respuestas entre los puntos A y B. Una tasa baja de respuesta ocurre entre los puntos B y C. Una tasa de respuesta alta ocurre entre los puntos C y D, después del punto D, ya no hay más respuestas.

La cuesta del registro acumulativo tiene un significado especial. La cuesta se calcula al dividir el desplazamiento vertical entre dos puntos de la gráfica por el desplazamiento horizontal de esos mismos puntos. El desplazamiento vertical en un registro acumulativo refleja el número de respuestas y el desplazamiento horizontal muestra el tiempo. Entonces, la cuesta del registro acumulativo representa las respuestas por unidad de tiempo o la tasa de respuesta. Las tasas bajas de respuesta producen una cuesta poco pronunciada en el registro acumulativo (del punto B al punto C en la figura 8-1). Las tasas de respuesta altas dan como resultado una cuesta más pronunciada (del punto C al punto D en la figura 8-1).

PROGRAMAS DE REFORZAMIENTO SIMPLES En las programaciones simples de reforzamiento, qué incidente de respuesta se refuerza depende ya sea del número de repeticiones de la respuesta desde el último reforzador o de cuánto tiempo ha pasado desde el último reforzador. Si el número de repeticiones de las respuestas es el factor crítico para calcular el reforzamiento, entonces al procedimiento se le llama programa de razón. Si el tiempo de respuesta desde el último reforzador es el factor crítico, al procedimiento se le llama programa de intervalo. En ambos casos, el participante no recibe el reforzador a menos que responda.

143

Programas de razón En los programas de razón lo único que determina si una respuesta es reforzada es el número de repeticiones de la respuesta por parte del participante desde su último reforzador. Cuánto tiempo tomó el participante en realizar las respuestas no importa. Hay dos versiones básicas de programas de razón: el fijo y el variable. En un programa de razón fija, el participante debe repetir la respuesta un número determinado de veces para cada entrega del reforzador. Por ejemplo, cada vez que un alumno de tercero de primaria complete una hoja de cuatro problemas matemáticos recibirá una estrella; esto sería un programa de reforzamiento fijo de cuatro FR4 (abreviado por sus siglas en inglés) . Los programas de razón fija suceden en situaciones en las cuales siempre existe un número fijo de esfuerzo requerido para completar una labor o para obtener un reforzador. El pasar lista de asistencia en una clase requiere siempre leer los mismos nombres. El telefonear a alguien siempre requiere marcar los mismos números. Ascender por las mismas escaleras requiere siempre subir el mismo número de escalones. Todos éstos son ejemplos de programas de razón fija. El lado izquierdo de la figura 8-2 ilustra el patrón estable de las respuestas que son el resultado de reforzar un comportamiento con un programa de reforzamiento de razón fija. Las marcas verticales del registro representan la entrega del reforzador. Dos características del patrón de respuesta FR son destacables. Primero, se notó que después de cada marca o reforzador, la tasa de respuesta es cero. El participante ya no responde. A esto se le llama pausa posrefuerzo. Después de la pausa de posrefuerzo, hay una tasa alta de respuestas fijas y estables hasta la siguiente entrega del reforzador. A esto se le llama razón de la corrida.

144

Figura 8-2. Resultados típicos del entrenamiento con programas de reforzamiento de razón fija y variable. Los datos se obtuvieron con palomas que picoteaban una tecla de respuesta en un programa de razón fija (FR) de 120 para el reforzamiento con alimento y un programa de razón variable (VR) de 360. Las marcas verticales indican cuándo se entregó el reforzador. De Ferster y Skinner (1957).

Como se ilustra en la figura 8-2, los programas de razón fija producen un patrón de respuesta de pausa y corrida. Ya sea que el participante no responda del todo (durante la pausa de posrefuerzo), o esté respondiendo de una manera estable y con una tasa alta (durante la razón de la corrida). La duración de la pausa de posrefuerzo se determina por la razón requerida. Los requerimientos de tasas más altas dan como resultado pausas de posrefuerzo más largas (D. C. Williams, et al., 2011). Un programa de razón variable es similar a un programa de razón fija porque comparten el único requisito para el reforzamiento: contestar un cierto número de veces, sin importar cuánto tiempo lleve hacerlo. La diferencia entre los programas de proporción fija y variable es que, en el programa de proporción variable el número de respuestas requeridas varía entre las entregas de cada reforzador. Por ejemplo, cuando se hace putting al jugar golf, el reforzamiento es que la bola entre en el hoyo. Alguna vez, podría suceder que la bola entre en el primer intento. Pero, a menudo, tendrá que pegarle varias veces a la pelota antes de que ésta entre en el hoyo. Que la bola entre en el hoyo solo depende de pegarle a la bola con el putter. Cuánto tiempo se tome entre intentos es irrelevante. Esto es, por lo tanto, un programa de razón. Pero, el número de veces que se requiera pegarle a la bola con el putter varía entre hoyos, esto lo hace un programa de razón variable. Un programa de razón variable se abrevia como VR (por sus siglas en inglés). Si en promedio se necesita pegarle tres veces a la pelota para que entre en el hoyo esto

145

sería un programa de reforzamiento VR 3. El resultado típico de un programa de razón variable se ilustra en el panel derecho de la figura 8-2. A diferencia de los programas de razón fija, los programas de razón variable producen respuestas estables y de tasas altas sin pausas predecibles (Crossman et al., 1987). Programas de intervalo A diferencia de los programas de razón, donde el paso del tiempo es irrelevante; en los programas de intervalo el tiempo es un factor crítico. En específico, si una respuesta es reforzada depende de cuándo ocurre después del comienzo del ciclo de intervalo. Al igual que con los programas de razón, hay dos tipos de programas de intervalo prominentes: el fijo y el variable. En un programa de reforzamiento de intervalo fijo tiene que pasar un tiempo específico antes de que la respuesta sea reforzada. Los programas de intervalo fijo se llevan a cabo en situaciones donde se requiere que pase cierto tiempo para que el reforzador esté listo. Considere lo siguiente: para preparar un postre de gelatina (p. ej., Jell-O). Luego de mezclar los ingredientes, el Jell-O debe de enfriarse en el frigorífico durante cierto tiempo antes de que se pueda comer. En este ejemplo, la respuesta instrumental es sacar de la nevera el Jell-O para comerlo. Si se saca del refrigerador el Jell-O antes de tiempo, estará demasiado aguado y, por lo tanto, la respuesta no se reforzará. Los intentos de comerse el Jell-O antes de que se solidifique no se reforzarán. Otra característica importante de este ejemplo (y de los programas de intervalo en general) es que una vez que el reforzador esté listo, estará disponible hasta que el individuo reaccione y lo obtenga. Una vez que el Jell-O esté listo, no tiene que comerse de inmediato. El postre estará ahí incluso si se espera hasta el siguiente día para comerlo. En un programa de reforzamiento de intervalo fijo tiene que pasar un tiempo determinado antes de que el reforzador esté disponible. Sin embargo, el reforzador no está disponible de manera automática después de que haya pasado el intervalo fijo. Para obtener el reforzador la respuesta específica instrumental se debe llevar a cabo. Las respuestas tempranas no tienen consecuencia. No hacen que el reforzador esté listo antes, ni tampoco resultan en una penalización. Al final, el reforzador se puede obtener en cualquier momento después de que esté listo. En un programa de intervalo simple, el participante no tiene que responder durante un límite de tiempo una vez que el reforzador esté disponible. Los programas de intervalo fijo se abrevian como FI (por sus siglas en inglés) y les sigue el número que indique la duración del intervalo fijo, durante el cual la respuesta no se refuerza. La figura 8-3 muestra los datos obtenidos de una paloma que picoteaba una tecla de repuestas para un programa de reforzamiento de alimento de tipo de operante libre FI 4-minutos. Con este programa, la entrega del reforzador al final de un intervalo fijo daba inicio al siguiente ciclo. Pasados los cuatro minutos del ciclo, el reforzador estaba disponible de nuevo y era entregado si la paloma picoteaba la tecla de respuesta.

146

Figura 8-3. Resultados típicos del entrenamiento con un programa de reforzamiento de intervalo fijo FI y con un programa de reforzamiento de intervalo variable VI. Los datos se obtuvieron de un programa de reforzamiento con comida FI 4-minutos y VI 2-minutos con palomas que picoteaban una tecla de respuesta. Las marcas verticales indican cuándo se entregó el reforzador. De Ferster y Skinner (1957).

El patrón de respuesta de un programa de intervalo fijo es similar a lo que sucede en un programa de razón fija. Hay pocas o ninguna respuestas al principio del intervalo fijo. Debido a que el intervalo comienza justo después de la entrega del último reforzador, a esta falta de respuesta se le llama la pausa posrefuerzo. Las respuestas aumentan cuando se aproxima el fin del intervalo, el participante responde con una tasa más alta mientras que está terminando el intervalo fijo. El responder de manera eficiente en un programa de intervalo fijo requiere precisión en la percepción de tiempo. Por esta razón, los programas de intervalo fijo se utilizan con frecuencia para estudiar los mecanismos cognitivos involucrados en medir el paso del tiempo (Balci et al., 2009). Los programas de intervalo variable son similares a los programas de intervalo fijo excepto que el tiempo que se requiere para preparar el reforzador varía entre cada ensayo. La respuesta de verificar si un profesor ha terminado de calificar un ensayo se refuerza con un programa de intervalo variable. Se requiere de cierto tiempo para calificar un ensayo, pero el tiempo varía dependiendo la tarea. Verificar si el ensayo ha sido calificado se refuerza sólo después de que cierto tiempo ha pasado desde que empezó el ciclo del programa. Las respuestas tempranas (verificar antes de que se haya terminado de calificar) no son reforzadas. De manera contrastante, uno obtendrá la calificación del ensayo en cualquier momento después de que este haya sido calificado. Los programas de intervalo variable se abrevian como VI (por sus siglas en inglés), les sigue un número que indica el promedio de la duración de los intervalos

147

que no son reforzados. La figura 8-3 muestra los datos que se obtuvieron de una paloma que picoteaba la tecla de repuesta en un programa de reforzamiento de comida de tipo operante libre VI 2 minutos. Bajo este programa, el reforzador estaba disponible dos minutos después, en promedio, del comienzo de cada ciclo. Responder bajo programas de intervalo variables es similar a responder en los programas de reforzamiento VR. En ambos casos, se presenta una tasa de comportamiento fija, sin pausas predecibles y sin cambios en las tasas de tiempo. Sin embargo, los programas de intervalo tienen la tendencia a producir tasas de respuesta más bajas en comparación de los programas de razón. En los programas de intervalo simple, una vez que el reforzador está disponible, este permanecerá ahí hasta que el individuo pueda responder y obtenerlo. Entonces el ciclo comenzará de nuevo. Un ejemplo del programa de intervalo variable es revisar los mensajes de texto del celular. Los mensajes se reciben con intervalos de tiempo impredecibles. El verificar si han llegado nuevos mensajes no hace que éstos lleguen pronto ni tampoco produce más mensajes. Además, una vez que un mensaje se ha recibido no se tiene que leer de manera inmediata. El mensaje estará disponible incluso si se decide leerlo horas más tarde. Los programas de intervalo siempre pueden ser modificados para que, una vez que el reforzador esté listo, este permanezca disponible sólo por cierto tiempo. Este intervalo limitado se llama, margen limitado. Por ejemplo, se requiere de cierto tiempo para hornear unas galletas. Pero, una vez que el tiempo requerido pase, si no se sacan las galletas del horno se quemarán. Por lo tanto, hornear es un programa de intervalo fijo con un margen limitado. El reforzador tiene un “límite” de cierto tiempo después de que está disponible y para que la respuesta se refuerce se debe llevar a cabo durante este periodo límite. El añadir un margen limitado a un programa de intervalo aumenta la tasa de respuestas, siempre y cuando el margen no sea tan corto como para que el participante pierda con frecuencia los reforzadores.

MECANISMOS DEL DESEMPEÑO EN LOS PROGRAMAS Un concepto clave del análisis de los mecanismos de los efectos de los programas es la función de retroalimentación, la cual define al programa. A la entrega de un reforzador en un procedimiento instrumental puede considerársele como la retroalimentación de la respuesta instrumental. Los programas de reforzamiento determinan cómo esta retroalimentación se ordena. Una manera de describir este orden es mostrando cómo la tasa del reforzamiento que se obtuvo está relacionada con la tasa de respuestas. A esta relación se le llama función de retroalimentación. Funciones de retroalimentación para los programas de razón Las funciones de retroalimentación para los programas de razón tal vez sean las más fáciles de comprender. En un programa de razón, qué tan rápido (y qué tan a menudo) el organismo recibe el reforzador se calcula sólo por qué tan rápido el número de respuestas requeridas es llevado a cabo. Entre más rápido el individuo complete la razón requerida, más rápido obtendrá el reforzador.

148

La figura 8-4 muestra ejemplos de la función de retroalimentación para varios programas de razón. En un programa de reforzamiento continuo FR 1, el participante es reforzado cada vez que lleva a cabo la respuesta instrumental. Por lo tanto, la tasa de reforzamiento es igual a la tasa de respuesta. Esto resulta en una función de retroalimentación con una cuesta de 1.0.

Figura 8-4. Funciones de retroalimentación para los programas de reforzamiento de razón. Nótese que cada función de retroalimentación es una línea recta. Debido a esto, cada aumento en la tasa de respuesta tiene como resultado el aumento correspondiente en la tasa de reforzamiento. FR: razón fija (por sus siglas en inglés).

Si se requiere más de una respuesta para el reforzamiento, la tasa de reforzamiento será menor que la tasa de respuesta y la cuesta de la función de retroalimentación será menor a 1.0. Por ejemplo, en un programa de reforzamiento FR 5, el participante recibe un reforzamiento cada cinco respuestas. Bajo estas circunstancias, la tasa del reforzamiento corresponde a una quinta parte de la tasa de

149

respuesta y la cuesta de la función de retroalimentación es de 0.2. A pesar de esta cuesta, la función de retroalimentación para un programa de razón siempre será una línea recta. Por este motivo, un aumento en la tasa de respuesta siempre produce un aumento en la tasa de reforzamiento. Esto es cierto para ambos programas de razón fija y variable. Funciones de retroalimentación para los programas de intervalo Los programas de intervalo tienen funciones de retroalimentación que se diferencian de manera clara con respecto a las de los programas de razón. La figura 8-5 muestra la función de retroalimentación para un programa de reforzamiento de tipo VI 3-minutos. En un programa como éste el reforzador está disponible, en promedio, tres minutos después de su última entrega. Por lo tanto, no importa qué tan a menudo o qué tan rápido responda el organismo, el número máximo de reforzadores que puede obtener son veinte por hora.

Figura 8-5. Función de retroalimentación para un programa de reforzamiento de intervalo variable de tres minutos. Se asume que las respuestas están distribuidas al azar durante un determinado tiempo. Nótese que no importa qué tan rápido el organismo responda, la tasa de reforzamiento máxima es de veinte por hora.

Al igual que sucede con los programas de razón, si el participante no responde en un programa de intervalo entonces no obtendrá reforzadores. El incremento en la tasa de respuesta sobre cero aumentará las posibilidades de obtener los reforzadores

150

disponibles. Hasta cierto punto, el aumento en respuestas se ve acompañado por tasas más altas de reforzamiento. Sin embargo, una vez que el participante responda de manera seguida para obtener los veinte reforzadores que puede lograr en una hora, cualquier otro aumento en la tasa no lo beneficiará. De este modo, la función de retroalimentación para un programa de intervalo se vuelve plana una vez que la máxima tasa de reforzamiento posible es alcanzada. Funciones de retroalimentación y desempeño en el programa Un sorprendente hecho sobre la conducta instrumental es que los programas de razón producen tasas de respuesta más altas de forma considerable en comparación con los programas de intervalo, incluso si la tasa de reforzamiento es equiparable en los dos casos (Raia et al., 2000; Reynolds, 1975). Por qué los programas de razón producen tasas de respuesta más altas en comparación con los programas de intervalo está relacionado con las diferencias de las funciones respectivas de retroalimentación. Debido a que la función de retroalimentación para un programa de intervalo alcanza un máximo en una tasa de respuesta en específico, los aumentos en las respuestas más allá de ese punto no proporcionan ningún otro beneficio. Por lo tanto, los aumentos en la tasa de respuesta no se refuerzan de manera diferente a partir de un punto en específico en los programas de intervalo. De manera contrastante, no existe tal límite en los programas de razón. En los programas de razón, los aumentos en las tasas de respuesta siempre dan como resultado una tasa más alta de reforzamiento. No existe límite para el reforzamiento diferencial en las tasas altas de respuesta. Entonces, los programas de proporción pueden producir tasas más altas de respuesta por que dichos programas refuerzan de manera diferencial las tasas de respuestas altas sin límite. Aunque las funciones de retroalimentación han tenido un papel importante en los esfuerzos para explicar el desempeño en los programas, tienen algunas limitaciones conceptuales. Un problema serio es que las funciones de retroalimentación a veces son difíciles de describir. Esto es cierto en especial para los programas basados en los intervalos. En los programas de intervalo, el reforzamiento depende no sólo de la tasa de respuesta sino que también depende de cómo las respuestas se distribuyen a lo largo de un cierto lapso. La función de retroalimentación para un programa VI 3-minutos se muestra en la figura 8-5; la función toma por sentado que las respuestas se distribuyeron de manera aleatoria a través del tiempo. Otros supuestos podrían alterar la porción que se incrementa al inicio de la función de retroalimentación. A pesar de estas complicaciones, muchos investigadores han encontrado que es útil pensar que el desempeño en el programa está determinado, en última instancia, por cómo los programas de reforzamiento proporcionan la retroalimentación de la conducta instrumental.

PROGRAMAS CONCURRENTES En los programas de reforzamiento que se han visto hasta ahora, el participante puede llevar a cabo una respuesta instrumental específica o no. Sólo se proporciona un manipulandum para la respuesta (una palanca o una tecla) y sólo las respuestas

151

en ese manipulandum son medidas y registradas. Debido a que los procedimientos no proporcionan respuestas alternativas diferentes, parecería que no implican una opción. No obstante, es interesante mencionar que todas las situaciones de condicionamiento instrumental sí incluyen la opción. Con los programas simples la opción es realizar la respuesta especificada por el programa de reforzamiento o desarrollar otra acción que no es parte del experimento. Los investigadores están convencidos de que una comprensión completa de la conducta instrumental requiere entender por qué los organismos escogen llevar a cabo una respuesta en vez de otra. Por desgracia los programas de reforzamiento simple no son buenos para analizar el mecanismo de opción. En los programas simples la alternativa a la respuesta instrumental, “el hacer otra acción”, no está especificado y no se mide. Estos defectos se remedian en los programas concurrentes. Los programas concurrentes de reforzamiento proporcionan respuestas alternativas bien definidas y bien medidas. Por lo tanto, los programas concurrentes son más adecuados para estudiar cómo los organismos seleccionan realizar una actividad y no otra. Como es de sospecharse, si se decide realizar una u otra acción depende de los beneficios de cada actividad. En la terminología del condicionamiento, qué tan a menudo uno realiza la actividad A en vez de la actividad B dependerá del programa de reforzamiento para la respuesta A, en comparación con el programa de reforzamiento para la respuesta B. En el patio de juegos infantiles Joe puede jugar con Peter, el cual goza de la actividad física vigorosa, también Joe podría jugar con Matt, que prefiere jugar con tranquilidad en el cajón de arena. Si Joe no disfruta jugar con Peter, entonces puede ir a jugar con Matt. En el laboratorio se utilizan los programas concurrentes como modelo de este tipo de elección. En un programa concurrente, por lo menos hay dos respuestas alternativas, la A y la B (figura 8-6). Responder con la alternativa A se refuerza con un programa de reforzamiento (VI 5-minutos), mientras que responder con la alternativa B se refuerza con otro programa (VR 15). Ambas respuestas alternativas (y sus correspondientes programas de reforzamiento) están disponibles al mismo tiempo y el participante puede seleccionar una u otra actividad en cualquier momento. Debido a que las dos opciones están disponibles al mismo tiempo, a este procedimiento se le llama programa concurrente.

152

Figura 8-6. Diagrama de un programa concurrente de reforzamiento. Picotear la tecla de respuesta del lado izquierdo se refuerza con un programa de intervalo variable (VI) de 5-minutos. Picotear la tecla del lado derecho se refuerza con un programa de razón variable (VR) de 15. Ambas alternativas siempre están disponibles.

Numerosos factores determinan cómo un organismo distribuye su comportamiento entre dos respuestas alternativas. Estos factores incluyen el esfuerzo que cada respuesta requiere; el esfuerzo y el tiempo involucrados en cambiar de una respuesta a la otra; el atractivo del reforzador de cada respuesta y el programa de reforzamiento de cada respuesta. Los experimentos se deben diseñar con cautela para que los efectos de los diversos factores puedan ser estudiados sin que otras características de la elección en las situaciones generen confusión. Los estudios de laboratorio para los programas concurrentes a menudo se llevan a cabo con palomas. Una pared de la cámara experimental tiene dos teclas de respuesta a la altura de la cabeza del ave. Un alimentador se encuentra justo debajo y en medio de las dos teclas. Esta disposición tiene la ventaja de que ambas respuestas requieren del mismo esfuerzo. Aunque picotear la tecla derecha o la tecla izquierda se refuerza con diferentes programas, el reforzador en cada caso es el mismo tipo de alimento. Otra ventaja es que la paloma puede cambiar de forma sencilla de una respuesta a la otra porque las dos teclas de respuesta están muy cerca. Si se requiere del mismo esfuerzo para responder de manera alternativa, o si se utiliza el mismo reforzador para ambas respuestas y si cambiar de una alternativa a otra es bastante simple, entonces la distribución de las respuestas entre las dos alternativas dependerá sólo del programa de reforzamiento que esté activo para cada respuesta. La investigación ha demostrado que las elecciones realizadas bajo estas circunstancias están bien descritas por la ley de igualación, que al inicio fue identificada por Herrnstein (1970). Según la ley de igualación, la tasa relativa de respuesta para una alternativa es igual a la tasa relativa del reforzamiento que se obtiene con esa alternativa de respuesta. Por ejemplo, si el 70% de las respuestas se realizan en el lado izquierdo de una cámara con dos teclas de opciones, 70% de todos los reforzadores se obtendrán del lado izquierdo (para

153

algunas revisiones de la ley de igualación, véanse Dallery y Soto, 2013; Grace y Hucks, 2013). En una situación de opción concurrente, los organismos tienen la tendencia de igualar las tasas relativas de respuesta con las tasas relativas de reforzamiento. Las desviaciones de esta igualación se presentan si las alternativas de respuesta requieren diferentes grados de esfuerzo, si se utilizan diferentes reforzadores para cada alternativa o si se hace más difícil cambiar de una respuesta a la otra. Los efectos de estos factores se han incorporado a lo que se conoce como la ley de igualación generalizada (W. M. Baum, 1974). La ley de igualación ha contribuido en gran medida a comprender sobre cómo el comportamiento está controlado por los programas de reforzamiento. La ley de igualación ha demostrado que la forma en que reaccionan los individuos cuando un programa de reforzamiento ha sido organizado para una respuesta depende de las actividades alternativas que estén disponibles y de los programas de reforzamiento que estén activos para esas actividades. Esta conclusión básica tiene profundas repercusiones para la puesta en práctica del condicionamiento instrumental (E. A. Jacobs, et al., 2013). De manera usual, los docentes se enfocan en una respuesta en específico, la que están enseñando (resolver un problema matemático). Sin embargo, descubren muy rápido que el esfuerzo otorgado para cada respuesta depende de la disponibilidad de respuestas alternativas y de las fuentes alternativas de reforzamiento. Si se les permite a los estudiantes jugar con sus teléfonos móviles, entonces ellos tendrán menos probabilidades de realizar los problemas matemáticos.

PROGRAMAS CONCURRENTES ENCADENADOS Y DE AUTOCONTROL En un programa concurrente, las variadas respuestas alternativas están disponibles al mismo tiempo. Esto le permite al participante cambiar de una a otra, las veces que así lo desee y en cualquier momento con una relativa facilidad. Muchas situaciones son como esa. Se puede cambiar de programas de entretenimiento en la televisión. También se puede tener una variedad de opciones sobre qué actividad de entretenimiento se realizará durante el fin de semana. Puede irse a un concierto, a un partido de deportes o puede ir a cenar con los amigos. Sin embargo, en este caso, una vez que se han comprado los boletos y ya se ha entrado a la sala de conciertos, las otras alternativas ya no están disponibles. Las características básicas de tales situaciones en que se puede elegir se capturan en el laboratorio a través del diseño de un programa concurrente encadenado para el reforzamiento. En un programa concurrente encadenado, una vez que se ha seleccionado un curso en específico a seguir, las otras posibilidades ya no están disponibles. Un programa concurrente encadenado tiene dos etapas o eslabones. Cada ensayo comienza con la selección de un eslabón, en ese momento existen varias alternativas disponibles. Una vez que se ha realizado la selección de uno de los eslabones, el procedimiento se dirige hacia un eslabón terminal con la única alternativa que escogió el participante. El participante permanecerá en el eslabón terminal hasta que acabe ese ensayo. Por lo tanto, el programa concurrente

154

encadenado implica a la opción y al compromiso. Los programas concurrentes encadenados pueden utilizarse para investigar si se prefiere la variabilidad sobre la predictibilidad en los resultados; si la variedad es en realidad el condimento de la vida. La figura 8-7 resume un procedimiento que estudia esta interrogante con palomas. Las aves tienen acceso a dos teclas. Picotear una refuerza un programa de reforzamiento de VI 3-minutos, picotear la otra tecla refuerza un programa de FI 3-minutos. El programa FI es muy predecible, mientras que el programa VI no lo es, pero la tasa general de reforzamiento es la misma para ambas alternativas. El eslabón de elección proporciona acceso a cada alternativa; sin embargo, una vez que el participante ha seleccionado una quedará “fijo” a esa alternativa durante el resto del ensayo. La investigación de los procedimientos de programas concurrentes encadenados de este tipo ha indicado que existe una preferencia hacia la alternativa del programa variable (Andrzejewski et al., 2005).

Figura 8-7. Diagrama de un programa concurrente encadenado de reforzamiento. Durante el eslabón de elección, el participante puede elegir entre el programa de intervalo variable VI 3-minutos o el programa de intervalo fijo FI 3-minutos. Escoger una de las alternativas conduce al participante al eslabón terminal en el que sólo está disponible la alternativa elegida.

Los programas concurrentes encadenados también se utilizan a menudo para estudiar el autocontrol. Este último es utilizado cuando uno tiene una elección entre una alternativa que le proporcionará una pequeña recompensa rápida versus una elección que proporcionará una recompensa más grande, pero con una demora considerable. ¿Qué puede escoger un individuo, una rebanada de pastel que le proporcione una gratificación inmediata o renunciar a los postres para tener un estilo de vida saludable, cuyos beneficios demorarán mucho más? ¿Puede caer en la tentación de salir con los amigos en las tardes o quedarse en casa a estudiar para el examen que se aproxima? ¿Cuál de estas opciones le permitirá tener éxito en la escuela y obtener un mejor empleo en un par de años? ¿Gasta el dinero que tanto

155

esfuerzo le tomó conseguir en un videojuego de interés el cual puede disfrutar de inmediato, o ahorra para poder comprarse un auto el próximo año? En algún momento de la vida se enfrenta este tipo de elecciones de autocontrol. El autocontrol se moldea en los laboratorios de comportamiento al utilizar un programa concurrente encadenado. Durante el eslabón de elección, se puede escoger pasar la tarde con amigos o quedarse en casa a estudiar. Una vez que se ha elegido una de las alternativas, se prosigue con el eslabón terminal en el cual experimenta la recompensa inmediata menor o la recompensa demorada, pero mayor. Los estudios experimentales han confirmado lo que la mayoría sabe: es más tentador recibir la recompensa inmediata menor que esperar por la recompensa demorada, pero mayor. ¿Por qué sucede esto? Un concepto central para explicar el autocontrol en el contexto de los programas de reforzamiento es que entre más tiempo se tiene que esperar por el reforzador este se vuelve menos valioso. A la disminución del valor de la recompensa a causa de la espera se le llama función de depreciación por demora (Vanderveldt et al., 2016). En estudios de laboratorio sobre la función depreciación por demora con individuos como participantes, se les pidió que escogieran entre cantidades de dinero hipotéticas. ¿Qué se preferiría obtener, cinco dólares de inmediato o cinco dólares mañana? Para mucha gente es una decisión sencilla: es visible que preferirían los cinco dólares de inmediato en vez de al día siguiente. Esto indica que el valor de los cinco dólares se reduce al tener que esperar un día. Ya que demorar una recompensa reduce su valor, la gente tiende a seleccionar las recompensas inmediatas menores en vez de las recompensas demoradas mayores. No todos menosprecian el valor de las recompensas futuras al mismo grado (Odum y Baumann, 2010). Las funciones de la depreciación por demora más pronunciadas indican una percepción de pérdida mayor del valor de la recompensa en función de la espera. Los individuos con la función de depreciación por demora pronunciada tienen la tendencia a mostrar menos autocontrol. Esta relación ha sido muy interesante en los estudios sobre el consumo de drogas y sobre la adicción (Bickel et al., 2014). La elección de consumir una droga recreativa es un problema de autocontrol. ¿Se consume la droga y se disfruta de sus efectos inmediatos o se elige otra actividad (estudiar, construir una relación personal, desarrollar alguna habilidad deportiva o musical) cuyos beneficios se demoran más? Los drogodependientes escogen la droga y los adictos más graves llevan a cabo esta elección incluso si pierden su trabajo, su matrimonio y su salud. Los estudios han demostrado que los drogadictos tienen una función de depreciación por demora más pronunciada en comparación con los individuos que no son adictos, incluso si ya han dejado su droga favorita (MacKillop et al., 2011; Yi et al., 2010). Los adictos son impulsados por el reforzamiento inmediato en vez de esperar a ver qué se puede hacer para mejorar sus vidas futuras. Se podría sugerir que la inhabilidad para ver el valor de las recompensas futuras es una consecuencia de las adicciones a las drogas. Sin embargo, la investigación experimental con animales de laboratorio ha demostrado que se puede predecir qué tan propenso es un individuo para desarrollar una adicción a las drogas dependiendo de cuán pronunciada esté su función de depreciación por demora (Carroll et al., 2010). En

156

un extraordinario estudio longitudinal entre niños en Nueva Zelanda, el grado de autocontrol evidente antes de los diez años predecía un mejor estado de salud, niveles de ingreso más altos, tasas menores de consumo de drogas y tasas más bajas de comportamiento criminal, incluso más de dos décadas después (Moffitt et al., 2011).

RESUMEN Los programas de reforzamiento son de interés porque, en la mayoría de los casos, el acto de responder no produce siempre reforzamientos. Una respuesta puede reforzarse después de que un número fijo o variable de respuestas se han llevado a cabo (los programas FR y VR), o después de que un tiempo fijo o variable pasa desde el último reforzador (los programas FI y VI). Los programas de intervalo fijo y los programas de razón producen respuestas rápidas antes de la entrega del reforzador y una pausa justo después del reforzamiento. Los programas de intervalo variable y los programas de razón producen una tasa de respuestas estable. En general, los programas de razón producen tasas más altas de respuesta a diferencia de los programas de intervalo. Esta diferencia se relaciona con las funciones de retroalimentación contrastantes de los dos tipos de programas. Los programas de reforzamiento también pueden involucrar la selección entre dos o más actividades, cada una asociada con su propio programa de reforzamiento. En un programa concurrente, hay disponibles dos (o más) respuestas alternativas y los participantes tienen la oportunidad de cambiar entre las respuestas alternativas en cualquier momento. La respuesta en los programas concurrentes se caracteriza por la ley de igualación. Un programa concurrente encadenado también proporciona dos respuestas alternativas, pero en este caso, una vez que se ha seleccionado alguna de ellas la otra ya no estará disponible. Los programas concurrentes encadenados se utilizan para estudiar el autocontrol. El autocontrol se determina con base en que tan rápido se sustrae el valor a un reforzador en relación con el tiempo de espera para obtenerlo, a esto se le llama la función de depreciación por demora.

LECTURAS SUGERIDAS Cole, M. R. (1999). Molar and molecular control in variable-interval and variable-ratio schedules. Journal of the Experimental Analysis of Behavior, 71, 319–328.http://dx.doi.org/10.1901/jeab.1999.71-319 Dallery, J., & Soto, P. L. (2013). Quantitative description of environment–behavior relations. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and principles (pp. 219–250). Washington, DC: American Psychological Association. Jozefowiez, J., & Staddon, J. E. R. (2008). Operant behavior. In J. H. Byrne (Ed.), Learning and memory: A comprehensive reference: Vol. 1. Learning theory and behavior (pp. 75–102). Oxford, England: Elsevier. Vandervelt, A., Oliveira, L., & Green, L. (2016). Delay discounting: Pigeon, rat, human—Does it matter? Journal of Experimental Psychology: Animal Learning and Cognition, 42, 141–162. http://dx.doi.org/10.1037/xan0000097 Términos técnicos

157

Autocontrol Función de depreciación por demora Función de retroalimentación Ley de igualación Pausa posrefuerzo Programa concurrente Programa concurrente encadenado Programa de intervalo Programa de intervalo fijo Programa de intervalo variable Programa de razón Programa de razón fija Programa de razón variable Programa de reforzamiento Razón de la corrida Registro acumulativo

158

Capítulo 9

159

Teorías del reforzamiento Sabía usted que: • ¿Los reforzadores no requieren reducir un impulso o necesidad biológica? • ¿Las respuestas, al igual que los estímulos, pueden servir como reforzadores? • ¿De acuerdo con las perspectivas contemporáneas, el reforzamiento no “fortalece” la respuesta instrumental? • ¿Los procedimientos de condicionamiento instrumental no sólo aumentan la tasa de la respuesta instrumental sino que también disminuyen la tasa de la respuesta reforzadora? • ¿Los procedimientos de condicionamiento instrumental restringen cómo distribuye un organismo su conducta entre sus alternativas de respuesta? • ¿Los efectos del reforzamiento son un subproducto de las nuevas elecciones de respuesta que un organismo realiza cuando sus actividades están limitadas por un procedimiento de condicionamiento instrumental? • ¿El efecto de un procedimiento de condicionamiento instrumental depende de todas las actividades de un participante y de cómo estén organizadas estas actividades? Un factor importante es la disponibilidad de sustitutos para la actividad reforzadora. • ¿La economía conductual se desarrolló a partir de los esfuerzos para emplear conceptos económicos con la finalidad de comprender mejor cómo los procedimientos de condicionamiento instrumental provocan una redistribución de la conducta entre posibles opciones de respuesta? En el capítulo 8, se mostraron diversos tipos de procedimientos de condicionamiento instrumental y sus resultados conductuales. No existe duda respecto a que los procedimientos de reforzamiento puedan producir cambios dramáticos en la conducta y en cuanto a que estos cambios son más complejos que sólo un aumento en la probabilidad de una respuesta. Los diferentes programas de reforzamiento producen diferentes patrones de respuesta de corridas y pausas y, también, determinan las elecciones entre alternativas de respuesta. La cuestión en la que se enfoca este capítulo es sobre cómo el reforzamiento causa estos efectos. La pregunta es revisada mediante la discusión de las teorías del reforzamiento. Todas las buenas teorías tienen que ser consistentes con los hallazgos que tienen la intención de explicar. De forma adicional, las buenas teorías deben estimular nuevas investigaciones que sirvan para evaluar e incrementar la precisión de la teoría. Además, también proporcionan nuevas percepciones y maneras de pensar sobre fenómenos familiares. La historia del desarrollo de las teorías del reforzamiento es un buen ejemplo de la creatividad en la ciencia. La historia tiene diversos ejemplos de pequeños refinamientos en el pensamiento que actualizan una teoría particular con datos nuevos. La historia también incluye desviaciones dramáticas y nuevas formas de pensar sobre el reforzamiento. Existen casos interesantes en los que el incremento

160

en los cambios de pensamiento culmina en puntos de vista nuevos sobre el problema, los cuales se volverán fundamentales. Una teoría del reforzamiento debe responder dos preguntas respecto al condicionamiento instrumental. 1) ¿Qué es lo que convierte a algo en un reforzador o cómo se puede predecir si algo será un reforzador efectivo? 2) ¿Cómo un reforzador produce sus efectos; cuáles son los mecanismos responsables de un incremento en la probabilidad de la respuesta reforzada?

THORNDIKE Y LA LEY DEL EFECTO La primera teoría sistemática en torno al reforzamiento fue provista por Thorndike poco después de su descubrimiento del condicionamiento instrumental (Bower y Hilgard, 1981). De acuerdo con Thorndike, un reforzador positivo es un estímulo que produce un “estado satisfactorio de las cosas”. Sin embargo, Thorndike no elabora sobre por qué algo fue “satisfactorio”. Por lo tanto, su respuesta a la primer pregunta: “¿qué hace que algo sea efectivo como reforzador?”, no fue muy clara. Se puede determinar si un estímulo, como una palmadita en la cabeza, es un “satisfactor” para un perro al observar si incrementa una respuesta que tiene como resultado ser acariciado. No obstante, dicha evidencia no revela por qué una palmadita en la cabeza es un reforzador. Al llamar “satisfactores” a los reforzadores, Thorndike proporcionó una etiqueta para los reforzadores, pero no dio explicación respecto a qué hace que algo sea eficaz como reforzador. Thorndike fue directo en cuanto a la segunda pregunta: “¿cómo es que un reforzador produce un aumento en la probabilidad de la respuesta reforzada?” Su respuesta fue provista en la ley del efecto. Como se señaló en el capítulo 7, de acuerdo con la ley del efecto, un reforzador establece una asociación o conexión entre la respuesta instrumental R y los estímulos E en presencia de los cuales es reforzada la respuesta. El reforzador produce una asociación E–R (figura 9-1).

Figura 9-1. Diagrama de la ley del efecto de Thorndike. El reforzador o respuesta resultado C actúa de forma retroactiva para fortalecer la asociación E–R (estímulo–respuesta).

161

La ley del efecto explica cómo el reforzamiento incrementa la probabilidad futura de la respuesta instrumental. A causa de la asociación E–R que se establece por el reforzamiento, el estímulo E llega a evocar la respuesta instrumental R, de casi la misma manera en que una respuesta provocada es producida por su estímulo provocador. El mecanismo básico de la ley del efecto fue considerado una explicación razonable para la respuesta instrumental incrementada y fue aceptado por los teóricos conductuales más importantes durante los siguientes 50 años. Esta amplia aceptación es notable porque los mecanismos de la ley no fueron explicados con mucho detalle. Aunque la ley del efecto predice el incremento de la respuesta instrumental en el ambiente de entrenamiento, lo hace un poco por arte de magia en lugar de por un proceso bien establecido. Thorndike no dijo mucho acerca de cómo un reforzador puede actuar de forma retroactiva para fortalecer una asociación entre la respuesta y los estímulos en presencia de los cuales se llevó a cabo la respuesta. Esa parte de la ley del efecto tenía que ser asumida como un acto de fe. Más aún, a pesar de la amplia aceptación de la ley del efecto durante los 50 años posteriores, nadie ha llenado el hueco que dejó Thorndike. El mecanismo a través del cual un reforzador actúa hacia atrás en el tiempo para fortalecer una asociación E–R todavía requiere ser especificado.

HULL Y LA TEORÍA DE REDUCCIÓN DEL IMPULSO El siguiente teórico importante que se considera es Clark Hull (véase Amsel y Rashotte, 1984, para una revisión de la teoría de Hull). Hull aceptó el mecanismo E–R de la ley del efecto y se concentró en la pregunta que Thorndike había ignorado, es decir, “¿qué hace que algo sea eficiente como reforzador?” Para contestar dicha pregunta, Hull empleó el concepto de homeostasis, el cual había sido desarrollado para explicar la operación de los sistemas fisiológicos. Según el modelo homeostático, los organismos defienden una condición estable con respecto a las funciones biológicas críticas. Considérese, por ejemplo, la ingesta de comida (figura 9-2). Para sobrevivir, los organismos deben mantener un suministro de nutrientes estable u óptimo. La privación de alimento amenaza al estado nutricional del organismo y crea una necesidad de comida. La consecuencia psicológica de esto es el estado motivacional o estado de impulso del hambre, que puede ser reducido por la ingestión de alimento. De acuerdo con Hull, la comida es un reforzador eficaz porque reduce el impulso del hambre. De modo más general, Hull propuso que lo que hace reforzador a un estímulo es su efectividad para reducir un estado de impulso. Por ello, su teoría de reforzamiento es llamada la teoría de reducción del impulso.

162

Figura 9-2. Ilustración de los mecanismos de reforzamiento de reducción del impulso, utilizando el hambre como ejemplo. La entrega de la comida como reforzador está indicada por los asteriscos.

Reforzadores primarios Los ejemplos de reforzamiento instrumental comunes en el laboratorio son consistentes con la teoría de reducción del impulso de Hull. De forma rutinaria, se emplea la privación leve de alimentos para así volver a la comida un reforzador eficaz para los animales de laboratorio en situaciones experimentales. De modo similar, la leve privación de agua la convierte en un reforzador efectivo. Las ratas presionarán una palanca de respuesta para obtener calor cuando están en un ambiente frío. De forma contraria, presionarán la palanca para obtener aire fresco en un ambiente caliente. Los procedimientos de privación y otras circunstancias que amenazan al sistema biológico homeostático crean estados de impulso y los estímulos que reducen estos estados de impulso son reforzadores eficaces para la conducta instrumental. La teoría de reducción del impulso de Hull proporciona un recuento exitoso de reforzadores como la comida y el agua. Los estímulos que son efectivos para reducir una necesidad biológica sin entrenamiento previo son llamados reforzadores primarios. No obstante, si la teoría de Hull sólo pudiera caracterizar reforzadores que reducen impulsos biológicos primarios, sería muy limitada. Muchos reforzadores eficaces no satisfacen un impulso o necesidad biológica. Se puede encontrar reforzante el olor de la comida italiana, pero el olor de la comida no reduce el hambre. De igual manera, un billete de 20 dólares no reduce un impulso o necesidad biológica, pero es un reforzador muy efectivo.

163

Reforzadores secundarios e impulsos adquiridos La teoría de Hull ha sido extendida en forma exitosa a estímulos como el olor de la comida al agregar el principio del condicionamiento pavloviano. Si se come de forma repetida una comida sabrosa, el olor de esa comida se asocia con la reducción del hambre a partir de un condicionamiento pavloviano. Esto vuelve al aroma de la comida un reforzador condicionado o reforzador secundario. El concepto de reforzamiento condicionado aumenta el alcance de la teoría de Hull a estímulos que no reducen un estado de impulso de manera directa, pero que adquieren propiedades reforzadoras mediante la asociación con un reforzador primario. Otra extensión de la teoría de Hull más allá de los impulsos primarios biológicos involucra al concepto de estado de impulso condicionado. Se asume que los estímulos asociados con un estado de impulso primario provocan un impulso condicionado o impulso adquirido. Se admite que la reducción de un impulso condicionado o adquirido refuerza de la misma manera que la reducción de un estado de impulso primario o biológico. El concepto de impulso condicionado o adquirido ha sido usado de modo extenso en el análisis de la conducta motivada adversamente. Se podría perder el balance y caer en una escalera eléctrica. Si la caída es lo bastante grave, podría desarrollarse un miedo a las escaleras eléctricas. Dicho miedo condicionado es un ejemplo de impulso condicionado o adquirido. Según la teoría de reducción del impulso de Hull, una reducción en la intensidad del impulso adquirido será reforzadora. Por lo tanto, cualquier respuesta que permita escapar del miedo condicionado a las escaleras eléctricas será reforzada. Caminar lejos de la escalera y usar el elevador serán reforzadas por una reducción del miedo condicionado provocado por la escalera eléctrica (se precisa más acerca de estos mecanismos cuando se aborda la conducta de evitación en el capítulo 12). El concepto de impulso condicionado o adquirido también es crítico para el análisis de la drogadicción. Las señales asociadas con la droga provocan la motivación por incentivos para engancharse en conductas asociadas con la procuración y el consumo de una droga como el alcohol o la cocaína (Anselme y Robinson, 2016). Se abordó con anterioridad, tal motivación por incentivos en el capítulo 7. La motivación por incentivos provocada por las señales asociadas con la droga tiene sus raíces en el concepto de Hull de los impulsos adquiridos. Reforzamiento sensorial A pesar de que la teoría de Hull fue llevada con éxito a situaciones que no involucran impulsos biológicos primarios, la teoría no pudo explicar todas las instancias del reforzamiento. Por ejemplo, los investigadores han descubierto que las ratas que son retenidas en la oscuridad presionarán una palanca de respuesta para encender una luz y que las ratas retenidas en una cámara iluminada presionarán una palanca de respuesta para producir periodos de oscuridad. Los chimpancés llevarán a cabo respuestas instrumentales que sólo están reforzadas por la oportunidad de mirar a un tren eléctrico de juguete moverse por una vía. Todos éstos son ejemplos de reforzamiento sensorial. En muchas situaciones, la estimulación sensorial, sin ninguna relación aparente con una necesidad o estado de

164

impulso biológico, puede servir como un reforzador efectivo (Berlyne, 1969). La música, las pinturas hermosas y otras obras de arte son ejemplos de reforzadores sensoriales para los humanos. El creciente peso de la evidencia del reforzamiento sensorial, junto con el éxito de conceptuaciones alternativas sobre el reforzamiento, condujeron al abandono de la teoría de reducción del impulso de Hull. Como se verá, las teorías que surgieron fueron muy creativas e implicaban nuevas formas radicales de pensar sobre los problemas del reforzamiento instrumental.

PRINCIPIO DE PREMACK La era moderna en la teoría del reforzamiento fue encabezada por el trabajo de David Premack, quien se aproximó al reforzamiento desde un punto de vista por completo distinto. Al igual que Hull, Premack consideró preguntas básicas, como por qué la comida es un reforzador efectivo para que las ratas presionen una palanca de respuesta. Sin embargo, en lugar de pensar en el reforzador como una bolita de comida, pensó en el reforzador como el acto de ingerir la comida. Para Premack, la pregunta no era qué hace a la comida un estímulo reforzador sino qué vuelve al acto de comer una actividad reforzadora. Premack encuadró los problemas del reforzamiento en términos de respuestas, no en términos de estímulos o sustancias nutricionales (Premack, 1965). ¿Qué hace diferente al acto de comer del acto de presionar una palanca de respuesta dentro de una caja de Skinner estándar? Existen varias respuestas posibles. La rata tiene que aprender a presionar la palanca, pero no tiene que aprender a comer. Comer puede presentarse no sólo dentro de la caja de Skinner sino en cualquier lugar en el que la rata encuentre comida. Comer implica un conjunto especial de músculos y activa procesos digestivos. Otra diferencia entre comer y presionar una palanca es que una rata privada de alimento tiene mayor probabilidad de comer que de presionar la palanca si se le otorga libre acceso a ambas actividades. Premack se concentró en esta última diferencia y la elevó a un principio general. De acuerdo con Premack, la precondición crítica para el reforzamiento no es un estado de impulso o la motivación por incentivos. En su lugar, es la existencia de dos respuestas que difieren en su probabilidad cuando al organismo se le concede libre acceso a ambas actividades. Dadas estas dos respuestas, Premack propuso que la oportunidad de desempeñar la respuesta que tiene mayor probabilidad servirá como reforzador para la respuesta con menor probabilidad. Esta afirmación general llegó a ser conocida como el principio de Premack. Un nombre más descriptivo es principio de probabilidad diferencial. Según el principio de probabilidad diferencial, la naturaleza específica del reforzador instrumental y de las respuestas no importa. Ninguno de ellos tiene que involucrar comer o beber y el organismo no necesita estar hambriento o sediento. El único requerimiento es que una respuesta sea más probable que la otra. Dada la probabilidad diferencial de la respuesta, la respuesta más probable servirá como reforzador de la respuesta menos probable.

165

La revolución de Premack El principio de Premack causó una tormenta entre la comunidad científica. Por primera vez, los científicos comenzaron a pensar de forma seria en los reforzadores como respuestas en lugar de como estímulos especiales. Premack no tenía interés en cómo una respuesta podría haber llegado a ser más probable que otra. La única cuestión que importaba era que la respuesta reforzadora fuera más probable que la respuesta instrumental. El principio de Premack liberó a los psicólogos de las perspectivas del estímulo en el reforzamiento y de las perspectivas del reforzamiento arraigadas en necesidades e impulsos biológicos. Más aún, el principio de Premack proporcionó una herramienta conveniente para la aplicación de procedimientos de condicionamiento instrumental en una diversidad de ámbitos educativos, incluyendo hogares, salones de clase, hospitales psiquiátricos, centros para el retraso mental e instituciones correccionales (Danaher, 1974). Aplicaciones del principio de Premack En todos los ámbitos educativos, se alienta a los estudiantes a aprender y a desempeñar nuevas respuestas. El objetivo es lograr que los estudiantes hagan cosas que no hacían antes o que no harían sin motivación o entrenamiento especial. En otras palabras, el objetivo es incrementar la posibilidad de respuestas con baja probabilidad. Los procedimientos de condicionamiento instrumental son ideales para lograrlo, pero el profesor tiene que encontrar, primero, un reforzador eficaz. Retener el almuerzo de un estudiante de modo que la comida pudiera ser usada como un reforzador no es aceptable en la sociedad y crearía mucho resentimiento. Los dulces y otras golosinas comestibles son reforzadores efectivos para los niños pequeños sin privación de comida, pero no son buenos para ellos de manera nutricional. El principio de Premack proporciona una salida a este dilema (Danaher, 1974). De acuerdo con Premack, un reforzador es cualquier actividad en la que el participante tenga mayor probabilidad de involucrarse que en la respuesta instrumental. A algunos estudiantes puede gustarles jugar un videojuego; algunos otros pueden disfrutar pasar tiempo en el patio de juegos; otros más disfrutan de ayudar al profesor. Cualquiera que sea la respuesta con alta probabilidad, el principio de Premack sugiere que puede tomarse ventaja de ella al animar al estudiante a involucrase en una actividad menos probable. Lo único que se necesita hacer es proporcionar acceso a la respuesta con alta probabilidad solo después de que el estudiante haya realizado la conducta con menor probabilidad. Considérese, por ejemplo, a un niño con un trastorno del espectro autista que muestra alguna forma de conducta perseverante (p. ej., manipular el mismo objeto en repetidas ocasiones). Los estudios han demostrado que la oportunidad de llevar a cabo tales respuestas perseverantes puede ser empleado como un reforzador en los esfuerzos por enseñar conductas más deseables, como habilidades aritméticas y de lenguaje sencillas (Charlop et al., 1990; Hanley et al., 2000). Problemas teóricos

166

El principio de Premack ha tenido mucha influencia, pero tiene varias complicaciones. Un problema central involucra la medición o cálculo de las probabilidades de respuesta. Todos poseen una idea intuitiva de qué significa decir que una respuesta es más probable que otra, pero asignarle un valor numérico preciso a la probabilidad de respuesta puede ser difícil. Es más, la probabilidad de una respuesta determinada puede cambiar de modo repentino. Un joven podría disfrutar nadar por la mañana, pero no más tarde en el mismo día. Los problemas relacionados con utilizar las probabilidades de respuesta para identificar reforzadores pueden evitarse en ámbitos aplicados mediante el uso de una economía simbólica (Kazdin, 1985; Matson y Boisjoli, 2009). En dicho sistema, se otorgan fichas o puntos a los estudiantes por realizar ciertas respuestas instrumentales objetivo. Los estudiantes después podrán intercambiar los puntos por diversas oportunidades de respuesta (p. ej., jugar un videojuego, ver una película, leer una historieta o salir al patio de juegos), dependiendo de qué se desee hacer en el momento y de cuántos puntos hayan acumulado. Si un rango amplio de actividades reforzadoras está disponible a cambio de las fichas, no es necesario obtener mediciones precisas de la probabilidad de cada respuesta reforzadora o preocuparse por las fluctuaciones en la preferencia de los reforzadores. Las economías simbólicas evitan los problemas relacionados con la medición de las probabilidades de respuesta; sin embargo, no resuelven un problema conceptual importante del principio de Premack, es decir, que es una mera prescripción o regla para identificar reforzadores. No dice cómo funcionan los reforzadores. Contesta a la pregunta “¿qué hace que algo sea eficaz como reforzador?”, pero no contesta a “¿cómo un reforzador produce un aumento en la probabilidad de la respuesta reforzada?”

LA HIPÓTESIS DE LA PRIVACIÓN DE RESPUESTAS Timberlake y Allison (1974) siguieron los pasos de Premack al pensar en los reforzadores como respuestas en lugar de como estímulos. El punto de partida, como el de Premack, era descifrar qué hace a una respuesta instrumental distinta de una respuesta reforzadora. No obstante, la consideración de esta pregunta los condujo por un camino diferente. Timberlake y Allison sugirieron que la diferencia crucial entre las respuestas instrumentales y reforzadoras es que el participante tiene libre acceso a la respuesta instrumental, pero está restringido para desempeñar la respuesta reforzadora. En una caja de Skinner típica, por ejemplo, la rata puede presionar la palanca de respuesta en cualquier momento, pero no está en libertad de comer bolitas de alimento en cualquier momento. Comer sólo puede ocurrir una vez que la rata ha presionado la palanca e, incluso así, la rata sólo puede comer la bolita de alimento que se le ha proporcionado. Timberlake y Allison (1974) sugirieron que estas restricciones a la respuesta reforzadora vuelven un reforzador eficaz a la ingesta de alimento. Desde este punto de vista, las situaciones de condicionamiento instrumental privan al participante del libre acceso a la respuesta reforzadora. Por tal motivo la propuesta de Timberlake y Allison, el siguiente desarrollo importante en las teorías del reforzamiento, es llamada la hipótesis de la privación de

167

respuestas. Privación de respuestas y ley del efecto La hipótesis de la privación de respuestas captura una idea importante. La idea es obvia si se considera qué pasaría si una rata en una caja de Skinner no tuviera restricciones para comer. Imagínese una situación en la cual una rata recibe el suministro de comida para una semana cada vez que presiona la palanca de respuesta. De acuerdo con la ley del efecto de Thorndike, una cantidad de comida suficiente para una semana debería ser un estado muy satisfactorio de las cosas y, por lo tanto, debería tener como resultado un vínculo E–R fuerte y un gran incremento de la respuesta de presionar la palanca. Sin embargo, esto con dificultad tiene sentido desde el punto de vista de la rata. Una predicción más sensata es que, si la rata recibe el suministro de comida de una semana cada vez que presiona la palanca, la rata presionará la palanca de respuesta alrededor de una vez por semana, cuando su provisión de comida se haya agotado. Según la hipótesis de la privación de respuestas, lo que vuelve a la comida un reforzador efectivo no es que satisfaga el hambre o que comer sea una respuesta con alta probabilidad. En su lugar, el factor crítico es que un procedimiento de condicionamiento instrumental ponga una restricción al acto de comer. Si se retira la privación de respuesta, la respuesta instrumental no aumentará; la respuesta instrumental no será reforzada. Privación de respuesta y probabilidad de respuesta Nótese que la hipótesis de la privación de respuestas no requiere el cálculo de las probabilidades de respuesta. Así, la hipótesis de la privación de respuestas evita el primer defecto del principio de Premack. Para aplicar la privación de respuesta, sólo se necesita determinar la tasa de una respuesta durante un periodo de línea de base sin ninguna restricción y, luego, limitar el acceso a la respuesta reforzadora por debajo de esa línea de base (Klatt y Morris, 2001). Esto ha convertido a la hipótesis de la privación de respuestas en una herramienta popular para crear reforzadores eficaces en situaciones aplicadas. Una predicción interesante de la hipótesis de la privación de respuestas es que incluso una respuesta con baja probabilidad puede funcionar como un evento reforzador. La oportunidad de llevar a cabo una respuesta con baja probabilidad puede usarse para reforzar una conducta con una probabilidad más alta si se restringe por debajo de la tasa de su línea de base. Dicha predicción es contraria al principio de Premack, pero ha sido confirmada por la evidencia experimental (Allison y Timberlake, 1974; Eisenberger et al., 1967). Privación de respuestas y el centro de los efectos del reforzamiento Además de evitar los problemas que implica calcular las probabilidades de respuesta, la hipótesis de la privación de respuestas cambió el centro de la explicación del reforzamiento. En las primeras teorías, el reforzamiento fue explicado en términos de factores que estaban fuera del procedimiento de

168

condicionamiento instrumental en sí. Con la teoría de reducción del impulso, el factor externo involucraba procedimientos que establecían un estado de impulso. Con el principio de Premack, el factor externo involucraba la línea de base diferencial de probabilidades entre el reforzador y las respuestas instrumentales. En contraste, con la hipótesis de la privación de respuestas, el centro del reforzamiento radica en cómo el procedimiento de condicionamiento instrumental restringe las actividades del organismo. Ésta era una nueva idea. Nunca se sugirió que los efectos del reforzamiento estuvieran determinados por las restricciones de respuesta inherentes a todos los procedimientos de condicionamiento instrumental. La hipótesis de la privación de respuestas ayudó al avance de la comprensión sobre el reforzamiento, ya que evitaba algunos de los problemas del principio de Premack. Sin embargo, al igual que el principio de Premack, la hipótesis de la privación de respuestas sólo respondió a la pregunta “¿qué hace a algo ser efectivo como reforzador?” La respuesta a la otra pregunta central, “¿cómo produce un reforzador un incremento en la probabilidad de la respuesta reforzada?”, tendría que esperar el estudio de cómo el condicionamiento instrumental cambia la manera en que los individuos distribuyen su conducta entre varias opciones de respuesta.

REPARTICIÓN DE RESPUESTAS Y ECONOMÍA CONDUCTUAL La hipótesis de la privación de respuestas ayudó a redefinir el problema básico del condicionamiento instrumental como un problema de repartición de respuestas. Disminuir el acceso a la respuesta reforzadora crea una redistribución de las conductas, a tal grado que la respuesta reforzadora se presenta con menos frecuencia y la respuesta instrumental se presenta más a menudo. Si el condicionamiento instrumental implica un cambio en la repartición de respuestas, ¿qué causa este cambio y cuáles son las reglas que rigen estos cambios? Los esfuerzos para contestar estas preguntas alentaron a los científicos a importar conceptos para el estudio de la microeconomía al análisis de la conducta instrumental (Allison, 1989; Timberlake, 1980, 1984) y ayudaron a establecer el campo de la economía conductual. La economía se ocupa de la distribución de recursos entre varias opciones. Uno de los recursos principales es el dinero, el cual se reparte entre los diversos bienes y servicios que se pueden comprar. En una situación de condicionamiento instrumental, el recurso es la conducta, la cual puede distribuirse entre varias opciones de respuesta. Un concepto económico central para el análisis de cómo eligen las personas gastar su dinero es el concepto del punto de máxima satisfacción. Como implica el término, el punto de máxima satisfacción se refiere a la distribución ideal o preferida de los recursos monetarios de un individuo entre los bienes y servicios que desearía comprar. Una situación simple de condicionamiento instrumental incluye dos opciones de respuesta obvias, la respuesta instrumental y la respuesta reforzadora. El punto de máxima satisfacción conductual puede definirse como la distribución ideal o preferida de las conductas entre estas dos opciones de respuesta, cuando no hay limitaciones o restricciones para cualquiera de estas actividades. El punto de máxima satisfacción conductual son las elecciones preferidas de respuesta por parte

169

de un individuo, antes de que le sea impuesto un procedimiento de condicionamiento instrumental. Considérese, por ejemplo, a una adolescente llamada Kim. Si se le deja hacer lo que quiera durante el transcurso de 24 horas, Kim podría pasar cuatro horas hablando o enviando mensajes a sus amigos, una y media horas comiendo, dos horas manejando, 10 horas durmiendo, tres horas jugando videojuegos, tres horas escuchando música y media hora haciendo trabajos escolares. Esta distribución de actividades constituiría el punto de máxima satisfacción conductual para Kim. Nótese que, en el punto de máxima satisfacción, Kim sólo dedica media hora cada día a realizar sus deberes. Imposición de una contingencia instrumental Los padres de Kim podrían desear introducir un procedimiento de condicionamiento instrumental para incrementar la cantidad de tiempo que Kim dedica a sus trabajos escolares. Podrían hacerlo al restringirle el acceso a la música. Por ejemplo, podrían requerir que Kim pase un minuto haciendo sus deberes por cada minuto que se le permita escuchar música. Antes de la contingencia instrumental, escuchar música y hacer la tarea eran actividades independientes. La cantidad de tiempo que Kim dedicaba a una actividad tenía poca relación con la cantidad que dedicaba a la otra. Una vez que se introduce el procedimiento de condicionamiento instrumental, se pierde esta independencia. El punto de máxima satisfacción conductual de Kim para escuchar música y estudiar se encuentra ilustrado en el cuadrante superior izquierdo de la figura 9-3. Antes de la contingencia instrumental, Kim pasaba más tiempo escuchando música que estudiando. Requerir que dedique un minuto a hacer la tarea por cada minuto que escucha música vincula a las dos actividades de un modo especial. Ahora, el tiempo que dedique a la tarea debe ser igual al que dedique a escuchar música. Esta relación, que se ilustra con la línea en 45° de la figura 9-3, es llamada línea de programa. Con el procedimiento de condicionamiento instrumental en efecto, Kim ya no puede distribuir sus respuestas de la misma manera que en su punto de máxima satisfacción conductual. Se nota que la línea de programa no pasa por el punto de máxima satisfacción conductual. Así, la contingencia instrumental es discrepante con el punto de máxima satisfacción conductual.

170

Figura 9-3. Ilustración de la aproximación de regulación conductual al condicionamiento instrumental. El punto de máxima satisfacción representa cuánto tiempo dedica un adolescente a estudiar y a escuchar música en ausencia de un procedimiento de condicionamiento instrumental o de una restricción de programa. La línea de programa representa cuánto tiempo puede dedicar la persona a cada actividad cuando se le requiere pasar un minuto estudiando por cada minuto que escucha música.

¿Cómo responderá Kim a esta discrepancia con su punto de máxima satisfacción, la cual es creada por la imposición del programa de reforzamiento? La economía conductual presupone que la discrepancia con el punto de máxima satisfacción accionará mecanismos de adaptación para regresar la repartición de respuestas hacia el punto de máxima satisfacción. Sin embargo, cualquier estrategia posible para regresar al punto de máxima satisfacción conductual implica algún costo o desventaja. Si Kim elige escuchar música durante tanto tiempo como le gustaría (de forma idónea, tres horas al día), tendría que hacer más trabajo escolar de lo que le gustaría. Por otra parte, si pasara haciendo sus deberes con tiempo como preferiría (media hora al día), tendría que conformarse con escuchar menos música de lo que

171

le gustaría. Los procedimientos de condicionamiento instrumental restringen las opciones de respuesta. Interrumpen el libre flujo de la conducta e interfieren en la forma en que un organismo elige entre sus alternativas de respuesta disponibles. En la mayoría de los casos son como el de Kim, en el sentido de que el procedimiento de condicionamiento instrumental no permite al participante regresar al punto de máxima satisfacción conductual. Lo más que se puede lograr es acercarse al punto de máxima satisfacción bajo las restricciones del procedimiento de condicionamiento instrumental. Respuesta a las restricciones de programa La manera en que un organismo se desplaza de nuevo hacia su punto de máxima satisfacción conductual, luego de que una contingencia instrumental le ha sido impuesta, depende de los costos y beneficios de varias opciones. Una gran parte de la economía conductual se dedica al análisis de estos balances costo-beneficio (Hursh et al., 2013). Cómo se maneje este problema depende de cuál actividad se está dispuesto a abandonar para defender la otra. Si hacer los deberes es más desagradable para Kim que la pérdida potencial de su tiempo para escuchar música, entonces ella no aumentará su trabajo escolar sino que renunciará a su tiempo para escuchar música. En contraste, si la pérdida potencial de la oportunidad de escuchar música es más aversiva para Kim que aumentar el esfuerzo dedicado a los deberes, se ajustará a la restricción impuesta por el procedimiento de condicionamiento instrumental aumentando, de forma sustancial, el tiempo que dedica a sus trabajos escolares. Como sugiere el análisis precedente, fluctuar los costos y beneficios de las diversas maneras de regresar al punto de máxima satisfacción depende del grado de flexibilidad asociado con una actividad o la otra. Los economistas se refieren a esto como elasticidad de la demanda. De forma relativa, existe poca flexibilidad en la cantidad de gasolina que la gente compra para usar sus automóviles. Un aumento en los precios no tiene como resultado una caída en la compra de gasolina, lo cual indica que la compra de gasolina tiene una baja elasticidad de la demanda. En contraste, un aumento en los precios de los caramelos causará una pronunciada caída en las compras, lo que muestra que la compra o el consumo de caramelos son mucho más elásticos. Una de las características distintivas de la drogadicción es la falta de flexibilidad en el consumo de la droga, la cual ilustra bajos niveles de elasticidad de la demanda. Si Kim insiste en escuchar música tres horas al día, está mostrando una baja elasticidad de la demanda por la música y tendrá que incrementar de modo sustancial el tiempo que estudia para defender su acceso preferido a la música. Un factor central que determina la elasticidad de la demanda es la disponibilidad de sustitutos. Un sustituto es una mercancía o una actividad que proporciona algunos de los mismos beneficios o la misma satisfacción que el objeto original. La elasticidad de la demanda para la gasolina es baja porque no se puede usar otra cosa para operar los automóviles. En contraste, existen muchos sustitutos para los caramelos. Si los caramelos se vuelven muy costosos, se puede optar por comer

172

galletas o helado, pues son dulces también. Un factor en particular importante que determina cómo responde un individuo a las restricciones del programa es la disponibilidad de sustitutos para la actividad reforzadora (Green y Freed, 1993; Murphy et al., 2007). Los procedimientos de condicionamiento instrumental son poderosos sólo si no existen sustitutos para la actividad reforzadora. Si Kim ama la música y no puede obtener la misma satisfacción de cualquier otro tipo de actividad, entonces la música será un reforzador poderoso. En este caso, se ajustará al procedimiento instrumental con un gran aumento de trabajo escolar. En contraste, si jugar videojuegos es un buen sustituto para escuchar música, la contingencia instrumental tendrá poco efecto en cuánta tarea hace Kim. En su lugar, ella responderá al programa sustituyendo el escuchar música por los videojuegos, sin tener que aumentar cuánto tiempo dedica al trabajo escolar. La economía conductual sugiere que debe tenerse mucho cuidado al evaluar la disponibilidad de sustitutos cuando se diseña una aplicación práctica de los principios del condicionamiento instrumental. Por desgracia, dichos sustitutos podrían no resultar evidentes antes de que la contingencia instrumental sea impuesta. Los padres de Kim, por ejemplo, podrían no estar conscientes de que Kim considera a los videojuegos un sustituto satisfactorio con respecto a escuchar música. De hecho, Kim podría no estar consciente de esto antes de que la contingencia instrumental vincule estudiar con escuchar música. Por este motivo, es importante monitorear toda la gama de actividades del individuo cuando se impone un procedimiento de condicionamiento instrumental con la finalidad de producir el cambio deseado en la conducta. Contribuciones de la repartición de respuestas y de la economía conductual Pensar en el condicionamiento instrumental como un problema de repartición de respuestas, guiado por conceptos económicos, ha avanzado la comprensión sobre el condicionamiento instrumental y el reforzamiento en el contexto del repertorio conductual completo del participante. La repartición de respuestas y la economía conductual enfocan la atención en el hecho de que los procedimientos de condicionamiento instrumental no operan en un vacío conductual. En su lugar, los procedimientos de condicionamiento instrumental interrumpen el libre flujo de la conducta; interfieren en cómo los individuos distribuyen su conducta entre las opciones de respuesta disponibles. Los conceptos económicos conductuales también muestran que los efectos del condicionamiento instrumental no están limitados a cambios en la tasa de la respuesta instrumental. Las restricciones de programa, además, pueden producir cambios en las actividades que son sustitutos para la actividad reforzadora. La economía conductual alienta a pensar respecto a la conducta instrumental desde una perspectiva más amplia que otras conceptualizaciones. Anima a considerar todas las actividades de un participante –cómo están organizadas y cómo esta organización determina los efectos de las restricciones de programa. Esta aproximación está muy alejada del punto de vista E–R más limitado que dominó a las teorías tempranas del reforzamiento. No obstante, conlleva sus propios desafíos.

173

Es difícil predecir el efecto del reforzamiento, a menos que se conozcan todas las características de la organización conductual del individuo que influencian sus respuestas a una restricción de programa.

RESUMEN Una teoría del reforzamiento debe decir (a) qué convierte a algo en un reforzador y (b) cómo el reforzador produce sus efectos. Las teorías tempranas presuponían que los reforzadores eran tipos especiales de estímulos. De acuerdo con la más importante de estas teorías, un estímulo será reforzador si es eficaz para reducir un estado de impulso. La teoría de reducción del impulso fue dominante durante varias décadas, pero encontró algunas dificultades (p. ej., no podía explicar el reforzamiento sensorial) y fue reemplazada por teorías del reforzamiento basadas en la respuesta. Entre las más prominentes se encuentra el principio de Premack, según el cual un reforzador no es un estímulo que reduce un impulso sino la oportunidad de desempeñar una respuesta cuya probabilidad de línea de base es más alta que la probabilidad de línea de base de la respuesta instrumental. El principio de Premack continúa siendo el fundamento para numerosas aplicaciones del reforzamiento en ámbitos clínicos y educativos. Sin embargo, los defectos del principio estimularon el siguiente desarrollo teórico, la hipótesis de la privación de respuestas. De acuerdo con esta hipótesis, la oportunidad de llevar a cabo una respuesta será un reforzador efectivo si el procedimiento de condicionamiento instrumental restringe el acceso a esa actividad por debajo de la tasa de su línea de base. La hipótesis de la privación de respuestas cambió el foco de atención de los reforzadores como estímulos o respuestas especiales hacia la forma en que un procedimiento de condicionamiento instrumental restringe las actividades del organismo y crea una nueva distribución de respuestas entre las opciones conductuales del individuo. Analizar los procesos que son importantes para la redistribución de la conducta fue facilitado por el uso de conceptos provenientes de la economía, lo cual condujo al establecimiento del campo de la economía conductual. Esta última sugiere que los organismos tienen una distribución de actividades óptima o preferida para cualquier situación. La introducción de un procedimiento de condicionamiento instrumental interrumpe esta distribución de respuestas óptima, o punto de máxima satisfacción conductual. Esta interrupción activa cambios en la repartición de respuestas en un esfuerzo para defender el punto de máxima satisfacción. De forma típica, el cambio en la repartición de respuestas implica un aumento de la respuesta instrumental y una disminución en la tasa de la respuesta reforzadora. El alcance de estos cambios está determinado por la elasticidad de cada respuesta y por la disponibilidad de sustitutos para la respuesta reforzadora.

LECTURAS SUGERIDAS Allison, J. (1983). Behavioral economics. New York, NY: Praeger. Anselme, P., & Robinson, M. J. F. (2016). “Wanting,” “liking,” and their relation to consciousness. Journal of Experimental Psychology: Animal Learning and Cognition, 42, 123–140.

174

Hursh, S. R., Madden, G. J., Spiga, R., DeLeon, I., & Francisco, M. T. (2013). The translational utility of behavioral economics: The experimental analysis of consumption and choice. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 2. Translating principles into practice (pp. 191–224). Washington, DC: American Psychological Association. Matson, J. L., & Boisjoli, J. A. (2009). The token economy for children with intellectual disabilities and/or autism: A review. Research in Developmental Disabilities, 30, 240248.http://dx.doi.org/10.1016/j.ridd.2008.04.001 Timberlake, W., & Farmer-Dougan, V. A. (1991). Reinforcement in applied settings: Figuring out ahead of time what will work. Psychological Bulletin, 110, 379–391. http://dx.doi.org/10.1037/00332909.110.3.379 Términos técnicos Estado de impulso Hipótesis de la privación de respuestas Impulso adquirido Impulso condicionado Ley del efecto Línea de programa Principio de Premack Principio de probabilidad diferencial Punto de máxima satisfacción conductual Reforzador condicionado Reforzador primario Reforzador secundario Reforzamiento sensorial Repartición de respuestas Teoría de reducción del impulso

175

Capítulo 10

176

Extinción de la conducta condicionada Sabía usted que: • ¿La extinción no sólo disminuye la respuesta sino que también aumenta la variabilidad de la conducta? • ¿La extinción significa aprender a inhibir una respuesta condicionada previa, pero deja intacto mucho de lo que se aprendió con anterioridad? • ¿El comportamiento extinguido puede reaparecer bajo un gran número de circunstancias, lo cual crea retos para las terapias conductuales que se fundamentan en la extinción? • ¿Mucha de la investigación contemporánea está dedicada a encontrar maneras para aumentar la efectividad de los procedimientos de extinción? • ¿La ausencia inesperada de reforzamiento produce frustración? • ¿El programa de reforzamiento que estaba en efecto durante la adquisición determina la persistencia de la conducta durante la extinción? • ¿El utilizar más reforzamiento durante el entrenamiento sin ser necesario aumenta la persistencia de la conducta en la extinción? La respuesta puede disminuir rápido en la extinción después de un entrenamiento más extenso; después del entrenamiento con un reforzador más grande o después del entrenamiento con un reforzamiento intermitente en vez de con un reforzamiento continuo. Hasta este momento, la discusión sobre el condicionamiento clásico y el condicionamiento instrumental se ha centrado en varios aspectos de la adquisición y el mantenimiento de la conducta condicionada. Aprender es importante porque proporciona la flexibilidad necesaria respecto a cómo los individuos interactúan con su entorno. Pero, si la conducta aprendida es una adaptación ante el entorno cambiante, entonces la pérdida de la conducta condicionada debería ser tan predominante como su adquisición. Los programas de reforzamiento no siempre permanecen activos a lo largo de la vida de un individuo. Las respuestas que son exitosas en un punto de la vida podrían dejar de ser útiles mientras van cambiando las circunstancias del individuo. Por ejemplo, durante la preprimaria, los niños son elogiados por sus dibujos de representaciones rudimentarias de personas y objetos; sin embargo, este tipo de dibujo no es apropiado cuando lo realiza un estudiante de nivel medio superior. La adquisición de la conducta condicionada involucra procedimientos en los cuales se presenta un resultado de reforzamiento o un estímulo no condicionado (ENC). La extinción significa omitir el reforzador o el ENC. En el condicionamiento clásico, la extinción implica repetidas presentaciones del estímulo condicionado (EC) sin un ENC. En el condicionamiento instrumental, la extinción significa que no se volverá a presentar el reforzador cuando el individuo desempeñe la respuesta instrumental. El resultado típico de un procedimiento de extinción es que la respuesta condicionada disminuye. Por lo tanto, la extinción

177

parece ser lo opuesto a la adquisición. De hecho, así es como la extinción ha sido caracterizada en las teorías tradicionales del aprendizaje, como el modelo Rescorla– Wagner (capítulo 6 de esta obra). No obstante, como la evidencia descrita en este capítulo se demuestra, esta perspectiva sobre la extinción es deficiente de forma grave. Es importante diferenciar entre la extinción y el olvido. Aunque ambos significan la pérdida de la respuesta condicionada, el olvido es resultado del paso del tiempo. La extinción, por el contrario, acontece como consecuencia de la presentación repetida del EC aislado o de repetidas instancias en que la respuesta instrumental no recibe el reforzador. A diferencia del olvido, la extinción se produce por un procedimiento en específico, no sólo por el paso del tiempo. Aunque la investigación sobre la extinción se originó hace casi cien años, la extinción sigue siendo un área de investigación contemporánea sobre los mecanismos de conducta y los mecanismos neuronales (Delamater y Westbrook, 2014; Lattal et al., 2013; Todd et al., 2014). La investigación contemporánea está motivada por los esfuerzos para entender mejor los diversos fenómenos novedosos de la extinción y por sus intentos de desarrollar procedimientos terapéuticos más efectivos para el tratamiento de miedos y fobias inadaptadas (Dunsmoor et al., 2015; Gillihan y Foa, 2011; Maren, 2011; Maren y Holmes, 2016).

EFECTOS DE LOS PROCEDIMIENTOS DE EXTINCIÓN Imagínese el anhelo de llegar a casa después de un arduo día de labores y descubrir que la llave de entrada ya no abre la puerta principal. Esto ilustra el procedimiento básico de la extinción. Una respuesta reforzada previa (girar la llave en la cerradura) ya no es efectiva para producir el refuerzo (abrir la puerta). Esta inesperada ausencia de reforzamiento produce efectos emocionales y de conducta. La emoción que se siente al descubrir que la llave ya no funciona es la frustración y, tal vez, el enojo. Es probable que no se desistirá después del primer intento de abrir la puerta sino que se intentará varias veces más; tal vez se moverá de diferentes formas la llave dentro de la cerradura. Si ninguna de estas variables de respuesta funciona, se terminará por dejar de intentarlo. Este ejemplo ilustra dos efectos básicos de la extinción en la conducta. El más obvio es que la respuesta disminuye cuando la contestación no da como resultado el reforzamiento. Éste es el efecto de conducta primario de la extinción y es el que ha acaparado la mayor parte de la atención de los científicos. La otra consecuencia conductual relevante que resulta de la extinción es el aumento en la variabilidad de respuestas (Neuringer et al., 2001). Cuando la llave no logró abrir la puerta en el primer intento, se movió la llave de diversas maneras en un intento por abrirla. Esto refleja el aumento en la variabilidad de respuestas que produce la extinción. Además de estos efectos conductuales, la extinción a menudo involucra componentes emocionales. La frustración y el enojo surgirán si un reforzador apetitivo es retenido y el alivio surgirá si un estímulo ENC aversivo es retenido.

LA EXTINCIÓN Y EL APRENDIZAJE ORIGINAL 178

Aunque la extinción produce importantes efectos conductuales y emocionales, no revierte los efectos de la adquisición. La evidencia de que la extinción no borra lo que se aprendió de forma original se ha obtenido con los estudios en torno a la recuperación espontánea, la renovación, el restablecimiento y los efectos de devaluación del reforzador. Entender los mecanismos de estos fenómenos es de modo considerable interesante para la investigación básica y traslacional. Recuperación espontánea El procedimiento básico para la extinción, siguiendo el condicionamiento pavloviano, significa presentar de manera repetida el EC por sí solo. Esto hace que el procedimiento para la extinción en el condicionamiento pavloviano sea similar al procedimiento estándar de la habituación. Por lo tanto, no es sorprendente que muchas de las características conductuales de la habituación también se encuentren en la extinción. Una característica destacada de la habituación es que muestra recuperación espontánea. Si existe un periodo significativo de descanso después de una serie de ensayos de habituación, se puede observar el regreso o la recuperación de la respuesta habituada. Pavlov descubrió un fenómeno similar en la extinción, el cual seguía al condicionamiento pavloviano. Los hallazgos básicos se ilustran en la figura 10-1. Durante la adquisición, la respuesta condicionada aumenta en función de los ensayos. En la extinción, la respuesta disminuye. Un periodo de descanso es instaurado y le siguen más ensayos de extinción. Nótese que la respuesta es más elevada después del periodo de descanso, en comparación con el final de la primera serie de los ensayos de extinción. A esta recuperación de la conducta se le llama la recuperación espontánea porque no requiere de alguna intervención especial que no sea el paso del tiempo (Rescorla, 2004).

Figura 10-1. Ilustración de la recuperación espontánea después de la extinción. Durante la fase de adquisición aumenta la respuesta condicionada. En la subsecuente fase de la extinción, la respuesta disminuye hasta el nivel bajo que se muestra al principio de la fase de adquisición. Después, se presenta un periodo de descanso, bajo el cual se suspenden los ensayos de entrenamiento. Esto da como resultado una recuperación temporal de la conducta condicionada. Los datos son hipotéticos.

179

De forma típica, la recuperación espontánea no restituye la respuesta hasta el alto nivel evidente durante la adquisición. Sin embargo, el hecho que la respuesta se recupere del todo evidencia que la extinción suprimió en vez de eliminar la respuesta condicionada. Esto indica que la extinción no revierte el proceso de adquisición ni produce desaprendizaje. La recuperación espontánea es una de las razones por las cuales los malos hábitos o los miedos inadaptados pueden regresar después de los esfuerzos para extinguirlos. El efecto de renovación Otro elemento que prueba que la extinción no da como resultado el desaprendizaje es el fenómeno de la renovación, identificado por Mark Bouton et al. (Bouton y Woods, 2008). La renovación se refiere a un desempeño de recuperación de la adquisición cuando se cambian las señales contextuales que estuvieron presentes durante la extinción. El cambio podría ser regresar al contexto de la adquisición original o también ser un cambio hacia un contexto “neutral”. La renovación es en especial problemática para la terapia conductual porque significa que los miedos irracionales que están extinguidos en el contexto de la oficina del terapeuta pueden volverle al cliente en otro lugar. De manera similar, una adicción a las drogas que se extinguió en un centro de tratamiento residencial se puede renovar una vez que el cliente regrese a casa. El efecto de la renovación se descubrió durante la investigación en torno a la transferencia del entrenamiento (Bouton, 1993). La pregunta básica en estos estudios era cómo el aprendizaje que se realiza durante una situación se transfiere a otras circunstancias u otros contextos. Por ejemplo, si se aprende algo dentro de una ruidosa estancia en una residencia estudiantil, ¿se transferirá ese aprendizaje a un silencioso salón de clase en el cual se tiene que resolver un examen? Una pregunta igual de relevante le concierne a la transferencia de la extinción. Si la extinción se lleva a cabo en una situación de manera que el EC ya no provoque respuesta bajo ese contexto, ¿también será ineficaz el ENC para provocar la respuesta condicionada (RC) en otras situaciones? La investigación del efecto de renovación por principio se llevó a cabo con ratas de laboratorio, pero el fenómeno se ha extendido a participantes humanos (Vervliet et al., 2013). Una representación esquemática de los resultados provenientes de un experimento de renovación se muestra en la figura 10-2. Durante la primera fase del experimento, los participantes recibieron un entrenamiento de adquisición en un lugar específico, etiquetado como el contexto A. El contexto A podría ser una cámara experimental o una habitación que se distingue por tener un nivel específico de iluminación, y por un olor o un piso característico. Como es de esperarse, la respuesta condicionada aumenta durante la fase de adquisición. Después, se coloca a los participantes en otra cámara experimental (el contexto B), en esta última, la iluminación, el olor y el piso son diferentes. La extinción se realiza en este contexto alternativo. Es común que la respuesta disminuya a lo largo de las repeticiones de los ensayos de extinción. Al final del experimento, los participantes son colocados

180

de nuevo en el contexto A para ver si los efectos de la extinción que se llevó a cabo en el contexto B se transfieren al contexto A.

Figura 10-2. Ilustración del efecto de renovación. De forma original, los participantes adquirieron la respuesta condicionada en el contexto A. Después, recibieron el entrenamiento de extinción en el contexto B, lo que tuvo como resultado una disminución de la respuesta condicionada. En la tercera fase, se les regresa al contexto A para ser examinados. La respuesta condicionada se “renueva” cuando los participantes regresan al contexto A. Los datos son hipotéticos.

Si la extinción implicara el desaprendizaje de una RC, entonces, el hecho de regresar al participante al contexto A después de la extinción en el contexto B no debería significar la recuperación de la conducta condicionada. Contrario a esa predicción, la respuesta se restaura cuando los participantes regresan al contexto A. Del mismo modo que con la recuperación espontánea, la restauración del desempeño puede no ser total. Incluso el regreso parcial de la RC indica que la extinción en el contexto B no se transfiere de manera plena al contexto de entrenamiento original. Más bien, la respuesta condicionada se “renueva” tras el regreso al contexto original de entrenamiento. El efecto de renovación ocurre porque el recuerdo de la extinción es específico a las señales que estaban presentes durante la fase de la extinción. Por lo tanto, un cambio del contexto de la extinción perturba la recuperación del recuerdo de la extinción, el resultado es que el desempeño de la extinción ya no sea evidente. ¿Pero por qué esto restituye la conducta característica de la adquisición original? Para explicar esto, tiene que agregarse el supuesto de que el desempeño de adquisición original se generaliza desde un contexto hacia otro de manera sencilla que el desempeño de la extinción. Éste, de hecho, es el caso. Nótese que en la figura 10-2 los participantes responden con el mismo vigor al comienzo de la fase de extinción en el contexto B, tanto como lo hicieron al final de la fase de adquisición en el contexto A. Esto ilustra que un cambio en el contexto no perturba el desempeño de la adquisición. Sólo perturba el desempeño de la extinción. ¿Por qué la adquisición original se ve perturbada de forma mínima (si lo es del todo) por un cambio en el contexto, mientras que el desempeño de la extinción es

181

en gran medida específico al contexto? Bouton (1993,1994) sugería que las señales contextuales funcionaban para desambiguar la significación de un EC. Esta función es similar a la función del contexto semántico al desambiguar el significado de una palabra. Considere la palabra cortar. Cortar se podría referir al procedimiento físico de crear dos piezas: “el chef corta la zanahoria”. De manera alternativa, también se podría referir a sacar a alguien de un grupo: “a Johnny lo cortaron sus amigos”. El significado de la palabra cortar depende del contexto semántico. Realizar un condicionamiento excitatorio y después una extinción con un EC hacen que el EC sea ambiguo porque el EC podría significar la inminencia (adquisición) de un ENC o podría significar la ausencia (extinción) de un ENC. Esta ambigüedad hace que el EC sea más susceptible ante el control contextual. Después de sólo un entrenamiento de adquisición, el EC no es ambiguo porque significa una sola cosa: un ENC inminente (una inminente entrega de un ENC). Tal EC es, por lo tanto, menos susceptible ante el control contextual a diferencia de uno que ha sido sometido a adquisición y a extinción. El efecto de la renovación tiene importantes consecuencias para la terapia conductual y, de manera desafortunada, estas consecuencias son inquietantes. Esto sugiere que, si un procedimiento terapéutico es efectivo para extinguir un miedo patológico o una fobia dentro de la relativa seguridad de la oficina del terapeuta, el miedo condicionado podría regresar al momento en que el paciente se enfrente al estímulo condicionado del miedo bajo otro contexto. Igual de problemático es el hecho de que los efectos del condicionamiento excitatorio se generalicen de forma fácil desde un contexto a otro (figura 10-2). Por lo tanto, si un individuo adquiere un miedo patológico en una situación, es probable que ese miedo se plague en muchos otros lugares. Sin embargo, si se supera el miedo en un entorno o contexto específico, este beneficio no se generalizará tan fácil. Los efectos de la renovación significan que los problemas creados por el condicionamiento sean más generalizados con cierta probabilidad que las soluciones o los remedios para estos problemas. (Para más información sobre las consecuencias del efecto de renovación en la terapia conductual, véase Bouton, 2014). Restablecimiento de la excitación condicionada Otro procedimiento que ayuda a restaurar la respuesta ante un EC extinguido se llama restablecimiento. El fenómeno del restablecimiento se ilustra en la figura 103. La primera fase involucra el emparejamiento EC–ENC, esto da como resultado la adquisición de una RC pavloviana. Después de esto, siguen las presentaciones del estímulo condicionado sólo y la extinción de la RC. Una vez que la respuesta ha disminuido en la extinción, al participante sólo se le expone al ENC. Esta presentación del estímulo no condicionado sólo da como resultado la recuperación de la respuesta excitatoria del EC. La recuperación de la respuesta inducida por el ENC para el estímulo condicionado se llama restablecimiento.

182

Figura 10-3. Ilustración del efecto de restablecimiento. Después de la adquisición y del entrenamiento de extinción, los individuos son expuestos al estímulo no condicionado (ENC) solo. A esto le siguen pruebas de respuesta al estímulo condicionado (EC). Las presentaciones del ENC solo producen la recuperación de la respuesta al EC. Los datos son hipotéticos.

Considérese el siguiente ejemplo, se aprendió una aversión hacia las patatas fritas porque se enfermó durante un viaje después de haber comido las papas. Después, la aversión es extinguida al mordisquear unas papas fritas sin enfermarse durante repetidas ocasiones. De hecho, podría recuperarse el gusto hacia las papas fritas debido a esta experiencia de extinción. El fenómeno de restablecimiento sugiere que, si se enfermase otra vez, debido a cualquier razón, la aversión hacia las papas regresaría incluso si la enfermedad no fuese causada por lo que se comió (para un estudio análogo con ratas de laboratorio, véase Schachtman et al., 1985.) Al igual que en la renovación, el restablecimiento es un fenómeno problemático para la terapia conductual. La terapia conductual a menudo involucra intentar que los pacientes dejen de hacer cosas que les resultan problemáticas. La extinción es una técnica efectiva para reducir la conducta. Sin embargo, debido al restablecimiento, las respuestas que se extinguen de manera exitosa durante la intervención terapéutica pueden repetirse si el individuo se enfrenta de nuevo a un ENC. Por ejemplo, el restablecimiento se ha desarrollado como un modelo para la recaída después de un tratamiento para la drogadicción (Bossert et al., 2013). El tratamiento para la adicción a las drogas de forma usual incluye un componente de extinción que sirve para extinguir las señales que provocan el ansia por las drogas. Extinguir dichas señales también reduce las respuestas instrumentales que están involucradas con la obtención y el consumo de la droga. Sin embargo, un encuentro “libre” con la droga puede revertir estas ganancias terapéuticas debido al fenómeno de restablecimiento.

MEJORAR EL DESEMPEÑO DE LA EXTINCIÓN El fenómeno de la recuperación espontánea, la renovación y el restablecimiento muestran que las respuestas condicionadas no se eliminan por los procedimientos de

183

la extinción, sino que se pueden recuperar bajo varias circunstancias. Esto se debe a que la extinción no elimina los mecanismos que generan la conducta condicionada. Por ejemplo, los procedimientos de extinción no eliminan las asociaciones entre el estímulo-resultado (S–C) ni las asociaciones entre la respuesta-resultado (R–C) (Delamater 2012; Rescorla, 1993). La extinción funciona al establecer un proceso inhibitorio que suprime la respuesta, sin eliminar los procesos que de manera original fueron los responsables de la conducta condicionada (Bouton et al., 2016). Debido a la relevancia de la extinción en la terapia conductual, un área contemporánea de investigación importante es encontrar distintas maneras para mejorar la inhibición de la respuesta que se crea mediante los procedimientos de extinción. Una estrategia simple para mejorar la extinción es realizar más ensayos de extinción. Aumentar el número de ensayos de extinción produce una supresión más fuerte de la conducta condicionada bajo una variedad de situaciones de aprendizaje (Leung et al., 2007). Sin embargo, existe una variable relacionada: el intervalo entre ensayos de extinción sucesivos también es importante. La investigación básica y la investigación aplicada han demostrado que el aumentar el intervalo entre ensayos en la extinción reduce la recuperación espontánea y, por lo tanto, produce una supresión más duradera de la conducta condicionada (Tsao y Craske, 2000; Urcelay et al., 2009). Otro procedimiento que también ayuda a reducir la recuperación (o la recaída) de la extinción es llevar a cabo extinciones bajo una variedad de contextos. Este procedimiento es en especial efectivo para reducir el efecto de renovación. El efecto de renovación refleja la especificidad del contexto de la extinción: las respuestas extinguidas reaparecen cuando los participantes son movidos del contexto de la extinción a otro lugar. Al realizar la extinción bajo diversos contextos (o en diferentes lugares), la especificidad del contexto de la extinción se puede reducir. Al igual que sucede con el efecto del espaciamiento del ensayo, la efectividad de llevar a cabo la extinción bajo contextos múltiples para reducir la renovación se ha confirmado en la investigación con animales al igual que con humanos (Bandarian Balooch y Neumann, 2011; Thomas et al., 2009). Una tercera estrategia para mejorar el desempeño de la extinción fue sugerida por un análisis de recuperación del recuerdo del problema de la extinción. Los individuos que han experimentado la adquisición y la extinción tienen memorias rivales que guían su conducta. El recuerdo de la adquisición alienta la respuesta condicionada, mientras que el recuerdo de la extinción desalienta la respuesta. Este análisis indica que el desempeño de la extinción puede ser mejorado al proporcionar señales recordatorias para la extinción (Laborda y Miller, 2012). Un tono o una luz que sólo estén presentes durante los ensayos de la extinción podrían servir como señales recordatorias para la extinción. Presentar tal estímulo, entonces, podría utilizarse para activar el recuerdo de la extinción. Se ha descubierto que presentar una señal recordatoria para la extinción reduce la recuperación espontánea y el efecto de renovación bajo una variedad de situaciones experimentales (Brooks, 2000; Brooks y Bouton, 1993). También se ha descubierto que las señales recordatorias para la extinción mejoran la efectividad de la terapia

184

de exposición. Por ejemplo, en un estudio de la terapia de exposición del miedo hacia las arañas, los participantes a los cuales se les alentó a que pensaran sobre el contexto del tratamiento mostraron mucho menos miedo en situaciones nuevas, a diferencia de los participantes que no recibieron la instrucción para activar la memoria (Mystkowski et al., 2006). La última estrategia que se ha descrito para mejorar el desempeño de la extinción se fundamenta en la investigación reciente que indica que las memorias no son permanentes y que pueden ser actualizadas a través de un proceso llamado reconsolidación. La investigación reciente ha demostrado que las memorias consolidadas no son rígidas ni permanentes. Más bien, la activación de un recuerdo lo regresa en una forma maleable y flexible, la cual puede alterarse antes de que regrese o se reconsolide de una forma más duradera (Alberini y LeDoux, 2013) (en el capítulo 14 se abordará más sobre la actualización de la memoria y sobre la reconsolidación). Si las memorias reactivadas son susceptibles a cambiar antes de reconsolidarse, se podría ser capaz de diseñar procedimientos de extinción que produzcan cambios permanentes en cómo se recuerda un EC. Esta línea de pensamiento condujo a la predicción de que el primado de la extinción puede mejorar la eficacia a largo plazo de los procedimientos de extinción. Un ensayo de primado consiste en presentar un EC condicionado con anterioridad que active el recuerdo del condicionamiento (el recuerdo de que el EC será seguido por un ENC). Una vez que la adquisición de la memoria ha sido activada, se vuelve susceptible al cambio. Por lo tanto, llevar a cabo una serie de ensayos de extinción, durante esta etapa, debería crear un nuevo recuerdo (que el EC no está emparejado con un ENC); esta nueva memoria debería reconsolidarse y ser guardada de manera permanente. Estas consideraciones sugieren que los procedimientos de extinción serían más efectivos si fueran antecedidos por un ensayo de primado el cual regrese el recuerdo del condicionamiento hacia una forma flexible. Esta predicción ha sido confirmada en la investigación con ratas de laboratorio y con participantes humanos en estudios sobre la extinción de miedos condicionados (Monfils et al., 2009; Schiller et al., 2010). En estos experimentos se utilizó un procedimiento estándar de extinción. A la sesión de extinción le precedió un solo ensayo de EC que activó la memoria del miedo y la movió hacia un estado flexible, en la cual fue susceptible a la modificación antes de reconsolidarse. Llevar a cabo la extinción después de la reactivación de la memoria del miedo con un solo ensayo de estímulo condicionado hizo que la extinción fuera más perdurable. Esto se evidencia por los niveles reducidos de recuperación espontánea, renovación y restablecimiento. No obstante, este efecto ocurrió de forma única cuando el primado de un solo ensayo de estímulo condicionado era presentado entre diez minutos y una hora antes de la sesión de extinción. Si el ensayo de primado precedía a la sesión de extinción por seis horas, no se observaba mejora en la extinción, de manera probable porque después de seis horas la ventana de reconsolidación ya no se encontraba abierta. Los estudios iniciales que muestran que el primado o la reactivación de una RC pueden mejorar los efectos de la extinción fueron intrigantes y estimularon numerosos experimentos de seguimiento con animales de laboratorio y con

185

participantes humanos. Los descubrimientos originales han sido reproducidos; sin embargo, no todos los esfuerzos para mejorar la extinción con un tratamiento de reactivación han sido exitosos (Auber et al., 2013). A pesar de ello, los resultados indican que todavía existe esperanza de que la manipulación del primado y de la reactivación se puedan desarrollar de manera que aumenten la efectividad de la terapia de exposición en el tratamiento de los miedos y las fobias inadaptadas. La traslación clínica exitosa de la investigación básica requerirá aprender más sobre las condiciones límite del efecto del primado en la extinción (Kroes et al., 2016).

LOS EFECTOS “PARADÓJICOS” DE LA RECOMPENSA EN LA EXTINCIÓN Como se mencionó con anterioridad, la extinción no degrada las asociaciones E–C y R–C sino que ocurre debido al establecimiento de un proceso inhibitorio de respuestas nuevas. ¿Qué ocasiona esa inhibición de respuestas? ¿Por qué el no reforzamiento debería inhibir las respuestas? Al contestar esta pregunta, es importante tener en mente que la extinción involucra un tipo especial de no reforzamiento; en específico, el no reforzamiento después de una historia de reforzamiento. El no reforzamiento sin esta historia previa no es extinción sino que está más relacionado con la habituación. Ésta es una distinción importante porque la ausencia de un reforzador positivo es aversiva sólo después de una historia de reforzamiento. Los efectos emocionales del no reforzamiento dependen de forma crítica de la historia de cada individuo. Si la pareja nunca ha preparado un café en la mañana, entonces no se decepcionará si dicho café no está listo al despertarse. Si nunca ha recibido una mesada, entonces no se decepcionará al no recibirla. Sólo la omisión de una recompensa esperada crea decepción o frustración. Estos efectos emocionales de modo presumible juegan un rol crítico en el declive conductual que ocurre en la extinción. Como se mencionó al comienzo de este capítulo, la extinción implica efectos conductuales y emocionales. La reacción emocional,nombrada frustración, surge de la desilusión que ocurre cuando un reforzador esperado no se presenta. Se asume que el no reforzamiento cuando existe la expectativa de la recompensa dispara una reacción de frustación aversiva no condicionada (Amsel, 1958). Esta emoción aversiva sirve para desalentar la respuesta durante el curso de la extinción a través del establecimiento de un proceso que inhiba la respuesta condicionada (Rescorla, 2001). Si el declive en la respuesta en la extinción se debe a los efectos de frustración de la ausencia inesperada del reforzamiento, entonces se esperaría una extinción más rápida después de un entrenamiento que establezca mayores expectativas de recompensa. De hecho, éste es el caso y ha conducido a varios efectos paradójicos de la recompensa. Los efectos paradójicos de la recompensa no llaman tanto la atención en la investigación contemporánea; sin embargo, son muy comunes en la experiencia diaria y es importante tomarlos en cuenta para la implementación de los principios del reforzamiento en varios ámbitos (p. ej., en la crianza infantil).

186

Efecto del sobreentrenamiento en la extinción Uno de los efectos paradójicos de la recompensa incluye los efectos del entrenamiento excesivo en la extinción subsecuente. El proporcionar mayor entrenamiento con reforzamiento aumenta la expectativa de una recompensa. Debido a esto, cuando se presenta la extinción, los efectos de frustración del no reforzamiento también serán mayores. Si la disminución de la respuesta en la extinción se debe a los efectos de frustración de la no recompensa, el entrenamiento de reforzamiento más extenso debería producir una extinción más rápida. Esta predicción se ha confirmado (figura 10-4) y se llama el efecto del sobreentrenamiento en la extinción (Ishida y Papini, 1997).

Figura 10-4. Ilustración del efecto del sobre entrenamiento en la extinción. Durante la adquisición, dos grupos reciben un reforzamiento continuo por desempeñar una respuesta instrumental. El grupo de sobre entrenamiento recibe entrenamiento hasta que alcanza la asíntota y, entonces, el entrenamiento continúa durante los ensayos adicionales. En contraste, al grupo control se le entrena sólo hasta que alcanza la asíntota. Después, ambos grupos reciben los ensayos de extinción. La respuesta disminuye más rápido en el grupo sobre entrenado que en el grupo control. Los datos son hipotéticos.

El efecto del sobreentrenamiento en la extinción es “paradójico” porque implica menos respuestas en la extinción tras un entrenamiento de reforzamiento más extenso. Podría suponerse, de manera casual, que un entrenamiento de reforzamiento más extenso crearía una respuesta más “fuerte”, una que sea más resistente a la extinción. Pero, en realidad, sucede lo opuesto, en especial cuando el entrenamiento incluye reforzamiento continuo. Entre más se acostumbra a recibir reforzamiento, entonces más rápido se renunciará ante el no reforzamiento.

187

Efecto de la magnitud del reforzamiento en la extinción Otro efecto paradójico de la recompensa que refleja mecanismos similares es el efecto de la magnitud del reforzamiento en la extinción. Este fenómeno muestra el hecho de que la respuesta disminuye más rápido en la extinción después del reforzamiento con un reforzador más grande (figura 10-5), en especial si el entrenamiento tiene reforzamiento continuo (Hulse, 1958; Wagner, 1961). El efecto de la magnitud del reforzamiento en la extinción también se explica con facilidad en relación con los efectos de la frustración de la no recompensa. El no reforzamiento tiende a ser más frustrante si el individuo se ha acostumbrado a una recompensa amplia a diferencia de cuando un individuo espera una recompensa pequeña. Considérense estos dos escenarios posibles: en uno, se reciben trescientos dólares al mes por parte de los padres para ayudar con los gastos de la universidad; en el otro escenario posible, se reciben sólo cincuenta dólares al mes. En ambos casos, los padres ya no dan el dinero porque se dejó la universidad durante un semestre. Éstos no reforzamientos serán más aversivos si se estaba esperando una cantidad de dinero mensual más grande.

Figura 10-5. Ilustración del efecto de la magnitud de la recompensa en la extinción. Durante la fase de adquisición, un grupo de participantes se refuerza (en un programa de reforzamiento continuo) con una recompensa pequeña (S), mientras que otro grupo se refuerza con una recompensa amplia (L). Después, ambos grupos reciben ensayos de extinción. Durante la fase de extinción, la respuesta disminuye más rápido en el grupo L que en el grupo S. Los datos son hipotéticos.

Con base en una aplicación simple de la ley del efecto de Thorndike, se podría predecir que el proporcionar un reforzamiento más grande para cada ocurrencia de la respuesta instrumental creará una asociación E–R más fuerte y por lo tanto producirá respuestas más persistentes en la extinción. El efecto de la magnitud del reforzamiento en la extinción indica que el resultado será el opuesto. Aumentar el tamaño y la frecuencia del reforzador conduce a que los participantes renuncien más

188

rápido al enfrentar el fracaso o el no reforzamiento. Al igual que con el efecto de sobre entrenamiento en la extinción, el efecto de la magnitud del reforzamiento es más prominente tras un reforzamiento continuo a diferencia de un reforzamiento intermitente. El efecto del refuerzo parcial en la extinción Un factor clave que determina los efectos conductuales y emocionales del procedimiento de extinción es el programa de reforzamiento que estaba vigente antes de que la extinción sea introducida. Algunas características sutiles de los programas de reforzamiento pueden influenciar la persistencia del comportamiento durante la extinción. Sin embargo, la característica dominante del programa que determina los efectos en la extinción es: si la respuesta instrumental cada vez que se presenta (reforzamiento continuo) o si sólo es reforzada algunas de las veces en que se presenta (reforzamiento intermitente o parcial). El hallazgo general es que la extinción es más lenta e involucra menos reacciones de frustración si el reforzamiento parcial, en lugar del reforzamiento continuo, estaba vigente antes de introducir el procedimiento de extinción (figura 10-6). A este fenómeno se le llama efecto del reforzamiento parcial en la extinción (ERPE; véase Horsley et al., 2012, para un ejemplo reciente con humanos). El ERPE es el efecto paradójico de la recompensa investigado a mayor profundidad.

Figura 10-6. Ilustración del efecto del refuerzo parcial en la extinción. Durante la fase de adquisición, un grupo de participantes recibe reforzamiento continuo (CRF), mientras que otro grupo recibe reforzamiento parcial (PRF). Después, ambos grupos reciben entrenamiento de extinción. Durante la fase de extinción, la respuesta disminuye más rápido entre el grupo CRF que entre el grupo PRF. Los datos son hipotéticos.

La persistencia de la respuesta, que se crea por el reforzamiento intermitente, puede ser notable. Los individuos que apuestan con frecuencia en juegos de azar son esclavos del reforzamiento intermitente. Ganar de manera esporádica los alienta

189

a seguir apostando entre largos periodos de pérdidas o de no reforzamientos. El reforzamiento intermitente también puede tener consecuencias no deseadas en la crianza de los hijos. Considérese el ejemplo de un niño que está jugando con el carrito del supermercado mientras el papá o la mamá están haciendo la compra. El niño quiere que el papá o la mamá le compre un dulce y el adulto le dice que no. Una y otra vez el niño insiste en que le compren un dulce, y el niño hace un berrinche porque el adulto le dice que no. En este momento, es probable que el adulto sucumba y acceda porque quiere evitar pasar vergüenza en público. Debido a que al final se le compró el dulce al niño, el adulto está proporcionando un reforzamiento intermitente a la exigencia del dulce. El papá o la mamá también ha reforzado la conducta del berrinche. El reforzamiento intermitente de la insistencia para obtener el dulce aumentará la persistencia del niño en las próximas visitas al supermercado. Mecanismos del efecto del reforzamiento parcial en la extinción Tal vez la explicación más obvia del ERPE es que la introducción de la extinción es más fácil de detectar después del reforzamiento continuo, en vez de serlo después del reforzamiento parcial. Durante el entrenamiento, si no se recibe el reforzador luego de cada respuesta, podría no percatarse de forma inmediata sobre cuándo los reforzadores están siendo omitidos durante la extinción. La ausencia del reforzamiento es más sencilla de detectar después del reforzamiento continuo. A esta explicación del ERPE se le llama hipótesis de discriminación. Aunque la hipótesis de discriminación es intuitivamente lógica, el ERPE no es tan directo. En una ingeniosa prueba de la hipótesis de discriminación, Jenkins (1962) y Theios (1962), primero entrenaron a un grupo de animales a través del refuerzo parcial y a otro grupo con reforzamiento continuo. Después, ambos grupos recibieron una fase de reforzamiento continuo antes de que se introdujera la extinción (tabla 10-1). Debido a que el procedimiento de extinción se introdujo inmediatamente después del entrenamiento de reforzamiento continuo en ambos grupos, la extinción debió ser igual de evidente o de discriminable para ambos grupos. Sin embargo, los participantes que al inicio recibieron el entrenamiento de reforzamiento parcial fueron más lentos al extinguir su conducta. Estos resultados indican que la persistencia de la respuesta producida por el refuerzo parcial no proviene de la dificultad mayor de detectar el comienzo de la extinción. Más bien, parecería que los participantes aprenden algo duradero con el refuerzo parcial que se trasfiere hasta la fase de reforzamiento continuo. El reforzamiento parcial parece enseñarles a los participantes a no renunciar al enfrentarse al fracaso y esta persistencia aprendida se retiene incluso cuando experimentan de manera subsecuente una cadena continua de éxitos.

Tabla 10-1 Diseño del experimento Jenkins/Theios para probar hipótesis de discriminación Fase 1

Fase 2

Fase 3

190

Grupo de reforzamiento parcial

Reforzamiento continuo

Resultados de la extinción: extinción lenta

Grupo de reforzamiento continuo

Reforzamiento continuo

Resultados de la extinción: extinción rápida

¿Qué aprenden los participantes durante el reforzamiento parcial que los hace más persistentes al enfrentarse a una racha de mala suerte o al fracaso? Se han realizado numerosos y complicados experimentos para contestar esta pregunta. Estos estudios indican que el reforzamiento parcial fomenta la persistencia de dos maneras. Una explicación es la teoría de la frustración, la cual está basada en lo que los individuos aprenden sobre los efectos emocionales de la no recompensa durante el entrenamiento de reforzamiento parcial. La otra explicación es la teoría secuencial; esta teoría está basada en lo que los individuos aprenden sobre el recuerdo de la no recompensa. La teoría de la frustración De acuerdo con la teoría de la frustración, la persistencia en la extinción se da como resultado de aprender algo inusual; en específico, continuar respondiendo cuando se sabe que no habrá reforzamiento o que habrá frustración (Amsel, 1992; Papini, 2003). La teoría de la frustración presupone que el reforzamiento intermitente dará como resultado aprender a responder a pesar de enfrentarse a un no reforzamiento. No obstante, este aprendizaje requiere una amplia experiencia con el reforzamiento intermitente. La teoría de la frustración define al aprendizaje que se lleva a cabo durante el reforzamiento intermitente en términos de etapas (recuadro 10-1). El reforzamiento parcial incluye ensayos de recompensas y de no recompensas. Los ensayos recompensados guían a los individuos hacia un reforzamiento esperado, mientras que los ensayos de no reforzamiento los guían a esperar la ausencia de la recompensa. Por consiguiente, el reforzamiento intermitente conduce a los individuos a esperar ambas experiencias de recompensa y de no recompensa. Al principio, la expectativa de la recompensa incentiva a los participantes a responder, mientras que la expectativa de la no recompensa desincentiva el responder. Por lo tanto, en la etapa temprana del entrenamiento, los individuos que reciben reforzamiento intermitente tienen el conflicto sobre qué hacer. Sus expectativas alientan tendencias de respuesta opuestas. A lo largo del entrenamiento; sin embargo, se resuelve este conflicto a favor de responder.

Recuadro 10-1 Etapas de la adquisición en la teoría de la frustración Reforzamiento parcial Etapa I. Expectativa de recompensa → Respuesta Expectativa de no recompensa → No respuesta Etapa II. Expectativa de recompensa → Respuesta Expectativa de no recompensa → Respuesta

191

Reforzamiento continuo Etapa I. Expectativa de recompensa → Respuesta Etapa II. Expectativa de recompensa → Respuesta

La resolución del conflicto ocurre porque, durante el programa de reforzamiento parcial, el reforzamiento no se puede predecir. Por lo tanto, la respuesta instrumental termina siendo reforzada en algunos ensayos cuando los participantes esperan una no recompensa. Como resultado de estos episodios, la respuesta instrumental se condiciona ante la expectativa de la no recompensa. De acuerdo con la teoría de la frustración, ésta es la clave para la respuesta persistente en la extinción. Con el entrenamiento suficiente, el reforzamiento intermitente da como resultado aprender a realizar respuestas instrumentales anticipando la no recompensa. En cierto modo, el reforzamiento intermitente enseña a seguir intentándolo frente al fracaso anticipado. Una vez que la respuesta está condicionada hacia la expectativa de la no recompensa persiste la respuesta cuando la extinción se introduce. Por el contrario, no existe nada en la experiencia del reforzamiento continuo que aliente a los individuos a responder cuando están esperando una no recompensa. Con un reforzamiento continuo sólo se aprende a anticipar la recompensa y a realizar la respuesta instrumental cuando esta expectativa de la recompensa se activa. El reforzamiento continuo no les enseña a los participantes a desempeñar la respuesta instrumental cuando están esperando la no recompensa y, por lo tanto, no produce persistencia en la extinción. La teoría secuencial Capaldi (1967, 1971) propuso la teoría secuencial; que está fundamentada en gran medida en ideas respecto a la memoria. Presupone que los individuos pueden recordar si fueron reforzados al realizar la respuesta instrumental durante un pasado reciente. Recuerdan los ensayos recientes de recompensa y de no recompensa. Además, la teoría presupone que, durante el entrenamiento de reforzamiento intermitente, el recuerdo de la no recompensa se convierte en una señal para llevar a cabo la respuesta instrumental. De acuerdo con la teoría secuencial, esto produce persistencia en la extinción. Cómo sucede esto de forma exacta depende en gran medida de la secuencia de los ensayos recompensados (R) y de la secuencia de los ensayos no-recompensados (N) que se administren durante el programa de reforzamiento intermitente. Es por esto que a la teoría se le llama secuencial. Considere el siguiente ensayo secuencial: RNNRRNR. En esta secuencia al participante se le recompensa en el primer ensayo, no se le recompensa en los siguientes dos, luego se le recompensa dos veces seguidas, después no y, al final, se le vuelve a recompensar. El cuarto y el último ensayo son críticos en este programa y por lo tanto están subrayados. En el cuarto ensayo, el participante es reforzado después de recibir dos no recompensas seguidas en los ensayos anteriores inmediatos. Se presupone que el participante recuerda los dos ensayos de no

192

recompensa cuando se le refuerza en el cuarto ensayo. Debido a esto, el recuerdo de los dos ensayos no recompensados se vuelve una señal para responder. Responder al enfrentarse al recuerdo de la no recompensa de nuevo es reforzado en el último ensayo. En este ensayo, el participante es reforzado por responder mientras tiene la memoria del ensayo de no recompensa. Después de suficientes experiencias como éstas, el participante aprende a responder cuando recuerda no haber sido reforzado en los ensayos anteriores. Este aprendizaje crea persistencia de la respuesta instrumental en la extinción. Algunos investigadores han contemplado a la teoría de la frustración y a la teoría secuencial como explicaciones antagónicas sobre el ERPE. Desde el primer momento que se propusieron los dos mecanismos, se obtuvo un cuerpo de evidencia amplio e impresionante que apoya a cada teoría. Por lo tanto, no es apropiado pensar que una teoría es correcta y que la otra es incorrecta. Más bien, las dos teorías identifican dos maneras a través de las cuales el refuerzo parcial puede promover la persistencia. Los mecanismos de la memoria podrían tener una mayor contribución cuando los ensayos de entrenamiento no están separados por intervalos inter-ensayos (se reduce la dificultad de recordar el resultado del último ensayo). En contraste, el aprendizaje emocional descrito por la teoría de la frustración es menos susceptible ante los intervalos inter-ensayos y, por lo tanto, proporciona una mejor explicación del ERPE cuando se están utilizando ensayos de entrenamiento muy espaciados. Sin embargo, la conclusión prudente es que ambos mecanismos contribuyen a la persistencia en la mayoría de las situaciones. En la terapia de exposición para los miedos y las fobias inadaptadas, la persistencia de la respuesta en la extinción se considera como un resultado pobre. No obstante, la persistencia frente al no reforzamiento es una característica envidiable en muchas otras áreas de la vida. Los jugadores de béisbol exitosos tienen que seguir bateando incluso golpean las bolas con una frecuencia menor a un tercio de las veces. El éxito en los negocios, las ciencias y la política a menudo son el resultado de la persistencia al enfrentarse a repetidos fracasos.

RESUMEN Los procedimientos de reforzamiento no siempre son permanentes. El estudio de la extinción nos indica qué sucede cuando una respuesta ya no es reforzada o cuando el EC ya no está emparejado con un ENC. La extinción produce dos cambios de conducta notorios: una disminución en la RC y un aumento en la variabilidad de respuesta. Estos cambios dependen de las circunstancias previas del reforzamiento. El sobre entrenamiento y el uso de un refuerzo más grande producen una disminución más rápida durante la extinción, en especial en el reforzamiento continuo. En contraste, el reforzamiento parcial o intermitente afecta el declive de la respuesta. La disminución de la respuesta que ocurre con la extinción podría parecer contraria a la adquisición; sin embargo, los fenómenos como la recuperación espontánea, la renovación y el restablecimiento indican que la extinción no borra los efectos del entrenamiento de adquisición anterior. La extinción tampoco borra

193

las asociaciones R–C y E–C. En su lugar, la extinción significa el aprender un proceso de inhibición de respuesta basado en los efectos de frustración y aversivos de la no recompensa. Aunque la extinción no elimina la respuesta condicionada, una supresión mayor de comportamiento acontece con las repeticiones del procedimiento de extinción; con el espaciamiento de los ensayos de extinción, con realizar la extinción bajo múltiples contextos, con proporcionar señales que reactiven el recuerdo de la extinción y con el primado de las sesiones de extinción mediante un solo ensayo de estímulo condicionado.

LECTURAS SUGERIDAS Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Cambridge, England: Cambridge University Press. Bouton, M. E. (2014). Why behavior change is dif cult to sustain. Preventive Medicine, 68, 29– 36.http://dx.doi.org/10.1016/j.ypmed.2014.06.010 Capaldi, E. J. (1971). Memory and learning: A sequential viewpoint. In W. K. Honig & P. H. R. James (Eds.), Animal memory (pp. 115–154). Orlando, FL: Academic Press. Maren, S., & Holmes, A. (2016). Stress and fear extinction. Neuropsychopharmacology, 41, 58– 79.http://dx.doi.org/10.1038/npp.2015.180 Todd, T. P., Vurbic, D., & Bouton, M. E. (2014). Behavioral and neurobiological mechanisms of extinction in Pavlovian and instrumental learning. Neurobiology of Learning and Memory, 108, 52– 64.http://dx.doi.org/10.1016/j.nlm.2013.08.012 Términos técnicos Asociación inhibitoria E–R Efecto de la magnitud del reforzamiento en la extinción Efecto del reforzamiento parcial en la extinción Efecto del sobreentrenamiento en la extinción Efecto paradójico de la recompensa Extinción Frustración Hipótesis de discriminación Olvido Primado de la extinción Recuperación espontánea Reforzamiento continuo Reforzamiento intermitente Reforzamiento parcial Renovación Restablecimiento Teoría de la frustración Teoría secuencial

194

Capítulo 11

195

Castigo Sabía usted que: • ¿El castigo no tiene que implicar dolor físico? • Cuando se aplica de forma adecuada ¿el castigo puede producir una supresión permanente de la conducta en un sólo ensayo? • ¿La eficacia del castigo se reduce en sustancia cuando se proporciona el castigo de modo intermitente o con un retraso? • ¿El castigo leve por una primera ofensa puede inmunizar al individuo a los castigos subsecuentes? • ¿El castigo severo por una primera ofensa puede sensibilizar al individuo a los castigos subsecuentes? • ¿La efectividad del castigo incrementa con el reforzamiento positivo de una conducta alternativa? • ¿El castigo facilita la respuesta si éste señala un reforzamiento positivo o si la respuesta castigada es una forma de conducta de escape? • ¿Cuando una persona castiga a otra por enojo o frustración, los parámetros del castigo eficaz son, por lo general, violados y no se producen cambios constructivos en la conducta? La discusión sobre el condicionamiento instrumental hasta este punto, se ha basado en ejemplos de reforzamiento positivo -ejemplos en los que la respuesta instrumental tiene como resultado la entrega de un evento apetitivo o “placentero”. La conducta instrumental también puede ser modificada por eventos aversivos o “desagradables”. Quizá, el procedimiento más sencillo de control aversivo es el castigo. En un procedimiento de castigo, se entrega un evento aversivo contingente al desempeño de una respuesta instrumental. El resultado esperado o típico es la supresión de la conducta castigada. Sin embargo, el grado de supresión de respuesta depende de numerosos factores, muchos de los cuales, no son obvios en forma intuitiva. El castigo es, en lo probable, uno de los temas más polémicos del condicionamiento y el aprendizaje. Evoca imágenes de crueldad y abuso, y es el único procedimiento de condicionamiento cuya aplicación está regulada por la ley. No obstante, el castigo no involucra formas inusuales de crueldad física o dolor. Una diversidad de eventos aversivos ha sido utilizada de manera eficaz como resultado del castigo, incluyendo reprimendas verbales, multas, el tiempo fuera en una esquina o el tiempo fuera en una habitación, la pérdida de los privilegios o los reforzadores positivos ganados, deméritos, varios procedimientos de restitución e, incluso, el rocío de agua o un chorro de jugo de limón en la boca. Las descargas eléctricas leves son usadas como un estímulo aversivo en la investigación con animales ya que su intensidad y duración pueden ser controladas con precisión. Las descargas pocas veces son empleadas con las personas y sólo se utilizan bajo circunstancias extremas.

196

Las preocupaciones sociales y la falta de financiamiento para la investigación han desalentado los estudios respecto al castigo en los años recientes; sin embargo, se ha aprendido mucho de los experimentos sobre el castigo que se llevaron a cabo de forma previa. El escenario para el debate en torno al castigo fue establecido por Thorndike a inicios del siglo XX. Thorndike (1932) afirmó que el castigo es ineficaz para producir cambios significativos y duraderos en la conducta y que, por ello, no debería ser empleado. Con base en sus propios estudios, Skinner (1953) adoptó un punto de vista similar. Él argumentó que se deberían hacer todos los esfuerzos para eliminar el uso del castigo en la sociedad, porque el castigo es cruel e ineficiente. Si el castigo es cruel, no puede determinarse a través de la evidencia empírica. No obstante, la afirmación de que el castigo es ineficaz puede ser examinada de modo experimental. Contrario a las argumentaciones de Thorndike y Skinner, la investigación sistemática ha indicado que el castigo puede ser muy efectivo para suprimir conductas, siempre y cuando el castigo se aplique de manera adecuada.

CASTIGO EFECTIVO E INEFICIENTE La observación casual sugiere que Thorndike y Skinner podrían haber estado en lo correcto al decir que el castigo es ineficaz. La violación de las leyes de tránsito es castigada con multas y otras consecuencias desagradables. A pesar de ello, la gente continúa ignorando las luces rojas y, con frecuencia, conduce más rápido de lo permitido por los límites de velocidad. Los niños en edad escolar que son regañados por un profesor por no haber terminado su tarea no siempre terminan su siguiente trabajo a tiempo. Es probable que un narcotraficante aprehendido por vender cocaína o heroína volverá a vender drogas una vez que haya sido liberado de la prisión. En contraste con los ejemplos anteriores, el castigo es, a veces, efectivo de forma notable. Un niño que por accidente recibe una descarga mientras juega con un enchufe eléctrico nunca volverá a meter sus dedos en un enchufe otra vez. Una persona que se cae y se lastima por apresurarse en un piso mojado aminorará el paso la siguiente ocasión en que tenga que caminar bajo la lluvia. Alguien que voltea una canoa por acercarse demasiado a un lado será mucho más cuidadosa de permanecer en el centro de la canoa después. El por qué el castigo es muy eficiente para suprimir conductas en algunos casos y no en otros ha sido sujeto a investigación de laboratorio bastante extensa, mediante el uso de ratas y palomas durante la década de 1960 a 1970 (Azrin y Holz, 1966; Church, 1969). En este capítulo, se describen los descubrimientos centrales de estos experimentos y se relacionan con situaciones que la gente encuentra en su vida cotidiana. Debe tenerse presente, sin embargo, que los fundamentos empíricos de estas afirmaciones provienen de manera principal de la investigación con animales de laboratorio. Considérense primero los casos en los que falla el castigo. Cuando falla el castigo ¿Por qué los conductores exceden con frecuencia los límites de velocidad incluso

197

cuando esto puede tener como resultado una multa? El castigo para el cumplimiento de las leyes de tránsito es similar al castigo en buena parte del sistema de justicia criminal y en muchas situaciones sociales. En todos estos casos, el castigo es administrado por un individuo en lugar de ser una consecuencia ambiental automática de una respuesta. A diferencia de la canoa, que se voltea en forma automática cuando alguien se acerca demasiado a un lado, los conductores no reciben en automático una multa cuando manejan demasiado rápido. Un oficial de policía tiene que detectar la transgresión y un oficial de la corte tiene que juzgar la gravedad de la ofensa, y decidir qué pena aplicar. Requerir que los oficiales detecten la respuesta a ser castigada y que administren el estímulo aversivo puede volver ineficaz al castigo por una diversidad de motivos. Una consecuencia de necesitar a un oficial de policía para detectar a quienes manejan a exceso de velocidad es que los conductores no son atrapados cada vez que sobrepasan los límites de velocidad. De hecho, la probabilidad de ser atrapado es bastante baja. Un conductor puede exceder los límites de velocidad 50 veces o más sin ser detenido cada vez que su velocidad es registrada por un oficial de patrulla. Entonces, el castigo es muy intermitente. En alguna ocasión en que un conductor que excede el límite de velocidad es detectado, probablemente no haya sido de inmediato sino después de que ha estado manejando muy rápido por cierto tiempo. Por lo tanto, el castigo se demora después del inicio de la conducta que es objeto del castigo. Más demoras en el castigo ocurren porque las multas no tienen que pagarse en ese momento. La parte culpable por lo general tiene una semana o dos para pagar la multa. Las multas de tránsito también pueden ser apeladas y una apelación puede tomar varios meses. Si la apelación no tiene éxito, el castigo por la primera falta con cierta probabilidad será bastante leve. Es posible que el conductor sólo tenga que pagar una multa. Se imponen penas más severas sólo si el conductor ha recibido repetidas multas por exceder el límite de velocidad. Así, el castigo al inicio es leve e incrementa en severidad sólo después de ofensas repetidas. Esta escalada gradual en la severidad del castigo es un rasgo fundamental de cómo se administra el castigo en la sociedad. En la mayoría de las formas de conducta ilegal, la primera o segunda ofensa no son tratadas tan duro como la quinta o sexta transgresión. Se vuelve serio respecto a castigar a alguien sólo tras recibir ofensas repetidas. Otra razón por la que el castigo no es eficaz para desalentar el exceso de velocidad es que los conductores, a menudo, pueden saber cuándo un oficial de patrulla está a punto de medir su velocidad. En algunas ciudades, la ubicación de los puntos de control del radar se anuncia por la radio cada mañana. La presencia de un oficial también es obvia por las marcas distintivas de las patrullas. Algunos conductores tienen detectores de radares en sus automóviles, los cuales señalan la presencia de una patrulla radar. Las patrullas y los detectores de radares proporcionan estímulos discriminativos para el castigo. Por lo tanto, el castigo es señalado con frecuencia por un estímulo discriminativo (tabla 11-1).

Tabla 11-1 Características del castigo

198

Por manejar demasiado rápido

Por meter los dedos en un enchufe eléctrico

Ocurre de modo intermitente

Ocurre cada vez

Demorado

Inmediato

Baja intensidad del estímulo aversivo al principio

Alta intensidad del estímulo aversivo cada vez

Señalado por un estímulo discriminativo

No señalado

Cuando el castigo tiene éxito En contraste con la ineficiencia del castigo para desalentar el exceder los límites de velocidad, ¿por qué funciona tan bien el castigo para desanimar a un niño a que meta sus dedos en un enchufe eléctrico? Un niño que sufre una descarga mientras juega con un enchufe es probable que nunca vuelva a hacerlo y podría desarrollar un fuerte miedo a los enchufes. ¿Cuáles son las diferencias críticas de las contingencias del castigo implicadas en manejar demasiado rápido y en jugar con un enchufe eléctrico? Primera, el castigo se presenta consistentemente por meter los dedos en un enchufe. Cada vez que lo haga, recibirá una descarga. Si toca un enchufe y entra en contacto con los electrodos, con seguridad recibirá una descarga. La configuración física del enchufe garantiza que el castigo sea entregado en cada ocasión. Segunda, el castigo es inmediato. Tan pronto como entre en contacto con los electrodos, recibirá una descarga. No existe una detección elaborada ni un proceso de decisión involucrados para demorar la entrega del estímulo aversivo. Tercera, el castigo es intenso en la primera transgresión. El enchufe no le proporciona una advertencia la primera vez que toca los electrodos. La primera ofensa es tratada con la misma severidad que la décima. Todas y cada una de las veces que desempeñe la respuesta, recibirá una intensa descarga. Al final, el castigo no está limitado a las veces en que un oficial de policía o un testigo esté observando. Por lo tanto, el castigo no está señalado por un estímulo discriminativo. No hay una luz ni un timbre que le avise cundo el enchufe esté “cargado”. No importa quién esté presente en la habitación o qué otra cosa esté sucediendo, meter los dedos en un enchufe hará que reciba una descarga. El castigo severo e inmediato siempre está vigente para cada presentación de la respuesta objetivo.

EVIDENCIA DE LA INVESTIGACIÓN SOBRE EL CASTIGO Se ha descubierto en las investigaciones de laboratorio realizadas con cierto cuidado que todos los factores que caracterizan al castigo por tocar los electrodos de un enchufe son importantes. Es más, la investigación ha identificado varios factores adicionales que determinan de forma enérgica la efectividad del castigo. Es irónico que, buena parte de esta investigación fue encabezada por uno de los antiguos estudiantes de Skinner, Nathan Azrin (Azrin y Holz, 1966). Los estudios

199

complementarios fueron llevados a cabo en un programa de investigación dirigido por Church (1969). Azrin utilizó palomas para la mayoría de su investigación, mientras que Church usó ratas de laboratorio. De forma contraria a las afirmaciones tempranas de Thorndike y Skinner, estos experimentos demostraron que el castigo puede ser una técnica muy eficaz para producir cambios rápidos y a largo plazo en la conducta. Contingencia respuesta–reforzador El castigo es parecido al reforzamiento positivo en el sentido de que implica una contingencia positiva entre la respuesta instrumental y el reforzador. El reforzador se entrega sólo si el organismo ha llevado a cabo con anterioridad la respuesta objetivo. La diferencia primaria entre el castigo y el reforzamiento positivo es que la respuesta resultado es un estímulo aversivo en lugar de apetitivo. Al igual que en otros procedimientos de condicionamiento instrumental, una variable fundamental en el castigo es la contingencia respuesta–reforzador. Esto se refiere al grado en que la entrega del estímulo aversivo depende de la previa presentación de la respuesta objetivo. Si se administra un estímulo aversivo independiente de la respuesta objetivo, el procedimiento es una forma de condicionamiento pavloviano aversivo en vez de un castigo. Como se observó en el capítulo 4 de esta obra, el condicionamiento pavloviano aversivo tiene como resultado el condicionamiento del miedo, que produce la congelación y una supresión general de la conducta en curso. Los procedimientos de castigo a veces también producen una supresión general de la conducta en curso. No obstante, éste no es un resultado inevitable y el castigo, además, produce la supresión conductual específica de la respuesta objetivo (Camp et al., 1967; Goodall, 1984). La especificidad de la supresión conductual provocada por el castigo depende de la contingencia entre la respuesta objetivo y el reforzador aversivo. Entre más fuerte sea la contingencia respuesta–reforzador, más específica será la supresión de respuesta provocada por el castigo. Contigüidad respuesta–reforzador Como se describió con anterioridad para el caso del reforzamiento positivo, la contingencia respuesta–reforzador sólo es un aspecto de la relación entre una respuesta instrumental y un reforzador. Otro factor importante es el intervalo entre la respuesta objetivo y la presentación del reforzador. En un procedimiento de castigo, éste es el intervalo entre la respuesta objetivo y la consecuencia aversiva. La contigüidad respuesta–reforzador es tan importante para el castigo como lo es para el reforzamiento positivo. El castigo es más eficaz si el estímulo aversivo se presenta sin demora tras la respuesta objetivo (Camp et al., 1967). Si el castigo es demorado después de la respuesta objetivo, puede presentarse alguna supresión de conducta (a causa del condicionamiento pavloviano del miedo). Sin embargo, la supresión de respuesta no será específica a la respuesta castigada y podría no ser tan completa. Intensidad del estímulo aversivo

200

Como podría sospecharse, los efectos supresores de respuesta del castigo están relacionados de manera directa con la intensidad del estímulo aversivo. La investigación con ratas y palomas ha mostrado que las bajas intensidades del castigo producen sólo una leve supresión de la conducta. En contraste, el uso de estímulos aversivos intensos tiene como resultado dramáticas supresiones de conducta (Azrin, 1960). De manera importante, los efectos de la intensidad del castigo dependen de la experiencia previa del participante con el castigo. En general, los individuos tienden a responder a un nuevo nivel de castigo de forma similar a cómo respondieron durante sus encuentros más tempranos con el castigo. Los efectos históricos de la exposición al castigo pueden conducir a resultados algo inesperados. Considérese, por ejemplo, a individuos que en un inicio fueron expuestos a una intensidad baja de castigo. Los estímulos aversivos débiles sólo producen, si acaso, una leve supresión de la respuesta. Los animales expuestos a castigos de baja intensidad se habitúan al estímulo aversivo y aprenden a seguir respondiendo con poca interrupción en su conducta. Esta respuesta persistente frente al castigo leve continúa cuando se introducen intensidades más altas de estimulación aversiva (Azrin et al., 1963; N. E. Miller, 1960). Como resultado, los individuos siguen respondiendo cuando la intensidad del castigo es mayor. En cierto sentido, la exposición a la estimulación aversiva leve sirve para inmunizar a los individuos en contra de los efectos del castigo más intenso (figura 11-1). De modo interesante, una historia de exposición al castigo intenso puede tener el efecto opuesto. La exposición inicial al castigo intenso puede incrementar el impacto de castigos leves subsecuentes (figura 11-2). La estimulación aversiva de alta intensidad produce una supresión dramática de la respuesta castigada y esta severa supresión de la respuesta persiste cuando la intensidad del estímulo aversivo se reduce de forma subsecuente (Church, 1969). Así, el castigo leve produce una supresión más severa de la conducta entre los individuos que con anterioridad han recibido un castigo intenso, en comparación con los individuos quienes no fueron castigados de manera previa. La exposición al castigo intenso sensibiliza al participante a la subsecuente estimulación aversiva leve.

201

Figura 11-1. Efectos inmunizantes de la experiencia previa con el castigo leve. Durante la Fase 1, un grupo de participantes fue expuesto al castigo leve, mientras que a otro grupo se le permitió responder sin castigo. Durante la Fase 2, ambos grupos reciben castigo intenso. Los datos son hipotéticos.

Figura 11-2. Efectos sensibilizantes de la experiencia previa con el castigo intenso. Durante la Fase 1, un grupo de participantes fue expuesto al castigo intenso, mientras que a otro grupo se le permitió responder sin castigo. Durante la Fase 2, ambos grupos reciben castigo leve. Los datos son hipotéticos.

Castigo señalizado Algunas contingencias del castigo siempre están activas. Sin embargo, es común,

202

que la contingencia del castigo sólo está activa en presencia de estímulos particulares, los cuales, de modo usual, son provistos por la persona que administra el procedimiento de castigo. Si el castigo está señalado por un estímulo distintivo, el procedimiento es llamado castigo discriminativo. Por ejemplo, un niño puede ser reprendido por correr en la sala de estar cuando los padres están en casa, pero no cuando los abuelos están a cargo. En este caso, el castigo estaría marcado por las señales asociadas con la presencia de los padres del niño. Los padres serían estímulos discriminativos para el castigo. Como podría sospecharse, un niño que es reprendido por sus padres, pero no por sus abuelos evitará correr en la sala de estar cuando sus padres estén en casa y no mostrará tal moderación cuando sus abuelos estén a cargo. Los procedimientos de castigo discriminativo tienen como resultado una supresión discriminativa de la conducta (Dinsmoor, 1952). La respuesta queda suprimida en presencia del estímulo discriminativo, pero continúa sin disminución cuando el estímulo discriminativo está ausente. El control discriminativo de una respuesta castigada puede ser problemático. Un padre o una madre podrían intentar hacer que un niño no emplee lenguaje soez castigándolo cada vez que maldice. Esto puede desalentar el uso de palabras burdas en presencia del padre o la madre, pero no evitará que el niño lo haga con sus amigos o en la escuela. La supresión del lenguaje obsceno estará bajo control discriminativo y el padre o la madre no lograrán su objetivo. En otros casos, el castigo discriminativo no es problemático. Si un niño comienza a hablar muy alto durante un servicio religioso, es probable que sea reprendido. Si el procedimiento de castigo es eficaz, el niño dejara de hablar durante el servicio, pero no evitará que hable de manera entusiasta en otros lugares. Suprimir la respuesta sólo bajo el control del estímulo discriminativo de la iglesia no es un problema. El castigo y los mecanismos que mantienen la respuesta castigada Los procedimientos de castigo se aplican a respuestas que ya están presentes por alguna causa. Es típico que las respuestas castigadas se mantengan debido a alguna forma de reforzamiento positivo. Esto es muy importante pues, los efectos del castigo dependen del tipo de reforzamiento y del programa de reforzamiento que sostengan la respuesta objetivo. Un niño puede hablar durante un servicio religioso para llamar la atención o para disfrutar de la camaradería de hablar con un amigo. Si se reprende al niño por hablar, la aversión del regaño es confrontada con el disfrute de la atención y la camaradería. El resultado del procedimiento de castigo depende de la manera en que el niño resuelva este problema costo-beneficio. La investigación con animales de laboratorio ha demostrado que, en general, el castigo será menos eficaz si la respuesta objetivo se refuerza con frecuencia. El castigo es más eficiente si la respuesta objetivo sólo se refuerza de vez en cuando (Church y Raymond, 1967). El resultado del castigo también depende del programa particular de reforzamiento positivo que mantiene a la respuesta objetivo. Con programas de intervalo variable y fijo, el castigo reduce el nivel general de respuesta, pero no cambia la distribución temporal de la conducta (p. ej., Azrin y Holz, 1961). En contraste, si la respuesta instrumental es mantenida por un programa de

203

reforzamiento de razón fija, el castigo tiende a incrementar la pausa pos refuerzo (Azrin, 1959; Dardano y Sauerbrunn, 1964), con escaso efecto sobre la razón del incremento de respuesta. Castigo y reforzamiento de una conducta alternativa Como se discutió en la sección anterior, el resultado de los procedimientos de castigo puede analizarse en términos de los costos y beneficios relativos de llevar a cabo la respuesta objetivo. Este análisis costo-beneficio involucra no sólo a la respuesta castigada sino también a las demás actividades que podría desempeñar el individuo. Una técnica para incrementar los efectos del castigo es proporcionar un reforzamiento positivo para alguna otra conducta (Perry y Parke, 1975). Los padres exitosos son conscientes de este principio. Castigar a los niños durante un largo viaje en automóvil por pelear entre ellos es ineficaz de forma relativa si no se les proporciona algo más que hacer. El castigo por pelear es mucho más efectivo si está acompañado por una actividad alternativa reforzada, como jugar un videojuego o ver una película en la computadora o tableta mientras están en el automóvil. Efectos paradójicos del castigo Los factores que se han descrito hasta ahora determinan el grado en que el castigo suprimirá la respuesta objetivo. El castigo no será muy efectivo si la respuesta castigada es mantenida por un programa de reforzamiento positivo poderoso, si no hay reforzamiento positivo para una conducta alternativa o si el castigo es leve, demorado e implica una contingencia respuesta–reforzador leve. Los parámetros débiles de castigo vuelven al castigo ineficaz. Bajo algunas circunstancias, el castigo podría, incluso, producir lo opuesto de lo que está buscando, es decir, la facilitación en lugar de la supresión de la respuesta. Castigo como señal de reforzamiento positivo La facilitación paradójica de la respuesta puede ocurrir cuando el castigo funciona como una señal de reforzamiento positivo (Holz y Azrin, 1961). La atención, por ejemplo, es una fuente poderosa de reforzamiento entre los niños. Un niño podría ser ignorado por sus padres la mayor parte del tiempo, siempre y cuando no esté haciendo nada peligroso o disruptivo. Si comienza a jugar con cerillos, es reprendido con severidad. ¿El castigo suprimirá la respuesta objetivo en este caso? Es probable que no. Nótese que el niño recibe atención por parte de los padres sólo después de que hace algo malo y es castigado. Bajo esas circunstancias, el castigo puede convertirse en una señal de atención o reforzamiento positivo, con el resultado de que el niño buscará el castigo como un medio para obtener atención. Una de las cosas más difíciles de aprender para los padres es prestarles atención a los niños cuando no están haciendo nada disruptivo, de manera que el castigo no quede asociado con obtener atención. Castigo de la conducta de escape También pueden ocurrir efectos paradójicos si el castigo es aplicado a una respuesta

204

de escape, la cual sirve para terminar un estímulo aversivo. Cuando una respuesta termina un estímulo aversivo, incrementando, así, la probabilidad de la respuesta, el estímulo es llamado reforzador negativo y la operación es nombrada reforzamiento negativo (se abordará más sobre el reforzamiento negativo en el capítulo 12). El reforzamiento negativo está muy restringido porque, antes de que un organismo pueda terminar un estímulo aversivo, éste debe estar presente. Por lo tanto, una respuesta de escape siempre se lleva a cabo en presencia de un estímulo aversivo (figura 11-3). Esto convierte a la presencia del estímulo aversivo en una señal para la respuesta de escape. El castigo de una respuesta de escape facilita en vez de suprimir la respuesta (p. ej., Dean y Pittman, 1991). Este efecto paradójico sucede a causa de que el estímulo aversivo empleado para castigar la respuesta es el mismo estímulo que motivó la conducta en primer lugar. Entonces, la respuesta de escape persiste a pesar de ser castigada.

Figura 11-3. Diagrama de un procedimiento de escape o de reforzamiento negativo. La respuesta de escape se presenta durante el estímulo aversivo y tiene como resultado su terminación.

Los efectos paradójicos del castigo no son comunes y no deberían alentar a concluir que el castigo produce resultados impredecibles. En lugar de eso, si se observa un efecto paradójico del castigo, debe examinarse la situación con cuidado para determinar si el castigo se ha convertido en una señal de reforzamiento positivo. Si eso no parece probable, quizá, la respuesta objetivo fue reforzada con anterioridad como una respuesta de escape.

¿PUEDE Y DEBE CREARSE UNA SOCIEDAD LIBRE DE CASTIGO? Como se señaló al inicio de este capítulo, tanto Thorndike como Skinner defendieron que el castigo no debía utilizarse, porque lo consideraban ineficaz para producir cambios significativos y duraderos en la conducta. Su recomendación estaba bien, pero su razonamiento estaba equivocado. Los experimentos de laboratorio han mostrado que el castigo puede ser muy efectivo para disminuir la conducta instrumental. ¿Esto significa que se deba utilizar el castigo en cualquier ocasión que interese desalentar alguna actividad? ¿O se debería trabajar para construir una sociedad por completo libre de castigo? Las respuestas a estas preguntas dependen, en parte, de qué es lo que se considere como una conducta

205

humana justa y ética. Las preguntas éticas están fuera del alcance de los principios del condicionamiento y del aprendizaje. No obstante, la evidencia empírica sobre la efectividad del castigo puede ayudar a informar las decisiones que se toman respecto a los usos sociales del castigo. Primero, ¿es posible crear un entorno libre de castigo? La respuesta es bastante obvia. El castigo es una consecuencia inevitable de varios aspectos del entorno físico y biológico en el que se vive. Si se maltrata a un gato, el gato arañará. Si no mantiene el vaso firme mientras sirve algún líquido de una jarra, se derramará y se hará un desastre. Si se saca una cazuela del horno sin un agarrador, se quemará. Sería imposible rediseñar el entorno para eliminar todas las fuentes de castigo. Ya que el castigo no puede ser eliminado por completo, ¿de qué tipos de castigo se debería tratar de deshacerse?, ¿sería esto sensato? El tipo de castigo que en la cultura se percibe como más objetable es el dolor físico infligido por una persona con la finalidad de controlar la conducta de alguien más. Se tienen leyes en contra del uso del castigo corporal en las escuelas. También leyes en contra del maltrato infantil, del maltrato a los cónyuges y del maltrato a los adultos mayores. Dichas leyes están justificadas por razones morales y éticas. ¿Estas leyes tienen sentido también desde la perspectiva de los principios empíricos del castigo? La respuesta es sí. Las interacciones interpersonales que involucran un castigo requieren que un individuo cause dolor a otro. Un factor importante es la disposición de la persona que administra el castigo a lastimar a la otra. Un padre o una madre pueden afirmar que están castigando al hijo por haber obtenido una mala calificación en la escuela, o un esposo puede decir que está castigando a la esposa por llegar tarde a casa. Sin embargo, que el castigo se lleve a cabo a menudo está relacionado con el estado emocional de la persona que administra el castigo. Las personas tienen mayor probabilidad de castigar a alguien si están frustrados y enojados. Si alguien arremete contra otro individuo por ira y frustración, los principios del castigo efectivo con seguridad estarán muy lejos de su mente. Si se administra el castigo por frustración y enojo, es probable que no esté vinculado a la respuesta no deseada. Si una mala calificación en una tarea escolar sólo exaspera al padre o a la madre cuando están frustrados y enojados, el castigo quizá será intermitente. El castigo frustratorio también tiene la posibilidad de presentarse con una larga demora luego de que la respuesta objetivo ha ocurrido. Un padre o una madre pueden volverse abusivos cuando el niño lleve a casa malas calificaciones, a pesar de que las respuestas que contribuyeron a esas calificaciones se hayan presentado durante las semanas previas. Otra desventaja es que, con frecuencia, el castigo frustratorio está bajo control de un estímulo discriminativo, el cual no está relacionado con la conducta castigada. Un padre o madre pueden molestarse por unas calificaciones bajas cuando sus recursos emocionales están tensos por dificultades en el trabajo, mala salud o abuso de drogas. En estas circunstancias, la probabilidad del castigo estará señalada por la irritabilidad del padre o la madre y el niño aprenderá que puede lograr que le firmen la boleta sin que lo castiguen si espera al día siguiente o al fin de semana, cuando sus padres estén de mejor humor.

206

Otra falla del castigo frustratorio es que raras veces está acompañado por el reforzamiento positivo de una conducta alternativa. Cuando un padre castiga a un niño por irritabilidad y enojo, con seguridad el padre no tendrá presente acompañar al castigo con un esfuerzo programático para proporcionarle reforzamiento positivo por otras actividades más constructivas. El castigo como un acto de agresión y frustración viola muchos de los parámetros del castigo efectivo y, por ello, no produce cambios constructivos en la conducta. Debido a que el castigo por frustración está poco relacionado con la conducta objetivo, el castigo frustratorio es abusivo y no puede justificarse como un procedimiento sistemático de modificación de la conducta. Las prohibiciones sociales en contra del uso del castigo sirven para reducir las instancias de castigo que son motivadas por la frustración y la ira en lugar de por un esfuerzo programático cuidadoso para promover una mejor conducta (para una observación detallada de los problemas relacionados con el uso del castigo en sociedad, véase Gershoff, 2013, 2016.).

ALTERNATIVAS AL CASTIGO ABUSIVO El castigo abusivo no puede justificarse por motivos éticos ni empíricos. Sin embargo, las respuestas no deseadas están obligadas a presentarse en los hogares, los salones de clase y otros ámbitos. ¿Qué se debe hacer al respecto? ¿Qué alternativas existen para el castigo abusivo? Es lamentable que no haya respuestas fáciles. Se ha vuelto claro que cualquier procedimiento adoptado para suprimir respuestas no deseadas debe aplicarse como parte de un programa sistemático que tome en cuenta no sólo la respuesta sino también las demás actividades y fuentes de reforzamiento del paciente. En el capítulo 9 se abordó cómo los efectos del reforzamiento positivo dependen de un contexto conductual más amplio. Sucede lo mismo en el castigo. Tiempo fuera Una alternativa popular al castigo físico en el ámbito educativo es el procedimiento de tiempo fuera (Hagopian et al., 2013). De hecho, muchos salones de clase tienen una silla de tiempo fuera, en la cual el estudiante deberá sentarse si está siendo castigado. En un procedimiento de tiempo fuera, la consecuencia de realizar una respuesta no deseada no es un evento aversivo físico sino el tiempo fuera de las fuentes de reforzamiento positivo. Un adolescente al que no se le permite salir de casa durante una semana por haber tomado el automóvil familiar sin permiso está pasando por un tipo de procedimiento de tiempo fuera. El tiempo fuera también está siendo utilizado cuando se le dice a un niño “ve a la habitación” como una forma castigo. Al igual que con otros procedimientos de condicionamiento instrumental, la eficacia del tiempo fuera depende de la demora entre la respuesta objetivo y la consecuencia del tiempo fuera. La efectividad del procedimiento también depende de qué tan consistente se aplique. De manera adicional, el tiempo fuera implica algunas consideraciones especiales. Para ser eficaz, el procedimiento debe tener

207

como resultado una reducción sustancial en la tasa de reforzamiento positivo. Un niño que tiene diversas cosas divertidas que hacer en su habitación no será desalentado al ser mandado a la habitación como una forma de tiempo fuera. Otra consideración importante es cuánto reforzamiento estaba disponible antes de que se administrara el tiempo fuera en comparación con la cantidad de reforzamiento disponible en la situación de tiempo fuera, puesto que tiene pocas probabilidades de suprimir la conducta si el individuo no está obteniendo suficiente reforzamiento positivo de cualquier modo. Un niño que no está disfrutando ningún aspecto de estar en un salón de clase no experimentará mucha pérdida de reforzamiento cuando se le imponga tiempo fuera. Reforzamiento diferencial de otras conductas Otra alternativa para el castigo abusivo es el reforzamiento diferencial de otras conductas (RDO). Un procedimiento de RDO involucra una contingencia negativa entre una respuesta objetivo y un reforzador. Se ha discutido con anterioridad el aprendizaje producido por una contingencia negativa en relación con el condicionamiento inhibitorio pavloviano, en el cual la contingencia negativa era entre un estímulo condicionado (EC) y un estímulo no condicionado (ENC). El EC inhibitorio indicaba que el ENC no ocurriría. En un procedimiento de RDO, la contingencia negativa es entre una respuesta instrumental objetivo y las presentaciones de un estímulo reforzador. La presencia de la respuesta objetivo conduce a la omisión del reforzador. En un procedimiento de RDO, se programa la entrega del reforzador a intervalos fijos (p. ej., cada 30 segundos). La presencia de la respuesta objetivo causa la cancelación de estos reforzadores programados durante un periodo específico o la reinicialización del intervalo entre reforzadores. Esta contingencia tiene como resultado la supresión de la respuesta objetivo. Debido a que el procedimiento de RDO implica una contingencia negativa respuesta–reforzador y suprime la respuesta, el RDO en ocasiones es llamado castigo negativo (Lattal, 2013). Cancelar la mesada semanal de un adolescente porque llegó a casa muy tarde una noche es un ejemplo de un programa de RDO. La mesada es proporcionada con cierta regularidad. No obstante, la presencia de una respuesta objetivo no deseada tiene como resultado la supresión de la mesada durante un periodo específico. El RDO es distinto al procedimiento de tiempo fuera descrito en la sección precedente en varios aspectos. En el RDO, los reforzadores no son cancelados al hacer que el individuo vaya a una silla o habitación específica para el tiempo fuera. En su lugar, los reforzadores que de manera previa fueron programados son omitidos por una cierta cantidad de tiempo después de la respuesta objetivo. Otra diferencia importante es que en el procedimiento de RDO los reforzadores son provistos de modo explícito cuando la respuesta objetivo no ocurre. Así, actividades distintas a la conducta objetivo terminan siendo reforzadas. Es por ello que el procedimiento es nombrado reforzamiento diferencial de otras conductas. No importa cuáles sean esas “otras” conductas. Dado que los individuos siempre están haciendo algo, las alternativas a la respuesta objetivo llegan a desempeñarse con mayor frecuencia en un procedimiento de RDO (Jessel et al., 2015).

208

Un procedimiento de RDO es más difícil de administrar que el procedimiento más común de tiempo fuera, pues requiere proporcionar un reforzador de forma periódica cuando no se lleva a cabo la respuesta objetivo. Para emplear un procedimiento de RDO, debe identificarse un reforzador conveniente y deben hacerse arreglos para entregar un reforzador constante durante largos periodos de tiempo. Por lo tanto, el procedimiento de RDO requiere interactuar con el participante durante un intervalo prolongado, incluso si la respuesta de interés no se presenta.

RESUMEN En un procedimiento de castigo, se presenta un estímulo aversivo contingente a la respuesta instrumental. El castigo es muy efectivo para suprimir la respuesta objetivo si es administrado sin demora, con una alta intensidad desde el principio y cada vez que se presenta la respuesta objetivo. La eficacia del castigo puede incrementarse al proporcionar un reforzamiento positivo por actividades alternativas. La exposición al castigo leve al inicio puede tener como resultado una resistencia aprendida a los efectos supresores del castigo más intenso, y señalar el castigo puede limitar la supresión de la respuesta a la presencia de la señal. El castigo puede provocar un incremento paradójico de la respuesta si funciona como una señal de reforzamiento positivo o si se aplica a una conducta de escape que está motivada de forma adversa. En la vida cotidiana, el uso del castigo a menudo se relaciona con el estado emocional de la persona que administra el estímulo aversivo. Las personas tienen cierta probabilidad de emplear el castigo cuando están frustradas y enojadas. Bajo estas circunstancias, se violan muchos de los parámetros para el castigo efectivo, con el resultado de que no se producen cambios constructivos en la conducta. Los problemas en torno al uso del castigo han alentado alternativas como el tiempo fuera y el reforzamiento diferencial de otras conductas. La aplicación exitosa de cualquier procedimiento de supresión de respuesta requiere tomar en cuenta no sólo la respuesta no deseada sino también las demás actividades y fuentes de reforzamiento del individuo.

LECTURAS SUGERIDAS Azrin, N. H., & Holz, W. C. (1966). Punishment. In W. K. Honig (Ed.), Operant behavior: Areas of research and application (pp. 380–447). New York, NY: Appleton-Century-Crofts. Church, R. M. (1969). Response suppression. In B. A. Campbell & R. M. Church (Eds.), Punishment and aversive behavior (pp. 111—156). New York, NY: Appleton-Century-Crofts. Gershoff, E. T. (2013). Spanking and child development: We know enough now to stop hitting our children. Child Development Perspectives, 7, 113–137. http://dx.doi.org/10.1111/cdep.12038 Jessel, J., Borrero, J. C., & Becraft, J. L. (2015). Differential reinforcement of other behavior increases untargeted behavior. Journal of Applied Behavior Analysis, 48, 402–416. http://dx.doi.org/10.1002/jaba.204 Términos técnicos Castigo

209

Castigo discriminativo Reforzamiento diferencial de otras conductas (RDO) Reforzamiento negativo Tiempo fuera

210

Capítulo 12

211

Aprendizaje de evitación Sabía usted que: • ¿La evitación es una forma de la conducta instrumental en la cual la respuesta instrumental previene la entrega de un estímulo aversivo? • ¿Ninguna teoría importante asume que la conducta de evitación se refuerza con la ausencia del estímulo aversivo que fue evitado? • Aunque la evitación es una forma de conducta instrumental, ¿las teorías del aprendizaje de evitación dependen mucho de los conceptos del condicionamiento pavloviano? • ¿Se asume que varios aspectos importantes del aprendizaje de evitación involucran el aprender las señales temporales internas y propioceptivas, o las señales de retroalimentación, que acompañan a la respuesta de evitación? • ¿La conducta de evitación está determinada de forma sólida por el sistema de comportamiento defensivo preexistente del organismo? El castigo sólo es una de las formas principales de condicionamiento instrumental que involucra a los estímulos aversivos. Otra forma de control aversivo es el condicionamiento de evitación. En los procedimientos de castigo, el desempeño de la respuesta instrumental da como resultado la presentación de un estímulo aversivo. En el condicionamiento de evitación, la respuesta instrumental previene o bloquea la presentación del evento aversivo. Se hacen muchas cosas que previenen que algo malo suceda. Estirar la mano frente a una puerta cerrada para empujarla y abrirla para así evitar chocar con ella; revisar de vez en cuando la parrilla para que no se queme la carne asada; disminuir la velocidad del automóvil para no pegarle al auto de enfrente; usar un abrigo al salir al frío para no enfermarse. Todos éstos son ejemplos de respuestas de evitación. Debido a que ya se mencionaron varios procedimientos de condicionamiento instrumental y debido a que la sociedad ya está muy familiarizada con el aprendizaje de evitación a partir de la experiencia personal, se podría suponer que los análisis del condicionamiento de evitación serían bastante sencillos o evidentes. Desafortunadamente, éste no es el caso. De hecho, el aprendizaje de evitación ha sido una de las formas más arduas del aprendizaje a ser analizada y explicada. Debido a los difíciles problemas conceptuales en el aprendizaje de evitación, mucha de la investigación se ha llevado a cabo a través de estudios teóricos en vez de prácticos. Esto contrasta mucho con la investigación sobre el castigo, la cual se ha realizado en forma mayoritaria mediante estudios prácticos.

PREGUNTAS DOMINANTES EN EL ANÁLISIS DEL APRENDIZAJE DE EVITACIÓN Los procedimientos de evitación son bastante claros: el participante ejecuta una

212

respuesta instrumental que previene la entrega de un estímulo aversivo. Sin embargo, no es claro qué aspectos del procedimiento de evitación refuerzan a la respuesta instrumental. Ya que una respuesta de evitación exitosa previene la entrega de un estímulo aversivo, a las respuestas de evitación exitosas les sigue “nada”. Mowrer y Lamoreaux (1942) señalaron que esto crea una pregunta teórica importante: ¿cómo puede “nada” reforzar un comportamiento y producir aprendizaje? Se han presentado varias hipótesis y teorías que explican cómo “nada” puede reforzar la respuesta de evitación. Las hipótesis y las teorías difieren en varios aspectos. Sin embargo, todas las explicaciones principales rechazan la idea de sentido común respecto a que las respuestas de evitación ocurren porque previenen la entrega de un evento aversivo. Como se observa, se han ofrecido un número de propuestas ingeniosas para poder explicar el aprendizaje de evitación sin tener que depender de la problemática idea teórica de que “nada” es un refuerzo. La segunda pregunta central en el análisis de la conducta de evitación es: ¿cómo es que los procesos de condicionamiento pavlovianos están involucrados en el aprendizaje de evitación? Como se ha visto, también se ha analizado el proceso de condicionamiento pavloviano en los estudios de la conducta instrumental reforzada de manera positiva (capítulo 7). No obstante, los conceptos del condicionamiento pavloviano no han dominado el pensamiento sobre la conducta instrumental reforzada de manera positiva de la misma manera en que han dominado el análisis del aprendizaje de evitación. A lo largo de la historia, al aprendizaje de evitación se le contemplaba como un caso especial de condicionamiento pavloviano. De hecho, hasta el momento algunos recuentos del aprendizaje de evitación contemplan que la conducta de evitación es un producto proveniente de manera absoluta de los mecanismos del condicionamiento pavloviano.

ORÍGENES DEL ESTUDIO DEL APRENDIZAJE DE EVITACIÓN El aprendizaje de evitación se investigó por primera vez por el científico ruso Bechterev (1913), quien se dedicó al estudio del condicionamiento de respuestas motoras en lugar de respuestas de las glándulas. El procedimiento que Bechterev concibió fue bastante simple. Les pidió a los participantes humanos que colocaran un dedo en un electrodo metálico, el cual estaba sobre una mesa. Una leve corriente eléctrica pasaba por los electrodos y esto disparaba la respuesta de retirar el dedo. Por lo tanto, la respuesta no condicionada fue retirar el dedo. Para que la situación se tornara un condicionamiento clásico, antes de cada descarga en cada ensayo, Bechterev presentaba un estímulo corto de advertencia. Como pudo predecirse, los participantes aprendieron muy rápido a quitar el dedo de los electrodos al momento que se presentaba el estímulo condicionado (EC), esto se medía como la respuesta condicionada. Aunque Bechterev contemplaba que su técnica de retirar el dedo era una manera conveniente de estudiar el condicionamiento pavloviano, una reflexión más cuidadosa de este procedimiento muestra que, en realidad, era un procedimiento instrumental y no un procedimiento pavloviano. Debe recordarse que los electrodos se encontraban sobre una mesa; no estaban sujetos al dedo del participante. Por lo

213

tanto, si el participante levantaba su dedo en respuesta al EC, entonces podía evitar en forma total el recibir la descarga. Esto es diferente de los procedimientos pavlovianos estándar, en los cuales el incidente de la respuesta condicionada no determina si el estímulo no condicionado (ENC) es entregado o no. De manera inadvertida, Bechterev les había dado a sus participantes el control sobre la presentación del ENC. Esto hacía que la técnica de retirar el dedo fuese un procedimiento de condicionamiento instrumental y no un procedimiento de condicionamiento pavloviano.

PROCEDIMIENTOS CONTEMPORÁNEOS DE CONDICIONAMIENTO DE EVITACIÓN En la investigación contemporánea se utilizan dos tipos de procedimiento para la conducta de evitación. El procedimiento de evitación discriminada es un procedimiento de ensayos discretos que incluye una señal de advertencia explícita. El procedimiento de evitación no-discriminada es un procedimiento operante libre y no involucra un estímulo de advertencia explícita. Evitación discriminada Sin saberlo, Bechterev había inventado lo que ahora se conoce como el procedimiento de evitación discriminada. En un procedimiento de evitación discriminada, la contingencia respuesta-reforzador no siempre está en vigor. Más bien, la respuesta previene la entrega del reforzador sólo durante los periodos discretos o durante los ensayos en los que se presenta un EC o un estímulo de advertencia. Como se ilustra en la figura 12-1, lo que sucede durante estos ensayos depende del comportamiento del participante. Si el participante responde, entonces el EC se apaga y el ENC aversivo no es entregado. En contraste, si el participante no responde durante el EC, éste continúa estando presente en todo el ensayo y termina con la presentación del ENC aversivo. Por lo tanto, un procedimiento de evitación discriminada involucra dos tipos de ensayos, de respuesta y de norespuesta; el ENC aversivo sólo se presenta en las pruebas donde no se responde.

Figura 12-1. Diagrama del procedimiento de evitación discriminado o señalizado. Si el organismo responde durante la señal de advertencia o estímulo condicionado (EC), el EC se apaga y el estímulo no condicionado (ENC) aversivo no es entregado. En contraste, si el organismo no responde durante la señal

214

de advertencia o EC, éste continúa estando presente toda su duración y termina con la presentación del ENC aversivo.

A partir de la investigación de Bechterev, el procedimiento de evitación discriminada se ha adaptado para ser utilizado con animales de laboratorio. De hecho, la mayoría de la investigación sobre los mecanismos teóricos del aprendizaje de evitación se han realizado con ratas de laboratorio. De tal manera que el ENC aversivo es una descarga eléctrica leve que se entrega a través del piso de rejillas. Se utilizan las descargas porque su intensidad y duración se pueden controlar. En algunos experimentos, se requiere que las ratas accionen una palanca de respuesta durante un EC o durante un estímulo de advertencia (una luz o un tono) para evitar recibir la descarga. Otros experimentos utilizan una caja de dos compartimentos donde las ratas se tienen que mover de un lado del aparato hacia el otro para evitar la descarga (figura 12-2). Cada ensayo comienza con la presentación de un EC o con un estímulo de advertencia (una luz) mientras la rata está en un lado del aparato. Si la rata se mueve al otro lado antes de que termine el EC, entonces el EC se apaga y no hay descarga durante ese ensayo. Si la rata no se mueve al otro lado antes de que termine el EC, se aplica una descarga suave continua hasta que la rata escape al otro lado.

215

Figura 12-2.Caja de dos compartimentos que se utiliza en los estudios sobre aprendizaje de evitación. El animal tiene que cruzar de un compartimento al otro para evitar la descarga leve a través del piso de rejillas.

La caja de dos compartimentos puede utilizarse para implementar ya sea un procedimiento de evitación de una vía o un procedimiento de evitación de dos vías. En un procedimiento de evitación de una vía, al principio de cada ensayo el participante siempre se coloca en el mismo compartimiento (p. ej., del lado izquierdo). Debido a que cada ensayo comienza del mismo lado (el izquierdo), la respuesta de evitación siempre involucra ir hacia la misma dirección (de izquierda a derecha). Con este procedimiento, el lado donde el participante comienza cada prueba siempre es en potencia peligroso, mientras que el otro lado siempre es el seguro. El animal nunca recibe la descarga en el otro lado. Estas características hacen que la tarea de evitación de una vía sea fácil de aprender. En un procedimiento de evitación de dos vías, los ensayos pueden empezar ya sea en el lado izquierdo o en el lado derecho, dependiendo del compartimento en el cual el animal se encuentre cuando vaya a comenzar el siguiente ensayo. Si la rata empieza el ensayo en el lado izquierdo, entonces debe dirigirse al lado derecho para lograr evitar la descarga. Si la rata empieza en el lado derecho, entonces debe dirigirse al lado izquierdo para evitar la descarga. Ya que los ensayos pueden comenzar en cualquier lado, ambos lados de la caja de dos compartimentos son en potencia peligrosos. La falta de un lado que pueda ser seguro hace que la tarea de evitación de dos vías sea más difícil de aprender en comparación con el procedimiento de evitación de una sola vía (Theios et al., 1966). Evitación no discriminada o evitación operante libre En los procedimientos de evitación discriminada, responder es efectivo para prevenir el estímulo aversivo sólo si la respuesta ocurre durante el periodo del ensayo, cuando el estímulo de advertencia está presente. Las respuestas ejecutadas durante el intervalo entre ensayos no tienen efecto. De hecho, los participantes se pueden remover del aparato durante el intervalo entre ensayos. En contraste con esos procedimientos de ensayos discretos tan tradicionales, Sidman (1953) concibió un procedimiento no discriminante o un procedimiento de evitación operante libre. El procedimiento operante libre de Sidman se desarrolló bajo la tradición skinneriana o bajo la tradición operante. En esta tradición, los ensayos no están restringidos a periodos donde un estímulo discreto esté presente, y el participante puede repetir la respuesta instrumental en cualquier momento. Bajo un programa de razón fija en una caja de Skinner, por ejemplo, las respuestas realizadas durante cualquier momento sí cuentan para el cumplimiento de la razón requerida. Sidman extendió estas características de la metodología operante hacia el estudio de la conducta de evitación. En el procedimiento de evitación operante libre, no se utiliza un estímulo de advertencia explícito y no hay ensayos discretos. La respuesta de evitación se puede realizar durante cualquier momento y la respuesta siempre provee cierto beneficio.

216

Cambiarle el aceite del motor al automóvil es un buen ejemplo. Cambiar el aceite es una respuesta de evitación que prevé los problemas con el motor. Si se espera hasta que el problema se desarrolle, entonces tendrán que pagarse reparaciones costosas. Lo mejor que puede hacerse con el auto es cambiarle el aceite antes de que se presente cualquier dificultad con el motor. El intervalo recomendado es de 3 000 millas. Por lo tanto, cada cambio de aceite equivale a comprar 3 000 millas de manejo libres de problemas. Podría cambiarse el aceite sólo después de 1 000 millas o podría decidirse cambiarlo tras recorrer otras 800 millas más. Siempre y cuando se cambie el aceite antes de las 3 000 millas, siempre se tendrán 3 000 millas de manejo libre de problemas. Cambiar el aceite del automóvil es sólo un ejemplo de una práctica segura o saludable que involucra realizar algo antes de que se presenten señales de peligro evidentes. Todos éstos son ejemplos de contingencias de evitación de tipo operante libre. En el laboratorio, los procedimientos de evitación operante libre utilizan una breve descarga eléctrica que está programada en intervalos fijos. Por ejemplo, la descarga podría programarse cada quince segundos si está ausente una respuesta de evitación. Éste es el intervalo choque-choque, o el intervalo E–E. El desempeño de la respuesta de evitación crea un periodo de seguridad, durante el cual no se dan descargas. El periodo de seguridad podría ser de treinta segundos. Éste es el intervalo de respuesta-choque, o el intervalo R–E (figura 12-3). Ya sea que una descarga ocurra al final del intervalo R-E o al final del intervalo E–E, no le antecede una señal de alarma explícita.

Figura 12-3. Diagrama de un procedimiento de evitación no discriminada u operante libre. Mientras que el animal no responda, una breve descarga eléctrica está programada de manera periódica, según el intervalo choque-choque (E–E) establecido. Cada ejecución de la respuesta de evitación crea un periodo sin descarga, establecido por el intervalo respuesta-choque (R–E).

Un aspecto importante de los procedimientos de evitación operante libre es que el intervalo R–E se restablece y vuelve a empezar, en repetidas ocasiones, cada vez que la respuesta de evitación se ejecuta. Por lo tanto, si el intervalo R–E es de treinta segundos, cada respuesta restablece el intervalo R–E y empieza de nuevo el periodo seguro de treinta segundos. Debido a esta característica cada presentación de la respuesta de evitación proporciona algún beneficio, al igual que lo hace el cambio de aceite. Sin embargo, el grado del beneficio depende con exactitud de cuándo se realiza la respuesta. Si el participante responde cuando el intervalo R–E ya está activo, dicho

217

intervalo volverá a comenzar y el tiempo restante del reloj R–E se perderá. El beneficio neto de responder dependerá si la respuesta ocurre temprano o más tarde durante el intervalo R–E (figura 12-4). Si el participante responde de manera tardía en el intervalo R–E, sólo perderá una pequeña cantidad del tiempo que le queda en el reloj R–E y el beneficio neto de responder será significativo. De manera contrastante, si el participante responde temprano durante el intervalo R–E, entonces perderá mucho del tiempo que le restaba al reloj R–E y el beneficio de responder será mucho menor en cualquiera de los dos casos. Sin embargo, si el individuo logra responder antes de que termine cada uno de los intervalos R–E, reiniciará todos los intervalos R–E y, por lo tanto, tendrá éxito y evitará todas las descargas.

Figura 12-4. Efecto de repetir la respuesta de evitación más temprano o tarde durante un intervalo de respuesta-choque (R–E) en un procedimiento de evitación operante libre. Los intervalos R–E se indican con las barras horizontales sombreadas. En el lado izquierdo, la respuesta se repitió tarde en el intervalo R– E, del lado derecho la respuesta se repitió temprano en el intervalo R–E. Nótese que el tiempo total sin descargas es más largo si la respuesta se repite tarde durante el intervalo R–E.

TEORÍA DE LOS DOS FACTORES DE LA EVITACIÓN La teoría de la evitación más antigua y más influyente es la teoría de los dos factores del aprendizaje de evitación, propuesta por O. H. Mowrer (1947; véase también N. E. Miller, 1951). La teoría de los dos factores fue la perspectiva teórica dominante para los estudios del aprendizaje de evitación durante muchos años en el siglo XX, y sus componentes principales siguen siendo importantes en la investigación contemporánea (Maia, 2010) y en los usos clínicos (LeDoux y Gorman, 2001; van der Kolk, 2006). Según la teoría de los dos factores, el aprendizaje de evitación involucra procesos de condicionamiento clásicos e instrumentales (ésos son los dos factores). No obstante, Mowrer no describió ninguno de los dos procesos de manera obvia e instintiva. Primero debe analizarse el componente del condicionamiento clásico. En vez de pensar que éste es el responsable directo de la respuesta de evitación (como lo concebía Bechterev), Mowrer (1947) propuso que dicho proceso da como resultado el condicionamiento de un estado emocional que se llama miedo. En los ensayos donde la respuesta de evitación no ocurre, el estímulo de advertencia o el EC está emparejado con el ENC aversivo, y da como resultado el condicionamiento del

218

miedo al estímulo de advertencia. Se presume que, el miedo condicionado es un estado no placentero o aversivo. Por lo tanto, se asume que su reducción o eliminación es reforzadora. La reducción del miedo acarrea al segundo proceso en la teoría de los dos factores. Cuando la respuesta de evitación se realiza en los ensayos, la respuesta apaga el estímulo de advertencia y previene la entrega del ENC. Se presupone que apagar el estímulo de advertencia da como resultado la reducción del miedo condicionado y que la reducción de este miedo proporciona reforzamiento para la respuesta de evitación. Por lo tanto, el segundo componente en la teoría de los dos factores de la evitación es el condicionamiento instrumental de la respuesta de evitación a través de la reducción del miedo. Nótese que, según la teoría de los dos factores, la conducta de evitación no se refuerza cuando “nada” sucede después de la respuesta de evitación. Más bien, el comportamiento se refuerza por la reducción del miedo, la cual es una forma de reforzamiento negativo (la remoción de un de estímulo aversivo contingente a la conducta). A la respuesta instrumental, se le considera una respuesta de escape: una contestación que lo aleja del miedo. En vez de enfocarse en el hecho de que la conducta de evitación previene la entrega del ENC aversivo, la teoría de los dos factores trata a la conducta de evitación como un caso especial de la conducta de escape. La teoría de los dos factores proporciona respuestas a muchas preguntas sobre el aprendizaje de evitación. Las respuestas fueron innovadoras cuando se expusieron por primera vez y han determinado la dirección de la investigación sobre el condicionamiento de evitación desde aquel entonces. De acuerdo con esta teoría, el proceso pavloviano y el proceso instrumental contribuyen al aprendizaje de evitación. Además, los dos procesos son interdependientes. Antes de que la reducción del miedo pueda proporcionar un reforzamiento instrumental para la respuesta de evitación, primero, el miedo tiene que condicionarse al estímulo de advertencia. Por lo tanto, el condicionamiento clásico del miedo es un prerrequisito del componente instrumental de la teoría de los dos factores. El proceso instrumental depende de la integridad del proceso de condicionamiento del miedo pavloviano. Evidencia consistente con la teoría de los dos factores La interdependencia de los componentes pavlovianos y de los componentes instrumentales de la teoría de los dos factores tiene varias implicaciones importantes. Primero, si el miedo condicionado pavloviano es la base para la conducta de evitación, entonces la respuesta de evitación debería disminuir con la extinción del miedo que se ha condicionado al estímulo de advertencia o al EC. Esta predicción se ha confirmado a través de numerosos estudios. En estos experimentos, los participantes reciben repetidas exposiciones del estímulo de advertencia o del EC que se presenta por sí mismo después de la adquisición de la respuesta de evitación. De manera típica, los procedimientos de extinción se llevan a cabo al utilizar los protocolos pavlovianos estándar, bajo los cuales los participantes no pueden controlar la duración de la presentación del EC sólo. Las pruebas

219

subsecuentes de la respuesta de evitación muestran que la conducta de evitación se reduce de manera significativa con la extinción pavloviana del miedo, el grado de disminución de la respuesta se determina por la duración total de la presentación del EC sólo (M. Baum, 1970; Schiff et al., 1972). Estos hallazgos de laboratorio proporcionan las bases empíricas para la terapia de exposición, que es el tratamiento estándar para las conductas de evitación inadaptivas, como lavarse las manos de manera compulsiva. Una segunda predicción de la teoría de los dos factores es que la reducción del miedo debería ser efectiva para reforzar la conducta instrumental, incluso si el miedo no se adquirió en un procedimiento señalizado de evitación. Esta predicción también se ha confirmado a través de numerosos estudios llamados experimentos del escape del miedo. En estos estudios, en un inicio, el miedo condicionado se instituye mediante el uso del procedimiento de condicionamiento pavloviano estándar, sin un componente instrumental o de evitación. Por ejemplo, un tono o una luz podrían repetirse emparejados con la descarga, bajo circunstancias en las cuales los participantes no pueden escapar o evitar el choque. En la siguiente fase del experimento, el EC pavloviano se presenta en cada ensayo, pero ahora los participantes tienen la oportunidad de terminar el EC al realizar una respuesta instrumental específica (accionar una palanca de respuesta o cambiar de lado de la caja de dos compartimentos). El dato interesante es el aumento de la probabilidad de la respuesta instrumental que se presenta en estas circunstancias. Este incremento, que se observa de manera rutinaria, indica que la reducción del miedo es un reforzador efectivo para la conducta instrumental (Cain y LeDoux, 2007; Esmorís-Arranz et al., 2003). Evidencia contraria a la teoría de los dos factores Otra consecuencia importante de la interdependencia de los procesos pavlovianos y de los procesos instrumentales en la teoría de los dos factores es que el miedo condicionado y la respuesta de evitación deberían estar correlacionadas de manera amplia. En específico, los altos niveles de respuesta de evitación deberían estar acompañados por altos niveles de miedo provocado por el estímulo de advertencia en el procedimiento de evitación. De forma interesante, esta predicción se ha refutado con frecuencia. Mientras que la respuesta de evitación aumenta, el miedo ante el estímulo de advertencia o hacia el EC que señala la descarga, en realidad, disminuye. La disminución del miedo que acompaña al dominio de un proceso de evitación ha sido muy bien documentada en los estudios con animales de laboratorio (Mineka, 1979) y con participantes humanos (Lovibond et al., 2008). Los estudios con personas proporcionan un entendimiento sobre por qué ocurre esto. Los participantes humanos reportan una disminución en la expectativa de la descarga a la par que van adquiriendo competencia para ejecutar la respuesta de evitación. Una vez que uno sabe cómo evitar la descarga, entonces se tendrán pocas expectativas de que el choque ocurrirá si es que responde de forma correcta y, por lo tanto, el nivel de miedo disminuye. La experiencia habitual también sugiere que persiste poco o nada de miedo

220

después de que la respuesta de evitación es bien aprendida. Controlar el volante de un automóvil para que no se salga del camino es, en esencia, una conducta de evitación. Un conductor competente realiza los movimientos del volante apropiados para evitar que el automóvil se aproxime demasiado a la orilla del camino o a otro carril. Aunque estos ajustes son respuestas de evitación, los conductores competentes no muestran miedo al usar el volante en situaciones de tráfico normales.

SEÑALES TEMPORALES CONDICIONADAS EN EL APRENDIZAJE DE EVITACIÓN Los resultados difíciles de explicar en torno a la teoría de los dos factores de la evitación han resuelto que la teoría sea modificada y expandida. Los esfuerzos para integrar los nuevos descubrimientos con la teoría a menudo han involucrado postular estímulos internos y atribuir funciones importantes a estas señales internas. La evitación no discriminada ha sido un reto especial porque no implica un estímulo de advertencia explícita, el cual tiene un papel principal en la teoría de los dos factores. Para superar esta dificultad, los investigadores han propuesto que las señales internas relacionadas con el paso del tiempo tienen la función de un estímulo de advertencia en los procedimientos de evitación no discriminada (Anger, 1963). Debe recordarse que en un procedimiento de evitación no discriminada hay descargas eléctricas en momentos predecibles. Los procedimientos de evitación operante libre están construidos con dos tipos de intervalos (con intervalos E–E y con intervalos R–E), ambos tienen una duración determinada. Tanto en los intervalos E–E como en los intervalos R–E habrá un choque cuando los intervalos se completen. Por lo tanto, el paso del tiempo predice que ocurrirá una próxima descarga. El aprendizaje de evitación operante libre puede explicarse en términos de la teoría de los dos factores al asumir que los individuos utilizan el paso del tiempo como una señal para saber cuándo ocurrirá el siguiente choque. Los animales (y las personas) son bastante buenos para responder con base en el tiempo (Church, 2012; Crystal, 2012b). Los estímulos del tiempo son llamados señales temporales. Las señales temporales características del final de los intervalos E–E y de los intervalos R–E son diferentes a las señales temporales características del principio de estos intervalos. Primero, es probable que los participantes no distinguirán entre el principio y el final de los intervalos E–E y R–E. Sin embargo, no tardan en aprender la diferencia debido a que las señales temporales tempranas y las tardías tienen consecuencias diferentes. Las señales temporales que caracterizan al principio del intervalo E–E y a los intervalos R–E nunca se emparejan con la descarga. Si el choque ocurre, siempre sucede al final de estos intervalos. Como consecuencia de este reforzamiento diferencial, los participantes pueden aprender a distinguir las señales temporales tempranas al igual que las tardías. Las señales temporales características del final de los intervalos E–E y R–E están emparejadas con el choque y, en teoría, adquieren propiedades aversivas condicionadas. Cada respuesta de evitación inicia un nuevo intervalo R–E y, por

221

ello, reduce la aversión condicionada creada por las señales temporales que son características del final de los intervalos E–E y de los intervalos R–E (figura 12-5). De esta manera, una respuesta de evitación puede dar como resultado una reducción en el condicionamiento del miedo y puede satisfacer el componente instrumental de la teoría de los dos factores.

Figura 12-5. La supuesta aversión condicionada de las señales temporales durante los intervalos de respuesta-choque (R–E) y choque-choque (E–E) en un procedimiento de evitación operante libre. R: ocurrencia de la respuesta de evitación; E: ocurrencia del breve choque. Nótense los niveles bajos de la aversión condicionada que se da al principio de cada intervalo E–E y R–E, al igual que los altos niveles de aversión al final de estos intervalos. Cada ocurrencia de la respuesta siempre reduce la aversión condicionada de las señales temporales, porque cada respuesta comienza un intervalo R–E nuevo.

SEÑALES DE SEGURIDAD Y APRENDIZAJE DE EVITACIÓN La siguiente explicación del aprendizaje de evitación que se revisará también está fundamentada en la consideración de las señales internas que los participantes pueden experimentar durante el curso del condicionamiento de evitación. Sin embargo, en vez de enfocarse en las señales que predicen el peligro, este recuento se enfoca en las señales internas que indican la ausencia del choque o que indican un periodo seguro. Se asume que esa señal de seguridad es un reforzador de la respuesta instrumental (Dinsmoor, 2001). En el procedimiento de evitación, los periodos seguros se predicen mejor mediante la ejecución de la respuesta de evitación. Después de todo, la conducta de evitación cancela la entrega de un estímulo aversivo. Gracias a la biología se sabe que los movimientos de los músculos y de las articulaciones que están involucrados en realizar las respuestas pueden provocar el alza de las señales propioceptivas internas. A estas señales también se les llama señales de retroalimentación de respuesta o, señales de retroalimentación. Las señales de retroalimentación que se producen por una respuesta de evitación son seguidas por un periodo predecible sin

222

un ENC aversivo, un periodo predecible de seguridad. Como se vio en el capítulo 5, el estímulo que prediga de manera confiable la ausencia del ENC podría adquirir propiedades inhibitorias condicionadas pavlovianas. Por lo tanto, las señales de retroalimentación que son generadas por las respuestas de evitación también pueden adquirir propiedades inhibitorias condicionadas pavlovianas. La explicación del aprendizaje de evitación a partir de la señal de seguridad está basada en estas ideas. Según la hipótesis de la señal de seguridad, las señales de retroalimentación de la respuesta de evitación adquieren propiedades inhibitorias condicionadas pavlovianas y, por ello, se convierten en señales de seguridad. En una situación de posible peligro, se piensa que las señales de seguridad son reforzadoras. De acuerdo con la información de la señal de seguridad, la conducta de evitación se refuerza de manera positiva a través de las señales de seguridad inhibitorias condicionadas. Aunque el concepto de la señal de seguridad es similar a la hipótesis de la señal temporal en cuanto a su dependencia de un estímulo interno del organismo, ha sido más accesible a la verificación experimental. La información de la señal de seguridad ha sido evaluada al introducir un estímulo externo (un breve tono) al mismo tiempo que la señal de retroalimentación interoceptiva ocurre en un modo posible. Es decir, un breve tono se presenta cuando el participante lleva a cabo la respuesta de evitación. Si la hipótesis de la señal de seguridad es correcta, entonces esa señal exteroceptiva debería adquirir las propiedades de un inhibidor condicionado. Además, estas propiedades inhibitorias condicionadas deberían hacer que el estímulo de retroalimentación sea un efectivo reforzador positivo para la conducta instrumental. Ambas predicciones han sido confirmadas (Cándido et al., 2004; Morris, 1974, 1975). (Para un estudio de reforzamiento de señales de seguridad con participantes humanos, véase Angelakis y Austin, 2015). Una predicción menos obvia es que el aprendizaje de evitación debería facilitarse al aumentar la prominencia de las señales de retroalimentación seguras. Consistente con esta predicción es el hecho de que la introducción de un estímulo de retroalimentación de respuesta externa (que, se presume, es más prominente que las señales propioceptivas internas) facilita de manera substancial el aprendizaje de evitación (D'Amato et al., 1968). El proceso de la señal de seguridad no es incompatible con la teoría de los dos factores de la evitación y no es necesario observarle como una teoría alternativa. Más bien, el reforzamiento positivo a través de una señal de seguridad inhibitoria condicionada puede sopesarse como el tercer factor en el aprendizaje de evitación que opera en combinación con el condicionamiento clásico del miedo y con el reforzamiento instrumental a través de la reducción del miedo.

EXTINCIÓN DE LA CONDUCTA DE EVITACIÓN La extinción es bastante simple una vez que le sigue al reforzamiento positivo: se permite que la respuesta instrumental ocurra, pero ya no presenta el reforzador. El resultado común es una disminución sustancial de la respuesta. La situación es un poco más complicada después del condicionamiento de evitación. Una forma de obtener la extinción de la conducta de evitación es tan sencilla como apagar el

223

aparato de descargas y proporcionar el ENC aversivo durante el entrenamiento de evitación. De manera desafortunada, sólo apagar la fuente de la descarga pocas veces funciona para extinguir la respuesta de evitación. Durante una fase temprana, los investigadores descubrieron que la respuesta de evitación puede persistir durante cientos de ensayos después de que se ha desactivado el aparato de choque (Solomon et al., 1953). ¿Por qué sucede esto? Como se mencionó, existen dos fuentes de reforzamiento para la respuesta de evitación. Una es la reducción del miedo condicionado que ocurre cuando la respuesta de evitación termina la señal de alarma o con el EC. La segunda fuente de reforzamiento viene de las propiedades condicionadas inhibitorias de las señales de seguridad de la respuesta que señalan un periodo libre de choques. Ninguna de estas fuentes de reforzamiento se elimina cuando la fuente de descargas se desactiva después del condicionamiento de evitación. Para eliminar la reducción al miedo como una fuente de reforzamiento para la conducta de evitación, se debe extinguir el miedo condicionado que es provocado por el estímulo de advertencia o por el EC. Eso se puede lograr al suministrar exposiciones reiteradas del EC sólo. Sin embargo, a los participantes no se les puede permitir que acaben con el EC. Los individuos en extremo entrenados tienden a responder rápido para apagar el estímulo de advertencia. Si se les permite realizar eso, no recibirán la suficiente exposición al estímulo de advertencia para extinguir la mayoría del miedo condicionado. Por lo tanto, bloquear la respuesta de evitación es un componente que se requiere con frecuencia en la extinción del miedo después del entrenamiento de evitación (M. Baum, 1970). En los estudios con participantes humanos, bloquear la respuesta de evitación ocasiona el retorno del miedo y de la expectativa del choque (Lovibond et al., 2008). Sin duda, esto hace que la ausencia de la descarga sea más prominente y, por lo tanto, facilita la extinción. La segunda fuente de reforzamiento para la respuesta de evitación es proporcionada por las propiedades de la señal de seguridad de las señales de retroalimentación de la respuesta. Tales propiedades de la señal de seguridad son mucho más difíciles de extinguir que el miedo condicionado; puesto que son, en esencia, estímulos inhibidores condicionados. De manera lamentable, se sabe mucho menos sobre la extinción de la inhibición condicionada en comparación con lo que se sabe sobre la extinción del estímulo excitatorio condicionado. Como se mencionó en el capítulo 6, presentar de manera repetida un inhibidor condicionado o una señal de seguridad por sí sola (sin un ENC) no extingue las propiedades inhibitorias (Witcher y Ayres, 1984; Zimmer-Hart y Rescorla, 1974). Otra complicación es que no se cuenta con el acceso directo a las señales de retroalimentación de respuesta que funcionan como señales de seguridad en el aprendizaje de evitación. Debido a que estas señales se producen por la conducta del participante, no están disponibles para el control experimental directo. Otra estrategia para extinguir la respuesta de evitación es cambiar el procedimiento para que la respuesta de evitación ya no impida el ENC aversivo. Por desgracia, tal procedimiento mantendrá el miedo condicionado hacia el estímulo de advertencia y, como ya se ha visto, ésta es una poderosa fuente de motivación para la respuesta de evitación. Las dificultades para extinguir la conducta de evitación

224

representan un desafío permanente para la terapia conductual.

APRENDIZAJE DE EVITACIÓN Y CONDUCTA DEFENSIVA NO CONDICIONADA Como se mencionó en el capítulo 2, los procedimientos de aprendizaje no operan en una tabula rasa sino que están superpuestos a las tendencias conductuales preexistentes de un organismo; estas tendencias las acarrea el organismo a la situación de aprendizaje. Las respuestas aprendidas son producto de la interacción entre los procedimientos de condicionamiento utilizados, al igual que de la estructura conductual preexistente del organismo. La teoría de los dos factores y los mecanismos de señales de seguridad para la evitación que se describieron con anterioridad están basados en una visión simple de lo que trae el organismo a la situación de condicionamiento aversivo. Estos mecanismos de aprendizaje sólo requieren que el estímulo sea aversivo. Con un estímulo aversivo no condicionado, el miedo puede condicionarse ante una señal que anticipe un evento aversivo; la seguridad se puede condicionar ante una señal que prediga la ausencia del evento aversivo,la reducción del miedo y la seguridad pueden servir como reforzadores para cualquier respuesta instrumental. Reacciones defensivas específicas a la especie Resulta que las tendencias conductuales preexistentes que un organismo trae a la situación de condicionamiento de evitación son mucho más complejas de lo que se han descrito. La exposición a un evento aversivo activa un nutrido repertorio de conductas, el cual ha evolucionado para permitir a los organismos hacer frente al peligro de manera rápida y efectiva. Bolles (1970) señaló que un animal que es perseguido por un depredador debe evitar el peligro de manera exitosa desde la primera vez que sucede ese evento porque, de lo contrario, podría no sobrevivir para repetirlo en un segundo y tercer ensayo. Las situaciones peligrosas requieren de mecanismos de afrontamiento efectivos sin requerir de mucha práctica, por lo tanto, Bolles indicaba que los organismos responden a las situaciones aversivas con una jerarquía de respuestas defensivas no condicionadas, a las cuales llamó reacciones de defensa específicas de la especie (SSDR, por sus siglas en inglés). Las SSDR son respuestas tales como, paralizarse, huir y luchar. Bolles sugería que las SSDR específicas ocurrían dependiendo de la naturaleza del estímulo aversivo y de las oportunidades de respuesta que proporcionaba el entorno. Si existe una vía conocida y efectiva de escape, es muy probable que el animal huirá cuando se enfrente al estímulo aversivo. Si no hay una ruta de escape conocida, la respuesta predominante será congelarse. En situaciones sociales, la que predominará será luchar. Debido a que las SSDR son provocadas por la presentación inicial de un estímulo aversivo, dominan la conducta del organismo durante las etapas tempranas del entrenamiento de evitación. Esto dificulta el uso de los procedimientos de condicionamiento aversivo para condicionar las respuestas que no estén relacionadas con las SSDR. Correr, por ejemplo, es más compatible con las SSDR

225

que pararse en dos patas. Por lo tanto, no es sorprendente que sea más fácil condicionar a una rata para que evite la descarga eléctrica corriendo que parándose en sus dos patas traseras (Bolles, 1969). El continuo de inminencia depredadora El concepto de las SSDR motivó a que los investigadores consideraran con mayor detalle la estructura del sistema de conducta defensiva que se activa en las situaciones de condicionamiento aversivo. Estas observaciones condujeron a la idea de que las conductas defensivas no condicionadas no sólo dependen de enfrentarse a un estímulo aversivo sino que también dependen de la probabilidad o la inminencia del encuentro. Los animales hacen una cosa cuando perciben la probabilidad de daño o de ataque y hacen otra cuando la probabilidad de daño es mayor. Las variaciones en las respuestas defensivas provocadas por los diferentes grados del miedo percibido constituyen el continuo de inminencia depredadora (Perusini y Fanselow, 2015; Rau y Fanselow, 2007). El continuo de inminencia depredadora ha sido investigado de manera extensa con ratas de laboratorio (Fanselow, 1994). Las ratas son cazadas por halcones y por víboras. Se activan diferentes modos de conductas defensivas dependiendo de la probabilidad de daño que perciba la rata (figura 12-6). El modo de respuesta preencuentro se activa si, durante el curso de la búsqueda de alimento, una rata se adentra en un área donde existe la posibilidad de encontrar una víbora, pero todavía no se ha enfrentado a ella. En el modo de pre-encuentro, la rata podría moverse a un área segura. De no existir, la rata será más precavida mientras busca su alimento. Se aventurará fuera de su madriguera con menor frecuencia y cuando salga comerá más cantidades (Fanselow et al., 1988). Si las respuestas defensivas pre-encuentro no son exitosas y la rata se enfrenta a una víbora, el modo de respuesta de encuentro con el depredador se activará. Bajo el modo encuentro con el depredador, la parálisis es la respuesta predominante. Al final, si esta conducta defensiva tampoco es exitosa y la víbora ataca a la rata, el modo de respuesta contacto con el depredador se activará. Bajo el modo contacto con el depredador, la rata saltará de forma repentina y golpeará a la víbora. A esto se le llama respuesta próxima al ataque (figura 12-6).

Figura 12-6. El continuo de inminencia depredadora. Se activan diferentes modos de conducta defensiva según el nivel de inminencia depredadora. El modo pre-encuentro representa la conducta defensiva de un animal antes de enfrentarse con el depredador. El modo de encuentro con el depredador representa la conducta defensiva después de que el animal se ha enfrentado con el depredador. El modo de contacto con

226

el depredador representa su conducta después de que el depredador ha realizado contacto físico.

Un encuentro con una descarga eléctrica en un estudio de laboratorio activa el nivel más alto de inminencia depredadora, el modo de respuesta contacto con el depredador. El estímulo de advertencia que ocurre antes del ENC aversivo activa el modo encuentro con el depredador. Por lo tanto, las respuestas como congelarse, que son características del modo encuentro con el depredador son esperadas; se desarrollan por el estímulo que está asociado con el ENC aversivo. En contraste, las señales de seguridad deberían provocar respuestas recuperativas y de relajación porque señalan la ausencia total de un posible depredador. Estas consideraciones ilustran que, incluso cuando un organismo aprende sobre una situación aversiva, su comportamiento está influenciado de manera firme por la organización preexistente de su sistema de conducta defensivo.

RESUMEN Los estudios en torno al aprendizaje de evitación tienen un origen en la investigación del condicionamiento clásico y están basados en los métodos de ensayos discretos, donde una señal de advertencia resultaba en una breve descarga a menos que se llevara a cabo la respuesta de evitación. De modo subsecuente, se desarrollaron procedimientos de evitación operante libre que no utilizaban señales de advertencia explícitas. No importa qué método se esté utilizando; el aprendizaje de evitación es desconcertante porque la consecuencia de una respuesta de evitación es que nada suceda. ¿Cómo “nada” puede motivar el aprendizaje y reforzar una respuesta? La primera explicación importante sobre el aprendizaje de evitación, es la teoría de los dos factores, la cual presupone que la conducta de evitación es el resultado de la interacción dinámica entre el condicionamiento clásico y el condicionamiento instrumental. El condicionamiento clásico ocurre cuando el participante falla y no realiza la respuesta de evitación, y a la señal de advertencia le sigue el ENC aversivo. Por otra parte, el condicionamiento instrumental ocurre cuando la respuesta de evitación se ejecuta, ya que esto finaliza la señal de advertencia y reduce el miedo condicionado. La investigación subsecuente identificó un tercer factor, el aprendizaje de señales de seguridad que también contribuye al aprendizaje de evitación. Las señales que acompañan a la omisión del ENC en un procedimiento de evitación se convierten en señales de seguridad o en inhibidores condicionados del miedo y proporcionan un reforzamiento positivo para la respuesta de evitación. Mucha de la evidencia experimental sobre el aprendizaje de evitación es compatible con la teoría de los dos factores, suplementada por el aprendizaje de señales de seguridad, en especial cuando se toman en cuenta las señales temporales y las señales propioceptivas. Estos mecanismos son difíciles de cambiar; crean problemas inusuales cuando se intenta extinguir la respuesta de evitación. Otra fuente de complicaciones para el estudio del aprendizaje de evitación es que los

227

organismos (humanos y animales) han evolucionado con un repertorio de conductas defensivas no condicionadas bastante amplio para lidiar con los eventos aversivos. La perspectiva actual es que las SSDR no condicionadas están organizadas de acuerdo con la inminencia depredadora, con modos defensivos de respuesta diferentes que se activan por los diferentes niveles del peligro de ataque predatorio percibidos. Una descripción exhaustiva del aprendizaje de evitación tiene que explicar cómo un procedimiento de condicionamiento de evitación en específico se integra con el sistema de comportamiento defensivo de un organismo.

LECTURAS SUGERIDAS Bouton, M. E., Mineka, S., & Barlow, D. H. (2001). A modern learning theory perspective on the etiology of panic disorder. Psychological Review, 108, 4–32.http://dx.doi.org/10.1037/0033-295X.108.1.4 Cain, C. K., & LeDoux, J. E. (2007). Escape from fear: A detailed behavioral analysis of two atypical responses reinforced by CS termination. Journal of Experimental Psychology: Animal Behavior Processes, 33, 451–463.http://dx.doi.org/10.1037/0097-7403.33.4.451 Dinsmoor, J. A. (2001). Stimuli inevitably generated by behavior that avoids electric shock are inherently reinforcing. Journal of the Experimental Analysis of Behavior, 75, 311– 333.http://dx.doi.org/10.1901/jeab.2001.75-311 Krypotos, A.-M., Effting, M., Kindt, M., & Beckers, T. (2015). Avoidance learning: Review of theoretical models and recent developments. Frontiers in Behavioral Neuroscience, 9, Article 189.http://dx.doi.org/10.3389/fnbeh.2015.00189 Perusini, J. N., & Fanselow, M. S. (2015). Behavioral perspectives on the distinction between fear and anxiety. Learning and Memory, 22, 417–425.http://dx.doi.org/10.1101/lm.039180.115 Términos técnicos Caja de dos compartimentos Estímulo aversivo Evitación de dos vías Evitación de una vía Evitación discriminada Evitación no discriminada Evitación operante libre Inminencia depredadora Intervalo E–E Intervalo R–E Reforzamiento negativo Respuestas de defensa específicas de la especie Señal de retroalimentación Señal de seguridad Señal propioceptiva Señales temporales SSDR: respuestas de defensa específicas de la especie Teoría de los dos factores

228

Capítulo 13

229

Control de la conducta a través de estímulos Sabía usted que: • ¿La respuesta diferencial se utiliza para identificar el control de la conducta por un estímulo particular? • ¿Incluso los estímulos simples tienen muchos rasgos o dimensiones? • ¿El control de la conducta mediante un estímulo de entrenamiento a menudo se generaliza para otros estímulos similares? • ¿La generalización de estímulos y la discriminación de estímulos son conceptos complementarios? • ¿La generalización de la conducta de un estímulo a otro depende de la historia de entrenamiento con estímulos del individuo? • ¿El entrenamiento de discriminación produce respuestas diferenciales y aumenta la precisión del control del estímulo? • ¿El entrenamiento de equivalencia conduce a responder de la misma manera a estímulos diferentes de forma física? • ¿El aprendizaje de palabras y conceptos perceptuales implica la interacción entre el aprendizaje para discriminar y el aprendizaje para generalizar? A lo largo de este libro, se han visto diversos aspectos de la conducta que son controlados por estímulos antecedentes o eventos ambientales. La conducta y la respuesta provocadas que resultan del condicionamiento pavloviano son ejemplos obvios. La conducta instrumental también puede ser considerada como una respuesta que ocurre a causa de la presencia de un estímulo antecedente. Como se discutió en el capítulo 7, un estímulo antecedente puede activar de manera directa la respuesta instrumental o puede activar una representación de la relación respuesta– reforzador. El control de estímulos adecuado es una característica central de la conducta apropiada o normal. Abrazar a alguien es una respuesta instrumental apropiada que es reforzada por la aprobación social, si el individuo es un amigo cercano o un miembro de la familia. Abrazar a extraños no es apropiado y tal vez provoque obtener una bofetada. Para un maestro, abrazar a un estudiante podría, también, ser inapropiado y conducir a que el maestro sea removido de su puesto. Estos ejemplos ilustran que si una respuesta instrumental es reforzada depende de la situación en la cual se presente la respuesta. Tomar una barra de caramelo de una repisa y guardarla en el bolsillo está bien en casa, pero puede provocar que se acuse de robo si hace lo mismo en la tienda de la esquina. Es claro que, una buena parte de las conductas aprendidas se llevan a cabo debido a la presencia de estímulos particulares o eventos ambientales. Hasta este punto, sin embargo, la discusión del aprendizaje ha dejado sin contestar dos cuestiones centrales respecto al control de la conducta a través de estímulos. La primera,

230

concierne a la medición del control del estímulo: ¿cómo puede determinarse si un estímulo específico o una característica del entorno es responsable de una respuesta particular y qué tanto se encuentra vinculada la conducta a ese rasgo del estímulo? Una vez que se sepa como medir las diferencias del control del estímulo, se podrá abordar la siguiente cuestión, que concierne a los determinantes del control del estímulo. ¿Qué factores determinan cuáles estímulos adquirirán el control de una respuesta particular y el grado de control o de precisión del estímulo que se logra?

MEDICIÓN DEL CONTROL DEL ESTÍMULO Las preguntas en torno al control del estímulo surgen, en parte, por la complejidad de los eventos ambientales. Incluso algo simple como un semáforo es un estímulo complejo con múltiples características. La luz roja en un semáforo tiene color, brillo, forma y posición específicos. ¿Cómo se descifra cuál de estas características del estímulo es crítica para controlar la conducta de un automovilista y qué hace críticos a estos rasgos? Una vez que la característica del estímulo se ha identificado, ¿cómo se averigua el grado de precisión con que ese rasgo está involucrado en el control de la conducta? La estrategia fundamental para determinar si una respuesta está controlada por un estímulo particular es observar si las variaciones en ese estímulo producen los cambios correspondientes en la respuesta. Se dice que una respuesta está bajo el control de un estímulo particular si ésta es alterada por los cambios en ese estímulo. Un cambio en la respuesta relacionado con un cambio en el estímulo es llamado respuesta diferencial. Se puede identificar qué característica del estímulo es responsable de la conducta objetivo al observar si los cambios en ese rasgo ocasionan cambios en la respuesta. Los semáforos, por lo regular, están organizados de forma vertical, con la luz roja arriba y la luz verde abajo (figura 13-1). ¿Cuál característica es importante, el color de la luz o su posición? ¿Los conductores frenan cuando ven una luz roja, o frenan cuando la luz de arriba está iluminada? Para determinar si lo importante de los semáforos es el color en vez de la posición, se debe probar al presentar las luces roja y verde en la misma posición. Para determinar si lo importante es la posición en vez del color, se tiene que probar con luces del mismo color en posiciones distintas.

231

Figura 13-1. Características del estímulo de un semáforo. Las luces difieren tanto en su color como en su posición.

Cuando se modifica una característica del estímulo, al tiempo que se mantienen todas las otras constantes, se está evaluando la importancia de una dimensión del estímulo particular para la conducta en cuestión. Dimensiones del estímulo distintas pueden ser importantes para conductores diferentes. Los conductores que son

232

daltónicos deben enfocarse en la posición de la luz iluminada. Otros automovilistas responden por principio al color de la luz. De manera probable algunos otros responden tanto al color como a la posición de la luz. Así, pueden presentarse diferencias individuales sustanciales del control del estímulo en la misma situación. Determinar si una característica particular del estímulo es importante es el primer paso para el análisis del control del estímulo. De forma adicional, se puede estar interesados en la precisión con que la conducta está asociada a un rasgo particular del estímulo. Se continuará con el ejemplo del semáforo y debe suponerse que un conductor frena cada vez que ve una luz roja. ¿De qué tono tiene que ser la luz roja? Para responder a esta pregunta, habría que probar con el conductor una variedad de colores, incluyendo diversos tonos de rojo. La longitud de onda de la luz roja está en el extremo largo del espectro visual. Las luces con longitudes de onda más cortas parecen menos rojas y más naranjas. Conforme la longitud de onda se acorta, la luz parece cada vez más amarilla. Una prueba detallada del control del estímulo mediante diferentes colores requeriría presentar de manera sistemática luces con diferentes longitudes de onda. Gradiente de generalización del estímulo Pueden suceder diversos resultados si se presenta una variedad de colores de prueba desde el rojo oscuro hasta el amarillo oscuro. Si el conductor estuviera prestando mucha atención al color, frenaría sólo si la luz tuviera un color rojo perfecto. Las luces con un tinte naranja no ocasionarían que el conductor frenara. Esta posibilidad se encuentra ilustrada por la curva A en la figura 13-2. En el otro extremo, el conductor podría frenar cuando vea cualquier color con una vaga semejanza al rojo. Esta posibilidad la ilustra la curva C en la figura 13-2. La curva B muestra un resultado intermedio. En este caso, la conducta del conductor manifiesta una sensibilidad considerable a las diferencias en el color, pero la respuesta no está limitada a un tono de rojo particular como en la curva A. Cada una de las curvas en la figura 13-2 es un gradiente de generalización del estímulo. De manera previa, se encontró el concepto de generalización de estímulos en relación con la habituación (figura 3-3). Los gradientes de generalización pueden obtenerse para cualquier característica del estímulo -la posición del estímulo, su tamaño, brillo, forma, altura, etc. Como se ilustra en la figura 13-2, los gradientes pueden ser muy inclinados (curva A) o bastante planos (curva C). La pendiente o la curva del gradiente de generalización indica con cuánta cercanía es controlada la conducta por la característica del estímulo analizada. Un gradiente de generalización pronunciado indica un control fuerte por parte del rasgo o dimensión del estímulo. Un gradiente de generalización poco profundo o plano indica un control débil del estímulo.

233

Figura 13-2. Gradiente hipotético de generalización de estímulos que indica diferentes grados de control de la respuesta a través del color de un estímulo. La curva A ilustra el control más fuerte del estímulo por su color; la curva C ilustra el control más débil del estímulo por su color.

Generalización de estímulos y discriminación de estímulos El gradiente de generalización del estímulo implica dos fenómenos importantes: la generalización y la discriminación. En la generalización de estímulos, la respuesta que se ejecuta con un estímulo también se observa cuando un estímulo diferente es presentado. Los puntos 1 y 2 en la figura 13-3 ilustran el fenómeno de generalización de estímulos. La conducta que se realizó en el punto 1, también se presentó en el punto 2, o se generalizó al punto 2. La generalización de respuestas implica formas similares de responder ante estímulos distintos. La discriminación de estímulos es el opuesto a la generalización de estímulos. Aquí los cambios en un estímulo tienen como resultado diferentes niveles de respuesta. Los puntos 1 y 3 en la figura 13-3 ilustran el fenómeno de discriminación de estímulos. Se presentaron más respuestas para el estímulo en el punto 1 que para el estímulo en el punto 3. Por lo tanto, el participante discriminó o distinguió entre los puntos 1 y 3. La respuesta en el punto 1 no se generalizó al punto 3.

234

Figura 13-3. Gradiente de generalización hipotético para la respuesta a estímulos de diferente color. Los puntos 1 y 2 ilustran el fenómeno de generalización de estímulos. Los puntos 1 y 3 ilustran el fenómeno de discriminación de estímulos.

La generalización y la discriminación son fenómenos complementarios. Una buena parte de la generalización entre estímulos significa que el participante responde de la misma manera a estos estímulos y, entonces, hay poca discriminación. En contraste, una buena parte de la discriminación entre estímulos significa que el participante responde de modo distinto a los estímulos y, de esta manera, hay poca generalización entre ellos. Ideas contrastantes sobre la generalización de estímulos ¿Por qué los individuos responden de forma similar a diferentes estímulos? ¿Por qué generalizan de un estímulo a otro? Pavlov favoreció una interpretación de propagación del efecto. De acuerdo con esta idea, las respuestas condicionadas a un estímulo se generalizan a otras señales porque los efectos del entrenamiento se propagan del estímulo original de entrenamiento a otros estímulos similares. Cuando un niño aprende por primera vez la palabra vaca, es probable que use la palabra vaca no sólo cuando vea a una vaca sino también cuando ve a un toro y, quizá, incluso a un caballo. Según la interpretación de la propagación del efecto, dicha generalización sucede a causa de que los toros y los caballos son parecidos a las vacas y la respuesta aprendida hacia las vacas se propaga a otros animales similares.

235

La interpretación de la propagación del efecto fue desafiada por Lashley y Wade (1946), quienes propusieron que los organismos responden de manera similar a estímulos diferentes debido a que no se ha aprendido a distinguir entre ellos. De acuerdo con esta hipótesis, un niño usará la palabra vaca cuando vea vacas, toros y caballos porque todavía no ha aprendido a distinguir entre estos animales. La hipótesis Lashley–Wade sugiere que la generalización de estímulos puede limitarse con entrenamiento apropiado. Se ha descrito evidencia que confirma esta predicción cuando se explican los factores del aprendizaje que determinan el grado de control del estímulo (véase más adelante en este capítulo). Antes de llegar a ello, sin embargo, deben considerarse cómo las características de un estímulo y las características del organismo determinan el control del estímulo.

DETERMINANTES DEL CONTROL DEL ESTÍMULO: VARIABLES SENSORIALES Y MOTIVACIONALES Capacidad sensorial Quizá el factor más obvio que determina si un rasgo particular del estímulo influenciará la conducta es la capacidad sensorial del organismo. Un organismo no puede responder a un estímulo si carece de los órganos sensoriales necesarios para detectar el estímulo. Las personas son incapaces de responder a las ondas de radio, la luz ultravioleta y los sonidos por encima de 20 000 ciclos por segundo (cps) debido a que carecen de los órganos sensoriales para detectar dichos estímulos. Los perros son capaces de escuchar sonidos con una frecuencia mucho más alta que los seres humanos y son, por ello, capaces de responder a ultrasonidos que son inaudibles para las personas. La capacidad sensorial establece un límite a los tipos de estímulo que pueden llegar a controlar la conducta de un organismo. No obstante, la capacidad sensorial es una simple precondición para el control mediante estímulos. No garantiza que la conducta será influenciada por una característica particular del estímulo. Las personas con un sentido del olfato normal tienen la capacidad de distinguir el aroma de varios vinos tintos. Sin embargo, para alguien que pocas veces bebe vino, todos los vinos tintos podrían oler muy parecido. Orientación sensorial Otro prerrequisito para el control a través de estímulos es la orientación sensorial del organismo. Para que un estímulo obtenga el control sobre algún aspecto de la conducta del individuo, el estímulo debe ser accesible para el órgano sensorial relevante. Los sonidos y los niveles generales de iluminación se propagan en el entorno. Por lo tanto, dichos estímulos tienen la posibilidad de ser encontrados sin importar si el individuo está orientado hacia la fuente del estímulo. Por esta razón, los tonos y las luces superiores son estímulos populares en los experimentos de aprendizaje. En contraste, una señal visual localizada puede presentar un problema puesto que sólo es vista si el individuo está volteado hacia ella. Si está mirando las señales de tránsito del lado derecho de un camino, podría no percatarse de una señal

236

colocada en el lado izquierdo. Intensidad o prominencia del estímulo Siendo el resto de las cosas iguales, es más probable que la conducta llegue a estar bajo el control de estímulos intensos o prominentes que de estímulos débiles (p. ej., Kamin, 1965). La intensidad del estímulo es importante para la mayoría de las funciones biológicas y estas incluyen al aprendizaje y la conducta. Los estímulos más intensos tienden a provocar conductas más vigorosas y aprendizaje más rápido. De manera adicional, la presencia de un estímulo intenso puede interferir con el control de la conducta por parte de una señal más débil. Este fenómeno, identificado primero por Pavlov (1927), es nombrado ensombrecimiento. Un estímulo débil “b” puede ser condicionado con eficacia cuando se presenta por sí mismo en los ensayos de condicionamiento. No obstante, el menor aprendizaje de “b” será evidente si el condicionamiento se lleva a cabo con un estímulo compuesto “Ab” que consista en “b”, presentado con un estímulo más intenso “A.” En este caso, el estímulo “A” puede ensombrecer el condicionamiento del estímulo “b”. Factores motivacionales El grado hasta el cual la conducta queda bajo el control de un estímulo particular también está determinado por el estado motivacional del organismo. Los factores motivacionales en el control de la conducta por estímulos no han sido investigados con amplitud. Sin embargo, la evidencia disponible indica que la atención puede pasar de un tipo de estímulo a otro por un cambio en el estado motivacional o emocional. En estos experimentos, se emplea de modo típico un estímulo compuesto que consiste en un tono y una luz. Con este compuesto tono–luz, las ratas y las palomas condicionadas con comida como reforzador llegan a responder más a la luz que al tono. En contraste, los animales condicionados para evitar el dolor aprenden a responder más al tono que a la luz (Foree y LoLordo, 1973; LoLordo, 1979). El factor crítico que sesga el control del estímulo hacia la luz o al tono es si el compuesto luz–tono adquiere una valencia afectiva apetitiva o positiva, o una valencia afectiva negativa o aversiva (Weiss y Panlilio, 2015). El estado motivacional provocado por los estímulos condicionados actúa como un filtro de estímulos que sesga el control del estímulo a favor de las señales visuales o auditivas. Cuando las palomas están hambrientas y motivadas a encontrar comida, son en especial sensibles a las señales visuales. En contraste, cuando las palomas están asustadas y motivadas a evitar el peligro, son en particular sensibles a las señales auditivas. Para otras especies, estas influencias motivacionales pueden tomar diferentes formas. Una especie que caza presas vivas por la noche, por ejemplo, podría estar en especial atenta a las señales auditivas cuando está buscando comida.

DETERMINANTES DEL CONTROL DEL ESTÍMULO: FACTORES DE APRENDIZAJE 237

Los procesos de aprendizaje no pueden enseñarle a responder a las microondas que están más allá de la capacidad de los órganos sensoriales. No obstante, los procesos de aprendizaje tienen mucho que ver en cómo se llega a responder a los estímulos que están dentro del rango de sus sentidos. Se enfocará sobre estos mecanismos de aprendizaje a continuación. En general, la conducta queda bajo el control de un estímulo si ese estímulo se vuelve significativo por alguna razón. Condicionamiento pavloviano e instrumental Como se discutió en el capítulo 4, los procedimientos de condicionamiento pavloviano simples hacen que un estímulo, en un inicio ineficaz e irrelevante (el estímulo condicionado [EC]) se torne significativo al establecer una asociación entre ese evento y el estímulo no condicionado (ENC). La significancia del estímulo también puede ser establecida mediante el condicionamiento instrumental. En el caso del reforzamiento positivo, el reforzador (C, para consecuencia) se presenta de manera contingente a una respuesta (R) en presencia de un estímulo en un inicio neutral (E). La contingencia instrumental de tres términos E–R–C aumenta la significancia del estímulo E al establecer una asociación entre E y la consecuencia reforzadora C, o al hacer que el estímulo E señale cuando la respuesta será reforzada (capítulo 7). La situación es parecida en el caso del reforzamiento negativo (capítulo 12). En el procedimiento de evitación discriminada, por ejemplo, la respuesta instrumental tiene como resultado la anulación de la estimulación aversiva sólo si la respuesta se ejecuta en presencia de una señal de advertencia, lo cual convierte a la señal de advertencia en un evento significativo. A pesar de que los procedimientos de condicionamiento pavloviano simple e instrumental funcionan para poner la conducta bajo el control de estímulos o eventos particulares, no determinan qué rasgo o característica de un estímulo se volverá el más importante para controlar la conducta condicionada. Considérese, por ejemplo, un estímulo compuesto con rasgos auditivos y visuales. Si es el componente visual o el auditivo el que obtendrá el control predominante de la respuesta condicionada dependerá de los factores sensoriales y motivacionales que se describieron en la sección precedente. Si el participante tiene un sentido agudo de la vista, pero mala audición, el componente visual predominará. Si ambos sentidos son adecuados y el participante está motivado por el miedo, el componente auditivo podría ser más importante. Sin embargo, si el componente visual es mucho más intenso o prominente que el rasgo auditivo, el componente visual puede ensombrecer la señal auditiva. ¿Qué hay respecto a las características del estímulo que no pueden diferenciarse con base en las variables motivacionales y sensoriales? ¿Cómo pueden llegar a controlar una respuesta diferencial? Considérese, por ejemplo, un automóvil que tiene bastante gasolina y uno que está a punto de quedarse sin ella. Existe poca diferencia entre estos dos tipos de automóvil en términos de la modalidad e intensidad de los estímulos que encuentra un conductor. La única diferencia es la posición del indicador de combustible y esa diferencia puede ser menor que una pulgada. No obstante, la diferencia en la posición del indicador de combustible entre tener bastante gasolina o el tanque casi vacío es muy significativa para los

238

conductores. Las personas también responden de modo muy diferente al ver la palabra fuego en comparación con la palabra juego, incluso cuando las características visuales de estas dos palabras son casi idénticas. ¿Cómo es que estímulos tan similares llegan a controlar respuestas tan distintas de forma dramática? La respuesta reside en los procedimientos de condicionamiento que proporcionan reforzamiento diferencial en presencia de diferentes estímulos. Entrenamiento de discriminación de estímulos La variante de entrenamiento más importante que determina el grado del control del estímulo es el entrenamiento de discriminación de estímulos. El entrenamiento de discriminación de estímulos proporciona reforzamiento diferencial en presencia de diferentes estímulos. El entrenamiento de discriminación de estímulos puede llevarse a cabo tanto con métodos pavlovianos como instrumentales. Los casos simples de condicionamiento pavloviano e instrumental involucran sólo un EC o condición de estímulo. En contraste, el entrenamiento de discriminación de estímulos requiere un mínimo de dos estímulos. Se organiza el reforzamiento diferencial al proporcionar el ENC o el reforzador en asociación con una de las señales, pero no con la otra. Dos estímulos cualesquiera que sean en un inicio ineficaces para generar la respuesta condicionada o instrumental pueden servir como estímulos en un procedimiento de discriminación. Una de las señales es llamada E+ y la otra es llamada E-. Por ejemplo, E+ y E- pueden ser las letras f y j, un tono y un zumbido, o una luz y un ruido. Cada ensayo involucra presentar sólo uno de los estímulos discriminativos y los ensayos con E+ y E- se realizan en una secuencia aleatoria. En un procedimiento de discriminación pavloviano, cada presentación de E+ está emparejada con el ENC. En contraste, se omite el ENC en los ensayos con E-. Así, E+ y E- están asociados con diferentes resultados o reforzamiento diferencial. E+ y Epueden ser, por ejemplo, dos gatos color naranja; uno bastante amigable y el otro huraño. El gato amigable (E+) está emparejado con el placer táctil porque se acerca y se frota contra la gente. El gato huraño (E-) no se acerca y no deja a las personas que lo acaricien, por lo que no está emparejado con un ENC táctil positivo. Los resultados típicos de un procedimiento de entrenamiento de discriminación están ilustrados en la figura 13-4. Al principio del entrenamiento, la respuesta condicionada llega a ser provocada por E+ y esta respuesta se generaliza a E-. En esta etapa del aprendizaje, el participante responde tanto a E+ como a E-. Con la continuación del entrenamiento de discriminación (y el reforzamiento diferencial), la respuesta a E+ sigue incrementándose, mientras que la respuesta a E- declina de forma gradual. El resultado final es que el participante responde mucho más a E+ que a E-. Se desarrolla una fuerte distinción entre E+ y E-. En este punto, se dice que los dos estímulos han sido discriminados. Considérese de nuevo al gato amigable y al huraño. Conforme comienza a asociar a uno de los gatos con el placer táctil, cualquier afecto que desarrolle por él puede generalizarse cuando encuentre al otro gato. Sin embargo, como tiene más encuentros placenteros con un gato que con el otro, su afecto por el gato amigable aumentará y su respuesta hacia el gato huraño declinará. Se aprenderá a distinguir a

239

un gato del otro. El entrenamiento de discriminación puede llevarse a cabo de forma análoga utilizando procedimientos de condicionamiento instrumental. De nuevo, se necesitan dos estímulos, un E+ y un E-. Se proporciona reforzamiento diferencial al reforzar la respuesta instrumental en presencia de E+ y al no reforzar la respuesta en presencia de E-. Entonces, el procedimiento de discriminación consiste en ensayos E+→R→C y ensayos E-→R→no C. Como en los procedimientos de discriminación pavlovianos, durante las etapas iniciales del entrenamiento, la respuesta en los ensayos E+ puede generalizarse a E-. No obstante, el participante al final responderá de manera vigorosa en los ensayos con E+ y muy poco, o nada, en los ensayos con E-, como se muestra en la figura 13-4.

Figura 13-4. Resultados típicos de un procedimiento pavloviano de entrenamiento de discriminación en el cual E+ esta emparejado con un estímulo no condicionado y E- se presenta con la misma frecuencia por sí mismo. La respuesta condicionada que se desarrolla en un inicio para E+ se generaliza a E-. No obstante, con la continuación del entrenamiento, se desarrolla una fuerte discriminación entre E+ y E-.

En la tradición skinneriana del análisis de la conducta, la nomenclatura estándar para los estímulos discriminativos es un poco distinta. E+ es representado con el símbolo ED y se pronuncia “e de”, por estímulo discriminativo. En contraste, E- es representado con el símbolo ED, que se pronuncia “e delta” (el símbolo delta indica

240

la ausencia de reforzamiento). En todos los procedimientos de discriminación de estímulos, diferentes estímulos se asocian con diferentes resultados. En los ejemplos anteriores, el reforzamiento diferencial fue provisto por la entrega versus la omisión del ENC o reforzador. La presencia versus la ausencia de reforzamiento representa un caso común, aunque especial, de los procedimientos de entrenamiento de discriminación. Cualquier forma de reforzamiento diferencial puede conducir al aprendizaje de la discriminación. Los infantes, por ejemplo, aprenden muy rápido a discriminar a Mamá de Papá. Esto no ocurre porque Mamá sea una fuente de reforzamiento y Papá no lo sea. Tanto Mamá como Papá proporcionan placer al infante, pero es probable que provean distintos tipos de placer. Un progenitor puede proporcionar un confort más táctil y reforzamiento nutricional, mientras que el otro puede proveer reforzamiento sensorial al hacerle cosquillas o mecerlo. Cada tipo de reforzador se asocia en consistencia con uno de los padres y esto permite al infante discriminar entre ellos. Programas múltiples de reforzamiento El reforzamiento diferencial también puede ser organizado en términos de distintos programas de reforzamiento en presencia de diferentes estímulos. Por ejemplo, un programa de intervalo variable puede estar vigente en presencia de un tono alto (estímulo A), y un programa de intervalo fijo puede estar en efecto en presencia de un tono bajo (estímulo B). Dicho procedimiento es llamado programa múltiple de reforzamiento. Como resultado del entrenamiento con un programa múltiple de reforzamiento de intervalo variable e intervalo fijo, los participantes llegarán a responder al estímulo A de una manera típica a la ejecución en un intervalo variable y responderán al estímulo B de una manera tradicional a la ejecución en un intervalo fijo. Un programa múltiple está vigente mientras escucha a diferentes instructores en distintas asignaturas. La conducta de escuchar es reforzada por la nueva información que se obtiene en cada clase. Algunos profesores dicen muchas cosas nuevas durante sus clases, reforzando, así, la conducta de escuchar en un programa denso de intervalo variable. Otros profesores, de forma predecible, sólo tocan 4 o 5 puntos importantes durante una clase y pasan alrededor de 10 minutos elaborando cada punto. Esto refuerza la conducta de escuchar en algo parecido a un programa de intervalo fijo. Cada programa de reforzamiento está vigente en presencia de los estímulos distintos de cada profesor y de cada asignatura. Al conjuntar ambas clases, entonces, la conducta de escuchar es reforzada mediante un programa múltiple, ya que está cambia cuando pasa de una clase a otra.

DETERMINANTES DE LA PRECISIÓN DEL CONTROL DEL ESTÍMULO El reforzamiento diferencial en presencia de E+ y E- produce respuestas diferenciales a esos estímulos. De forma interesante, estos efectos pueden extenderse más allá de los estímulos reales que son empleados en el procedimiento

241

de discriminación. Los efectos de largo alcance del entrenamiento de discriminación fueron identificados por primera vez en un destacado experimento de Jenkins y Harrison (1960). Ellos compararon el control del estímulo de la conducta de picoteo en dos grupos de palomas (tabla 13-1). El grupo D, primero, fue condicionado para discriminar entre la presencia y la ausencia de un tono. Estas palomas fueron reforzadas por picotear una tecla de respuesta cada que se presentaba un tono con una frecuencia de 1 000 Hz (E+) y no fueron reforzadas cuando el tono estaba ausente (E-). El grupo control (grupo C) recibió un reforzamiento similar por picotear la tecla de respuesta, pero para ellas la presencia del tono fue continua durante las sesiones de entrenamiento. Entonces, el grupo C no recibió reforzamiento diferencial asociado con el tono.

Tabla 13-1 Esquema del experimento de Jenkins y Harrison (1960) Entrenamiento

Prueba

Grupo D: entrenamiento de discriminación E+ (tono de 1 000 cps): picoteo → comida E- (no tono): picoteo → no comida

Tonos de diversas frecuencias

Grupo C: sin entrenamiento de discriminación Tono de 1 000 cps: picoteo → comida Tono siempre presente durante el entrenamiento

Sin devaluación

Luego de este entrenamiento contrastante, las respuestas de ambos grupos fueron medidas en una prueba de generalización de estímulos. Tonos de diversas frecuencias fueron presentados durante la sesión de prueba. Los resultados están resumidos en la figura 13-5. El grupo control, grupo C, que no recibió entrenamiento de discriminación, respondió de forma vigorosa al tono que se había presentado durante el entrenamiento (el tono de 1 000 Hz). También respondieron de modo firme a la mayoría de los otros tonos, los cuales encontraron por primera vez durante la prueba de generalización. Así, en la ausencia de entrenamiento de discriminación, se obtuvo un gradiente de generalización bastante plano. Esto indica que la frecuencia de los tonos no ganó mucho control sobre la conducta de estas aves. Los resultados fueron diferentes de forma dramática para las palomas del grupo D, las cuales habían sido entrenadas para discriminar entre la presencia y la ausencia del tono de 1 000 Hz. Estas aves mostraron un gradiente de generalización inclinado. Respondieron bastante al tono de 1 000-Hz (el E+), pero su conducta disminuyó muy rápido cuando se presentaron tonos de otras frecuencias. Éste es un resultado notable porque los otros tonos no se habían presentado durante el entrenamiento de discriminación. Ninguno de los otros tonos había servido como el E- en el procedimiento de discriminación. A pesar de que el grupo D no se había enfrentado a la falta de reforzamiento en presencia de los tonos durante el entrenamiento, los tonos distintos a E+ no provocaron mucha conducta de picoteo.

242

Los resultados presentados en la figura 13-5 muestran que la forma del gradiente de generalización puede ser alterada de forma dramática por el entrenamiento de discriminación. Este entrenamiento no sólo produce respuestas diferenciales a E+ y E- sino que también aumenta la pendiente de los gradientes de generalización. Esto indica que el entrenamiento de discriminación aumenta la precisión del control del estímulo y que esta gran precisión se extiende más allá de los estímulos específicos que fueron usados como E+ y E-.

Figura 13-5. Efectos del entrenamiento de discriminación en el control de la conducta de picoteo de palomas mediante la frecuencia de distintos tonos. Antes de la prueba de generalización, el grupo D recibió entrenamiento de discriminación en el cual E+ era un tono de 1 000 Hz y E- era la ausencia del tono. En contraste, el grupo C solo recibió reforzamiento por picotear una tecla en presencia del tono de 1 000 Hz. Datos de Jenkins y Harrison (1960).

Discriminación interdimensional versus intradimensional Hasta ahora, se ha subrayado la importancia del reforzamiento diferencial en los procedimientos de entrenamiento de discriminación. La naturaleza de los estímulos E+ y E- también determina el resultado del entrenamiento de discriminación. Las similitudes y las diferencias entre E+ y E- son en especial importantes. Si E+ y E-

243

difieren en varios aspectos, la discriminación es nombrada discriminación interdimensional. Si E+ y E- difieren sólo en un aspecto, la discriminación es llamada discriminación intradimensional. Discriminación interdimensional Quizá las formas más comunes de entrenamiento de discriminación interdimensional son el pavloviano simple o los procedimientos de condicionamiento instrumental de ensayos discretos, a pesar de que de manera usual no se piensa en ellos como parte de un entrenamiento de discriminación. Un procedimiento pavloviano simple involucra sólo un EC y un ENC. Las presentaciones del EC culminan con la entrega del ENC. En contraste, el ENC no es entregado cuando el EC está ausente. Entonces, la discriminación es entre las ocasiones en que el EC está presente y las ocasiones en que el EC está ausente (el intervalo entre ensayos). Todas las características del EC (su modalidad, intensidad, y locación) sirven para distinguir al EC de su ausencia. Por lo tanto, ésta es una discriminación interdimensional. El condicionamiento instrumental de ensayos discretos también involucra una discriminación interdimensional entre las señales presentes durante un ensayo y las señales presentes durante el intervalo entre ensayos. Las palomas del grupo D en la figura 13-5 recibieron dicho procedimiento. El picoteo fue reforzado durante el tono a 1 000 cps, pero no cuando el tono estaba ausente. Los periodos de reforzamiento diferían del intervalo entre ensayos (cuando el tono estaba ausente) tanto en la intensidad como en la frecuencia de las señales auditivas que escuchaban las palomas. La discriminación interdimensional también puede establecerse entre estímulos discretos que funcionan como el E+ y el E-. La discriminación entre una luz de tránsito roja y verde, que se discutió con anterioridad en este capítulo, es una discriminación interdimensional porque las luces de tránsito roja y verde difieren tanto en su color como en su posición. La discriminación aprendida por un infante entre Mamá y Papá también es una discriminación interdimensional. Mamá y Papá difieren en muchos aspectos, incluyendo los rasgos visuales, en el modo en que cargan al infante, en la voz, en la hora del día en que cada uno quizá interactúa con él, etcétera. Discriminación intradimensional La discriminación interdimensional es efectiva para establecer el control del estímulo. Sin embargo, no establece un alto grado de control sobre la conducta a través de un rasgo particular del estímulo. Por ejemplo, a causa de que muchas cosas distinguen a Mamá de Papá, el infante podría no responder mucho a ninguna característica distintiva. La manera más eficaz de establecer control mediante un rasgo específico del estímulo es con el entrenamiento de discriminación intradimensional (Jenkins y Harrison, 1960, 1962). En el entrenamiento de discriminación intradimensional, los estímulos asociados con el reforzamiento diferencial difieren sólo en un aspecto.

244

Muchas formas de desempeño experto involucran discriminación intradimensional. Leer, por ejemplo, requiere discriminar entre letras que sólo difieren en un aspecto. Las letras E y F sólo difieren en la barra horizontal inferior, la cual está presente en la E, pero no en la F. La diferencia física es muy pequeña, aunque las consecuencias diferenciales en términos de significado pueden ser sustanciales. Los pares de letras B y P además de M y N son otros pares similares de manera física que difieren mucho en su significancia. El aprendizaje de la lectura requiere aprender de muchas discriminaciones intradimensionales de este tipo. Una de las cuestiones interesantes respecto al aprendizaje de discriminaciones intradimensionales finas es que sea probable que el participante no esté consciente de la diferencia física entre los estímulos al comienzo del entrenamiento. De manera inicial, las letras E y F pueden parecer iguales a un infante. El niño puede reconocer que la E y la F son diferentes de la O, pero podría no ser capaz de ver la diferencia entre E y F. Puede llegar a reconocer la diferencia visual entre las dos letras sólo después de que se le ha enseñado a decir una cosa cuando se le muestra la E y otra cosa cuando se le muestra la F. Este ejemplo ilustra el principio general de que el reforzamiento diferencial sirve para enfocar la atención en las diferencias físicas que, de otra manera, son ignoradas. Suceden efectos similares en la adquisición de otras competencias. Los niños que aprenden a cantar podrían no ser capaces de distinguir al inicio si están cantando fuera o dentro de tono. No obstante, esta habilidad se desarrolla a través del reforzamiento diferencial por parte de un profesor. De igual forma, las bailarinas en ciernes aprenden a prestar atención a las señales propioceptivas que les indican la posición precisa de sus brazos y piernas, mientras que los jugadores de billar aprenden a hacer juicios precisos sobre ángulos y trayectorias. El entrenamiento de discriminación intradimensional pone la conducta bajo el control preciso de pequeñas variaciones de un estímulo, por lo cual, funciona para incrementar la sensibilidad a estas pequeñas variaciones del estímulo. Así, la sensibilidad a las variaciones de los estímulos ambientales no sólo depende de la capacidad sensorial sino también de la propia historia de entrenamiento de discriminación.

ENTRENAMIENTO DE EQUIVALENCIA DE ESTÍMULOS Como se ha visto, los procedimientos de discriminación generan respuestas diferenciales e incrementan la precisión del control del estímulo. Hay situaciones, sin embargo, en las cuales se desea con exactitud lo opuesto, es decir, situaciones en las que estímulos físicamente diferentes deben ser tratados de la misma manera. Considérese, por ejemplo, la misma palabra escrita con distintas fuentes y tamaños. Si está interesado en el significado de la palabra, debe tratar a la palabra como poseedora del mismo significado, independiente a la fuente o del tamaño con que esté escrita. Esto plantea la pregunta: ¿Existen procedimientos de aprendizaje que promuevan responder a estímulos diferentes del mismo modo? ¿Existen procedimientos de aprendizaje que aumenten la generalización de estímulos? En un procedimiento de discriminación, los estímulos son tratados de manera distinta -tienen diferentes consecuencias. El tratamiento o significancia diferencial de los estímulos conduce a los organismos a responder a cada uno de ellos como

245

distintos. ¿Qué sucedería si dos estímulos fueran tratados de la misma forma o como equivalentes? ¿Podría un procedimiento de este tipo conducir a los organismos a responder a los estímulos como similares o equivalentes? La respuesta parece ser que sí. Al igual que el entrenamiento de discriminación alienta la respuesta diferencial, el entrenamiento de equivalencia de estímulos alienta la respuesta generalizada. Hay diferentes aproximaciones para promover la generalización en lugar de la discriminación entre estímulos. Una aproximación es presentar la misma consecuencia por responder a diversos estímulos distintos en un modo físico. Esto se lleva a cabo con frecuencia en un aprendizaje de concepto perceptual. Por ejemplo, las palomas pueden ser entrenadas para responder de un modo similar a diferentes fotografías, las cuales incluyan agua en alguna forma (océano, lago, charco, río). La estrategia básica de entrenamiento es reforzar la misma respuesta (picotear una tecla de respuesta) en presencia de varias fotografías que contengan agua y no reforzar esa respuesta cuando aparezcan fotografías sin agua. Herrnstein et al. (1976) entrenaron dicha discriminación utilizando entre 500 y 700 fotografías de varios escenarios en Nueva Inglaterra. Una vez que las palomas aprendieron la discriminación agua/no agua, su conducta se generalizó a fotografías nuevas que no les habían sido presentadas durante el entrenamiento (para una discusión más detallada del aprendizaje de concepto perceptual, véanse Huber y Aust, 2012; Wasserman, 2016). Arreglar una consecuencia común para diferentes estímulos es una manera de establecer una clase de equivalencia de estímulos. Otra técnica común es entrenar la misma respuesta para un grupo de estímulos distintos. Esto es, en esencia, lo que los padres hacen cuando entrenan a sus niños para decir la misma palabra (fruta) en respuesta a una variedad de tipos de fruta (manzanas, peras, plátanos). La respuesta común funciona para crear una clase de equivalencia entre los diversos ejemplos específicos que se asocian con la respuesta común (Urcuioli, 2013). La equivalencia de estímulos es en particular importante en los análisis y el entrenamiento de las habilidades del lenguaje. La palabra escrita plátano, por ejemplo, deriva su significado del hecho de encontrarse dentro de una clase de equivalencia que incluye la palabra dicha plátano, así como una fotografía o un dibujo de un plátano y un plátano real que se puede comer. Todos estos estímulos que son diferentes en lo físico son tratados como equivalentes en un modo funcional e intercambiables, una vez que el significado de la palabra ha sido aprendido. Por ejemplo, debería ser capaz de decir la palabra plátano cuando ve una fotografía de uno y debería de ser capaz de elegir la fotografía correcta si se le pregunta el significado de la palabra plátano (para las aplicaciones del entrenamiento de equivalencia en el análisis de la conducta, véase Rehfeldt, 2011).

RESUMEN Los individuos tienen que aprender no sólo qué sino dónde y cuándo hacer. Cuándo y dónde se vuelven una respuesta que implica el control de la conducta mediante el estímulo. El control del estímulo se identifica por la respuesta diferencial y puede

246

ser medido con precisión por la inclinación de los gradientes de generalización. El grado hasta el que un estímulo influencia la conducta depende de factores como la capacidad sensorial, la orientación sensorial y la intensidad del estímulo. El control del estímulo también depende del estado afectivo o motivacional del individuo. No obstante, la mayoría de las formas de control del estímulo son resultado de un entrenamiento que facilita la discriminación entre estímulos o que facilita la generalización entre estímulos. El entrenamiento de discriminación puede involucrar estímulos interdimensionales o intradimensionales. El entrenamiento de discriminación intradimensional produce un control del estímulo más preciso que el entrenamiento interdimensional y es la base para diversas formas de desempeño experto. Sin embargo, aprender discriminaciones finas no siempre es útil. En algunas ocasiones se debe aprender a tratar objetos distintos de forma física de la misma manera. Esto se logra a través del aprendizaje de equivalencia de estímulos. La equivalencia de estímulos es importante en el aprendizaje de concepto perceptual, el aprendizaje del lenguaje y en varios aspectos del análisis aplicado de la conducta.

LECTURAS SUGERIDAS Rehfeldt, R. A. (2011). Toward a technology of derived stimulus relations: An analysis of articles published in the Journal of Applied Behavior Analysis, 1992–2009. Journal of Applied Behavior Analysis, 44, 109– 119.http://dx.doi.org/10.1901/jaba.2011.44-109 Urcuioli, P. J. (2013). Stimulus control and stimulus class formation. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and principles (pp. 361–386). Washington, DC: American Psychological Association. Wagner, A. R. (2008). Evolution of an elemental theory of Pavlovian conditioning. Learning & Behavior, 36, 253–265.http://dx.doi.org/10.3758/LB.36.3.253 Wasserman, E. A. (2016). Conceptualization in pigeons: The evolution of a paradigm. Behavioural Processes, 123, 4–14.http://dx.doi.org/10.1016/j.beproc.2015.09.010 Términos técnicos Concepto perceptual Dimensión del estímulo Discriminación de estímulos Discriminación interdimensional Discriminación intradimensional EE+ Ensombrecimiento Equivalencia de estímulos Generalización de estímulos Gradiente de generalización del estímulo Programa múltiple de reforzamiento Respuesta diferencial

247

Capítulo 14

248

Mecanismos de la memoria Sabía usted que: • ¿El aprendizaje y la memoria están relacionados de forma integral? • ¿Las tareas que evalúan los mecanismos de la memoria deben estar en especial diseñadas para que no puedan resolverse sin el uso de la memoria? • ¿Las memorias no se borran de modo automático a causa del deterioro de la traza? Más bien, el hecho de recordar puede ser puesto bajo el control del estímulo o bajo control instruccional. • ¿La memoria puede ser prospectiva e involucrar eventos futuros en vez de eventos pasados? • ¿La imposibilidad para recordar algo rara vez se debe al olvido? • ¿Las fallas de la memoria pueden ser causadas por recordar demasiado? • ¿Aspectos que en apariencia son triviales sobre la situación de aprendizaje pueden ayudar a recuperar lo que ha sido aprendido? • ¿La formación de una memoria involucra procesos de consolidación a nivel de las sinapsis, de las neuronas y de los circuitos neurales? • ¿Las memorias consolidadas no son permanentes, sino que pueden cambiar cuando son recuperadas o cuando son reactivadas? Las memorias alteradas experimentan una reconsolidación. El aprendizaje y la memoria están relacionados de forma íntegra; uno no puede tenerse sin el otro. De hecho, la investigación sobre los mecanismos de la memoria en animales hace un uso extenso de los procedimientos de condicionamiento básicos descritos en los capítulos anteriores. Esto hace que el debate en torno a la investigación de la memoria sea pertinente para el final de un libro sobre procedimientos de condicionamiento básico. Sin embargo, surge una pregunta fundamental: ¿si todo el aprendizaje implica a la memoria, entonces qué distingue a los estudios de la memoria de los estudios del aprendizaje? La respuesta es que, a diferencia de los estudios del aprendizaje, los estudios de la memoria se enfocan en una etapa diferente del procesamiento de información.

ETAPAS DEL PROCESAMIENTO DE INFORMACIÓN La memoria involucra a los efectos retardados de la experiencia. Para que la experiencia junto con el estímulo y las respuestas puedan influenciar de forma posterior a la conducta, tres cosas deben suceder. Primero, la información sobre el estímulo y las respuestas se deben adquirir y codificar de alguna manera en el sistema nervioso. A esto se le llama etapa de adquisición del procesamiento de información. Una vez que está codificada, la información debe ser almacenada para después ser utilizada. Esta es la etapa de retención del procesamiento de información. Por último, cuando la información se necesite al final del intervalo de retención, ésta tiene que ser recuperada de su almacenamiento. Ésta es la etapa de

249

recuperación. La adquisición, la retención y la recuperación están implicadas en todos los estudios del aprendizaje, al igual que lo están en todos los estudios sobre la memoria. Sin embargo, qué etapa sea el foco de interés depende de si a uno le conciernen los procesos de aprendizaje o los procesos de la memoria (tabla 14-1). Los estudios sobre el aprendizaje se enfocan en la etapa de adquisición, puesto que en ellos las circunstancias de dicha adquisición se manipulan o varían, mientras que las condiciones de la retención y de la recuperación son constantes. En cambio, en los estudios de la memoria, las condiciones de la adquisición son constantes, mientras que el intervalo de retención y las condiciones de la recuperación varían. Para hacer todo aún más complicado, las tres etapas no son por completo independientes. Como se verá más adelante, las condiciones de la adquisición determinan las circunstancias bajo las cuales se recupera un recuerdo (Urcelay y Miller, 2014). Sin embargo, esos tipos de interacciones no desgastan al modelo básico del procesamiento de información que involucra a la adquisición, a la retención y a la recuperación.

Tabla 14-1 Diferencias entre los experimentos de aprendizaje y los experimentos de memoria Etapa del procesamiento de información

Experimentos de aprendizaje

Experimentos de memoria

Adquisición

Variada

Constante

Retención

Constante (larga)

Variada (corta y larga)

Recuperación

Constante

Variada

PROCEDIMIENTO DE EMPAREJAMIENTO CON LA MUESTRA Una variedad de técnicas ha sido utilizada para estudiar los mecanismos de la memoria en diversas especies. Los procedimientos de la memoria a menudo requieren controles especiales que aseguren que la conducta de un participante está determinada por sus experiencias pasadas y no por alguna señal que se pueda presentar de manera inadvertida durante la situación de prueba. Además, se deben diseñar procedimientos especiales que aíslen los procesos particulares de la memoria. Para facilitar la ilustración de estas complejidades, se describe a detalle el procedimiento de emparejamiento con la muestra, el cual es una de las técnicas más utilizadas y versátiles para el estudio de los mecanismos de la memoria (Zentall y Smith, 2016). En el procedimiento de emparejamiento con la muestra, el participante primero es expuesto a un estímulo muestra. La muestra es removida en el intervalo de retención. Después de dicho intervalo, el participante recibe una prueba de memoria de opción múltiple. Se le presentan varias alternativas; una de ellas es la misma que el estímulo muestra que se presentó al principio del ensayo. Si el participante

250

selecciona la muestra presentada de forma anterior, entonces es reforzado. El procedimiento de emparejamiento con la muestra puede ser utilizado para investigar el recuerdo de una variedad de estímulos y puede ser adaptado para enfrentar varias preguntas de investigación. El procedimiento de emparejamiento ha sido utilizado con especies tan diversas como los delfines, las ratas y los humanos (Baron y Menich, 1985; Forestell y Herman, 1988; Wallace et al., 1980); el procedimiento ha sido adaptado para varios tipos de estímulos muestra, incluyendo: señales visuales, auditivas y espaciales. La figura 14-1 ilustra una versión del procedimiento para poder utilizarlo con palomas. Aunque la discusión se enfoca en la técnica de emparejamiento con la muestra, también los temas conceptuales involucrados son relevantes para todas las otras tareas de la memoria.

Figura 14-1. Ilustración de un ensayo de emparejamiento con la muestra. El ensayo comienza con un círculo blanco que aparece en una pantalla táctil que indica el inicio del ensayo. El estímulo muestra (un triángulo) se presenta en la misma ubicación de la pantalla. Después la muestra se apaga y comienza el intervalo de retención. Al final del este, el participante recibe dos estímulos de prueba, uno de los cuales se empareja con el estímulo muestra. Las respuestas para el estímulo de prueba que se empareje con la muestra se refuerzan, así lo indica el asterisco.

Por lo general, a las palomas se les hacen pruebas en la caja de Skinner con un panel de estímulos en una pared, este presenta el estímulo y también detecta la respuesta de picoteo. El panel de incentivación está programado para permitir la presentación del estímulo con tres posiciones, que por lo general están ordenadas en hilera. Por ejemplo, el estímulo podría ser tres círculos del mismo tamaño que tienen varios colores o patrones. Cada ensayo comienza con una señal de inicio, podría ser que se ilumine la posición central que es un círculo blanco. Un picoteo en la señal de inicio da como resultado la presentación de un estímulo muestra, también en la posición central. En el ejemplo, el estímulo muestra es un triángulo.

251

Después de unos segundos, el estímulo muestra es apagado y un intervalo de retención comienza. Al finalizar el intervalo de retención, la paloma recibe dos estímulos de prueba, uno del lado izquierdo y el otro del lado derecho. Uno de los estímulos de prueba es igual al que se presentó en la muestra previa (un triángulo), mientras que el otro es diferente (un cuadrado). Los picoteos en el estímulo de emparejamiento se refuerzan y, en el estímulo de prueba alterno no tienen consecuencia. Emparejamiento simultáneo con la muestra versus emparejamiento demorado con la muestra Como se sospecha, la dificultad del procedimiento de emparejamiento con la muestra depende, en parte, de la duración del intervalo de retención (Grant, 1976). Para facilitar el aprendizaje de una tarea de emparejamiento, es útil empezar el entrenamiento sin un intervalo de retención. Ese procedimiento es llamado emparejamiento simultáneo con la muestra. Durante dicho emparejamiento, después de exponer la señal de inicio, se presenta un estímulo muestra en la misma posición. Luego, se introducen los estímulos de prueba del lado izquierdo y del lado derecho de la muestra, pero el estímulo muestra no se remueve. Ya que este sigue visible al mismo tiempo que lo están los estímulos de prueba, a dicho procedimiento se le llama emparejamiento simultáneo con la muestra. Un procedimiento simultáneo de emparejamiento no es una buena prueba de memoria porque el estímulo muestra sigue estando presente durante el componente de elección en cada ensayo. Sin embargo, esa característica facilita aprender la tarea. Una vez que los participantes han aprendido a realizar la elección precisa en un procedimiento de emparejamiento simultáneo, se puede introducir un intervalo de retención entre la presentación de la muestra y la de los estímulos de prueba, como se ilustra en la figura 14-1. Debido a que, en este caso, los estímulos de prueba están demorados tras la presentación de la muestra, al procedimiento se le llama emparejamiento demorado con la muestra. Controles de procedimiento para la memoria Para introducir un intervalo de retención se requiere que el participante utilice lo que recuerda sobre el estímulo muestra para responder de manera precisa ante las opciones de prueba. No obstante, tener un intervalo de retención en el procedimiento no es suficiente para asegurar que el participante esté utilizando la memoria con base en los estímulos de muestra. La muestra y el estímulo de prueba también deben de variar entre los ensayos. Considérese, por ejemplo, un procedimiento en el cual cada ensayo sea con exactitud igual al ensayo que se ilustra en la figura 14-1. Para responder de manera precisa con repeticiones en este ensayo, la paloma solo tendría que aprender a picotear la posición del estímulo del lado izquierdo durante el componente de elección de cada ensayo. La paloma no tendría que recordar nada sobre la forma del triángulo que se le presentó como muestra de aquel ensayo. Para obligar a los participantes a prestar atención y a recordar la información sobre algún estímulo específico que se haya presentado en un procedimiento de

252

emparejamiento, el estímulo muestra utilizado, al igual que la posición de los estímulos de prueba deben variar entre los ensayos de entrenamiento. La figura 14-2 ilustra varios tipos de ensayo de un procedimiento de emparejamiento que involucra dos pares de figuras de estímulo, un triángulo versus un cuadrado y un diamante versus un pentágono. Hay ocho tipos de ensayos posibles que se muestran en la figura. Con cada estímulo muestra, hay dos tipos de ensayos de prueba, uno tiene el estímulo correcto en el lado izquierdo y otro lo tiene en el lado derecho. Si los ocho tipos de ensayos varían de manera aleatoria entre las pruebas del entrenamiento, el participante no podrá ser preciso de manera constante a menos que utilice información basada en la muestra que lo guíe en su elección del estímulo de prueba correcto.

Figura 14-2. Ocho tipos de ensayos utilizados para asegurarse que los participantes en un procedimiento de emparejamiento con la muestra respondan con base en la información obtenida del estímulo muestra. Cada panel representa un tipo de ensayo diferente, el ensayo se presenta arriba y las dos opciones de estímulo abajo. La opción correcta se identifica por el asterisco.

TIPOS DE MEMORIA La memoria no es un proceso homogéneo. Existen varios tipos de memoria según el tipo de información que se recuerda, los tipos de manipulación que influencian a la naturaleza de la memoria y cuánto tiempo dura la memoria. Las experiencias humanas comunes involucran a la memoria declarativa que es la memoria de los eventos, las ideas y otra información sobre la cual se pueda hablar o “declarar”. Se es consciente de esas memorias y de los esfuerzos para recuperarlas. Usar la contraseña correcta en su teléfono móvil también requiere el uso de la memoria, pero se realiza esta tarea tan a menudo que ya no se tiene que pensar sobre cada

253

carácter específico. Ese tipo de automatización y de recuerdo inconsciente de información aprendida es llamado memoria procedimental. Las situaciones pavlovianas bien ensayadas al igual que las situaciones condicionadas instrumentales involucran a la memoria procedimental. En esta sección, se analiza la investigación en torno a la memoria de trabajo y a la memoria de referencia, al igual que sobre la memoria retrospectiva versus la memoria prospectiva. También se considera si la memoria implica el deterioro pasivo de la información aprendida o si involucra procesos psicológicos más activos. Memoria de referencia y memoria de trabajo ¿Qué tipos de memoria se requieren para responder de manera exitosa en un procedimiento de emparejamiento con la muestra? En esta discusión sobre los controles de procedimiento para la memoria, preocupaba asegurarse de que las respuestas hacia los estímulos de prueba en un ensayo específico dependieran de lo que el participante recordaba sobre el estímulo muestra que era presentado en el ensayo. Sin embargo, esta información sólo es útil hasta el final del ensayo. Recordar la muestra en un ensayo específico no ayuda a responder al siguiente ensayo porque podría involucrar un estímulo muestra diferente. A la memoria para la información que se requiere con la finalidad de completar una tarea o un ensayo se le llama memoria de trabajo. La memoria de trabajo es la retención de la información necesaria para responder de manera exitosa en un ensayo o tarea, pero que no es útil para responder en los ensayos o tareas subsecuentes. Si se está horneando un pastel y se mezclan los ingredientes, se empieza con cierta cantidad de harina y después se le añade sal, azúcar y polvo para hornear. Debido a que todos estos ingredientes son polvos blancos, una vez que la mezcla está hecha no puede distinguir sus partes a simple vista. Por lo tanto, tiene que acordarse si ya añadió el azúcar o la sal. No obstante, esa información deja de ser útil después de que termina de preparar la mezcla del pastel; puesto que no le ayudará para el próximo. Entonces, esta es una forma de memoria de trabajo. Los procedimientos de control que se han mencionado con anterioridad (variaciones en el estímulo muestra y en la ubicación del estímulo de elección correcto) aseguran que el procedimiento de emparejamiento con la muestra involucre a la memoria de trabajo. Sin embargo, para responder de manera exitosa, los participantes deberán de recordar más que simple información sobre la muestra en un ensayo en particular. También tienen que recordar las características generales de la tarea de emparejamiento que siguen constantes entre los ensayos. Por ejemplo, las palomas deben recordar que tienen que picotear la señal de inicio y que tienen que picotear uno de los estímulos de prueba después del intervalo de retención. Además, tienen que recordar que las respuestas correctas se refuerzan y también tienen que acordarse dónde obtener el reforzador después de que les fue entregado. Estos diferentes elementos de información son útiles en cada ensayo. A ese tipo de memoria se le llama memoria de referencia. Esta involucra el recuerdo de las características de una tarea que permanece constante de un ensayo al otro. La memoria de referencia es de una duración más larga de forma considerable que la

254

memoria de trabajo. Para lograr hornear un pastel, se tiene que recordar la información general sobre cocinar. Debe tenerse conocimiento sobre los refractarios, los hornos, los diversos ingredientes, al igual que sobre cómo medir y mezclar dichos ingredientes. Estas habilidades generales no son sólo útiles para el pastel que se está horneando, también lo son para cualquier futuro pastel que se desee hornear. Por ello, ese tipo de información involucra a la memoria de referencia. Deterioro de la traza versus el proceso de memoria activa La memoria de trabajo y la memoria de referencia se diferencian por el tipo de información que es retenida y por el tiempo que es recordada. Los mecanismos de la memoria también se pueden diferenciar por el tipo de procedimientos que les influencian. Un tema fundamental es si la memoria es gobernada por un proceso pasivo de deterioro de la traza que, de manera automática, lleva al olvido con el transcurso del tiempo o si implica mecanismos más complejos que pueden modificar la precisión del recuerdo. Según la hipótesis del deterioro de la traza, la presentación de un estímulo muestra activa una traza neural que se deteriora en forma automática después del final del estímulo. La información sobre la muestra sólo está disponible durante el tiempo que la traza sea suficientemente fuerte. Se presupone que el desvanecimiento gradual o el deterioro de la traza neural produce un recuerdo que es en lo progresivo menos preciso (Roberts y Grant, 1976). El concepto de deterioro de la traza es una de las explicaciones más antiguas sobre la pérdida de la memoria a lo largo del tiempo. Sin embargo, un creciente cuerpo de evidencia sugiere que la simple idea de deterioro de la traza es en extremo insuficiente e inexacta como una explicación de la memoria y el olvido. Según la hipótesis del deterioro de la traza, la fuerza de una traza de estímulo está determinada por su intensidad y duración (Grant, 1976). Sin embargo, la precisión de la memoria también depende de las condiciones del entrenamiento. Se recuerdan mejor las cosas cuando se sabe que se evaluará sobre la información. Es decir, el conocimiento de que la memoria se requerirá mejora la habilidad para recordar. Dos líneas de evidencia apoyan a esta conclusión. Una línea de investigación importante ha demostrado que los procesos de la memoria se pueden poner bajo el control del estímulo. De forma original, estos estudios se realizaron con participantes humanos a los cuales se les presentaba una serie de reactivos de estímulo. A algunos de los reactivos de la lista les seguía una señal para recordar (la letra R), esto le indicaba al participante que sería evaluado sobre ese reactivo en la prueba de memoria subsecuente. A otros reactivos de la lista les seguía una señal para olvidar (la letra F), lo cual indicaba que el reactivo no se incluiría en la prueba de memoria. Después del entrenamiento, se evaluaba la memoria de los participantes para los reactivos R y F. Los resultados mostraron una mejor memoria para los reactivos R que para los reactivos F (Johnson, 1994; MacLeod, 2012; M. Williams y Woodman, 2012). Esto demuestra que la memoria puede ser puesta bajo el control del estímulo y que no está determinada por un simple mecanismo de deterioro de la traza.

255

A menudo, los estudiantes preguntan si el tema del día estará en el examen. Al realizar esa pregunta quieren que se les proporcione la señal R o la F. El supuesto es que la señal R les permitirá activar los procesos cognitivos que facilitarán la retención de la información. La investigación sobre el olvido dirigido también se ha extendido en otras especies animales; esto ha facilitado la examinación de las bases neurales del efecto. En un estudio, por ejemplo, las palomas fueron entrenadas con un problema de emparejamiento con la muestra en el cual un estímulo muestra era seguido por un tono, ya fuera alto o bajo, que indicaba que el recuerdo del estímulo muestra sería (o no sería) evaluado. Exámenes exhaustivos realizados al final del experimento indicaron que había un mejor desempeño para los estímulos muestra con la señal R que para los estímulos con la señal F (Milmine et al., 2008; también véase a Zentall y Smith, 2016). El efecto del olvido dirigido muestra que los procesos de la memoria pueden (o no) engranarse reactivo por reactivo. Los aspectos más amplios de un procedimiento de entrenamiento también pueden activar los procesos de la memoria hasta diferentes grados. Se puede ser entrenado para recordar algo durante periodos cortos o largos. Esto fue demostrado por Sargisson y White (2001) en un importante experimento con palomas. Las aves fueron entrenadas con un procedimiento estándar de emparejamiento demorado con la muestra. La práctica común en esos experimentos es utilizar un intervalo de demora corto de forma relativa entre un estímulo muestra y las alternativas a escoger durante el entrenamiento y, después, se evalúa a las aves con intervalos más largos durante los exámenes de memoria. El resultado típico es que la precisión de la memoria se deteriora rápido con intervalos de demora más largos durante la serie de pruebas. Sargisson y White (2001) se alejaron del protocolo de entrenamiento estándar al utilizar intervalos de demora de cuatro y seis segundos durante los ensayos de entrenamiento. Prosiguieron su entrenamiento con intervalos de demora más largos; el deterioro en el desempeño de la memoria que se observa de modo usual en las demoras más largas de prueba no ocurrió. Es decir, las palomas aprendieron a recordar un estímulo muestra durante un periodo de demora más largo si recibían un procedimiento de entrenamiento que requería una mejor retención. Esto demuestra que la habilidad para retener la información durante un periodo más largo es una habilidad que se puede adiestrar con el procedimiento de entrenamiento correcto. Memoria retrospectiva versus memoria prospectiva Hasta aquí, se ha consolidado que la tarea de emparejamiento con la muestra implica a la memoria de trabajo y a la memoria de referencia, y que la memoria de trabajo se caracteriza mejor como un proceso activo en lugar de uno pasivo. Otro tema importante concierne a los contenidos de la memoria de trabajo, es decir, ¿de qué se acuerda el organismo durante el intervalo de retención que le permite realizar la elección correcta al final de un ensayo? Memoria retrospectiva La posibilidad más obvia es que la información sobre un estímulo muestra se

256

guarda durante el intervalo de retención, por lo que permite al participante seleccionar el estímulo de prueba correcto. Es probable que, durante la prueba de elección al final del ensayo, el recuerdo de la muestra se compara con cada una de las alternativas para determinar cuál alternativa se asemeja mejor a la muestra. Entonces, el participante selecciona el estímulo prueba que se empareja mejor con la muestra. Recordar los atributos de un estímulo muestra es una forma de memoria retrospectiva. La memoria retrospectiva es la memoria de los estímulos o de los eventos que se enfrentaron en el pasado. Cuando se piensa sobre los contenidos de la memoria, por lo general se piensa sobre eventos pasados. Sin embargo, la memoria retrospectiva para el estímulo muestra no es el único tipo de memoria que conducirá hacia el desempeño correcto en un problema de emparejamiento con la muestra. Memoria prospectiva Debe recordarse que, en el proceso de emparejamiento típico, se repiten una y otra vez de forma aleatoria un número limitado de tipos de ensayo. La figura 14-2, por ejemplo, ilustra un procedimiento en el cual hay cuatro estímulos muestra posibles: un triángulo, un cuadrado, un diamante y un pentágono. Para cada muestra hay un único estímulo de prueba correcto. Debido a esto, el proceso de emparejamiento involucra pares de muestras y los estímulos prueba. Se representa a un estímulo muestra con una E y a un estímulo prueba con una P. Se pueden repetir diferentes estímulos muestra de prueba como E1–P1, E2–P2, E3– P3, etc. Con el uso de estos pares E–P, los participantes podrían seleccionar el estímulo de opción correcta en una prueba de emparejamiento al pensar sobre la P después de que se presentó la muestra E y almacenarían esa información durante el intervalo de retención. Esto implica retener la información de la memoria sobre un estímulo de elección futura o una acción, a esto se le llama memoria prospectiva. La memoria prospectiva es la memoria para un estímulo futuro o para una respuesta futura. Diferencias entre la memoria retrospectiva y la memoria prospectiva La memoria retrospectiva implica recordar un estímulo muestra E durante el intervalo de retención. La memoria prospectiva implica recordar el estímulo de prueba P durante el intervalo de retención. ¿De manera experimental, cómo se puede diferenciar entre estas posibilidades? En los problemas de emparejamiento con la muestra que se ha analizado hasta ahora, el estímulo muestra E y el estímulo de prueba correcto P son el mismo. Si la muestra es un triángulo, el estímulo prueba correcto también es un triángulo. Esto hace que sea imposible decidir si la información almacenada durante el intervalo de retención le concierne al estímulo E o al estímulo P. Para diferenciar entre la memoria retrospectiva y la memoria prospectiva, se tiene que cambiar de alguna forma el proceso de emparejamiento, para que P no sea el mismo estímulo físico que el estímulo E. Dicho procedimiento es llamado emparejamiento simbólico

257

con la muestra. Un procedimiento de emparejamiento se ilustra en la figura 14-3. Cada hilera representa un tipo de ensayo diferente en el procedimiento. El procedimiento está basado en la relación simbólica entre la muestra y los estímulos prueba en vez de estarlo en la identidad de su relación.

Figura 14-3. Diagrama de un procedimiento de emparejamiento simbólico con la muestra e ilustración de la diferencia entre la memoria de trabajo retrospectiva y prospectiva. Cada fila muestra un tipo de ensayo diferente. Los estímulos de prueba se observa del lado derecho de la muestra para cada tipo de ensayo y el estímulo de prueba correcto se indica con un asterisco.

En la figura 14-3, responder en la cuadrícula horizontal se refuerza tras la presentación de un triángulo que es el estímulo muestra, mientras que responder en la cuadrícula vertical se refuerza después de la presentación de un cuadrado como muestra. De cierta forma, la cuadrícula horizontal es un símbolo para la muestra del triángulo y la vertical es un símbolo para el cuadrado. La relación simbólica entre las otras figuras y los patrones visuales se muestra en la tercera y cuarta hilera de la figura 14-3. Al igual que en el proceso de emparejamiento estándar, en una tarea de emparejamiento simbólico el estímulo de prueba correcto aparece con la misma frecuencia del lado izquierdo y derecho y, también, hay una demora entre la muestra y los estímulos de prueba. Por lo tanto, la tarea involucra a la memoria de trabajo, al igual que lo hace el proceso de emparejamiento estándar. No obstante, con el emparejamiento simbólico se recuerdan diferentes cosas, dependiendo de si la memoria es retrospectiva o prospectiva. Las diferencias se muestran en las columnas de la derecha en la figura 14-3. En los ensayos con un triángulo como muestra, la memoria retrospectiva implica la retención de la información acerca del

258

triángulo. En contraste, la memoria prospectiva implica la retención de la información sobre el estímulo de prueba de la cuadrícula horizontal, que es la opción correcta después de una muestra de triángulo. En los ensayos con un cuadrado como muestra, la memoria retrospectiva implica recordar al cuadrado, mientras que la memoria prospectiva implica recordar la cuadrícula vertical. Los estudios de los procedimientos de emparejamiento con la muestra simbólicos han mostrado que las palomas utilizan la memoria prospectiva en vez de la memoria retrospectiva (Roitblat, 1980; Santi y Roberts, 1985). La investigación que utiliza otros tipos de tareas de memoria también ha proporcionado evidencia de una memoria prospectiva (Beran et al., 2012; Crystal, 2012a; Roberts, 2012). Sin embargo, no todas las instancias de la memoria de trabajo involucran a la prospección, o la memoria de los eventos que se predice sucederán en el futuro. Ya sea que los organismos recuerden un evento pasado (retrospección) o uno futuro (prospección) depende del tipo de memoria que sea más eficiente para resolver una tarea específica (Cook et al., 1985; Zentall et al., 1990). Esto muestra que existe una flexibilidad considerable sobre qué información está codificada en la memoria, dependiendo de las demandas de la tarea.

FUENTES DE LAS FALLAS EN LA MEMORIA Todos alguna vez han enfrentado instancias frustrantes cuando no se puede recordar algo. Podría ser que se le presenta a un nuevo colega, pero cuando lo vuelve a ver, varios días después, tiene que esforzarse para recordar el nombre. De manera casual, uno nombra a tales episodios como olvidos. Es interesante, sin embargo, que el olvido rara vez es utilizado en la literatura científica para explicar las instancias de las fallas de memoria. El olvido supone que se había aprendido y codificado el nombre de una persona desde el momento que fue presentada por primera vez, pero que desde aquel entonces la traza de la memoria se ha desvanecido y ya no existe. Aunque parece plausible, el olvido es difícil de probar. Existen otras explicaciones para las fallas en la memoria y estas explicaciones alternativas son más fáciles de probar. La memoria podría fallar debido a una variedad de razones. Se podría no recordar algo porque nunca se aprendió esa información o porque, en primera instancia, nunca se codificó de forma adecuada. La falla en la memoria también podría ser el resultado del fracaso para recuperar de manera efectiva la información que se había codificado o almacenado con éxito. También puede desempeñarse mal en una tarea de memoria porque se acuerda de varias cosas y no se puede escoger de manera correcta entre las alternativas. En las siguientes secciones, se describen varias explicaciones alternativas para las fallas en la memoria; se analiza una forma especial de falla en la memoria llamada amnesia retrógrada y se considera el estado actual del concepto de consolidación de la memoria. Efectos de la interferencia Una de las fuentes más comunes de las fallas en la memoria es la interferencia de la información a la cual ya se estaba expuesto antes o después del evento que se está

259

tratando de recordar. Podría no recordarse el nombre del nuevo colega debido a las personas que conoció por primera vez antes o después del individuo en cuestión. La falla en la memoria causada por la interferencia ha sido investigada de manera extensa en estudios con participantes humanos (Postman, 1971; Underwood, 1957) y con animales (Killeen, 2001; Wright et al., 2012). Existen dos tipos de efectos de la interferencia dependiendo de si la fuente de la interferencia está después o antes del evento meta que se esté intentando recordar (recuadro 14-1). Si el estímulo superfluo que perturba a la memoria ocurre antes del evento meta, el fenómeno es llamado interferencia proactiva. En la interferencia proactiva, el estímulo de interferencia actúa hacia adelante o de forma proactiva y perturba la memoria del evento meta. Contémplese, por ejemplo, ir a una clase de sociología que trata sobre el tema del castigo visto desde el punto de vista del sistema penal y, después, ir a una clase de psicología donde el castigo se analiza desde la perspectiva de los procedimientos de condicionamiento. Se estaría experimentando una interferencia proactiva si lo que aprendió en la clase de sociología perturba la memoria del análisis psicológico del castigo.

Recuadro 14-1 Distinción entre interferencia proactiva e interferencia retroactiva Interferencia proactiva Eventos superfluos → Tarea objetivo → Prueba de memoria Interferencia retroactiva Tarea objetivo → Eventos superfluos → Prueba de memoria

Las perturbaciones en la memoria también pueden trabajar en la dirección opuesta. Algo a lo que se enfrente después puede actuar hacia atrás y perturbar la memoria de algo que aprendió de manera previa. A esto se le llama interferencia retroactiva. Por ejemplo, se podría estar en una fiesta donde primero platica con Jane y después con Mary. Al día siguiente, cuando se piense sobre aquella experiencia podría tener dificultades para recordar lo que se platicó con Jane debido a las pláticas subsecuentes con Mary. En este caso, la conversación con Mary actúa hacia atrás o de manera retroactiva para perturbar la memoria sobre la plática con Jane. Las interferencias proactivas y retroactivas han sido investigadas en estudios con animales a través del uso de procedimientos de emparejamiento con la muestra demorados. La interferencia proactiva puede ocurrir si los ensayos están programados de manera cercana durante el entrenamiento de emparejamiento con la muestra. Debe recordarse que los ensayos consecutivos en un proceso de emparejamiento involucran diferentes estímulos muestra. Con intervalos cortos entre ensayos, lo que ocurra en un ensayo puede producir interferencia proactiva que perturbe el desempeño en el siguiente ensayo (Edhouse y White, 1988; Jitsumori et al., 1989). Una explicación sobre este efecto es que los participantes tienen un desempeño bajo no porque recuerden poco sino porque recuerdan

260

demasiado. Según esta interpretación, la interferencia proactiva es causada por recordar qué sucedió en el ensayo anterior, lo cual crea confusión sobre la elección correcta en el ensayo en curso. La interferencia retroactiva ha sido investigada en los procedimientos de emparejamiento con la muestra al presentar estímulos superfluos durante el intervalo de demora entre las presentaciones de un estímulo muestra y las alternativas a escoger. El estímulo superfluo puede ser proporcionado al aumentar el nivel de iluminación de la cámara experimental, haciendo que varias características de la cámara experimental sean más visibles. Este tipo de manipulación de manera usual perturba la precisión del desempeño en el emparejamiento (Grant, 1988). A diferencia de la interferencia proactiva, que es el resultado de recordar demasiado, la interferencia retroactiva parece ser resultado del fracaso para recordar o recuperar la información requerida. Sin embargo, el mecanismo preciso de la interferencia retroactiva sigue estando bajo investigación (Calder y White, 2014; White y Brown, 2011). Fracaso en la recuperación Los estudios sobre la interferencia proactiva y la interferencia retroactiva ilustran dos causas de un bajo desempeño en una tarea de la memoria. Otro factor que contribuye a las fallas en la memoria es la inhabilidad del individuo para recuperar de manera efectiva la información que fue de aprendida manera previa. En principio, esta fuente de falla en la memoria es sencilla de probar. Si el pobre desempeñoen una tarea de la memoria se debe a la falla en la recuperación, entonces los procedimientos que faciliten la recuperación deberían facilitar el desempeño. La recuperación de la información se facilita mediante la exposición a los estímulos que con anterioridad se asociaron con la información meta. Esos estímulos se llaman señales para recordar. Características que son insignificantes de forma notable del entorno pueden llegar a asociarse con una tarea de aprendizaje y facilitar la recuperación de la información que es relevante para la tarea. Por ejemplo, en un estudio (Borovsky y Rovee-Collier, 1990) bebés de seis meses recibieron un procedimiento de condicionamiento instrumental en casa dentro del corral de juego (figura 14-4). Cada bebé era colocado en una silla para infantes dentro del corral y arriba había un móvil a la vista. El móvil estaba atado con cuidado con un listón de satín a un pie del infante. Al mover su pie, el bebé era capaz de mover el móvil. Por lo tanto, la respuesta instrumental era el movimiento de la pierna y el reforzador era el movimiento del móvil.

261

Figura 14-4. Situación experimental utilizada por Borovsky y Rovee-Collier (1990) para estudiar los efectos de las señales para recordar en la memoria de los infantes durante una tarea de condicionamiento instrumental. La respuesta instrumental era mover una pierna y el reforzador era el subsecuente movimiento del móvil que se encontraba frente al infante.

De forma inmediata los infantes adquirían la respuesta del movimiento con la pierna, pero mostraban poca evidencia de aprendizaje cuando se les evaluaba 24 horas después. ¿Este deterioro en el desempeño refleja la falla para aprender de manera efectiva o para codificar la contingencia instrumental, o el fracaso para recuperar lo que se había aprendido el día anterior? Si en primera instancia la respuesta instrumental no se aprende de manera efectiva, entonces no hay nada que pueda hacerse para contrarrestar el evidente bajo desempeño transcurridas las 24 horas. En cambio, si la falta de la memoria se debía a la falla en la recuperación, entonces, la presentación de señales de recuperación o recordatorias deberían

262

restaurar el desempeño. En esta situación, ¿cuál podría ser una señal efectiva para que los infantes lograran recordar? Borovsky y Rovee-Collier (1990) descubrieron que el patrón de la tela de revestimiento del corral servía como una señal efectiva para recuperar la respuesta instrumental. A veces, el revestimiento del corralito tenía un patrón rayado, en otras ocasiones de cuadros. Los infantes entrenados con un revestimiento rayado respondieron mejor hasta 24 horas después si eran evaluados con el revestimiento rayado, a comparación de si eran cambiados a un revestimiento con cuadros. Se obtuvieron los mismos resultados con los revestimientos opuestos. Los resultados de este experimento son extraordinarios porque nada se llevó a cabo para dirigir la atención de los infantes hacia los revestimientos de las cunas. Los patrones cuadrados y rayados ya les eran conocidos y los patrones no eran predictivos de un reforzamiento. Sirvieron como señales de fondo en vez de ser estímulos discriminativos. No obstante, el patrón que se encontraba presente durante el entrenamiento original llegó a asociarse con la tarea instrumental y ayudó a recuperar la información sobre la tarea durante la prueba de memoria 24 horas después. Se ha descubierto que una variedad de estímulos son señales efectivas para recordar en diversas situaciones de aprendizaje, incluyendo la exposición a un estímulo condicionado (EC) sin exposición al reforzamiento para el estímulo no condicionado, las señales internas inducidas por las drogas psicoactivas y la exposición a E- en un procedimiento de discriminación (Spear y Riccio, 1994). De manera adicional, se ha descubierto que las señales para recordar revierten una variedad de los fenómenos que se caracterizan por bajos niveles de respuesta condicionada, como la extinción, la inhibición latente, el ensombrecimiento y el bloqueo (Urcelay y Miller, 2008).

CONSOLIDACIÓN, RECONSOLIDACIÓN Y ACTUALIZACIÓN DE LA MEMORIA Para que algo sea recordado durante mucho tiempo, debe ocurrir un cambio permanente de modo relativo en el sistema nervioso. La traducción de un episodio de aprendizaje a un recuerdo a largo plazo requiere del proceso de consolidación de la memoria. La consolidación de la memoria involucra cambios celulares y moleculares a nivel de las sinapsis neurales (Hernandez y Abel, 2008). También involucra cambios en los circuitos neurales y en los sistemas neurales (McKenzie y Eichenbaum, 2011). Ambos cambios requieren tiempo para finalizarse, pero la consolidación sináptica requiere más tiempo que la consolidación en los circuitos neurales. Antes de que una memoria se consolide de forma plena, se encuentra en un estado flexible o maleable en el cual puede alterarse o cambiar. De hecho, las hipótesis sobre la consolidación de la memoria se evalúan en un modo típico al introducir manipulaciones que alteran el proceso de consolidación. Por ejemplo, el tratamiento con un inhibidor de síntesis proteínica o con terapia electroconvulsiva luego de un episodio de aprendizaje altera el recuerdo posterior de ese ensayo de condicionamiento (McGaugh, 2000; McGaugh y Herz, 1972). Sin embargo, la

263

fuente de la alteración debe presentarse poco después del ensayo de condicionamiento, antes de que el proceso de consolidación se haya completado. Este periodo limitado, cuando una memoria es susceptible a la alteración es llamado ventana de consolidación. La visión tradicional de la consolidación de la memoria era que una vez que el proceso de consolidación se ha completado en el nivel de las sinapsis neurales y de los circuitos neurales, la memoria se solidifica y se vuelve permanente. Después de que una memoria se consolida, ya no puede ser alterada por la inhibición de la síntesis proteínica o por la administración de una descarga electroconvulsiva. Una memoria consolidada de forma previa puede ser recuperada para ayudar a lidiar con las situaciones actuales. La recuperación o el recuerdo hace pasar a la memoria de un estado inactivo, o de un estado de almacenamiento, hacia un estado activo donde la memoria puede guiar las decisiones y las conductas. No obstante, el supuesto fue que mover la memoria hacia un estado activo no hacía nada para cambiar a la memoria original. Ya que ésta permanecía casi intacta, cada intento de recuperación operaba en la memoria original consolidada (figura 14-5).

Figura 14-5. Perspectiva tradicional sobre el aprendizaje y la consolidación de la memoria. Una vez que una nueva memoria se ha consolidado está disponible para su recuperación; sin embargo, se asumía que esto dejaba sin cambios a los contenidos de la memoria original.

La visión tradicional de que la consolidación de la memoria crea una memoria permanente ha sido desafiada por el fenómeno de la reconsolidación. Cuando una memoria es reactivada o recuperada, la información pasa de su estado inactivo (o guardado) hacia un estado activo. En este estado activo la memoria se puede modificar o cambiar y estas modificaciones se pueden incorporar en una nueva forma de la memoria a largo plazo a través del proceso de reconsolidación (Auber, et al., 2013). De manera interesante, la reconsolidación parece involucrar algunos de los mismos mecanismos neurales que la consolidación original (McKenzie y Eichenbaum, 2011; Nader y Hardt, 2009). El concepto de reconsolidación se ilustra en la figura 14-6. El aprendizaje original y la consolidación de ese aprendizaje establecen la primera forma de una memoria a largo plazo, algo que se podría etiquetar como la Forma 1.0. La

264

recuperación de esa memoria hace que la memoria esté sujeta a una alteración y estos cambios se reconsolidan en una forma modificada de la memoria a largo plazo, la cual se podría etiquetar como la Forma 1.1. Este proceso de recuperación y de reconsolidación de la memoria se repite de manera potencial cada vez que una memoria es evocada, con la consecuencia de que esa memoria a largo plazo de un evento termina en sustancia modificada como el resultado de los repetidos esfuerzos para recordar aquel evento.

Figura 14-6. Visión contemporánea en torno al aprendizaje, la consolidación de la memoria y la reconsolidación. Cuando una memoria es recuperada, se torna lábil y susceptible a la reconsolidación, permitiendo los cambios en el contenido de la memoria a largo plazo con cada episodio de recuperación.

La investigación reciente en torno a la reconsolidación ha revolucionado el modo en que se piensa sobre los mecanismos de la memoria. De manera tradicional, se consideraba que la memoria era como una fotografía que no cambia cada vez que se saca para mirarla. El concepto de reconsolidación sugiere que cuando se ve una fotografía y se egresan al lugar de almacenaje, la foto que se haya almacenado pudo ser modificada por los pensamientos actuales y por las reacciones que causó ahora. En principio, cada vez que se ve la fotografía y se regresa al almacenamiento de largo plazo, ésta puede cambiar de alguna forma. De forma previa se describió cómo el concepto de reconsolidación ha sido utilizado para diseñar un procedimiento que produce una extinción más efectiva del miedo condicionado (capítulo 10). En ese procedimiento, la memoria o el miedo condicionado se activa por un único ensayo con la presentación del ENC solo. Se presume que, esta reactivación de la memoria mueve al miedo condicionado hacia un estado maleable en el cual una serie de ensayos de extinción serán más efectivos para cambiar la memoria previa del miedo condicionado. Sin embargo, las series de extinción deben llevarse a cabo dentro de la ventana de consolidación (Monfils et al., 2009). Si los ensayos de extinción se demoran por seis horas tras la reactivación de la memoria, ya no producen un efecto de extinción mejorado. No todas las memorias reactivadas son cambiadas durante el proceso de recordar. Si la memoria evocada no está acompañada por nuevos elementos (o alguna forma de error de predicción), es probable que no activará los procesos de reconsolidación (Sevenster et al., 2013). Falta mucho por ser descubierto respecto a las circunstancias que hacen que una memoria sea susceptible a la modificación a largo

265

plazo, al igual que sobre las condiciones límites de dichas modificaciones. No obstante, el hecho de que las memorias a largo plazo sean susceptibles de alteración ayuda a entender mejor cómo se desarrollan las memorias falsas y distorsionadas a través de los repetidos esfuerzos para recordar (Hardt, Einarsson, y Nader, 2010). El concepto de reconsolidación también está alentando la búsqueda de nuevas maneras de cambiar las memorias de largo plazo que son la fuente de problemas clínicos recalcitrantes como el trastorno de estrés postraumático agudo y las adicciones a las drogas (Kroes et al., 2016; Schwabe et al., 2014).

RESUMEN El aprendizaje y la memoria están relacionados de forma integral. Los estudios sobre el aprendizaje se enfocan en la etapa de adquisición del procesamiento de información, mientras que los estudios en torno a la memoria se enfocan en las etapas de retención y de recuperación. La memoria de trabajo es utilizada para retener la información requerida sólo durante el tiempo necesario para completar un ensayo o una tarea. En contraste, la memoria de referencia, que involucra aspectos de la tarea o del ensayo que permanecen constantes de una ocasión a la siguiente. Los estudios tempranos creían que la memoria era pasiva y retrospectiva. Sin embargo, la evidencia más reciente indica que, en muchos casos, la memoria implica procesos activos y que la información almacenada puede involucrar eventos futuros (eventos prospectivos) en lugar de eventos pasados (eventos retrospectivos). Los estudios sobre lo que los individuos olvidan pueden brindar buena información sobre los mecanismos de la memoria que los estudios de los desempeños exitosos. Las fallas en la memoria podrían ocurrir debido a una interferencia proactiva, debido a la interferencia retroactiva o a la falla en la recuperación. En la interferencia proactiva, a menudo, se debe recordar tanto la información útil como la información irrelevante, al no ser capaz de elegir entre las dos. La interferencia retroactiva puede deberse a las perturbaciones en los procesos de ensayo necesarios para tener una memoria exitosa. A pesar de esto, un ensayo adecuado no garantiza una buena memoria. La información retenida de forma adecuada podría no ser recuperada durante una prueba de memoria. Las señales para recordar, algunas de las cuales podrían parecer características triviales del entrenamiento, pueden facilitar el desempeño de la memoria en los casos que existe una falla en la recuperación. Instituir una memoria a largo plazo implica procesos de consolidación que operan a nivel neuronal y de los circuitos neuronales. Sin embargo, una memoria consolidada no es inmune a la modificación. La evocación de un recuerdo pone a la memoria en un estado activo en el que puede ser modificada y aquellas modificaciones pueden ser incorporadas en las memorias viejas a través de un proceso llamado reconsolidación. Con evocaciones repetidas, se pueden alterar y reconsolidar aspectos significativos de la memoria. Este tipo de actualización de la memoria puede crear memorias falsas, lo cual puede ser problemático. No obstante, la investigación respecto a la actualización de la memoria también podría permitir a los científicos desarrollar tratamientos más efectivos para algunos tipos de

266

psicopatologías que se originan en memorias inadaptivas.

LECTURAS SUGERIDAS Alberini, C. M., & LeDoux, J. E. (2013). Memory reconsolidation. Current Biology, 23, R746–R750. http://dx.doi.org/10.1016/j.cub.2013.06.046 Schwabe, L., Nader, K., & Pruessner, J. C. (2014). Reconsolidation of human memory: Brain mechanisms and clinical relevance. Biological Psychiatry, 76, 274–280. http://dx.doi.org/10.1016/j.biopsych.2014.03.008 Spear, N. E., & Riccio, D. C. (1994). Memory: Phenomena and principles. Boston, MA: Allyn & Bacon. Urcelay, G. P., & Miller, R. R. (2014). The functions of contexts in associative learning. Behavioural Processes, 104, 2–12.http://dx.doi.org/10.1016/j.beproc.2014.02.008 Zentall, T. R., & Smith, A. P. (2016). Delayed matching-to-sample: A tool to assess memory and other cognitive processes in pigeons. Behavioural Processes, 123, 26–42. http://dx.doi.org/10.1016/j.beproc.2015.07.0022 Términos técnicos Consolidación Consolidación de la memoria Emparejamiento demorado con la muestra Emparejamiento simultáneo con la muestra Etapa de adquisición Etapa de recuperación Interferencia proactiva Interferencia retroactiva Intervalo de retención Memoria de referencia Memoria de trabajo Memoria prospectiva Memoria retrospectiva Procedimiento de emparejamiento con la muestra Proceso de consolidación Reconsolidación Señal para recordar

267

268

Glosario Aprendizaje asociativo: aprendizaje en el que un evento (un estímulo o una respuesta) se vincula a otro de modo que el primer evento activa una representación del segundo. Aprendizaje de aversión al sabor: un tipo de condicionamiento pavloviano en el cual un alimento nuevo funge como estímulo condicionado (EC) y una enfermedad es el estímulo no condicionado (ENC). La aversión al sabor se puede aprender incluso si la enfermedad es demorada por varias horas tras la exposición al sabor. Aprendizaje de demora larga: un procedimiento de condicionamiento clásico en el que el estímulo condicionado (EC) se presenta mucho antes que el estímulo no condicionado (ENC) en cada ensayo de condicionamiento. Aprendizaje de estímulo–estímulo: el aprendizaje de una asociación entre dos estímulos, con la finalidad de que la presentación del primer estímulo active la representación neural del segundo. Aprendizaje E–E: véase aprendizaje de estímulo–estímulo. Aprendizaje E–R: el aprendizaje de una asociación entre un estímulo y una respuesta, con el resultado de que el estímulo llega a provocar la respuesta. Aprendizaje: un cambio duradero en los mecanismos de la conducta que involucra estímulos o respuestas específicas como resultado de la experiencia previa con esos estímulos y respuestas. Arco reflejo: estructuras neurales, que consisten en la neurona aferente (sensorial), la interneurona y la neurona eferente (motora), que permiten que un estímulo provoque una respuesta refleja. Asíntota: El límite del aprendizaje, en el que no ocurren más cambios en la respuesta condicionada. Asociación E (R–C): una relación de orden superior en las situaciones de condicionamiento instrumental, según la cual un estímulo discriminativo o contextual (E) activa una asociación entre la respuesta instrumental y el reforzador (R–C). Asociación E–C: una asociación entre un estímulo (E) en presencia del cual una respuesta instrumental es reforzada y el reforzador o consecuencia de la respuesta (C). Asociación E–R: una asociación entre un estímulo y una respuesta que permite a la presentación del estímulo provocar la respuesta. Asociación inhibitoria E–R: una asociación E–R en la cual la presentación del estímulo inhibe la respuesta asociada. Asociación R–C: una asociación entre la respuesta instrumental (R) y el reforzador consecuencia de la respuesta (C). Asociaciones selectivas: asociaciones que se forman de manera fácil entre una combinación de estímulos condicionado (EC) y no condicionado (ENC) que entre otras combinaciones. Auto control: la elección de una recompensa demorada grande en vez de una recompensa inmediata más pequeña. Automoldeamiento: véase seguimiento del signo. Caja de dos compartimentos: un aparato para estudiar la conducta de evitación; consiste en dos compartimentos adyacentes. La respuesta de evitación involucra moverse de un compartimiento hacia el otro (p. ej., trasladarse entre compartimentos). Caja de Skinner: una pequeña cámara experimental donde el participante puede manipular en forma repetida un objeto, como una palanca de respuesta o una palanca de mando. Ésta le permite al participante ejecutar una respuesta particular en repetidas ocasiones sin tener que salir de la situación experimental. La cámara también tiene un mecanismo que puede entregar un reforzador, como una bolita de alimento o un sorbo de jugo. Caja problema: un tipo de cámara experimental utilizada por Thorndike para estudiar el condicionamiento instrumental. El participante era puesto en la cámara y tenía que llevar a cabo una conducta específica para ser liberado y obtener un reforzador. Castigo discriminativo: un tipo de procedimiento de castigo en el que las respuestas son castigadas en presencia de un estímulo particular, pero no cuando ese estímulo está ausente. Castigo: un tipo de procedimiento de condicionamiento instrumental en el que la ejecución de la respuesta instrumental tiene como resultado la entrega de un estímulo aversivo. Codificación temporal: codificación de los parámetros temporales específicos de un procedimiento de condicionamiento; no sólo aprender que el estímulo condicionado (EC) está emparejado con el estímulo no condicionado (ENC), sino también aprender con exactitud cuándo se presenta el ENC en relación con el EC. Concepto perceptual: responder de la misma manera a un conjunto de estímulos diferentes de forma física (p. ej., fotografías de varios tipos de perro) que pertenecen a la misma categoría perceptual (perro). Condición de control: una condición en la cual los participantes no reciben un procedimiento de

269

entrenamiento, pero son tratados de la misma manera en todos los otros aspectos que los participantes entrenados. La ejecución en la condición de control se compara con la ejecución en la condición experimental en un experimento básico de aprendizaje. Condición experimental: una condición en la que los participantes reciben un procedimiento de entrenamiento. La ejecución en la condición experimental se compara con la ejecución en la condición de control en los experimentos básicos de aprendizaje. Condicionamiento apetitivo: Un tipo de condicionamiento en el cual el estímulo o reforzador no condicionado es un evento placentero o un estímulo al que el participante tiende a acercarse. Condicionamiento aversivo: Un tipo de condicionamiento en el cual el estímulo o reforzador no condicionado es un evento displacentero, un estímulo que provoca aversión y respuestas de alejamiento. Condicionamiento de traza: un procedimiento de condicionamiento clásico en el cual el estímulo no condicionado (ENC) se presenta en cada ensayo después de que el estímulo condicionado (EC) ha sido finalizado durante un corto periodo. Condicionamiento demorado: un procedimiento de condicionamiento pavloviano en el cual el estímulo condicionado (EC) comienza antes del estímulo no condicionado (ENC) en cada ensayo. Condicionamiento instrumental: condicionamiento que resulta de la relación entre la conducta y sus consecuencias. Condicionamiento operante: una forma de condicionamiento instrumental en la cual la respuesta requerida para el reforzamiento es una respuesta operante, identificada por su efecto de manipular el entorno de alguna manera. Condicionamiento simultáneo: un procedimiento de condicionamiento pavloviano en el que el estímulo condicionado (EC) y el estímulo no condicionado (ENC) se presentan de manera simultánea en cada ensayo de condicionamiento. Conducta apetitiva: el componente inicial de una secuencia de conducta típica de la especie. La conducta apetitiva es variable; se presenta en respuesta a señales espaciales generales y sirve para poner en contacto al organismo con estímulos liberadores que provocan respuestas consumatorias. Conducta consumatoria: conducta que lleva a una secuencia de conducta provocada para su consumación; conducta que concluye o termina una secuencia de respuestas provocadas. Conducta instrumental: una conducta o combinación de respuestas que es eficaz para producir una consecuencia o reforzador particular. Conducta operante: conducta que está definida por el efecto que produce en el entorno. Los ejemplos incluyen presionar una palanca y abrir una puerta. Cualquier secuencia de movimientos que depriman la palanca o abran la puerta constituyen una instancia de esa conducta operante particular. Conducta provocada o elicitada: una conducta específica o patrón de acción que se ejecuta de manera confiable con la presentación de un estímulo particular (su estímulo elicitador). Conducta típica de la especie: conducta característica de la mayoría de los miembros de una especie en particular. Consolidación: los procesos neurobiológicos mediante los cuales la información recién adquirida se codifica de una forma permanente de modo relativo en el sistema nervioso. Contigüidad temporal: la presencia simultánea de dos o más eventos. Contingencia: el grado hasta el cual la ocurrencia de un evento depende de otro y viceversa. Control aleatorio: un procedimiento de control para el condicionamiento pavloviano en el cual los estímulos condicionado (EC) y no condicionado (ENC) se presentan de forma aleatoria respecto al otro. Control discriminativo: un procedimiento de control para el condicionamiento pavloviano en el cual un estímulo condicionado (el EC+) está emparejado con el estímulo no condicionado (ENC), mientras que otro estímulo condicionado (el EC-) se presenta sin el ENC. El desarrollo de la respuesta durante el EC+, pero no durante el EC-, se considera evidencia de condicionamiento pavloviano. Deshabituación: recuperación de una respuesta habituada producida por la presentación de un fuerte estímulo superfluo o no relacionado. Desinhibición: recuperación de una respuesta condicionada extinguida de forma parcial, producida por la presentación de un estímulo nuevo. Devaluación del ENC: un procedimiento que reduce la efectividad o el valor de un estímulo no condicionado (ENC) para provocar una conducta no condicionada. Dimensión del estímulo: la característica (p. ej., el color) que distingue a una serie de estímulos dentro de una prueba de generalización de estímulos. Discriminación de estímulos: respuesta diferencial en presencia de dos o más estímulos. Discriminación interdimensional: una discriminación entre dos estímulos que difieren en varios aspectos. Discriminación intradimensional: una discriminación entre estímulos que difieren sólo en una característica del estímulo, como el color, la luminosidad o el tono. E : un estímulo discriminativo que señala la ausencia de reforzamiento para una respuesta instrumental. E+: un estímulo discriminativo que señala la disponibilidad de reforzamiento para una respuesta

270

instrumental. Efecto de bloqueo: interferencia con el condicionamiento de un nuevo estímulo a causa de la presencia de un estímulo condicionado previo durante los ensayos de entrenamiento para el estímulo nuevo. Efecto de habituación: una disminución progresiva en el vigor de una respuesta provocada que puede ocurrir a causa de la presentación repetida del estímulo elicitador. Efecto de la magnitud del reforzamiento en la extinción: menor persistencia de la conducta instrumental en la extinción después del entrenamiento con un gran reforzador a diferencia del entrenamiento con un reforzador pequeño. Efecto de sensibilización: un aumento en el vigor de la conducta provocada que puede ser el resultado de las presentaciones repetidas del estímulo elicitante o de un evento intenso no relacionado. Efecto del reforzamiento parcial en la extinción: mayor persistencia de la respuesta instrumental en la extinción después del entrenamiento con reforzamiento parcial (intermitente) en comparación con el entrenamiento de reforzamiento continuo. Abreviado ERPE. Efecto del sobre entrenamiento en la extinción: menor persistencia de la conducta instrumental en la extinción después del entrenamiento extenso con reforzamiento (sobre entrenamiento), en comparación con los niveles moderados de entrenamiento con reforzamiento. Efecto paradójico de la recompensa: un fenómeno en el cual hay más respuesta durante la extinción después del entrenamiento con reforzadores menores, más intermitentes o más pequeños. Ejecución: las conductas o actividades observables de un organismo en un momento determinado. Emparejamiento demorado con la muestra: un procedimiento en el que los participantes son reforzados por responder a un estímulo de prueba igual al estímulo muestra que fue presentado tiempo atrás. Emparejamiento simultáneo con la muestra: un procedimiento en el cual los participantes son reforzados al responder a un estímulo de prueba que es igual a un estímulo muestra. El estímulo muestra y el estímulo de prueba se presentan al mismo tiempo. Ensombrecimiento: interferencia con el condicionamiento de un estímulo a causa de la presencia simultánea de otro estímulo que es más fácil de condicionar. Equivalencia de estímulos: responder a estímulos físicos distintos de la misma manera debido a experiencias comunes previas con los estímulos. Establecimiento positivo de la ocasión: véase facilitación. Estado de impulso: un estado motivacional que existe cuando un sistema no está en su nivel homeostático. El regreso del sistema a su nivel homeostático reduce el estado de impulso. Estímulo aversivo: estímulo nocivo o displacentero que provoca aversión o respuestas de alejamiento. Estímulo condicionado: un estímulo que al inicio no provoca una respuesta condicionada ni activa una representación de un estímulo no condicionado, pero que llega a hacerlo tras emparejamientos con un estímulo no condicionado. Abreviado EC. Estímulo de marcado: una breve señal visual o auditiva presentada tras una respuesta instrumental que hace más memorable la respuesta instrumental y ayuda a superar el efecto disruptivo del reforzamiento demorado. Estímulo liberador: véase estímulo signo. Estímulo no condicionado: un estímulo que provoca una respuesta vigorosa en la ausencia de un entrenamiento previo. Abreviado ENC. Estímulo signo: la característica específica de un objeto o de un animal que provoca un patrón de acción modal en otro organismo. Etapa de adquisición: la primera etapa necesaria para el desempeño de la memoria, en la cual la información sobre los estímulos y las respuestas se codifica en el sistema nervioso de alguna forma. Etapa de recuperación: la tercera etapa necesaria para el desempeño de la memoria, en la cual la información que ha sido retenida es recuperada de su almacenamiento para su uso actual. Etología: una especialización de la biología que se dedica al análisis de los patrones de conducta típicos de la especie que evolucionan en hábitats naturales. Evitación de dos vías: un procedimiento de evitación donde los ensayos pueden empezar en cualquiera de los dos compartimentos de la caja; la respuesta de evitación consiste en ir de un lado hacia el otro de un compartimento ocupado hacia uno no ocupado. Evitación de una vía: un procedimiento de condicionamiento de evitación en el que la respuesta requerida para evitar la descarga eléctrica siempre es cruzar de un compartimento a otro, en la misma dirección, dentro de la caja de dos compartimentos. Evitación discriminada: un procedimiento de condicionamiento de evitación en el cual la ocurrencia de un estímulo aversivo no condicionado es indicada por una señal de advertencia o estímulo condicionado (EC). La respuesta durante el EC termina ese estímulo y evita la entrega del estímulo aversivo no condicionado. Evitación no discriminada: un procedimiento de condicionamiento de evitación en el que el estímulo aversivo no está indicado por una señal de advertencia externa. En su lugar, el estímulo aversivo está programado para ocurrir de manera periódica, de acuerdo con el intervalo E–E. Cada ejecución de la

271

respuesta de evitación previene la entrega del estímulo aversivo por un periodo determinado de tiempo, llamado intervalo R–E. Evitación operante libre: véase evitación no discriminada. Evolución: cambio en una característica física o conductual que ocurre a través de generaciones sucesivas a causa del éxito diferencial reproductivo. Experimento de un solo sujeto: un tipo de experimento en el cual el aprendizaje se investiga a través de una extensa observación de la conducta de un solo individuo. La conducta del individuo debe ser lo bastante bien entendida para que sea posible realizar presupuestos precisos sobre cómo el participante se hubiera comportado si él o ella no hubiese recibido el procedimiento de entrenamiento. Experimento entre sujetos: un diseño experimental en el que se comparan dos o más grupos independientes de participantes. Se enfoca en las diferencias en la ejecución de los grupos separados en lugar de en la conducta de los participantes individuales. Extinción (en el condicionamiento clásico): reducción de una respuesta aprendida que ocurre a causa de que el estímulo condicionado (EC) ya no está emparejado con el estímulo no condicionado (ENC). También, el procedimiento de presentar en forma repetida un EC sin el ENC. Extinción (en el condicionamiento instrumental): reducción de una respuesta instrumental que ocurre porque la respuesta ya no está seguida por el reforzador. También, el procedimiento de no reforzar más la respuesta instrumental. Facilitación: un procedimiento de condicionamiento pavloviano en el cual un estímulo condicionado (EC) se presenta en ensayos en los que un segundo estímulo está emparejado con un estímulo no condicionado (ENC), pero no en los ensayos en que el segundo estímulo se presenta solo. En dicho procedimiento, una señal designa cuándo otra señal será reforzada. Fatiga: una disminución temporal de la conducta ocasionada por el uso repetido o excesivo de los músculos involucrados para ejecutar la conducta. Frustración: una reacción emocional aversiva que resulta de la ausencia inesperada de reforzamiento. Función de retroalimentación: la relación entre las tasas de respuesta y las tasas de reforzamiento permitidas por un programa de reforzamiento particular. Función descontadora del valor: la pérdida del valor de una recompensa en función de cuánto tiempo se tenga que esperar para obtenerla. Generalización de estímulos: la ejecución de una conducta aprendida a través de la habituación o el condicionamiento en presencia de estímulos que son diferentes al estímulo particular que se utilizó durante el entrenamiento. Gradiente de generalización del estímulo: un gradiente de respuesta que puede ser observado si los participantes son examinados con estímulos que difieren cada vez más del estímulo que se utilizó durante el entrenamiento. Habituación a corto plazo: un efecto de habituación que tiene una duración corta, a veces menor a un minuto. Habituación a largo plazo: un tipo de habituación que dura un día o más y que muestra una recuperación espontánea. Hipótesis de discriminación: una hipótesis que atribuye el efecto del reforzamiento parcial en la extinción (extinción más lenta después del reforzamiento parcial que del reforzamiento continuo) a la falta de detección o discriminación del procedimiento de extinción tras el reforzamiento parcial. Hipótesis de la privación de respuestas: una explicación del reforzamiento de acuerdo con la cual el acceso reducido a una respuesta particular es suficiente para hacer que la oportunidad de desempeñar esa respuesta sea un reforzador positivo eficaz. Hipótesis del comparador: la idea de que la respuesta condicionada depende de una comparación entre la fuerza asociativa del estímulo condicionado (EC) y la fuerza asociativa de otras señales que estuvieron presentes durante el entrenamiento del EC objetivo. Impulso adquirido: una fuente de motivación para la conducta instrumental causada por la presentación de un estímulo que, de manera previa, fue condicionado con un reforzador primario que puede ser o no condicionado. Impulso condicionado: un estado de impulso inducido por la presentación de un estímulo que fue condicionado de manera previa con un reforzador primario o no condicionado. Igual que el impulso adquirido. Inflación del ENC: un procedimiento que aumenta la efectividad o el valor de un estímulo no condicionado (ENC) para provocar una conducta no condicionada. Inhibición condicionada: un tipo de condicionamiento pavloviano en el cual el estímulo condicionado se convierte en una señal de la ausencia del estímulo no condicionado. Inhibición latente: retardo en el condicionamiento pavloviano que ocurre a causa de las exposiciones o presentaciones repetidas del estímulo condicionado (EC) por sí mismo antes del emparejamiento EC– ENC. Inminencia depredadora: la probabilidad percibida de ser atacado por un depredador. Se piensa que

272

distintas respuestas de defensa típicas de la especie se llevan a cabo ante diferentes grados de inminencia depredadora. Interferencia proactiva: interrupción de la memoria por la exposición a eventos anteriores al evento que se quiere recordar. Interferencia retroactiva: interrupción de la memoria por exposición a estímulos después del evento que se quiere recordar. Interneurona: una neurona en la médula espinal que transmite impulsos de las neuronas aferentes (o sensoriales) a las eferentes (o motoras). Intervalo de retención: el periodo entre la adquisición de la información y la prueba de memoria para dicha información. Intervalo de traza: el intervalo entre el final del estímulo condicionado (EC) y el principio del estímulo no condicionado (ENC) en un procedimiento de condicionamiento de traza. El intervalo de traza por lo general es más corto que el intervalo inter-ensayos. Intervalo EC–ENC: véase intervalo entre estímulos. Intervalo E–E: el intervalo entre presentaciones sucesivas del estímulo aversivo en un procedimiento de evitación no discriminado cuando la respuesta de evitación no es llevada a cabo. Intervalo entre estímulos: el intervalo en un procedimiento de condicionamiento pavloviano demorado entre el inicio del estímulo condicionado (EC) y el inicio del estímulo no condicionado (ENC). Intervalo R–E: el intervalo entre la ejecución de una respuesta de evitación y la siguiente presentación programada del estímulo aversivo en un procedimiento de evitación no discriminado. Laberinto en T: un laberinto con una caja de inicio que abre a una pista recta, en el otro extremo el participante puede dar vuelta a la derecha o a la izquierda para seguir a la caja objetivo. Ley de igualación: una regla de la conducta instrumental, propuesta por Herrnstein, según la cual la tasa de respuesta de una alternativa de respuesta particular equivale a la tasa relativa de reforzamiento para esa alternativa de respuesta. Ley del efecto: un mecanismo de la conducta instrumental, propuesto por Thorndike, según el cual el reforzamiento de una respuesta instrumental fortalece la asociación entre la respuesta y el estímulo en presencia del que ocurrió la respuesta. Línea de programa: una línea en un gráfico de tasas de respuesta instrumental y de reforzadores que indica cuánto acceso se proporciona a la actividad reforzadora para varias tasas de respuesta instrumental en un programa de reforzamiento particular. Madurez: un cambio en la conducta causado por el desarrollo físico o fisiológico. Memoria de referencia: la retención de información de fondo que el participante necesita para terminar una tarea o responder de manera exitosa en una situación (Compare con memoria de trabajo). Memoria de trabajo: la retención de la información necesaria para lograr una tarea inmediata; en contraste con la memoria de referencia, la cual involucra a la información de fondo que también se necesita para realizar tareas futuras similares. Memoria prospectiva: memoria de un plan para la acción futura. También llamada prospección. Memoria retrospectiva: memoria de un evento experimentado con anterioridad. Método de ensayos discretos: un método de condicionamiento instrumental en el que el participante puede llevar a cabo la respuesta instrumental sólo durante periodos específicos, de modo usual determinados por la colocación del participante en una cámara experimental o por la presentación de un estímulo de ensayo. Método operante libre: un método de condicionamiento instrumental que permite repeticiones de la respuesta instrumental en cualquier momento, en contraste con el método de ensayos discretos. Modelo hidráulico: un modelo en la etología de acuerdo con el cual ciertos factores conducen a la construcción de un tipo particular de motivación o impulso que incrementa la probabilidad de los patrones de acción modal correspondientes. El desempeño de esos patrones de acción modal reduce o descarga el estado motivacional. Modo de búsqueda focalizada: una modalidad de respuesta en el sistema de alimentación que se activa una vez que se ha identificado una fuente potencial de alimento. Modo de búsqueda general: la modalidad de respuesta inicial del sistema de alimentación en la cual el organismo reacciona a las características generales del ambiente con respuestas que le permiten entrar en contacto con una diversidad de fuentes potenciales de alimento. Moldeamiento: reforzamiento de las aproximaciones sucesivas hacia una respuesta instrumental meta, utilizado de manera típica para condicionar respuestas que no se encuentran en el repertorio de conducta existente del participante. El moldeamiento depende de la disponibilidad conductual. Motivación: un estado hipotético que incrementa la probabilidad de un grupo coordinado de actividades o que activa un sistema de conductas que sirven para satisfacer un objetivo, como la alimentación, la defensa ante depredadores, el cuidado de las crías o la copulación. Neofobia al sabor: una aversión causada por falta de familiaridad con el sabor de un nuevo alimento. Neurona aferente: una neurona que transmite mensajes de los órganos sensoriales al sistema nervioso

273

central. Neurona eferente: una neurona que transmite impulsos del sistema nervioso central hacia los músculos. Neurona motora: véase neurona eferente. Neurona sensorial: véase neurona aferente. Nivel homeostático: el nivel óptimo o defendido de un sistema fisiológico. Observación experimental: observación de la conducta bajo condiciones diseñadas de manera específica por un investigador para evaluar factores o variables particulares que podrían influenciar el aprendizaje o el desempeño del participante. Observación naturalista: observación de la conducta como se presenta bajo condiciones naturales, en la ausencia de intervenciones o manipulaciones introducidas por el investigador. Olvido dirigido: control de la memoria mediante estímulos; se logra al presentar una señal que indique si se requerirá (o no) que el participante recuerde algo. Olvido: pérdida de la información adquirida debido al paso del tiempo. Patrón de acción modal: un patrón de respuesta que se presenta de la misma manera, la mayor parte del tiempo, entre la mayoría de los miembros de una especie. Los patrones de acción modal se emplean con frecuencia como unidades básicas de la conducta en las investigaciones etológicas de la misma. Pausa posrefuerzo: una pausa en la respuesta que de manera típica ocurre después de la entrega del reforzador o al inicio de un ensayo en los programas de reforzamiento de razón fija y de intervalo fijo. Persistencia: la ejecución continuada de una respuesta instrumental después de que un procedimiento de extinción ha sido introducido. Pista recta: una pista recta con una caja de inicio en un extremo y una caja objetivo en el otro extremo. Al principio del ensayo los animales son colocados en la caja de inicio y se les permite correr hacia la caja objetivo. Práctica: repetición de una respuesta o conducta, por lo general con la intención de mejorar su desempeño. Principio de Premack: dadas dos respuestas con diferentes probabilidades de línea de base para ocurrir, la oportunidad de ejecutar la respuesta con la probabilidad más alta reforzará o incrementará la ejecución de la conducta con la probabilidad más baja. Principio de probabilidad diferencial: véase Principio de Premack. Procedimiento de control no emparejado: un procedimiento de control para el condicionamiento clásico en el que tanto el estímulo condicionado (EC) como el estímulo no condicionado (ENC) se presentan de manera periódica, pero nunca se presentan juntos. Procedimiento de emparejamiento con la muestra: un procedimiento en el que los participantes son reforzados por seleccionar un estímulo que corresponde con la muestra presentada en ese ensayo. Programa concurrente encadenado: un programa de reforzamiento que consiste en dos componentes organizados en secuencia. Durante el eslabón de elección, el participante tiene dos alternativas disponibles de forma simultánea. La elección de una de esas opciones proporciona una alternativa (el eslabón terminal), pero hace que la otra no esté disponible sino hasta el final del ensayo. Programa concurrente: un procedimiento de reforzamiento en el que el participante puede elegir responder a 1 de 2 o más programas de reforzamiento simples disponibles en forma simultánea. Los programas concurrentes permiten la medición de la elección entre alternativas de programa simples. Programa de intervalo fijo: un programa de reforzamiento en el cual el reforzador se entrega por la primera respuesta que se ejecuta tras un periodo fijo de tiempo, después del último reforzamiento o del inicio del ensayo. Programa de intervalo variable: un programa de reforzamiento que proporciona un reforzador en la primera respuesta que ocurre después de un periodo variable a partir del último reforzador. Programa de intervalo: un programa de reforzamiento en el que se fortalece una respuesta sólo si se presenta después de una determinada cantidad de tiempo a partir de la última entrega del reforzador. Programa de razón fija: un programa de reforzamiento en el que un número fijo de respuestas tiene que llevarse a cabo para que la siguiente respuesta sea reforzada. Programa de razón variable: un programa de reforzamiento en el cual el número de respuestas necesarias para obtener el reforzador varía entre los ensayos. El valor del programa se refiere al promedio de respuestas requeridas para el reforzamiento. Programa de razón: un programa de reforzamiento en el cual el reforzamiento depende sólo del número de respuestas que ejecuta el participante, sin importar cuándo ocurren estas respuestas. Programa de reforzamiento: un programa o regla que determina qué ejecución de una respuesta instrumental u operante es seguida por la entrega del reforzador. Programa múltiple de reforzamiento: un procedimiento en el cual diferentes programas de reforzamiento están en efecto en presencia de distintos estímulos que se presentan en sucesión. Por lo general, cada estímulo llega a evocar un patrón de respuesta que corresponde al programa de reforzamiento que está en efecto en presencia de ese estímulo. Prominencia: la cualidad de un estímulo que lo hace eficaz para atraer la atención y controlar la conducta. Los estímulos más intensos son de forma típica más prominentes.

274

Prueba de sumación: una prueba para la inhibición condicionada en la que responder a una señal excitatoria presentada en simultáneo con un inhibidor condicionado es comparado la respuesta a una señal excitatoria presentada sola (o con un estímulo neutral). El inhibidor condicionado suprime la respuesta que, de lo contrario, sería observada con la señal excitatoria. Prueba del retraso en la adquisición: un procedimiento de prueba que identifica un estímulo como un inhibidor condicionado si dicho estímulo es más lento para adquirir propiedades excitatorias condicionadas que un estímulo neutro de comparación. Punto de máxima satisfacción conductual: la distribución de actividades preferida en la ausencia de restricciones o limitaciones impuestas por un procedimiento de condicionamiento instrumental. Razón del incremento de respuesta: la tasa alta y estable de respuestas observada después de la pausa posrefuerzo en los programas de reforzamiento de razón fija. La razón del incremento de respuesta termina cuando el número necesario de respuestas ha sido ejecutado, teniendo como resultado la entrega del reforzador. Reacciones de defensa específicas de la especie: respuestas típicas de la especie que los individuos llevan a cabo bajo situaciones aversivas. Las respuestas pueden involucrar congelarse, huir o pelear. Reconsolidación: la consolidación de una memoria reactivada (en contraste con la consolidación de una memoria recién adquirida). Recuperación espontánea: recuperación de una respuesta producida por un periodo de descanso después de la habituación o la extinción. Reflejo: una unidad de conducta provocada que involucra un evento ambiental específico y su correspondiente respuesta elicitada. Reforzador : un estímulo cuya entrega, al poco tiempo de una respuesta, incrementa la probabilidad futura de esa respuesta; también llamado consecuencia o resultado. Reforzador condicionado: un estímulo que se convierte en un reforzador eficaz a causa de su asociación con un reforzador primario o no condicionado. Reforzador negativo: véase estímulo aversivo. Reforzador primario: un reforzador que es eficaz sin condicionamiento previo. Reforzador secundario: véase reforzador condicionado. Reforzamiento continuo: un programa de reforzamiento en el que cada ocurrencia de la respuesta instrumental produce el reforzador. Abreviado CRF, por sus siglas en inglés. Reforzamiento diferencial de otras conductas: un procedimiento de condicionamiento instrumental en el cual un reforzador positivo se entrega de forma periódica, pero sólo si el participante no realiza una respuesta particular. Abreviado RDO. Reforzamiento intermitente: un programa de reforzamiento en el que sólo algunas de las instancias de la respuesta instrumental son reforzadas. La respuesta instrumental es reforzada de forma ocasional o intermitente. También llamado reforzamiento parcial. Reforzamiento negativo: un procedimiento de condicionamiento instrumental en el cual hay una contingencia negativa entre la respuesta instrumental y un estímulo aversivo. Si la respuesta instrumental se ejecuta, el estímulo aversivo es terminado; si la respuesta instrumental no se lleva a cabo, no se retira el estímulo aversivo. Reforzamiento parcial: un programa de reforzamiento en el que sólo algunas ejecuciones de la respuesta instrumental son reforzadas. También llamado reforzamiento intermitente. Reforzamiento sensorial: reforzamiento que es proporcionado por un estímulo no relacionado a una necesidad o a un impulso biológico. Registro acumulativo: una representación gráfica del número acumulativo de ejecuciones de una respuesta particular en función del paso del tiempo. La distancia horizontal del registro representa el tiempo, la distancia vertical representa el número total de respuestas que se han llevado a cabo hasta un punto particular en el tiempo y la curva representa la tasa de respuestas. Relación de estímulo de orden superior: una relación en la que un estímulo señala un vínculo entre otros dos estímulos en lugar de señalar sólo la presencia o la ausencia de otro estímulo. En una relación de orden superior pavloviana, un estímulo condicionado (EC) señala si otro EC está emparejado con un estímulo no condicionado (ENC). Relación I/T: la relación entre el intervalo entre ensayos (I) y la duración del estímulo condicionado (EC) o tiempo del ensayo (T) en los procedimientos de condicionamiento pavloviano demorado. Relevancia EC–ENC: aprendizaje facilitado que se presenta con ciertas combinaciones de estímulos condicionados y no condicionados (p. ej., sabor y enfermedad) en comparación con otras combinaciones (p. ej., sabor y descarga eléctrica). Renovación: recuperación de la respuesta excitatoria a un estímulo extinguido producida por un cambio en las señales contextuales que estaban presentes durante la extinción. Repartición de respuestas: la distribución de respuestas instrumentales entre varias opciones disponibles en la situación. Respuesta condicionada: una respuesta que se ejecuta ante el estímulo condicionado (EC) como resultado

275

del condicionamiento clásico. Respuesta de orientación: una reacción a un estímulo nuevo que de manera usual involucra voltear hacia la fuente del estímulo. Respuesta de sobresalto: un repentino salto o tensión muscular que puede ocurrir cuando un estímulo inesperado se presenta. Respuesta diferencial: responder de diferentes maneras o a diferentes tasas en presencia de estímulos distintos. Respuesta no condicionada: una respuesta se presenta frente a un estímulo sin que sea necesario el entrenamiento o condicionamiento previos. Restablecimiento: recuperación de la respuesta excitatoria a un estímulo extinguido producida por las exposiciones al estímulo no condicionado (ENC). Restricciones para el aprendizaje: limitaciones para el aprendizaje resultantes de la historia evolutiva del organismo. Seguimiento del signo: una forma de condicionamiento apetitivo clásico en el cual un estímulo localizado funge como el estímulo condicionado (EC). Durante el transcurso del condicionamiento, el participante se aproxima (sigue) al EC y, a veces, logra manipular al EC. Sensibilización a corto plazo: una forma de sensibilización que dura un tiempo corto de modo relativo, a veces menor a un minuto. Sensibilización a largo plazo: una forma de sensibilización que es persistente y lenta en declinar. Señal de retroalimentación: un estímulo que resulta de la ejecución de una respuesta. Señal de seguridad: un estímulo que señala la ausencia de un evento aversivo. Señal para recordar: un estímulo relacionado con una experiencia que facilita recordar otra información respecto a esa experiencia. Señal propioceptiva: un estímulo de retroalimentación de respuesta interno que surge del movimiento de un músculo o articulación. Señales temporales: estímulos relacionados con el paso del tiempo. Sistema de conducta: una secuencia de modalidades de respuesta y sus correspondientes mecanismos de control conductual y neurobiológico que se activan de manera coordinada para realizar una función particular, como la alimentación o la defensa ante un depredador. Sistema de estado: estructuras neurales que determinan el nivel general de sensibilidad o de disposición de un organismo. Sistema E–R: el camino neural más corto para la conducta provocada que conecta a los órganos sensoriales incitados por un estímulo y los músculos involucrados en ejecutar la respuesta elicitada. Sobreexpectativa: expectativa de un estímulo no condicionado que es mayor a lo que en realidad se presenta. La sobreexpectativa de manera usual se produce por el entrenamiento con dos estímulos condicionados (EC) separados con el mismo estímulo no condicionado (ENC) y por presentar, después, esos dos EC al mismo tiempo. SSDR: abreviatura de reacciones de defensa específicas de la especie, por sus siglas en inglés. Supresión condicionada: un procedimiento de condicionamiento pavloviano aversivo en el que la respuesta condicionada se mide por la supresión de la conducta instrumental reforzada de manera positiva. Tasa de respuesta: una medida de cuán a menudo se repite una respuesta en una unidad de tiempo, por ejemplo, el número de respuestas que se presentan por minuto. Teoría de la frustración: una teoría sobre el efecto del reforzamiento parcial en la extinción según la cual la extinción es más lenta después del reforzamiento parcial a causa de que la respuesta instrumental se ha condicionado a la anticipación frustrativa de la no recompensa. Teoría de los dos factores: una teoría del aprendizaje de evitación que involucra a dos formas de condicionamiento: (a) el condicionamiento pavloviano del miedo ante un estímulo que señala una estimulación aversiva y (b) el condicionamiento instrumental de la respuesta de evitación por la reducción del miedo. Teoría de reducción del impulso: una teoría del reforzamiento de acuerdo con la cual los reforzadores son eficaces porque reducen un estado de impulso y retornan al participante a la homeostasis. Teoría secuencial: una teoría del efecto del reforzamiento parcial en la extinción según la cual la extinción se retrasa después del reforzamiento parcial debido a que la respuesta instrumental se condiciona a la memoria de la no recompensa. Tiempo fuera: un periodo durante el cual la oportunidad de obtener reforzamiento es removida. Esto podría implicar la remoción del participante de la situación en la que se obtienen los reforzadores.

276

277

Sobre el autor

Michael Domjan, PhD, es profesor de psicología en la University of Texas en Austin, donde ha enseñado a nivel licenciatura y posgrado durante cuatro décadas. También fungió como jefe de departamento de 1999 a 2005 y fue director fundador

278

del Imaging Research Center de 2005 a 2008. El Dr. Domjan es reconocido por su enfoque funcional hacia el condicionamiento clásico, el cual ha desarrollado en sus estudios sobre el condicionamiento sexual y el aprendizaje de aversión al sabor. Su investigación fue nominada a un premio MERIT por el Instituto Nacional de Salud Mental (National Institute of Mental Health). El Dr. Domjan fue presidente de la Sociedad Pavloviana y también fungió como presidente en la Sociedad de Neurociencia Conductual y Psicología Comparativa de la American Psychological Association, APA. En el año 2014, recibió el Premio a las Contribuciones Científicas Distinguidas, D. O. Hebb, por parte de la División 6 de la APA (Society for Behavioral Neuroscience and Comparative Psychology). El Dr. Domjan también disfruta tocar la viola y es el director del Proyecto Tertis/Pavlov que consiste en una serie de mini ponencias (disponibles en YouTube) en las que se describe cómo el aprendizaje está implicado en la experiencia y en la ejecución musical.

279

280

Referencias Akins, C. K. (2000). Effects of species-specific cues and the CS–US interval on the topography of the sexually conditioned response. Learning and Motivation, 31, 211–235. http://dx.doi.org/10.1006/lmot.2000.1050 Alberini, C. M., & LeDoux, J. E. (2013). Memory reconsolidation. Current Biology, 23, R746–R750. http://dx.doi.org/10.1016/j.cub.2013.06.046 Alcock, J. (2013). Animal behavior: An evolutionary approach (10th ed.). Sunderland, MA: Sinauer Associates. Allan, L. G. (2005). Introduction to “Learning of contingent relationships” [Special issue]. Learning & Behavior, 33, 127–129. http://dx.doi.org/10.3758/ BF03196057 Allison, J. (1983). Behavioral economics. New York, NY: Praeger. Allison, J. (1989). The nature of reinforcement. In S. B. Klein & R. R. Mowrer (Eds.), Contemporary learning theories: Instrumental conditioning theory and the impact of biological constraints on learning (pp. 13–39). Hillsdale, NJ: Erlbaum. Allison, J., & Timberlake, W. (1974). Instrumental and contingent saccharin- licking in rats: Response deprivation and reinforcement. Learning and Motivation, 5, 231– 247. http://dx.doi.org/10.1016/0023-9690(74)90029-0 Amsel, A. (1958). The role of frustrative nonreward in noncontinuous reward situations. Psychological Bulletin, 55, 102–119. http://dx.doi.org/10.1037/h0043125 Amsel, A. (1992). Frustration theory: An analysis of dispositional learning and memory. Cambridge, England: Cambridge University Press. http://dx.doi.org/ 10.1017/CBO9780511665561 Amsel, A., & Rashotte, M. E. (1984). Mechanisms of adaptive behavior: Clark L. Hull's theoretical papers, with commentary. New York, NY: Columbia University Press. Andrzejewski, M. E., Cardinal, C. D., Field, D. P., Flannery, B. A., Johnson, M., Bailey, K., & Hineline, P. N. (2005). Pigeons' choices between fixed-interval and random-interval schedules: Utility of variability? Journal of the Experimental Analysis of Behavior, 83, 129–145. http://dx.doi.org/10.1901/jeab.2005.3004 Angelakis, I., & Austin, J. L. (2015). Maintenance of safety behaviors via response- produced stimuli. Behavior Modification, 39, 932–954. http://dx.doi.org/10.1177/ 0145445515610314 Anger, D. (1963). The role of temporal discriminations in the reinforcement of Sidman avoidance behavior. Journal of the Experimental Analysis of Behavior, 6, 477–506. http://dx.doi.org/10.1901/jeab.1963.6s477 Anselme, P., & Robinson, M. J. F. (2016). “Wanting,” “liking,” and their relation to con- sciousness. Journal of Experimental Psychology: Animal Learning and Cognition, 42, 123–140. http://dx.doi.org/10.1037/xan0000090 Auber, A., Tedesco, V., Jones, C. E., Monfils, M. H., & Chiamulera, C. (2013). Post- retrieval extinction as reconsolidation interference: Methodological issues or boundary conditions? Psychopharmacology, 226, 631–647. http://dx.doi.org/10.1007/ s00213-013-3004-1 Ayres, J. J. B. (2012). Conditioned suppression. In N. M. Seel (Ed.), Encyclopedia of the sciences of learning (pp. 749–751). New York, NY: Springer Science. Azorlosa, J. L., & Cicala, G. A. (1986). Blocking of conditioned suppression with 1 or 10 compound trials. Animal Learning & Behavior, 14, 163–167. http://dx.doi.org/ 10.3758/BF03200051 Azrin, N. H. (1959). Punishment and recovery during fixed-ratio performance. Journal of the Experimental Analysis of Behavior, 2, 301–305. http://dx.doi.org/10.1901/jeab. 1959.2-301 Azrin, N. H. (1960). Effects of punishment intensity during variable-interval reinforce- ment. Journal of the Experimental Analysis of Behavior, 3, 123–142. http://dx.doi.org/ 10.1901/jeab.1960.3-123 Azrin, N. H., & Holz, W. C. (1961). Punishment during fixed-interval reinforce- ment. Journal of the Experimental Analysis of Behavior, 4, 343–347. http://dx.doi.org/ 10.1901/jeab.1961.4-343 Azrin, N. H., & Holz, W. C. (1966). Punishment. In W. K. Honig (Ed.), Operant behavior: Areas of research and application (pp. 380–447). New York, NY: Appleton- Century-Crofts. Azrin, N. H., Holz, W. C., & Hake, D. F. (1963). Fixed-ratio punishment. Journal of the Exper- imental Analysis of Behavior, 6, 141–148. http://dx.doi.org/10.1901/jeab.1963.6-141 Baerends, G. P. (1988). Ethology. In R. C. Atkinson, R. J. Herrnstein, G. Lindzey, & R. D. Luce (Eds.), Stevens' handbook of experimental psychology (Vol. 1, pp. 765–830). New York, NY: Wiley. Balaz, M. A., Kasprow, W. J., & Miller, R. R. (1982). Blocking with a single compound trial. Animal Learning & Behavior, 10, 271–276.

281

Balci, F., Gallistel, C. R., Allen, B. D., Frank, K. M., Gibson, J. M., & Brunner, D. (2009). Acquisition of peak responding: What is learned? Behavioural Processes, 80, 67–75. http://dx.doi.org/10.1016/j.beproc.2008.09.010 Balsam, P. D., Deich, J. D., Ohyama, T., & Stokes, P. D. (1998). Origins of new behavior. In W. O'Donohue (Ed.), Learning and behavior therapy (pp. 403–420). Boston, MA: Allyn and Bacon. Balsam, P. D., Drew, M. R., & Gallistel, C. R. (2010). Time and associate learning. Comparative Cognition & Behavior Reviews, 5, 1–22. http://dx.doi.org/10.3819/ ccbr.2010.50001 Balsam, P. D., & Gallistel, C. R. (2009). Temporal maps and informativeness in asso- ciative learning. Trends in Neurosciences, 32, 73–78. http://dx.doi.org/10.1016/j.tins. 2008.10.004 Balsam, P. D., & Tomie, A. (Eds.). (1985). Context and conditioning. Hillsdale, NJ: Erlbaum. Bandarian Balooch, S., & Neumann, D. L. (2011). Effects of multiple contexts and context similarity on the renewal of extinguished conditioned behavior in an ABA design with humans. Learning and Motivation, 42, 53–63. http://dx.doi.org/ 10.1016/j.lmot.2010.08.008 Baron, A., & Menich, S. R. (1985). Reaction times of younger and older men: Effects of compound samples and a prechoice signal on delayed matching-to-sample perfor- mances. Journal of the Experimental Analysis of Behavior, 44, 1–14. http://dx.doi.org/ 10.1901/jeab.1985.44-1 Barrett, D. (2010). Supernormal stimuli: How primal urges overran their evolutionary pur- pose. New York, NY: Norton. Bashinski, H. S., Werner, J. S., & Rudy, J. W. (1985). Determinants of infant visual fixation: Evidence for a two-process theory. Journal of Experimental Child Psychology, 39, 580–598. http://dx.doi.org/10.1016/0022-0965(85)90058-X Baum, M. (1970). Extinction of avoidance responding through response prevention (flooding). Psychological Bulletin, 74, 276–284. http://dx.doi.org/10.1037/h0029789 Baum, W. M. (1974). On two types of deviation from the matching law: Bias and undermatching. Journal of the Experimental Analysis of Behavior, 22, 231–242. http:// dx.doi.org/10.1901/jeab.1974.22-231 Bechterev, V. M. (1913). Lapsychologie objective. Paris, France: Alcan. Benedict, J. O., & Ayres, J. J. B. (1972). Factors affecting conditioning in the truly random control procedure in the rat. Journal of Comparative and Physiological Psychol- ogy, 78, 323–330. http://dx.doi.org/10.1037/h0032296 Beran, M. J., Evans, T. A., Klein, E. D., & Einstein, G. O. (2012). Rhesus monkeys (Macaca mulatta) and capuchin monkeys (Cebus apella) remember future responses in a computerized task. Journal of Experimental Psychology: Animal Behavior Processes, 38, 233–243. http://dx.doi.org/10.1037/a0027796 Berlyne, D. E. (1969). The reward value of indifferent stimulation. In J. Tapp (Ed.), Reinforcement and behavior (pp. 178–214). New York, NY: Academic Press. http:// dx.doi.org/10.1016/B978-0-12-6836509.50012-1 Best, M. R., Dunn, D. P., Batson, J. D., Meachum, C. L., & Nash, S. M. (1985). Extin- guishing conditioned inhibition in flavour-aversion learning: Effects of repeated testing and extinction of the excitatory element. Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 37, 359–378. http://dx.doi.org/ 10.1080/14640748508401175 Bevins, R. A., & Murray, J. E. (2011). Internal stimuli generated by abused sub- stances: Role of Pavlovian conditioning and its implications for drug addiction. In T. R. Schachtman & S. Reilly (Eds.), Associative learning and conditioning theory: Human and non-human applications (pp. 270–289). New York, NY: Oxford University Press. http://dx.doi.org/10.1093/acprof:oso/9780199735969.003.0084 Bickel, W. K., Koffarnus, M. N., Moody, L., & Wilson, A. G. (2014). The behavioral- and neuro-economic process of temporal discounting: A candidate behavioral marker of addiction. Neuropharmacology, 76(Part B), 518–527. Blaisdell, A. P., Gunther, L. M., & Miller, R. R. (1999). Recovery from blocking achieved by extinguishing the blocking CS. Animal Learning & Behavior, 27, 63–76. http:// dx.doi.org/10.3758/BF03199432 Blass, E. M., Ganchrow, J. R., & Steiner, J. E. (1984). Classical conditioning in new- born humans 2–48 hours of age. Infant Behavior & Development, 7, 223–235. http:// dx.doi.org/10.1016/S01636383(84)80060-0 Boakes, R. A. (1979). Interactions between type I and type II processes involving positive rein for cement. In A. Dickinson & R. A. Boakes (Eds.), Mechanisms of learning and motivation (pp. 233–268). Hillsdale, NJ: Erlbaum. Boakes, R. A., Poli, M., Lockwood, M. J., & Goodall, G. (1978). A study of misbehavior: Token reinforcement in the rat. Journal of the Experimental Analysis of Behavior, 29, 115–134. http://dx.doi.org/10.1901/jeab.1978.29-115 Boddez, Y., Baeyens, F., Hermans, D., & Beckers, T. (2011). The hide-and-seek of retro- spective revaluation: Recovery from blocking is context dependent in human causal learning. Journal of Experimental Psychology: Animal Behavior Processes, 37, 230–240. http://dx.doi.org/10.1037/a0021460 Bolles, R. C. (1969). Avoidance and escape learning: Simultaneous acquisition of dif- ferent responses.

282

Journal of Comparative and Physiological Psychology, 68, 355–358. http://dx.doi.org/10.1037/h0027536 Bolles, R. C. (1970). Species-specific defense reactions and avoidance learning. Psycho- logical Review, 77, 32–48. http://dx.doi.org/10.1037/h0028589 Borovsky, D., & Rovee-Collier, C. (1990). Contextual constraints on memory retrieval at six months. Child Development, 61, 1569–1583. http://dx.doi.org/10.2307/1130765 Bossert, J. M., Marchant, N. J., Calu, D. J., & Shaham, Y. (2013). The reinstatement model of drug relapse: Recent neurobiological findings, emerging research topics, and translational research. Psychopharmacology, 229, 453–476. http://dx.doi.org/ 10.1007/s00213-013-3120-y Bouton, M. E. (1993). Context, time, and memory retrieval in the interference para- digms of Pavlovian learning. Psychological Bulletin, 114, 80–99. http://dx.doi.org/ 10.1037/0033-2909.114.1.80 Bouton, M. E. (1994). Conditioning, remembering, and forgetting. Journal of Experi- mental Psychology: Animal Behavior Processes, 20, 219–231. http://dx.doi.org/10.1037/ 0097-7403.20.3.219 Bouton, M. E. (2014). Why behavior change is difficult to sustain. Preventive Medicine: An International Journal Devoted to Practice and Theory, 68, 29–36. http://dx.doi.org/ 10.1016/j.ypmed.2014.06.010 Bouton, M. E., Mineka, S., & Barlow, D. H. (2001). A modern learning theory per- spective on the etiology of panic disorder. Psychological Review, 108, 4–32. http:// dx.doi.org/10.1037/0033-295X.108.1.4 Bouton, M. E., Trask, S., & Carranza-Jasso, R. (2016). Learning to inhibit the response during instrumental (operant) extinction. Journal of Experimental Psychology: Animal Learning and Cognition, 42, 246– 258. http://dx.doi.org/10.1037/xan0000102 Bouton, M. E., & Woods, A. M. (2008). Extinction: Behavioral mechanisms and their implications. In J. H. Byrne (Ed.), Learning theory and behavior: Vol. 1. Learning and memory: A comprehensive reference (pp. 151–172). Oxford, England: Elsevier. Bower, G. H., & Hilgard, E. R. (1981). Theories of learning (5th ed.). Englewood Cliffs, NJ: Prentice Hall. Bradley, M. M., Moulder, B., & Lang, P. J. (2005). When good things go bad: The reflex physiology of defense. Psychological Science, 16, 468–473. Breland, K., & Breland, M. (1961). The misbehavior of organisms. American Psycholo- gist, 16, 681–684. http://dx.doi.org/10.1037/h0040090 Brooks, D. C. (2000). Recent and remote extinction cues reduce spontaneous recov- ery. The Quarterly Journal of Experimental Psychology, 53, 25–58. http://dx.doi.org/ 10.1080/027249900392986 Brooks, D. C., & Bouton, M. E. (1993). A retrieval cue for extinction attenuates spontaneous recovery. Journal of Experimental Psychology: Animal Behavior Processes, 19, 77–89. http://dx.doi.org/10.1037/0097-7403.19.1.77 Burns, M., & Domjan, M. (2001). Topography of spatially directed conditioned respond- ing: Effects of context and trial duration. Journal of Experimental Psychology: Animal Behavior Processes, 27, 269– 278. http://dx.doi.org/10.1037/0097-7403.27.3.269 Cain, C. K., & LeDoux, J. E. (2007). Escape from fear: A detailed behavioral analysis of two atypical responses reinforced by CS termination. Journal of Experimental Psychology: Animal Behavior Processes, 33, 451–463. http://dx.doi.org/10.1037/0097-7403.33.4.451 Calder, A., & White, K. (2014). In search of consolidation of short-term memory in nonhuman animals. Learning & Behavior, 42, 83– 92. http://dx.doi.org/10.3758/ s13420-013-0127-5 Camp, D. S., Raymond, G. A., & Church, R. M. (1967). Temporal relationship between response and punishment. Journal of Experimental Psychology, 74, 114–123. http:// dx.doi.org/10.1037/h0024518 Campolattaro, M. M., Schnitker, K. M., & Freeman, J. H. (2008). Changes in inhibi- tion during differential eyeblink conditioning with increased training. Learning & Behavior, 36, 159–165. http://dx.doi.org/10.3758/LB.36.2.159 Cándido, A., González, F., & de Brugada, I. (2004). Safety signals from avoidance learn- ing but not from yoked classical conditioning training pass both summation and retardation tests for inhibition. Behavioural Processes, 66, 153–160. http://dx.doi.org/ 10.1016/j.beproc.2004.01.011 Capaldi, E. J. (1967). A sequential hypothesis of instrumental learning. In K. W. Spence & J. T. Spence (Eds.), The psychology of learning and motivation (Vol. 1, pp. 67–156). Orlando, FL: Academic Press. Capaldi, E. J. (1971). Memory and learning: A sequential viewpoint. In W. K. Honig & P. H. R. James (Eds.), Animal Memory (pp. 115–154). Orlando, FL: Academic Press. Carroll, M. E., Anker, J. J., Mach, J. L., Newman, J. L., & Perry, J. L. (2010). Delay dis- counting as a predictor of drug abuse. In G. J. Madden & W. K. Bickel (Eds.), Impul- sivity: The behavioral and neurological science of discounting (pp. 243–271). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/12069-009 Chance, P. (1999). Thorndike's puzzle boxes and the origins of the experimental analysis of behavior. Journal of the Experimental Analysis of Behavior, 72, 433–440. http://dx.doi.org/10.1901/jeab.1999.72-433 Charlop, M. H., Kurtz, P. F., & Casey, F. G. (1990). Using aberrant behaviors as reinforcers for autistic children. Journal of Applied Behavior Analysis, 23, 163–181. http://dx.doi.org/10.1901/jaba.1990.23-163

283

Church, R. M. (1964). Systematic effect of the random error in the yoked control design. Psychological Bulletin, 62, 122–131. http://dx.doi.org/10.1037/h0042733 Church, R. M. (1969). Response suppression. In B. A. Campbell & R. M. Church (Eds.), Punishment and aversive behavior (pp. 111–156). New York, NY: Appleton- Century-Crofts. Church, R. M. (2012). Behavioristic, cognitive, biological, and quantitative explana- tions of timing. In T. R. Zentall & E. A. Wasserman (Eds.), The Oxford handbook of comparative cognition (pp. 409–433). New York, NY: Oxford University Press. http:// dx.doi.org/10.1093/oxfordhb/9780195392661.013.0022 Church, R. M., & Raymond, G. A. (1967). Influence of the schedule of positive reinforcement on punished behavior. Journal of Comparative and Physiological Psychology, 63, 329–332. http://dx.doi.org/10.1037/h0024382 Cole, M. R. (1999). Molar and molecular control in variable-interval and variable- ratio schedules. Journal of the Experimental Analysis of Behavior, 71, 319–328. Cole, R. P., Barnet, R. C., & Miller, R. R. (1997). An evaluation of conditioned inhibi- tion as defined by Rescorla's two-test strategy. Learning and Motivation, 28, 323–341. http://dx.doi.org/10.1006/lmot.1997.0971 Colombo, J., & Mitchell, D. W. (2009). Infant visual habituation. Neurobiology of Learn- ing and Memory, 92, 225–234. http://dx.doi.org/10.1016/j.nlm.2008.06.002 Colwill, R. M., & Rescorla, R. A. (1990). Evidence for the hierarchical structure of instrumental learning. Animal Learning & Behavior, 18, 71–82. http://dx.doi.org/ 10.3758/BF03205241 Cook, R. G., Brown, M. F., & Riley, D. A. (1985). Flexible memory processing by rats: Use of prospective and retrospective information in the radial maze. Journal of Experi- mental Psychology: Animal Behavior Processes, 11, 453–469. http://dx.doi.org/10.1037/ 0097-7403.11.3.453 Craske, M. G., Hermans, D., & Vansteenwegen, D. (Eds.). (2006). Fear and learning: From basic procedures to clinical implications. Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/11474-000 Crossman, E. K., Bonem, E. J., & Phelps, B. J. (1987). A comparison of response pat- terns on fixed-, variable-, and random-ratio schedules. Journal of the Experimental Analysis of Behavior, 48, 395–406. http://dx.doi.org/10.1901/jeab.1987.48-395 Crystal, J. D. (2012a). Prospective cognition in rats. Learning and Motivation, 43, 181–191. http://dx.doi.org/10.1016/j.lmot.2012.05.006 Crystal, J. D. (2012b). Sensitivity to time: Implications for the representation of time. In T. R. Zentall & E. A. Wasserman (Eds.), The Oxford handbook of comparative cogni- tion (pp. 434–450). New York, NY: Oxford University Press. Dallery, J., & Soto, P. L. (2013). Quantitative description of environment-behavior relations. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and principles (pp. 219–250). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/13937-010 D'Amato, M. R., Fazzaro, J., & Etkin, M. (1968). Anticipatory responding and avoid- ance discrimination as factors in avoidance conditioning. Journal of Experimental Psychology, 77, 41–47. http://dx.doi.org/10.1037/h0025763 Danaher, B. G. (1974). Theoretical foundations and clinical applications of the Premack principle: Review and critique. Behavior Therapy, 5, 307–324. http:// dx.doi.org/10.1016/S0005-7894(74)80001-8 Dardano, J. F., & Sauerbrunn, D. (1964). An aversive stimulus as a correlated block counter in FR performance. Journal of the Experimental Analysis of Behavior, 7, 37–43. http://dx.doi.org/10.1901/jeab.1964.7-37 Darwin, C. (1897). The descent of man and selection in relation to sex. New York, NY: Appleton-CenturyCrofts. Davis, M. (1970). Effects of interstimulus interval length and variability on startle- response habituation in the rat. Journal of Comparative and Physiological Psychology, 72, 177–192. http://dx.doi.org/10.1037/h0029472 Davis, M. (1974). Sensitization of the rat startle response by noise. Journal of Compara- tive and Physiological Psychology, 87, 571–581. http://dx.doi.org/10.1037/h0036985 Davis, M., Antoniadis, E. A., Amaral, D. G., & Winslow, J. T. (2008). Acoustic startle reflex in rhesus monkeys: A review. Reviews in the Neurosciences, 19, 171–185. http:// dx.doi.org/10.1515/REVNEURO.2008.19.2-3.171 Dean, S. J., & Pittman, C. M. (1991). Self-punitive behavior: A revised analysis. In M. R. Denny (Ed.), Fear, avoidance, and phobias (pp. 259–284). Hillsdale, NJ: Erlbaum. Deich, J. D., Allan, R. W., & Zeigler, H. P. (1988). Conjunctive differentiation of gape during food reinforced key pecking in the pigeon. Animal Learning & Behavior, 16, 268–276. http://dx.doi.org/10.3758/BF03209076 Delamater, A. R. (2012). Issues in the extinction of specific stimulus-outcome asso- ciations in Pavlovian conditioning. Behavioural Processes, 90, 9–19. http://dx.doi.org/ 10.1016/j.beproc.2012.03.006

284

Delamater, A. R., Campese, V., LoLordo, V. M., & Sclafani, A. (2006). Unconditioned stimulus devaluation effects in nutrient-conditioned flavor preferences. Journal of Experimental Psychology: Animal Behavior Processes, 32, 295–306. http://dx.doi.org/ 10.1037/0097-7403.32.3.295 Delamater, A. R., & Lattal, K. M. (2014). The study of associative learning: Mapping from psychological to neural levels of analysis. Neurobiology of Learning and Memory, 108, 1–4. http://dx.doi.org/10.1016/j.nlm.2013.12.006 Delamater, A. R., & Westbrook, R. F. (2014). Psychological and neural mechanisms of experimental extinction: A selective review. Neurobiology of Learning and Memory, 108, 38–51. http://dx.doi.org/10.1016/j.nlm.2013.09.016 Delaunay-El Allam, M., Soussignan, R., Patris, B., Marlier, L., & Schaal, B. (2010). Long-lasting memory for an odor acquired at the mother's breast. Developmental Science, 13, 849–863. http://dx.doi.org/10.1111/j.1467-7687.2009.00941.x DeVito, P. L., & Fowler, H. (1987). Enhancement of conditioned inhibition via an extinction treatment. Animal Learning & Behavior, 15, 448–454. http://dx.doi.org/ 10.3758/BF03205055 Dickinson, A., Nicholas, D. J., & Mackintosh, N. J. (1983). A re-examination of one- trial blocking in conditioned suppression. The Quarterly Journal of Experimental Psychology, 35, 67–79. http://dx.doi.org/10.1080/14640748308400914 Dinsmoor, J. A. (1952). A discrimination based on punishment. The Quarterly Journal of Experimental Psychology, 4, 27–45. http://dx.doi.org/10.1080/17470215208416601 Dinsmoor, J. A. (2001). Stimuli inevitably generated by behavior that avoids electricshock are inherently reinforcing. Journal of the Experimental Analysis of Behavior, 75, 311–333. http://dx.doi.org/10.1901/jeab.2001.75-311 Domjan, M. (1976). Determinants of the enhancement of flavored-water intake by prior exposure. Journal of Experimental Psychology: Animal Behavior Processes, 2, 17–27. http://dx.doi.org/10.1037/00977403.2.1.17 Domjan, M. (1977). Attenuation and enhancement of neophobia for edible sub- stances. In L. M. Barker, M. R. Best, & M. Domjan (Eds.), Learning mechanisms in food selection (pp. 151–179). Waco, TX: Baylor University Press. Domjan, M. (2005). Pavlovian conditioning: A functional perspective. Annual Review of Psychology, 56, 179–206. http://dx.doi.org/10.1146/annurev.psych.55. 090902.141409 Domjan, M. (2015). The Garcia–Koelling selective association effect: A historical and personal perspective. International Journal of Comparative Psychology, 28. Retrieved from http://escholarship.org/uc/item/5sx993rm Domjan, M. (2016). Elicited versus emitted behavior: Time to abandon the distinc- tion. Journal of the Experimental Analysis of Behavior, 105, 231–245. http://dx.doi.org/ 10.1002/jeab.197 Domjan, M., & Akins, C. K. (2011). Applications of Pavlovian conditioning to sex- ual behavior and reproduction. In T. R. Schachtman & S. Reilly (Eds.), Associative learning and conditioning theory: Human and nonhuman applications (pp. 507–531). New York, NY: Oxford University Press. http://dx.doi.org/10.1093/acprof:oso/ 9780199735969.003.0159 Domjan, M., & Gillan, D. (1976). Role of novelty in the aversion for increasingly con- centrated saccharin solutions. Physiology & Behavior, 16, 537–542. http://dx.doi.org/ 10.1016/0031-9384(76)90211-0 Domjan, M., & Krause, M. (in press). Generality of the laws of learning: From biolog- ical constraints to ecological perspectives. In J. H. Byrne (Ed.), Learning and behav- ior theory: Vol. 1. Learning and memory: A comprehensive reference (2nd ed.). Oxford, England: Elsevier. Domjan, M., Mahometa, M. J., & Matthews, R. N. (2012). Learning in intimate con- nections: Conditioned fertility and its role in sexual competition. Socioaffective Neuro- science & Psychology, 2, 17333. http://dx.doi.org/10.3402/snp.v2i0.17333 Domjan, M., & Nash, S. (1988). Stimulus control of social behaviour in male Japanese quail, Coturnixcoturnixjaponica. Animal Behaviour, 36, 1006–1015. http://dx.doi.org/ 10.1016/S00033472(88)80060-5 Duhigg, C. (2012). The power of habit. New York, NY: Random House. Dunsmoor, J. E., Niv, Y., Daw, N., & Phelps, E. A. (2015). Rethinking extinction. Neuron, 88, 47–63. http://dx.doi.org/10.1016/j.neuron.2015.09.028 Edhouse, W. V., & White, K. G. (1988). Sources of proactive interference in animal memory. Journal of Experimental Psychology: Animal Behavior Processes, 14, 56–70. http:// dx.doi.org/10.1037/00977403.14.1.56 Eisenberger, R., Karpman, M., & Trattner, J. (1967). What is the necessary and suf- ficient condition for reinforcement in the contingency situation? Journal of Experi- mental Psychology, 74, 342–350. http://dx.doi.org/10.1037/h0024719 Epstein, L. H., Temple, J. L., Roemmich, J. N., & Bouton, M. E. (2009). Habituation as a determinant of human food intake. Psychological Review, 116, 384–407. http:// dx.doi.org/10.1037/a0015074 Esmorís-Arranz, F. J., Pardo-Vázquez, J. L., & Vázquez-García, G. A. (2003). Dif- ferential effects of

285

forward or simultaneous conditioned stimulus-unconditioned stimulus intervals on the defensive behavior system of the Norway rat (Rattus nor- vegicus). Journal of Experimental Psychology: Animal Behavior Processes, 29, 334–340. http://dx.doi.org/10.1037/0097-7403.29.4.334 Fanselow, M. S. (1994). Neural organization of the defensive behavior system respon- sible for fear. Psychonomic Bulletin & Review, 1, 429–438. http://dx.doi.org/10.3758/ BF03210947 Fanselow, M. S., Lester, L. S., & Helmstetter, F. J. (1988). Changes in feeding and foraging patterns as an antipredator defensive strategy: A laboratory simulation using aversive stimulation in a closed economy. Journal of the Experimental Analysis of Behavior, 50, 361–374. http://dx.doi.org/10.1901/jeab.1988.50361 Ferster, C. B., & Skinner, B. F. (1957). Schedules of reinforcement. New York, NY: Appleton- CenturyCrofts. http://dx.doi.org/10.1037/10627-000 Flagel, S. B., Akil, H., & Robinson, T. E. (2009). Individual differences in the attribution of incentive salience to reward-related cues: Implications for addiction. Neuropharma- cology, 56(Suppl. 1), 139– 148. http://dx.doi.org/10.1016/j.neuropharm.2008.06.027 Flagel, S. B., Clark, J. J., Robinson, T. E., Mayo, L., Czuj, A., Willuhn, I., . . . Akil, H. (2011). A selective role for dopamine in stimulus–reward learning. Nature, 469, 53–57. http://dx.doi.org/10.1038/nature09588 Foree, D. D., & LoLordo, V. M. (1973). Attention in the pigeon: Differential effects of food-getting versus shock-avoidance procedures. Journal of Comparative and Physio- logical Psychology, 85, 551–558. http://dx.doi.org/10.1037/h0035300 Forestell, P. H., & Herman, L. M. (1988). Delayed matching of visual materials by a bottlenosed dolphin aided by auditory symbols. Animal Learning & Behavior, 16, 137–146. http://dx.doi.org/10.3758/BF03209056 Friedman, B. X., Blaisdell, A. P., Escobar, M., & Miller, R. R. (1998). Comparator mech- anisms and conditioned inhibition: Conditioned stimulus preexposure disrupts Pavlovian conditioned inhibition but not explicitly unpaired inhibition. Journal of Experimental Psychology: Animal Behavior Processes, 24, 453–466. http://dx.doi.org/ 10.1037/0097-7403.24.4.453 Fudim, O. K. (1978). Sensory preconditioning of flavors with a formalin-produced sodium need. Journal of Experimental Psychology: Animal Behavior Processes, 4, 276–285. http://dx.doi.org/10.1037/00977403.4.3.276 Galbicka, G. (1988). Differentiating the behavior of organisms. Journal of the Experimen- tal Analysis of Behavior, 50, 343–354. http://dx.doi.org/10.1901/jeab.1988.50-343 Gallistel, C. R., & Gibbon, J. (2000). Time, rate, and conditioning. Psychological Review, 107, 289–344. http://dx.doi.org/10.1037/0033295X.107.2.289 Garcia, J., Ervin, F. R., & Koelling, R. A. (1966). Learning with prolonged delay of reinforcement. Psychonomic Science, 5, 121–122. http://dx.doi.org/10.3758/BF03328311 Garcia, J., & Koelling, R. A. (1966). Relation of cue to consequence in avoidance learning. Psychonomic Science, 4, 123–124. http://dx.doi.org/10.3758/BF03342209 Gershoff, E. T. (2013). Spanking and child development: We know enough now to stop hitting our children. Child Development Perspectives, 7, 133–137. http://dx.doi.org/ 10.1111/cdep.12038 Gershoff, E. T. (2016). Should parents' physical punishment of children be considered a source of toxic stress that affects brain development? Family Relations, 65, 151–162. http://dx.doi.org/10.1111/fare.12177 Gillihan, S. J., & Foa, E. B. (2011). Fear extinction and emotional processing theory: A critical review. In T. R. Schachtman & S. Reilly (Eds.), Associative learning and condi- tioning theory: Human and nonhuman applications (pp. 27–43). New York, NY: Oxford University Press. http://dx.doi.org/10.1093/acprof:oso/9780199735969.003.0017 Goodall, G. (1984). Learning due to the response-shock contingency in signalled punishment. Quarterly Journal of Experimental Psychology B: Comparative and Physiological Psychology, 36, 259–279. http://dx.doi.org/10.1080/14640748408402206 Gormezano, I., Kehoe, E. J., & Marshall, B. S. (1983). Twenty years of classical conditioning research with the rabbit. In J. M. Sprague & A. N. Epstein (Eds.), Prog- ress in psychobiology and physiological psychology (Vol. 10, pp. 197–275). Orlando, FL: Academic Press. Grace, R. C., & Hucks, A. D. (2013). The allocation of operant behavior. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and principles (pp. 307–338). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/ 13937-014 Grant, D. S. (1976). Effect of sample presentation time on long-delay matching in the pigeon. Learning and Motivation, 7, 580–590. http://dx.doi.org/10.1016/ 0023-9690(76)90008-4 Grant, D. S. (1988). Sources of visual interference in delayed matching-to-sample with pigeons. Journal of Experimental Psychology: Animal Behavior Processes, 14, 368–375. http://dx.doi.org/10.1037/00977403.14.4.368

286

Green, L., & Freed, D. E. (1993). The substitutability of reinforcers. Journal of the Experi- mental Analysis of Behavior, 60, 141–158. http://dx.doi.org/10.1901/jeab.1993.60-141 Groves, P. M., Lee, D., & Thompson, R. F. (1969). Effects of stimulus frequency and intensity on habituation and sensitization in acute spinal cat. Physiology & Behavior, 4, 383–388. http://dx.doi.org/10.1016/0031-9384(69)90194-2 Groves, P. M., & Thompson, R. F. (1970). Habituation: A dual-process theory. Psycho- logical Review, 77, 419–450. http://dx.doi.org/10.1037/h0029810 Hagopian, L. P., Dozier, C. L., Rooker, G. W., & Jones, B. A. (2013). Assessment and treatment of severe problem behavior. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 2. Translating principles into practice (pp. 353–386). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/13938-014 Halberstadt, A. L., & Geyer, M. A. (2009). Habituation and sensitization of acoustic startle: Opposite influences of dopamine D1 and D2–family receptors. Neurobiology of Learning and Memory, 92, 243– 248. http://dx.doi.org/10.1016/j.nlm.2008.05.015 Hall, G., Kaye, H., & Pearce, J. M. (1985). Attention and conditioned inhibition. In R. R. Miller & N. E. Spear (Eds.), Information processing in animals: Conditioned inhibi- tion (pp. 185–207). Hillsdale, NJ: Erlbaum. Hallam, S. C., Grahame, N. J., Harris, K., & Miller, R. R. (1992). Associative struc- ture underlying enhanced negative summation following operational extinction of a Pavlovian inhibitor. Learning and Motivation, 23, 43–62. http://dx.doi.org/ 10.1016/0023-9690(92)90022-E Hanley, G. P., Iwata, B. A., Thompson, R. H., & Lindberg, J. S. (2000). A component analysis of “stereotypy as reinforcement” for alternative behavior. Journal of Applied Behavior Analysis, 33, 285– 297. http://dx.doi.org/10.1901/jaba.2000.33-285 Hardt, O., Einarsson, E. Ö., & Nader, K. (2010). A bridge over troubled water: Recon- solidation as a link between cognitive and neuroscientific memory research tradi- tions. Annual Review of Psychology, 61, 141–167. http://dx.doi.org/10.1146/annurev. psych.093008.100455 Harris, J. A., Kwok, D. W. S., & Andrew, B. J. (2014). Conditioned inhibition and reinforcement rate. Journal of Experimental Psychology: Animal Learning and Cognition, 40, 335–354. http://dx.doi.org/10.1037/xan0000023 Hearst, E., & Jenkins, H. M. (1974). Sign tracking: The stimulus–reinforcer relation and directed action. Austin, TX: Psychonomic Society. Hernandez, P. J., & Abel, T. (2008). The role of protein synthesis in memory con- solidation: Progress amid decades of debate. Neurobiology of Learning & Memory, 89, 293–311. http://dx.doi.org/10.1016/j.nlm.2007.09.010 Herrnstein, R. J. (1970). On the law of effect. Journal of the Experimental Analysis of Behavior, 13, 243– 266. http://dx.doi.org/10.1901/jeab.1970.13-243 Herrnstein, R. J., Loveland, D. H., & Cable, C. (1976). Natural concepts in pigeons. Jour- nal of Experimental Psychology: Animal Behavior Processes, 2, 285–302. http://dx.doi.org/ 10.1037/00977403.2.4.285 Hock, A., White, H., Jubran, R., & Bhatt, R. S. (2016). The whole picture: Holistic body posture recognition in infancy. Psychonomic Bulletin & Review, 23, 426–431. http:// dx.doi.org/10.3758/s13423015-0902-8 Hogarth, L., Balleine, B. W., Corbit, L. H., & Killcross, S. (2013). Associative learning mechanisms underpinning the transition from recreational drug use to addiction. Annals of the New York Academy of Sciences, 1282, 12–24. Hogarth, L., & Chase, H. W. (2011). Parallel goal-directed and habitual control of human drug-seeking: Implications for dependence vulnerability. Journal of Experi- mental Psychology: Animal Behavior Processes, 37, 261–276. http://dx.doi.org/10.1037/ a0022913 Hogarth, L., Dickinson, A., & Duka, T. (2010). Selective attention to conditioned stim- uli in human discrimination learning: Untangling the effects of outcome prediction, valence, arousal, and uncertainty. In C. J. Mitchell & M. E. Le Pelley (Eds.), Attention and associative learning (pp. 71–97). Oxford, England: Oxford University Press. Holland, P. C. (1977). Conditioned stimulus as a determinant of the form of the Pavlovian conditioned response. Journal of Experimental Psychology: Animal Behavior Processes, 3, 77–104. http://dx.doi.org/10.1037/0097-7403.3.1.77 Holland, P. C. (1989). Feature extinction enhances transfer of occasion setting. Animal Learning & Behavior, 17, 269–279. http://dx.doi.org/10.3758/BF03209799 Holland, P. C. (1992). Occasion setting in Pavlovian conditioning. In D. L. Medin (Ed.), Psychology of learning and motivation (Vol. 28, pp. 69–125). San Diego, CA: Academic Press. Holland, P. C. (2000). Trial and intertrial durations in appetitive conditioning in rats. Animal Learning & Behavior, 28, 121–135. http://dx.doi.org/10.3758/BF03200248 Hollis, K. L. (1999). The role of learning

287

in the aggressive and reproductive behavior of blue gouramis, Trichogaster trichopterus. Environmental Biology of Fishes, 54, 355–369. http://dx.doi.org/10.1023/A:1007529628117 Holloway, K. S., & Domjan, M. (1993). Sexual approach conditioning: Tests of unconditioned stimulus devaluation using hormone manipulations. Journal of Experimental Psychology: Animal Behavior Processes, 19, 47–55. http://dx.doi.org/ 10.1037/0097-7403.19.1.47 Holmes, N. M., Marchand, A. R., & Coutureau, E. (2010). Pavlovian to instrumental transfer: A neurobehavioural perspective. Neuroscience and Biobehavioral Reviews, 34, 1277–1295. http://dx.doi.org/10.1016/j.neubiorev.2010.03.007 Holz, W. C., & Azrin, N. H. (1961). Discriminative properties of punishment. Jour- nal of the Experimental Analysis of Behavior, 4, 225–232. http://dx.doi.org/10.1901/ jeab.1961.4-225 Horsley, R. R., Osborne, M., Norman, C., & Wells, T. (2012). High-frequency gamblers show increased resistance to extinction following partial reinforcement. Behavioural Brain Research, 229, 438–442. http://dx.doi.org/10.1016/j.bbr.2012.01.024 Huber, L., & Aust, U. (2012). A modified feature theory as an account of pigeon visual categorization. In T. R. Zentall & E. A. Wasserman (Eds.), The Oxford handbook of comparative cognition (pp. 497–512). New York, NY: Oxford University Press. http:// dx.doi.org/10.1093/oxfordhb/9780195392661.013.0026 Hull, C. L. (1930). Knowledge and purpose as habit mechanisms. Psychological Review, 37, 511–525. http://dx.doi.org/10.1037/h0072212 Hull, C. L. (1931). Goal attraction and directing ideas conceived as habit phenomena. Psychological Review, 38, 487–506. http://dx.doi.org/10.1037/h0071442 Hulse, S. H., Jr. (1958). Amount and percentage of reinforcement and duration of goal confinement in conditioning and extinction. Journal of Experimental Psychology, 56, 48–57. http://dx.doi.org/10.1037/h0046279 Hursh, S. R., Madden, G. J., Spiga, R., DeLeon, I., & Francisco, M. T. (2013). The translational utility of behavioral economics: The experimental analysis of con- sumption and choice. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 2. Translating principles into practice (pp. 191–224). Washington, DC: American Psychological Association. Ishida, M., & Papini, M. R. (1997). Massed-trial overtraining effects on extinction and reversal performance in turtles (Geoclemys reevesii). The Quarterly Journal of Experimen- tal Psychology B: Comparative and Physiological Psychology, 50, 1– 16. http://dx.doi.org/ 10.1080/027249997393619 Jacobs, E. A., Borrero, J. C., & Vollmer, T. R. (2013). Translational applications of quantitative choice models. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 2. Translating principles into practice (pp. 165–190). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/13938-007 Jacobs, N. S., Cushman, J. D., & Fanselow, M. S. (2010). The accurate measurement of fear memory in Pavlovian conditioning: Resolving the baseline issue. Journal of Neuroscience Methods, 190, 235–239. http://dx.doi.org/10.1016/j.jneumeth. 2010.04.029 Jenkins, H. M. (1962). Resistance to extinction when partial reinforcement is fol- lowed by regular reinforcement. Journal of Experimental Psychology, 64, 441–450. http://dx.doi.org/10.1037/h0048700 Jenkins, H. M., Barnes, R. A., & Barrera, F. J. (1981). Why autoshaping depends on trial spacing. In C. M. Locurto, H. S. Terrace, & J. Gibbon (Eds.), Autoshaping and condition- ing theory (pp. 255–284). New York, NY: Academic Press. Jenkins, H. M., & Harrison, R. H. (1960). Effect of discrimination training on auditory generalization. Journal of Experimental Psychology, 59, 246–253. http://dx.doi.org/ 10.1037/h0041661 Jenkins, H. M., & Harrison, R. H. (1962). Generalization gradients of inhibition fol- lowing auditory discrimination learning. Journal of the Experimental Analysis of Behavior, 5, 435–441. http://dx.doi.org/10.1901/jeab.1962.5-435 Jessel, J., Borrero, J. C., & Becraft, J. L. (2015). Differential reinforcement of other behavior increases untargeted behavior. Journal of Applied Behavior Analysis, 48, 402–416. http://dx.doi.org/10.1002/jaba.204 Jitsumori, M., Wright, A. A., & Shyan, M. R. (1989). Buildup and release from pro- active interference in a rhesus monkey. Journal of Experimental Psychology: Animal Behavior Processes, 15, 329–337. http://dx.doi.org/10.1037/0097-7403.15.4.329 Johnson, H. M. (1994). Processes of successful intentional forgetting. Psychological Bulletin, 116, 274– 292. http://dx.doi.org/10.1037/0033-2909.116.2.274 Jozefowiez, J., & Staddon, J. E. R. (2008). Operant behavior. In J. H. Byrne (Ed.), Learning theory and behavior: Vol. 1. Learning and memory: A comprehensive reference (pp. 75–102). Oxford, England: Elsevier. http://dx.doi.org/10.1016/B978- 012370509-9.00087-5 Kalmbach, B. E., Ohyama, T., Kreider, J. C., Riusech, F., & Mauk, M. D. (2009). Inter- actions between prefrontal cortex and cerebellum revealed by trace eyelid condi- tioning. Learning & Memory, 16, 86–

288

95. http://dx.doi.org/10.1101/lm.1178309 Kamin, L. J. (1965). Temporal and intensity characteristics of the conditioned stim- ulus. In W. F. Prokasy (Ed.), Classical conditioning (pp. 118–147). New York, NY: Appleton-Century-Crofts. Kamin, L. J. (1969). Predictability, surprise, attention, and conditioning. In B. A. Campbell & R. M. Church (Eds.), Punishment and aversive behavior (pp. 279–296). New York, NY: Appleton-Century-Crofts. Kaplan, P. S., Werner, J. S., & Rudy, J. W. (1990). Habituation, sensitization, and infant visual attention. In C. Rovee-Collier & L. P. Lipsitt (Eds.), Advances in infancy research (Vol. 6, pp. 61–109). Norwood, NJ: Ablex. Kavšek, M. (2013). The comparator model of infant visual habituation and dishabitu- ation: Recent insights. Developmental Psychobiology, 55, 793–808. http://dx.doi.org/ 10.1002/dev.21081 Kazdin, A. E. (1985). The token economy. In R. M. Turner & L. M. Ascher (Eds.), Evaluating behavior therapy outcome (pp. 225–253). New York, NY: Springer. Kehoe, E. J., & White, N. E. (2004). Overexpectation: Response loss during sustained stimulus compounding in the rabbit nictitating membrane preparation. Learning & Memory, 11, 476–483. http://dx.doi.org/10.1101/lm.77604 Killeen, P. R. (2001). Writing and overwriting short-term memory. Psychonomic Bulletin & Review, 8, 18– 43. http://dx.doi.org/10.3758/BF03196137 Kimble, G. A. (1961). Hilgard and Marquis' conditioning and learning (2nd ed.). New York, NY: Appleton-Century-Crofts. Kirkpatrick, K., & Church, R. M. (2004). Temporal learning in random control pro- cedures. Journal of Experimental Psychology: Animal Behavior Processes, 30, 213–228. http://dx.doi.org/10.1037/00977403.30.3.213 Klatt, K. P., & Morris, E. K. (2001). The Premack principle, response deprivation, and establishing operations. The Behavior Analyst, 24, 173–180. Krause, M. A., & Domjan, M. (2017). Ethological and evolutionary perspectives on Pavlovian conditioning. In J. Call (Ed.), APA handbook of comparative psychology: Vol. 2. Perception, learning, and cognition (pp. 247–266). Washington, DC: American Psy- chological Association. Kroes, M. C. W., Schiller, D., LeDoux, J. E., & Phelps, E. A. (2016). Translational approaches targeting reconsolidation. Current Topics in Behavioral Neurosciences, 28, 197–230. http://dx.doi.org/10.1007/7854_2015_5008 Krypotos, A.-M., Effting, M., Kindt, M., & Beckers, T. (2015). Avoidance learning: Review of theoretical models and recent developments. Frontiers in Behavioral Neuroscience, 9. Article, 189, 1–16. Laborda, M. A., & Miller, R. R. (2012). Reactivated memories compete for expres- sion after Pavlovian extinction. Behavioural Processes, 90, 20–27. http://dx.doi.org/ 10.1016/j.beproc.2012.01.012 Lashley, K. S., & Wade, M. (1946). The Pavlovian theory of generalization. Psycho- logical Review, 53, 72–87. http://dx.doi.org/10.1037/h0059999 Lattal, K. A. (2013). The five pillars of the experimental analysis of behavior. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and prin- ciples (pp. 33–63). Washington, DC: American Psychological Association. http:// dx.doi.org/10.1037/13937-002 Lattal, K. A., St. Peter, C., & Escobar, R. (2013). Operant extinction: Elimination and generation of behavior. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 2. Translating principles into practice (pp. 77–107). Washington, DC: American Psychological Association. Lattal, K. M., & Nakajima, S. (1998). Over expectation in appetitive Pavlovian and instrumental conditioning. Animal Learning & Behavior, 26, 351–360. http://dx.doi.org/ 10.3758/BF03199227 LeDoux, J. E., & Gorman, J. M. (2001). A call to action: Overcoming anxiety through active coping. The American Journal of Psychiatry, 158, 1953–1955. http://dx.doi.org/ 10.1176/appi.ajp.158.12.1953 Leising, K. J., Hall, J. S., Wolf, J. E., & Ruprecht, C. M. (2015). Occasion setting dur- ing a spatial-search task with pigeons. Journal of Experimental Psychology: Animal Learning and Cognition, 41, 163–178. http://dx.doi.org/10.1037/xan0000048 Leung, H. T., Bailey, G. K., Laurent, V., & Westbrook, R. F. (2007). Rapid reacquisition of fear to a completely extinguished context is replaced by transient impairment with additional extinction training. Journal of Experimental Psychology: Animal Behav- ior Processes, 33, 299–313. http://dx.doi.org/10.1037/0097-7403.33.3.299 Lieberman, D. A., McIntosh, D. C., & Thomas, G. V. (1979). Learning when reward is delayed: A marking hypothesis. Journal of Experimental Psychology: Animal Behavior Processes, 5, 224–242. http://dx.doi.org/10.1037/0097-7403.5.3.224 Lin, J.-Y., Arthurs, J., & Reilly, S. (2017). Conditioned taste aversions: From poisons to pain to drugs of abuse. Psychonomic Bulletin & Review, 24, 335–351. LoBue, V., & DeLoache, J. S. (2010). Superior detection of threat-relevant stim- uli in infancy. Developmental Science, 13, 221–228. http://dx.doi.org/10.1111/ j.1467-7687.2009.00872.x Logue, A. W., Ophir, I., & Strauss, K. E. (1981). The acquisition of taste aversions in humans. Behaviour

289

Research and Therapy, 19, 319–333. http://dx.doi.org/10.1016/ 0005-7967(81)90053-X LoLordo, V. M. (1979). Selective associations. In A. Dickinson & R. A. Boakes (Eds.), Mechanisms of learning and motivation (pp. 367–398). Hillsdale, NJ: Erlbaum. Lorenz, K. Z. (1981). The foundations of ethology. New York, NY: Springer. http:// dx.doi.org/10.1007/978-3-7091-3671-3 Lovibond, P. F., Saunders, J. C., Weidemann, G., & Mitchell, C. J. (2008). Evidence for expectancy as a mediator of avoidance and anxiety in a laboratory model of human avoidance learning. The Quarterly Journal of Experimental Psychology, 61, 1199–1216. http://dx.doi.org/10.1080/17470210701503229 Lubow, R. E. (2011). Aberrant attentional processes in schizophrenia as reflected in latent inhibition data. In T. R. Schachtman & S. Reilly (Eds.), Associative learning and con- ditioning theory: Human and non-human applications (pp. 152–167). New York, NY: Oxford University Press. http://dx.doi.org/10.1093/acprof:oso/9780199735969.003.0048 Lubow, R. E., & Weiner, I. (Eds.). (2010). Latent inhibition: Cognition, Neuroscience and applications to schizophrenia. Cambridge, England: Cambridge University Press. http:// dx.doi.org/10.1017/CBO9780511730184 Lysle, D. T., & Fowler, H. (1985). Inhibition as a “slave” process: Deactivation of conditioned inhibition through extinction of conditioned excitation. Journal of Experimental Psychology: Animal Behavior Processes, 11, 71–94. http://dx.doi.org/ 10.1037/0097-7403.11.1.71 MacKillop, J., Amlung, M. T., Few, L. R., Ray, L. A., Sweet, L. H., & Munafò, M. R. (2011). Delayed reward discounting and addictive behavior: A meta-analysis. Psychopharmacology, 216, 305–321. http://dx.doi.org/10.1007/s00213-011-2229-0 Mackintosh, N. J. (1974). The psychology of animal learning. Oxford, England: Academic Press. Mackintosh, N. J., Bygrave, D. J., & Picton, B. M. B. (1977). Locus of the effect of a surprising reinforcer in the attenuation of blocking. The Quarterly Journal of Experi- mental Psychology, 29, 327–336. http://dx.doi.org/10.1080/14640747708400608 MacLeod, C. M. (2012). Directed forgetting. In N. M. Seel (Ed.), Encyclopedia of the sciences of learning (pp. 993–995). New York, NY: Springer. Maia, T. V. (2010). Two-factor theory, the actor-critic model, and conditioned avoid- ance. Learning & Behavior, 38, 50–67. http://dx.doi.org/10.3758/LB.38.1.50 Maren, S. (2011). Seeking a spotless mind: Extinction, deconsolidation, and erasure of fear memory. Neuron, 70, 830–845. http://dx.doi.org/10.1016/j.neuron.2011.04.023 Maren, S., & Holmes, A. (2016). Stress and fear extinction. Neuropsychopharmacology, 41, 58–79. http://dx.doi.org/10.1038/npp.2015.180 Matson, J. L., & Boisjoli, J. A. (2009). The token economy for children with intel- lectual disability and/or autism: A review. Research in Developmental Disabilities, 30, 240–248. http://dx.doi.org/10.1016/j.ridd.2008.04.001 McConnell, B. L., Urushihara, K., & Miller, R. R. (2010). Contrasting predictions of extended comparator hypothesis and acquisition-focused models of learning con- cerning retrospective revaluation. Journal of Experimental Psychology: Animal Behavior Processes, 36, 137–147. http://dx.doi.org/10.1037/a0015774 McGaugh, J. L. (2000). Memory—a century of consolidation. Science, 287, 248–251. http://dx.doi.org/10.1126/science.287.5451.248 McGaugh, J. L., & Herz, M. J. (1972). Memory consolidation. San Francisco, CA: Albion. McKenzie, S., & Eichenbaum, H. (2011). Consolidation and reconsolidation: Two lives of memories? Neuron, 71, 224– 233. http://dx.doi.org/10.1016/j.neuron. 2011.06.037 McLaren, I. P. L., & Mackintosh, N. J. (2000). An elemental model of associative learning: I. Latent inhibition and perceptual learning. Animal Learning & Behavior, 28, 211–246. http://dx.doi.org/10.3758/BF03200258 Meyer, P. J., Cogan, E. S., & Robinson, T. E. (2014). The form of a conditioned stimu- lus can influence the degree to which it acquires incentive motivational properties. PLoS One, 9(6), e98163. http://dx.doi.org/10.1371/journal.pone.0098163 Miguez, G., Witnauer, J. E., & Miller, R. R. (2012). The role of contextual associa- tions in producing the partial reinforcement acquisition deficit. Journal of Experi- mental Psychology: Animal Behavior Processes, 38, 40–51. http://dx.doi.org/10.1037/ a0024410 Miller, D. B. (1985). Methodological issues in the ecological study of learning. In T. D. Johnston & A. T. Pietrewicz (Eds.), Issues in the ecological study of learning (pp. 73–95). Hillsdale, NJ: Erlbaum. Miller, N. E. (1951). Learnable drives and rewards. In S. S. Stevens (Ed.), Handbook of experimental psychology (pp. 435–472). New York, NY: Wiley. Miller, N. E. (1960). Learning resistance to pain and fear: Effects of overlearning, exposure, and rewarded exposure in context. Journal of Experimental Psychology, 60, 137–145. http://dx.doi.org/10.1037/h0043321

290

Miller, R. R., Barnet, R. C., & Grahame, N. J. (1995). Assessment of the Rescorla– Wagner model. Psychological Bulletin, 117, 363–386. http://dx.doi.org/10.1037/ 0033-2909.117.3.363 Miller, R. R., & Matzel, L. D. (1988). The comparator hypothesis: A response rule for the expression of associations. In G. H. Bower (Ed.), The psychology of learning and motivation (pp. 51–92). Orlando, FL: Academic Press. Milmine, M., Watanabe, A., & Colombo, M. (2008). Neural correlates of directed for- getting in the avian prefrontal cortex. Behavioral Neuroscience, 122, 199–209. http:// dx.doi.org/10.1037/07357044.122.1.199 Mineka, S. (1979). The role of fear in theories of avoidance learning, flooding, and extinction. Psychological Bulletin, 86, 985–1010. http://dx.doi.org/10.1037/ 0033-2909.86.5.985 Mineka, S., & Öhman, A. (2002). Phobias and preparedness: The selective, automatic, and encapsulated nature of fear. Biological Psychiatry, 52, 927–937. http://dx.doi.org/ 10.1016/S0006-3223(02)01669-4 Mitchell, C. J., & Le Pelley, M. E. (Eds.). (2010). Attention and associative learning. Oxford, England: Oxford University Press. Moffitt, T. E., Arseneault, L., Belsky, D., Dickson, N., Hancox, R. J., Harrington, H., . . . Caspi, A. (2011). A gradient of childhood self-control predicts health, wealth, and public safety. Proceedings of the National Academy of Sciences of the United States of America, 108, 2693–2698. http://dx.doi.org/10.1073/pnas.1010076108 Molet, M., & Miller, R. R. (2014). Timing: An attribute of associative learning. Behavioural Processes, 101, 4–14. http://dx.doi.org/10.1016/j.beproc.2013.05.015 Monfils, M. H., Cowansage, K. K., Klann, E., & LeDoux, J. E. (2009). Extinction-reconsolidation boundaries: Key to persistent attenuation of fear memories. Science, 324, 951–955. http://dx.doi.org/10.1126/science.1167975 Morris, R. G. M. (1974). Pavlovian conditioned inhibition of fear during shuttle- box avoidance behavior. Learning and Motivation, 5, 424–447. http://dx.doi.org/ 10.1016/0023-9690(74)90002-2 Morris, R. G. M. (1975). Preconditioning of reinforcing properties to an exteroceptive feedback stimulus. Learning and Motivation, 6, 289–298. http://dx.doi.org/10.1016/ 0023-9690(75)90029-6 Mowrer, O. H. (1947). On the dual nature of learning: A reinterpretation of “condi- tioning” and “problemsolving.” Harvard Educational Review, 17, 102–150. Mowrer, O. H., & Lamoreaux, R. R. (1942). Avoidance conditioning and signal dura- tion: A study of secondary motivation and reward [Monograph]. Psychological Monographs, 54(247). Murphy, J. G., Correia, C. J., & Barnett, N. P. (2007). Behavioral economic approaches to reduce college student drinking. Addictive Behaviors, 32, 2573–2585. http:// dx.doi.org/10.1016/j.addbeh.2007.05.015 Mystkowski, J. L., Craske, M. G., Echiverri, A. M., & Labus, J. S. (2006). Mental reinstatement of context and return of fear in spider-fearful participants. Behavior Therapy, 37, 49–60. http://dx.doi.org/10.1016/j.beth.2005.04.001 Nader, K., & Hardt, O. (2009). A single standard for memory: The case for reconsolida- tion. Nature Reviews Neuroscience, 10, 224–234. http://dx.doi.org/10.1038/nrn2590 Neuringer, A. (2004). Reinforced variability in animals and people: Implications for adaptive action. American Psychologist, 59, 891–906. http://dx.doi.org/10.1037/ 0003-066X.59.9.891 Neuringer, A., Kornell, N., & Olufs, M. (2001). Stability and variability in extinc- tion. Journal of Experimental Psychology: Animal Behavior Processes, 27, 79–94. http:// dx.doi.org/10.1037/00977403.27.1.79 Newsweek Staff. (2001, February 12). How it all starts inside your brain. Newsweek, p. 40. Retrieved from http://www.newsweek.com/how-it-all-starts-inside-your- brain-155189 Odum, A. L., & Baumann, A. A. L. (2010). Delay discounting: State and trait variable. In G. J. Madden & W. K. Bickel (Eds.), Impulsivity: The behavioral and neurological sci- ence of discounting (pp. 39–65). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/12069-002 Oehlberg, K., & Mineka, S. (2011). Fear conditioning and attention to threat: An integrative approach to understanding the etiology of anxiety disorders. In T. R. Schachtman & S. Reilly (Eds.), Associative learning and conditioning theory: Human and non-human applications (pp. 44–78). Oxford, England, and New York, NY: Oxford University Press. http://dx.doi.org/10.1093/acprof:oso/9780199735969.003.0020 Ostlund, S. B., Winterbauer, N. E., & Balleine, B. W. (2008). Theory of reward sys- tems. In J. H. Byrne (Ed.), Learning theory and behavior: Vol. 1. Learning and memory: A comprehensive reference (pp. 701–720). Oxford, England: Elsevier. http://dx.doi.org/ 10.1016/B978-012370509-9.00089-9 Papini, M. R. (2003). Comparative psychology of surprising nonreward. Brain, Behav- ior and Evolution, 62, 83–95. http://dx.doi.org/10.1159/000072439 Papini, M. R., & Bitterman, M. E. (1990). The role of contingency in classical conditioning. Psychological Review, 97, 396–403. http://dx.doi.org/10.1037/0033-295X.97.3.396 Pavlov, I. (1927). Conditioned reflexes (G. V. Anrep, Trans.). London, England: Oxford University Press. Pear, J. J., & Legris, J. A. (1987). Shaping by automated tracking of an arbitrary oper- ant response. Journal

291

of the Experimental Analysis of Behavior, 47, 241–247. http:// dx.doi.org/10.1901/jeab.1987.47-241 Pearce, J. M., & Hall, G. (1980). A model for Pavlovian learning: Variations in the effectiveness of conditioned but not of unconditioned stimuli. Psychological Review, 87, 532–552. http://dx.doi.org/10.1037/0033-295X.87.6.532 Pelchat, M. L., & Rozin, P. (1982). The special role of nausea in the acquisition of food dislikes by humans. Appetite, 3, 341–351. http://dx.doi.org/10.1016/ S0195-6663(82)80052-4 Perry, D. G., & Parke, R. D. (1975). Punishment and alternative response training as determinants of response inhibition in children. Genetic Psychology Monographs, 91, 257–279. Perusini, J. N., & Fanselow, M. S. (2015). Neurobehavioral perspectives on the dis- tinction between fear and anxiety. Learning & Memory, 22, 417–425. http://dx.doi. org/10.1101/lm.039180.115 Postman, L. (1971). Transfer, interference, and forgetting. In J. W. Kling & L. A. Riggs (Eds.), Woodworth and Schlosberg's experimental psychology (3rd ed., pp. 1019–1132). New York, NY: Holt, Rinehart and Winston. Premack, D. (1965). Reinforcement theory. In D. Levine (Ed.), Nebraska symposium on motivation (Vol. 13, pp. 123–180). Lincoln: University of Nebraska Press. Rachlin, H. (1976). Behavior and learning (pp. 102–154). San Francisco, CA: W. H. Freeman. Raia, C. P., Shillingford, S. W., Miller, H. L., Jr., & Baier, P. S. (2000). Interaction of procedural factors in human performance on yoked schedules. Journal of the Experi- mental Analysis of Behavior, 74, 265– 281. http://dx.doi.org/10.1901/jeab.2000.74-265 Rankin, C. H., Abrams, T., Barry, R. J., Bhatnagar, S., Clayton, D. F., Colombo, J., . . . Thompson, R. F. (2009). Habituation revisited: An updated and revised description of the behavioral characteristics of habituation. Neurobiology of Learning and Memory, 92, 135–138. http://dx.doi.org/10.1016/j.nlm.2008.09.012 Rau, V., & Fanselow, M. S. (2007). Neurobiological and neuroethological perspectives on fear and anxiety. In L. J. Kirmayer, R. Lemelson, & M. Barad (Eds.), Under- standing trauma: Integrating biological, clinical, and cultural perspectives (pp. 27–40). Cambridge, England: Cambridge University Press. http://dx.doi.org/10.1017/ CBO9780511500008.005 Raybuck, J. D., & Lattal, K. M. (2014). Bridging the interval: Theory and neuro- biology of trace conditioning. Behavioural Processes, 101, 103–111. http://dx.doi.org/ 10.1016/j.beproc.2013.08.016 Rehfeldt, R. A. (2011). Toward a technology of derived stimulus relations: An analysis of articles published in the journal of applied behavior analysis, 1992–2009. Journal of Applied Behavior Analysis, 44, 109– 119. http://dx.doi.org/10.1901/jaba.2011.44-109 Reilly, S., & Schachtman, T. R. (Eds.). (2009). Conditioned taste aversion: Behavioral and neural processes. New York, NY: Oxford University Press. Rescorla, R. A. (1967). Pavlovian conditioning and its proper control procedures. Psychological Review, 74, 71–80. http://dx.doi.org/10.1037/h0024109 Rescorla, R. A. (1969). Pavlovian conditioned inhibition. Psychological Bulletin, 72, 77–94. http://dx.doi.org/10.1037/h0027760 Rescorla, R. A. (1973). Effect of US habituation following conditioning. Journal of Com- parative and Physiological Psychology, 82, 137–143. http://dx.doi.org/10.1037/h0033815 Rescorla, R. A. (1985). Conditioned inhibition and facilitation. In R. R. Miller & N. E. Spear (Eds.), Information processing in animals: Conditioned inhibition (pp. 299–326). Hillsdale, NJ: Erlbaum. Rescorla, R. A. (1993). Preservation of response-outcome associations through extinc- tion. Animal Learning & Behavior, 21, 238–245. http://dx.doi.org/10.3758/BF03197988 Rescorla, R. A. (2001). Experimental extinction. In R. R. Mowrer & S. B. Klein (Eds.), Contemporary learning theories (pp. 119–154). Mahwah, NJ: Erlbaum. Rescorla, R. A. (2004). Spontaneous recovery. Learning & Memory, 11, 501–509. http:// dx.doi.org/10.1101/lm.77504 Rescorla, R. A., & Solomon, R. L. (1967). Two-process learning theory: Relationships between Pavlovian conditioning and instrumental learning. Psychological Review, 74, 151–182. http://dx.doi.org/10.1037/h0024475 Rescorla, R. A., & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Varia- tions in the effectiveness of reinforcement and nonreinforcement. In A. H. Black & W. F. Prokasy (Eds.), Classical conditioning II: Current research and theory (pp. 64–99). New York, NY: Appleton-Century-Crofts. Reynolds, G. S. (1975). A primer of operant conditioning. Glenview, IL: Scott Foresman. Roberts, W. A. (2012). Evidence for future cognition in animals. Learning and Motivation, 43, 169–180. http://dx.doi.org/10.1016/j.lmot.2012.05.005 Roberts, W. A., & Grant, D. S. (1976). Studies of short-term memory in the pigeon using the delayed matching to sample procedure. In D. L. Medin, W. A. Roberts, & R. T. Davis (Eds.), Processes of animal memory (pp. 79–112). Hillsdale, NJ: Erlbaum. Roitblat, H. L. (1980). Codes and coding processes in pigeon short-term memory. Animal Learning & Behavior, 8, 341–351. http://dx.doi.org/10.3758/BF03199615 Romanes, G. J. (1882). Animal intelligence. New York, NY: Appleton.

292

Santi, A., & Roberts, W. A. (1985). Prospective representation: The effects of varied mapping of sample stimuli to comparison stimuli and differential trial outcomes on pigeons' working memory. Animal Learning & Behavior, 13, 103–108. http://dx.doi.org/ 10.3758/BF03199261 Sargisson, R. J., & White, K. G. (2001). Generalization of delayed matching to sample following training at different delays. Journal of the Experimental Analysis of Behavior, 75, 1–14. http://dx.doi.org/10.1901/jeab.2001.75-1 Schachtman, T. R., Brown, A. M., & Miller, R. R. (1985). Reinstatement-induced recovery of a taste–LiCl association following extinction. Animal Learning & Behavior, 13, 223–227. http://dx.doi.org/10.3758/BF03200013 Schein, M. W., & Hale, E. B. (1965). Stimuli eliciting sexual behavior. In F. A. Beach (Ed.), Sex and behavior (pp. 440–482). New York, NY: Wiley. Schiff, R., Smith, N., & Prochaska, J. (1972). Extinction of avoidance in rats as a func- tion of duration and number of blocked trials. Journal of Comparative and Physiological Psychology, 81, 356–359. http://dx.doi.org/10.1037/h0033540 Schiller, D., Monfils, M. H., Raio, C. M., Johnson, D. C., LeDoux, J. E., & Phelps, E. A. (2010). Preventing the return of fear in humans using reconsolidation update mechanisms. Nature, 463, 49–53. http://dx.doi.org/10.1038/nature08637 Schmajuk, N. A. (2010). Mechanisms in classical conditioning: A computational approach. Cambridge, England: Cambridge University Press. http://dx.doi.org/10.1017/ CBO9780511711831 Schmajuk, N. A., & Holland, P. C. (Eds.). (1998). Occasion setting: Associative learning and cognition in animals. Washington, DC: American Psychological Association. http:// dx.doi.org/10.1037/10298-000 Schneiderman, N., & Gormezano, I. (1964). Conditioning of the nictitating mem- brane of the rabbit as a function of the CS–US interval. Journal of Comparative and Physiological Psychology, 57, 188–195. http://dx.doi.org/10.1037/h0043419 Schwabe, L., Nader, K., & Pruessner, J. C. (2014). Reconsolidation of human mem- ory: Brain mechanisms and clinical relevance. Biological Psychiatry, 76, 274–280. http://dx.doi.org/10.1016/j.biopsych.2014.03.008 Sevenster, D., Beckers, T., & Kindt, M. (2013). Prediction error governs pharmaco- logically induced amnesia for learned fear. Science, 339, 830–833. http://dx.doi.org/ 10.1126/science.1231357 Shapiro, K. L., Jacobs, W. J., & LoLordo, V. M. (1980). Stimulus–reinforcer interac- tions in Pavlovian conditioning of pigeons: Implications for selective associations. Animal Learning & Behavior, 8, 586– 594. http://dx.doi.org/10.3758/BF03197773 Shettleworth, S. J. (1975). Reinforcement and the organization of behavior in golden hamsters: Hunger, environment, and food reinforcement. Journal of Experi- mental Psychology: Animal Behavior Processes, 1, 56–87. http://dx.doi.org/10.1037/ 0097-7403.1.1.56 Sidman, M. (1953). Avoidance conditioning with brief shock and no exteroceptive warn- ing signal. Science, 118, 157–158. http://dx.doi.org/10.1126/science.118.3058.157 Sidman, M. (1960). Tactics of scientific research. New York, NY: Basic Books. Siegel, S. (2008). Learning and the wisdom of the body. Learning & Behavior, 36, 242–252. http://dx.doi.org/10.3758/LB.36.3.242 Siegel, S. (2016). The heroin overdose mystery. Current Directions in Psychological Science, 25, 375–379. Siegel, S., & Allan, L. G. (1996). The widespread influence of the Rescorla–Wagner model. Psychonomic Bulletin & Review, 3, 314–321. http://dx.doi.org/10.3758/ BF03210755 Simons, R. C. (1996). Boo! Culture, experience, and the startle reflex. New York, NY: Oxford University Press. Sissons, H. T., & Miller, R. R. (2009). Overexpectation and trial massing. Journal of Experimental Psychology: Animal Behavior Processes, 35, 186–196. http://dx.doi.org/ 10.1037/a0013426 Skinner, B. F. (1938). The behavior of organisms: An experimental analysis. New York, NY: AppletonCentury-Crofts. Skinner, B. F. (1953). Science and human behavior. New York, NY: Macmillan. Skinner, B. F. (1956). A case study in scientific method. American Psychologist, 11, 221–233. http://dx.doi.org/10.1037/h0047662 Skinner, B. F. (1969). Contingencies of reinforcement: A theoretical analysis. New York, NY: AppletonCentury-Crofts. Small, W. S. (1900). An experimental study of the mental processes of the rat: I. The American Journal of Psychology, 11, 133–164. http://dx.doi.org/10.2307/1412267 Small, W. S. (1901). An experimental study of the mental processes of the rat: II. The American Journal of Psychology, 12, 206–239. http://dx.doi.org/10.2307/1412534 Smith, J. C., & Roll, D. L. (1967). Trace conditioning with X-rays as an aversive stimulus. Psychonomic Science, 9, 11–12. Smith, M. C., Coleman, S. R., & Gormezano, I. (1969). Classical conditioning of the rabbit's nictitating membrane response at backward, simultaneous, and forward CS–US intervals. Journal of Comparative

293

and Physiological Psychology, 69, 226–231. http://dx.doi.org/10.1037/h0028212 Solomon, R. L., Kamin, L. J., & Wynne, L. C. (1953). Traumatic avoidance learn- ing: The outcomes of several extinction procedures with dogs. Journal of Abnormal Psychology, 48, 291–302. http://dx.doi.org/10.1037/h0058943 Spear, N. E., & Riccio, D. C. (1994). Memory: Phenomena and principles. Boston, MA: Allyn & Bacon. Stephens, D. W., Brown, J. S., & Ydenberg, R. C. (Eds.). (2007). Foraging: Behavior and ecology. Chicago, IL: University of Chicago Press. http://dx.doi.org/10.7208/chicago/ 9780226772653.001.0001 Stokes, P. D., Mechner, F., & Balsam, P. D. (1999). Effects of different acquisition procedures on response variability. Animal Learning & Behavior, 27, 28–41. http:// dx.doi.org/10.3758/BF03199429 Storsve, A. B., McNally, G. P., & Richardson, R. (2012). Renewal and reinstatement of the conditioned but not the unconditioned response following habituation of the unconditioned stimulus. Behavioural Processes, 90, 58–65. http://dx.doi.org/ 10.1016/j.beproc.2012.03.007 Stout, S. C., & Miller, R. R. (2007). Sometimes-competing retrieval (SOCR): A formalization of the comparator hypothesis. Psychological Review, 114, 759–783 [Correction published in 2008. Psychological Review, 115, 82]. http://dx.doi.org/ 10.1037/0033-295X.114.3.759. Theios, J. (1962). The partial reinforcement effect sustained through blocks of con- tinuous reinforcement. Journal of Experimental Psychology, 64, 1–6. http://dx.doi.org/ 10.1037/h0046302 Theios, J., Lynch, A. D., & Lowe, W. F., Jr. (1966). Differential effects of shock intensity on one-way and shuttle avoidance conditioning. Journal of Experimental Psychology, 72, 294–299. http://dx.doi.org/10.1037/h0023496 Thomas, B. L., Vurbic, D., & Novak, C. (2009). Extensive extinction in multiple con- texts eliminates the renewal of conditioned fear in rats. Learning and Motivation, 40, 147–159. http://dx.doi.org/10.1016/j.lmot.2008.10.002 Thompson, R. F. (2009). Habituation: A history. Neurobiology of Learning and Memory, 92, 127–134. http://dx.doi.org/10.1016/j.nlm.2008.07.011 Thompson, R. F., & Spencer, W. A. (1966). Habituation: A model phenomenon for the study of neuronal substrates of behavior. Psychological Review, 73, 16–43. http:// dx.doi.org/10.1037/h0022681 Thorndike, E. L. (1898). Animal intelligence: An experimental study of the association process in animals [Monograph]. Psychological Review Monographs, 2(8). Thorndike, E. L. (1911). Animal intelligence: Experimental studies. New York, NY: Macmillan. http://dx.doi.org/10.5962/bhl.title.55072 Thorndike, E. L. (1932). The fundamentals of learning. New York, NY: Teachers College Press. http://dx.doi.org/10.1037/10976-000 Timberlake, W. (1980). A molar equilibrium theory of learned performance. In G. H. Bower (Ed.), The psychology of learning and motivation (Vol. 14, pp. 1–58). Orlando, FL: Academic Press. http://dx.doi.org/10.1016/S0079-7421(08)60158-9 Timberlake, W. (1984). Behavior regulation and learned performance: Some mis- apprehensions and disagreements. Journal of the Experimental Analysis of Behavior, 41, 355–375. http://dx.doi.org/10.1901/jeab.1984.41-355 Timberlake, W. (2001). Motivational modes in behavior systems. In R. R. Mowrer & S. B. Klein (Eds.), Handbook of contemporary learning theories (pp. 155–209). Mahwah, NJ: Erlbaum. Timberlake, W., & Allison, J. (1974). Response deprivation: An empirical approach to instrumental performance. Psychological Review, 81, 146–164. http://dx.doi.org/ 10.1037/h0036101 Timberlake, W., Wahl, G., & King, D. (1982). Stimulus and response contingencies in the misbehavior of rats. Journal of Experimental Psychology: Animal Behavior Processes, 8, 62–85. http://dx.doi.org/10.1037/0097-7403.8.1.62 Tinbergen, N. (1951). The study of instinct. Oxford, England: Clarendon Press. Tinbergen, N. (1952). The behavior of the stickleback. Scientific American, 187, 22–26. http://dx.doi.org/10.1038/scientificamerican1252-22 Tinbergen, N., & Perdeck, A. C. (1950). On the stimulus situation releasing the beg- ging response in the newly hatched herring gull chick (Larus argentatus argentatus Pont.). Behaviour, 3, 1–39. http://dx.doi.org/10.1163/156853951X00197 Todd, T. P., Vurbic, D., & Bouton, M. E. (2014). Behavioral and neurobiological mech- anisms of extinction in Pavlovian and instrumental learning. Neurobiology of Learn- ing and Memory, 108, 52–64. http://dx.doi.org/10.1016/j.nlm.2013.08.012 Tomie, A., Brooks, W., & Zito, B. (1989). Sign-tracking: The search for reward. In S. B. Klein & R. R. Mowrer (Eds.), Contemporary learning theories: Pavlovian conditioning and the status of learning theory (pp. 191–223). Hillsdale, NJ: Erlbaum. Tomie, A., Murphy, A. L., Fath, S., & Jackson, R. L. (1980). Retardation of auto- shaping following pretraining with unpredictable food: Effects of changing the con- text between pretraining and testing. Learning and Motivation, 11, 117–134. http:// dx.doi.org/10.1016/0023-9690(80)90024-7

294

Tsao, J. C. I., & Craske, M. G. (2000). Timing of treatment and return of fear: Effects of massed, uniformand expanding-spaced exposure schedules. Behavior Therapy, 31, 479–497. http://dx.doi.org/10.1016/S0005-7894(00)80026-X Underwood, B. J. (1957). Interference and forgetting. Psychological Review, 64, 49–60. http://dx.doi.org/10.1037/h0044616 Urcelay, G. P., & Miller, R. R. (2008). Retrieval from memory. In J. H. Byrne (Ed.), Learning theory and behavior: Vol. 1. Learning and memory: A comprehensive reference (pp. 53–74). Oxford, England: Elsevier. http://dx.doi.org/10.1016/B978-012370509-9.00075-9 Urcelay, G. P., & Miller, R. R. (2014). The functions of contexts in associative learning. Behavioural Processes, 104, 2–12. http://dx.doi.org/10.1016/j.beproc.2014.02.008 Urcelay, G. P., Wheeler, D. S., & Miller, R. R. (2009). Spacing extinction trials alleviates renewal and spontaneous recovery. Learning & Behavior, 37, 60–73. http:// dx.doi.org/10.3758/LB.37.1.60 Urcuioli, P. J. (2013). Stimulus control and stimulus class formation. In G. J. Madden (Ed.), APA handbook of behavior analysis: Vol. 1. Methods and principles (pp. 361–386). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/ 13937-016 van der Kolk, B. A. (2006). Clinical implications of neuroscience research in PTSD. Annals of the New York Academy of Sciences, 1071, 277–293. http://dx.doi.org/10.1196/ annals.1364.022 Vanderveldt, A., Oliveira, L., & Green, L. (2016). Delay discounting: Pigeon, rat, human—does it matter? Journal of Experimental Psychology: Animal Learning and Cog- nition, 42, 141–162. http://dx.doi.org/10.1037/xan0000097 Vervliet, B., Baeyens, F., Van den Bergh, O., & Hermans, D. (2013). Extinction, generalization, and return of fear: A critical review of renewal research in humans. Biological Psychology, 92, 51–58. http://dx.doi.org/10.1016/j.biopsycho. 2012.01.006 Waddell, J., Morris, R. W., & Bouton, M. E. (2006). Effects of bed nucleus of the stria terminalis lesions on conditioned anxiety: Aversive conditioning with long-duration conditional stimuli and reinstatement of extinguished fear. Behavioral Neuroscience, 120, 324–336. http://dx.doi.org/10.1037/07357044.120.2.324 Wagner, A. R. (1961). Effects of amount and percentage of reinforcement and num- ber of acquisition trials on conditioning and extinction. Journal of Experimental Psychology, 62, 234–242. http://dx.doi.org/10.1037/h0042251 Wagner, A. R. (2008). Evolution of an elemental theory of Pavlovian conditioning. Learning & Behavior, 36, 253–265. http://dx.doi.org/10.3758/LB.36.3.253 Wagner, A. R., & Rescorla, R. A. (1972). Inhibition in Pavlovian conditioning: Appli- cation of a theory. In R. A. Boakes & M. S. Halliday (Eds.), Inhibition and learning (pp. 301–335). London, England: Academic Press. Wallace, J., Steinert, P. A., Scobie, S. R., & Spear, N. E. (1980). Stimulus modality and short-term memory in rats. Animal Learning & Behavior, 8, 10–16. http://dx.doi.org/ 10.3758/BF03209724 Wasserman, E. A. (2016). Conceptualization in pigeons: The evolution of a paradigm. Behavioural Processes, 123, 4–14. http://dx.doi.org/10.1016/j.beproc.2015.09.010 Wasserman, E. A., Franklin, S. R., & Hearst, E. (1974). Pavlovian appetitive contingencies and approach versus withdrawal to conditioned stimuli in pigeons. Journal of Comparative and Physiological Psychology, 86, 616–627. http://dx.doi.org/10.1037/ h0036171 Weiss, S. J., & Panlilio, L. V. (2015). Hedonics and the “selective associations”: Biological constraints on learning. International Journal of Comparative Psychology, 28. Retrieved from http://escholarship.org/uc/item/1102v2b8 White, K. G., & Brown, G. S. (2011). Reversing the course of forgetting. Journal of the Experimental Analysis of Behavior, 96, 177–189. http://dx.doi.org/10.1901/ jeab.2011.96-177 Williams, B. A. (1999). Associative competition in operant conditioning: Blocking the response-reinforcer association. Psychonomic Bulletin & Review, 6, 618–623. http:// dx.doi.org/10.3758/BF03212970 Williams, D. C., Saunders, K. J., & Perone, M. (2011). Extended pausing by humans on multiple fixed-ratio schedules with varied reinforcer magnitude and response requirements. Journal of the Experimental Analysis of Behavior, 95, 203–220. http:// dx.doi.org/10.1901/jeab.2011.95-203 Williams, M., & Woodman, G. F. (2012). Directed forgetting and directed remember- ing in visual working memory. Journal of Experimental Psychology: Learning, Memory, and Cognition, 38, 1206–1220. http://dx.doi.org/10.1037/a0027389 Winter, J., & Perkins, C. C. (1982). Immediate reinforcement in delayed reward learning in pigeons. Journal of the Experimental Analysis of Behavior, 38, 169–179. http://dx.doi.org/10.1901/jeab.1982.38169 Witcher, E. S., & Ayres, J. J. B. (1984). A test of two methods for extinguishing Pav- lovian conditioned inhibition. Animal Learning & Behavior, 12, 149–156. http:// dx.doi.org/10.3758/BF03213134 Wood, W., & Neal, D. T. (2007). A new look at habits and the habit-goal interface. Psycho- logical Review,

295

114, 843–863. http://dx.doi.org/10.1037/0033-295X.114.4.843 Wright, A. A., Katz, J. S., & Ma, W. J. (2012). How to be proactive about interference: Lessons from animal memory. Psychological Science, 23, 453–458. http://dx.doi.org/ 10.1177/0956797611430096 Yi, R., Mitchell, S. H., & Bickel, W. K. (2010). Delay discounting and substance abuse- dependence. In G. J. Madden & W. K. Bickel (Eds.), Impulsivity: The behavioral and neurological science of discounting (pp. 191–211). Washington, DC: American Psychological Association. http://dx.doi.org/10.1037/12069-007 Zapata, A., Minney, V. L., & Shippenberg, T. S. (2010). Shift from goal-directed to habit- ual cocaine seeking after prolonged experience in rats. The Journal of Neuroscience, 30, 15457–15463. http://dx.doi.org/10.1523/JNEUROSCI.4072-10.2010 Zentall, T. R., & Smith, A. P. (2016). Delayed matching-to-sample: A tool to assess memory and other cognitive processes in pigeons. Behavioural Processes, 123, 26–42. http://dx.doi.org/10.1016/j.beproc.2015.07.002 Zentall, T. R., Steirn, J. N., & Jackson-Smith, P. (1990). Memory strategies in pigeons' performance of a radial-arm-maze analog task. Journal of Experimental Psychology: Ani- mal Behavior Processes, 16, 358–371. http://dx.doi.org/10.1037/0097-7403.16.4.358 Zimmer-Hart, C. L., & Rescorla, R. A. (1974). Extinction of Pavlovian conditioned inhibition. Journal of Comparative and Physiological Psychology, 86, 837–845. http:// dx.doi.org/10.1037/h0036412 Zito, B., & Tomie, A. (2014). The tail of the raccoon: Secrets of addiction. Princeton, NJ: ZT Enterprises.

296

Índice Dedicatoria Prefacio Capítulo 1. Conceptos y definiciones básicas Capítulo 2. Estructura del comportamiento no condicionado Capítulo 3. Habituación y sensibilización Capítulo 4. Condicionamiento pavloviano: conceptos básicos Capítulo 5. Relaciones de estímulo en el condicionamiento pavloviano Capítulo 6. Mecanismos y teorías del condicionamiento pavloviano Capítulo 7. Condicionamiento operante o instrumental Capítulo 8. Programas de reforzamiento Capítulo 9. Teorías del reforzamiento Capítulo 10. Extinción de la conducta condicionada Capítulo 11. Castigo Capítulo 12. Aprendizaje de evitación Capítulo 13. Control de la conducta a través de estímulos Capítulo 14. Mecanismos de la memoria Glosario Sobre el autor Referencias

297

7 11 15 30 44 61 78 98 118 140 159 176 195 211 229 248 268 277 280

Related Documents