Adquisición y extinción de respuestas discretas vs secuencias de respuestas

TitleAdquisición y extinción de respuestas discretas vs secuencias de respuestas
Publication TypeAcademic Article
AuthorsAlonso-Orozco, I, Martínez-Sánchez, H, Bachá-Méndez, G
JournalConductual
Year2014
Volume2
Issue1
Pagination44-56
Date01/04/2014
ISSN2340-0242
LanguageEspañol
Acknowledgements

La primera parte del estudio se realizó con el apoyo de una beca para estudios de maestría otorgada por CONACyT. La preparación final del escrito se terminó con el apoyo del proyecto PAPIIT IN-303811.

Author Address

Ixel Alonso Orozco. Calzada de Guadalupe #120 edificio 1 departamento 303 cp. 14300, colonia Tlalpan,  delegación Tlalpan. Distrito Federal,  Ciudad de México. 

PublisherConductual
Keywordsacquisition, adquisición, behavioral units, extinción, extinction, lever pressing, presionar palanca, ratas, rats, response sequences, secuencias de respuesta, unidades conductuales
Resumen

El estudio evaluó las diferencias en las curvas de adquisición y de extinción en ratas. Los animales fueron entrenados para obtener alimento mediante una respuesta discreta en una palanca o la ejecución de  una secuencia de dos respuestas. Un grupo de cuatro ratas trabajó en un programa de razón fija dos (RF2) y otro grupo de seis animales realizando una secuencia de dos respuestas a dos operandos. Las secuencias tenían una estructura heterogénea (alternar entre los dos operandos, izquierda-derecha o derecha-izquierda) o bien, una estructura homogénea (repetir dos respuestas sobre un operando, izquierda-izquierda o derecha-derecha). En la fase de adquisición, los animales del grupo con secuencias debieron ejecutar una de las cuatro posibles secuencias para obtener el reforzador. En el otro grupo, las ratas obtenían el reforzador trabajando bajo un programa de RF2. Cuando un animal obtenía mil reforzadores, independientemente del grupo al que perteneciera se programó una condición de extinción que se mantuvo durante 20 sesiones. Los resultados mostraron diferencias en las curvas de adquisición entre los grupos. Las curvas de adquisición de los animales que ejecutaron secuencias heterogéneas presentaron una asíntota menor que la ejecución de secuencias homogéneas y de aquellas del grupo RF2. Durante la fase de extinción se observó que para el grupo RF2, la frecuencia de la respuesta llegó a niveles cercanos a cero en menos de 10 sesiones. En esta misma fase, los grupos que ejecutaron algún tipo de secuencias, mantuvieron una frecuencia de 20 secuencias por sesión durante las 20 sesiones que duró esta fase. Un análisis de las secuencias no reforzadas revela algunos efectos de inducción. Los resultados son discutidos en el contexto del uso de una unidad conductual distinta a la operante discreta utilizada de manera tradicional y de las implicaciones de esto en el papel de la unidad conductual elegida.

Abstract

The study evaluated the differences in acquisition and extinction´s curves in rats. A group of four animals was trained to obtain food using a traditional response to a lever on a fixed ratio reinforcement schedule (FR2). Another group of six rats learned to respond to a sequence of two responses using two levers. The sequences had a heterogeneous structure (switching between the two levers left-right or right-left) or a homogeneous (repeating two responses on the same lever left-left or right-right). In the acquisition phase, the subjects in the sequences had to complete one of four possible sequences to obtain a reinforcer. In the other group, reinforcers were delivered on FR2 schedule. When an animal obtained available reinforcers (1000 pellets), regardless of which group they belonged to, the extinction phase was introduced. This phase lasted 20 sessions. Results showed that the acquisition curve in the group of heterogeneous sequences produced a smaller asymptote than the homogeneous sequences group and the FR2 group. During the extinction phase, the frequency of the response in the FR2 group reached near zero levels in less than 10 sessions. In groups working under a sequence (either homogeneous or heterogeneous), the response rate remained at a level close to 20 sequences per session during this phase. An analysis of unreinforced sequences revealed induction effects, which are discussed in the context of using a behavioral unit, different from the traditional operant response. We discuss the results and their implications on the study of the organization of behavior.

Full Text

Cuando Skinner (1935) definió la operante como una relación de triple contingencia entre estímulos, respuestas y consecuencias, definió a la unidad de respuesta como una clase funcional de eventos controlados por estímulos reforzantes. Para facilitar un registro confiable de esta unidad conductual se eligió una respuesta discreta, operacionalmente definida como el cierre de un microswitch, como se observa en las respuestas de presionar una palanca o picar una tecla. Esta unidad de respuesta ha sido utilizada de forma extensa, analizando el cómo se moldea, cómo cambia su frecuencia de ocurrencia, cómo cae bajo el control de diversos estímulos y cómo se comporta bajo programas de reforzamiento y otros arreglos experimentales (Skinner, 1938; Fester & Skinner, 1957). Sin embargo, existe la posibilidad de definir otras unidades conductuales. Zeiler (1977) identificó tres clases de unidades conductuales: (a) unidades formales; (b) unidades condicionables; y, (c) unidades teóricas. El primer tipo de unidad se refiere a la clase de conducta que el experimentador establece como prerrequisito para la presentación del reforzador, es decir, es la definición operacional de la respuesta medida en un experimento. La unidad condicionable es lo que Skinner (1938) definió como operante. Si una conducta es la condición necesaria para la presentación del reforzador y el reforzamiento incrementa la probabilidad de ocurrencia de esa conducta, entonces es una unidad de respuesta condicionable. Finalmente, la unidad teórica se refiere a unidades condicionables que nos ayudan a responder qué papel juega el reforzamiento en la organización de la conducta y a identificar que conducta es fortalecida. Estas unidades son un poco más difíciles de establecer ya que son inferidas como producto de la observación de la conducta más que por la observación directa de ésta. Por ejemplo, Shimp (1979) demostró que es posible definir los Tiempos Entre Respuestas (TERs) como una unidad que obedece a los mismos principios básicos observados con una respuesta dirigida a un operando. 

De la propuesta de Zeiler se desprende entonces que para validar la existencia y utilidad de una unidad teórica es necesario definirla de manera formal y además demostrar empíricamente que es una unidad condicionable.  En el caso de proponer una secuencia de respuestas como la unidad conductual (unidad teórica) se debe entonces definir de manera  formal, precisando operacionalmente el orden de los elementos (por ejemplo, presionar la palanca izquierda y luego la derecha) que será necesario para obtener el reforzador; y de manera posterior mostrar que es una unidad condicionable. Esto último se puede comprobar al observar cambios ordenados en su frecuencia de ocurrencia debidos a cambios concomitantes en las contingencias programadas. Grayson y Wasserman (1979) entrenaron durante 20 días a palomas para que ejecutaran secuencias de dos respuestas a dos teclas.

Durante la primera fase, las palomas tenían que alternar sus respuestas entre dos operandos en un orden particular, es decir, una secuencia heterogénea producía el reforzador. Al término de esta fase se reforzó una secuencia diferente. Para unos sujetos la nueva secuencia continuó siendo heterogénea, mientras que para otros cambió a una secuencia homogénea (responder dos veces consecutivas a un mismo operando) la que producía el reforzador. Los resultados generales mostraron que en cada fase experimental, la secuencia reforzada se ejecutó con la mayor frecuencia si era comparada con las secuencias no reforzadas, las cuales disminuyeron su frecuencia conforme pasaron las sesiones. Otros autores han mostrado que tales secuencias caen bajo el control de estímulos discriminativos (Wasserman, Deich, & Cox, 1983; Reid, Chadwick, Dunham, & Millar, 2001; Reid, Nill, & Getz, 2010). Además, se ha observado que la tasa relativa de la secuencia es igual a igual a la tasa relativa del reforzamiento asignado a ella (Fetterman & Stubbs, 1982; Schneider & Morris, 1992; Schneider 2008; Bachá & Alonso, 2011).

Con la evidencia de que una secuencia de respuestas (como unidad teórica) es definible de manera formal y entonces demostrar de manera empírica que es condicionable, es posible preguntarse si existe alguna ganancia específica en el uso de una secuencia de respuestas en lugar de utilizar una sola respuesta discreta como la de muchos de los estudios en Análisis Experimental de la Conducta. Si al comparar la conducta de los animales ejecutando respuestas discretas versus secuencias, no se encuentran diferencias la decisión debería ser la de utilizar la unidad más simple. Por el contrario, si la comparación resultara en diferencias importantes, entonces el análisis de esas diferencias y su posible explicación justificaría el uso de la nueva unidad. 

Una prueba simple pero importante para realizar esta comparación sería someter a ambas unidades a una fase de adquisición, posteriormente a una de extinción y entonces evaluar las semejanzas y diferencias en los resultados. Existen dos trabajos colateralmente relacionados con esta prueba. Uno es el de Schwartz (1980) y el otro es un estudio realizado por Neuringer, Kornell y Olufs (2001). En ambos trabajos los autores reforzaron no una, sino un grupo de secuencias en una primera fase, y una vez que los sujetos mantuvieron una frecuencia relativamente constante de respuestas introdujeron una fase de extinción. Sin embargo, en ninguno de los dos trabajos se especificó el efecto sobre una secuencia particular y tampoco se realizó una comparación directa con respuestas discretas. El presente trabajo tuvo como objetivo comparar las curvas de adquisición y de extinción generadas por un grupo de animales entrenados para responder en un programa tradicional de RF2 (respuestas discretas) con las curvas de un segundo grupo que aprendió a ejecutar una secuencia de dos respuestas a dos operandos para obtener el reforzador. En este último grupo, además, se registró la frecuencia de las secuencias ejecutadas pero que no fueron reforzadas.

Método

Sujetos

Dieciséis ratas hembras de la cepa Wistar del bioterio de la Universidad de Guadalajara, con tres meses de edad al inicio del experimento y sin experiencia en procedimientos experimentales sirvieron como sujetos experimentales. El bioterio se mantuvo con una temperatura de 21°C +/- 1 y un ciclo de luz/oscuridad de 12:12 horas. Todo el experimento se llevó a cabo bajo la Norma Oficial Mexicana (NOM-062) para el cuidado y uso de los animales de laboratorio. Todos los sujetos se mantuvieron al 85% de su peso ad libitum, dando una porción de alimento al final de cada sesión y manteniendo libre el acceso al agua fuera de las cajas experimentales. Las condiciones experimentales fueron aprobadas por el Comité de Ética del Instituto de Neurociencias.

Aparatos

Se utilizaron dos cámaras experimentales de condicionamiento operante para ratas Lafayette Instrument  Modelo 80003NS. En el panel frontal de las cajas a una altura de 13 cm desde el piso, se encontraban dos palancas con una distancia horizontal entre ellas de 7 cm sobre cada una de las palancas se encontraba un foco de 28 v. En la parte central del panel frontal y situado a una altura de 2 cm entre cada una de las palancas se encontraba una abertura cuadrada de 5.5 cm por lado que funcionó como receptáculo de pellets. Se utilizaron como reforzadores pellets de 45 mg de la compañía Bioserv (Fórmula F). Las cajas estaban conectadas a una interface (ABET modelo 81401 y 81402) y ésta a una computadora. Con un programa elaborado en ABET Software, se controlaron las sesiones experimentales y se registraron las respuestas en tiempo real. Cada cámara se colocó dentro de una caja sono-amortiguadora de 70 x 46 x 50 cm. En el panel posterior de la caja amortiguadora se encontraba un foco de 28 v que funcionó como luz general.

Procedimiento

Se dividió a los sujetos en tres grupos, dos de ellos se integraron con  seis sujetos cada uno y obtenían reforzadores por ejecutar una secuencia, ya sea homogénea (HOM) o una heterogénea (HET). El tercer grupo (RF2) estuvo compuesto por cuatro sujetos que recibieron alimento por responder a una sola palanca en un programa de razón fija 2. Las fases experimentales por las que pasaron los animales se muestran en la Tabla 1.

Entrenamiento de los grupos HOM y HET

En la primera sesión se moldeó la respuesta de presionar la palanca en los 12 sujetos. En las siguientes cuatro sesiones, cada vez que los animales ejecutaban dos respuestas a cualquiera de las palancas, se apagaban las luces sobre las palancas y la luz general, además sonaba un tono durante un segundo y en el comedero se entregaba un pellet de 45-mg (el cual funcionó como reforzador). Con la entrega de cada reforzador se iniciaba un nuevo ensayo. Durante las siguientes ocho sesiones el reforzador fue contingente a la alternación de las respuestas entre las palancas en cualquier dirección ya sea izquierda-derecha (ID) o derecha-izquierda (DI). Al cumplir con cualquiera de las dos combinaciones se apagaban las luces sobre las palancas y la luz general, sonaba un tono durante un segundo y se entregaba el reforzador. Si los animales respondían a las palancas repitiendo dos respuestas sobre alguna de ellas  (por ej., II  o DD) se apagaban las luces sobre las palancas y la luz general durante diez segundos (blackout de 10 s); transcurrido este tiempo se encendían de nuevo las luces iniciándose un nuevo ensayo. Todas las sesiones finalizaron cuando los animales cumplieron con 50 ensayos o bien cuando transcurrieron 30 minutos. Una vez que los sujetos cumplieron con los requisitos del entrenamiento, fueron asignados a uno de dos grupos de seis sujetos cada uno.

Fase I (Adquisición)

En la Fase I a tres ratas del grupo HOM se les reforzó por ejecutar la secuencia homogénea II y a las otras tres la secuencia homogénea DD. A tres ratas del grupo HET se les reforzaron secuencias heterogéneas ID y a las otras tres ratas la secuencia heterogénea DI. Cada vez que las ratas ejecutaban la secuencia de la cual era dependiente el reforzador se oscurecía totalmente la cámara experimental, sonaba un tono durante 1 segundo y simultáneamente se entregaba el reforzador. Al pasar tres segundos se encendían de nuevo las luces iniciando un nuevo ensayo. Si los animales emitían otra secuencia que no era la reforzada había un blackout de 10 s, al término de este tiempo se encendían las luces e iniciaba un nuevo ensayo. El cambio de fase se llevaba a cabo cuando los animales obtenían 1000 reforzadores.

Fase II (Extinción)

Los sujetos de ambos grupos fueron expuestos durante veinte días a condiciones de extinción. En esta fase cada vez que los sujetos ejecutaban dos respuestas a cualquiera de los dos operandos se apagaban las luces durante seis segundos e iniciaba un nuevo ensayo; ninguna combinación de respuestas fue seguida de reforzador. Las sesiones terminaban cuando los sujetos completaban 50 ensayos o cuando transcurrían 30 minutos.

Entrenamiento del Grupo RF2

A todos los sujetos se les moldeó la respuesta de oprimir cualquiera de las dos palancas en un programa de razón fija uno (RF1). Durante los siguientes tres días, cada vez que las ratas respondían a una de las palancas sonaba un tono y se apagaban, las luces sobre las palancas y la luz general, durante dos segundos y en el comedero se entregó un pellet de 45-mg.  Al final de este primer entrenamiento, a dos de los sujetos se les reforzó sólo por responder sobre la palanca izquierda y a los otros dos por responder sobre la palanca derecha durante otros tres días. Las sesiones terminaron cuando transcurrían 30 minutos o cuando los animales  obtenían 30 reforzadores.

Fase I (Adquisición)

En esta fase se utilizó un programa RF2 para la entrega del reforzador y para finalizar la sesión se mantuvieron los criterios de la fase de entrenamiento. Estas condiciones se conservaron hasta que cada animal obtuvo 1000 reforzadores.

Fase II (Extinción)

Una vez cumplido el requisito de la Fase 1, durante 10 sesiones se programó una condición de extinción en la que ninguna respuesta fue seguida de comida. Las luces sobre las palancas y la luz general se mantuvieron encendidas durante toda la sesión. Las sesiones terminaban cuando los animales ejecutaban 100 respuestas o después de transcurridos 30 minutos.

Tabla 1. Diseño experimental: la Fase I concluía cuando los animales obtenían 1000 reforzadores. La Fase II tuvo una duración de 15 días para los grupos HOM y HET y 10 días para los sujetos del grupo RF2.

Grupos

Sujetos

Fase I
Adquisición

Fase II
Extinción

HOM

 

Homogéneas

EXT

3

II

3

DD

HET

 

Heterogéneas

3

ID

3

DI

RF2

 

RF2

2

D

2

I

Resultados

La Figura 1 muestra las curvas de adquisición (columna izquierda) y las curvas de extinción (columna derecha) de la secuencia reforzada (grupos HOM y HET) y de la respuesta al operando reforzado en el grupo RF2. Los datos se muestran en bloques de cinco sesiones. Las gráficas superiores muestran el promedio de los seis sujetos a los que se les reforzó la emisión de secuencias homogéneas. En la adquisición hubo un incremento en la secuencia a partir del segundo bloque llegando a valores cercanos a 50 reforzadores, manteniendo este nivel los tres últimos bloques. En la fase de extinción desde las primeras sesiones hubo un decremento de la frecuencia de la secuencia de 40 respuestas hasta llegar a un nivel de 25 respuestas. Las gráficas intermedias muestran el promedio de los sujetos a los que se les reforzó la ejecución de secuencias heterogéneas. En la fase de adquisición la ejecución incrementó hasta un nivel de 30 respuestas y se mantuvo durante los últimos cuatro bloques. Al introducir la condición de extinción se produjo un decremento de la frecuencia de la secuencia alcanzando un nivel cercano a 20 respuestas manteniéndose durante los 20 días de la fase. Las gráficas inferiores muestran el promedio de los cuatro sujetos que estuvieron bajo un programa de RF2. También hubo un incremento de las respuestas a partir del segundo bloque manteniendo una ejecución óptima durante el resto  de la fase. Al introducir las condiciones de extinción se obtuvo el típico decremento gradual de la respuesta hasta llegar a un nivel cercano a cero.

Figura 1. Promedio y desviación estándar de la frecuencia de la secuencia o de la respuesta reforzada para cada grupo. En la columna de la izquierda se encuentra la fase de adquisición y en la derecha la fase de extinción.

Figura 1. Promedio y desviación estándar de la frecuencia de la secuencia o de la respuesta reforzada para cada grupo.

En la Figura 2 se presentan los datos de cada secuencia en bloques de cinco sesiones para el grupo HOM. Los datos de la secuencia izquierda-izquierda (II) aparecen representados por los cuadros negros, los de la secuencia derecha-derecha (DD) por cuadros blancos, los de la secuencia izquierda-derecha (ID) por círculos blancos, y finalmente los datos de la secuencia heterogénea derecha-izquierda (DI) aparecen con círculos negros. En la columna de la izquierda se encuentran los sujetos a los que se les reforzó la ejecución de la secuencia II y en la columna derecha los sujetos reforzados por la emisión de la secuencia DD. En la parte izquierda de cada una de las gráficas se muestra la fase de adquisición y en la parte derecha la fase de extinción.

Para los seis sujetos la emisión de la secuencia homogénea reforzada incrementó durante el primer y segundo bloque de la fase de adquisición hasta alcanzar un nivel asintótico de 50 respuestas. En esta fase la frecuencia de las otras tres secuencias fueron disminuyendo a partir del primer bloque hasta llegar a tener una frecuencia cercana a cero  hacia el  final de la fase. El criterio de condicionabilidad (obtener 1000 reforzadores), que se estableció para el cambio de fase, se alcanzó para los seis sujetos en un promedio de 24 días. La duración de la sesiones fue en promedio de cuatro minutos para todos los sujetos.

Figura 2. Frecuencia para cada secuencia en bloques de cinco sesiones para los sujetos a los que se les reforzaron secuencias homogéneas. En la columna de la izquierda están cada uno de los sujetos a los que se reforzó la secuencia izquierda-izquierda y en la derecha a los que se reforzó la secuencia derecha-derecha

Figura 2. Frecuencia para cada secuencia en bloques de cinco sesiones para los sujetos a los que se les reforzaron secuencias homogéneas

Al introducir la fase de extinción la frecuencia de la secuencia antes reforzada fue disminuyendo a partir del primer bloque. Sin embargo, esta frecuencia se mantuvo entre 20 y 30 respuestas en promedio a lo largo de la fase. Para todos los sujetos, la ejecución  de las otras tres secuencias incrementó desde un nivel muy cercano a cero durante la primera fase a un promedio de 10 secuencias por sesión. Durante la fase de extinción la duración de la sesión fue de 15 minutos aproximadamente, en general todos los sujetos siempre terminaron la sesión por número de ensayos (50).

Para el grupo HET, la frecuencia promedio de la secuencias se muestra en la Figura 3 en función de bloques de cinco sesiones. La secuencia heterogénea ID aparece representada por círculos blancos, los datos de la secuencia DI aparecen con círculos negros, los datos de la secuencia II por cuadros negros y los cuadros blancos representan a la secuencia DD. En la columna de la izquierda se encuentran los sujetos a los que se les reforzó la ejecución de la secuencia ID y en la columna de la derecha están los sujetos a los que se les reforzó la emisión de la secuencia DI.

Figura 3. Frecuencia de la secuencia en bloques de cinco sesiones para los sujetos a los que se les reforzaron secuencias heterogéneas. En la columna de la izquierda están los sujetos a los que se reforzó la secuencia izquierda-derecha y en la derecha los sujetos a los que se reforzó la secuencia derecha-izquierda

Figura 3. Frecuencia secuencia en bloques de cinco sesiones para los sujetos a los que se les reforzaron secuencias heterogéneas

Al inicio de la fase de adquisición, para cinco de los sujetos la emisión de la frecuencia de las dos secuencias heterogéneas ID y DI fueron similares, oscilando alrededor de 20 respuestas. A partir del segundo bloque la frecuencia de la secuencia heterogénea reforzada incrementó, alcanzando al final de la fase un promedio de 35 secuencias para todos los sujetos salvo el sujeto X13 que sus respuestas fueron 25 en promedio. En general para todos los sujetos la secuencia heterogénea a la cual se le asignó el reforzador se ejecutó con una mayor frecuencia con respecto a la emisión de las secuencias no reforzadas. La frecuencia de la otra secuencia heterogénea fue disminuyendo a lo largo de la fase; para cuatro de los sujetos esta frecuencia disminuyó hasta un promedio de 10 respuestas y para los sujetos X12 y X14, el nivel fue cercano a cero.  La secuencia homogénea formada con la repetición de la respuesta más cercana al reforzador tuvo una frecuencia promedio de 8 secuencias por sesión para cinco de los sujetos (X6, X7, X9, X12 y X14) a lo largo de la fase. La secuencia homogénea compuesta con la repetición de la respuesta más alejada al reforzador se mantuvo en un nivel de dos respuestas por sesión hasta el final de la fase de adquisición.

Figura 4. Promedio de la frecuencia de las secuencias ejecutadas en la fase de extinción para los grupos (HOM y HET).  La gráfica superior muestra los sujetos reforzados por ejecutar homogéneas y la gráfica inferior los sujetos reforzados por realizar secuencias heterogéneas

Figura 4. Promedio de la frecuencia de las secuencias ejecutadas en la fase de extinción para los grupos (HOM y HET)

Al introducir las condiciones de extinción, la frecuencia de la secuencia antes reforzada para los sujetos X6, X7, X9 y X14 disminuyó entre 20 y 30 respuestas y este nivel se sostuvo a lo largo de la fase. Para los sujetos X12 y X13 las secuencias fueron disminuyendo hasta un promedio de cinco respuestas  hacia el final de la fase de extinción. Tanto la emisión de la frecuencia de la secuencia heterogénea no reforzada como de la secuencia homogénea que había sido la más cercana al reforzador se mantuvieron entre 5 y 10 respuestas a lo largo de la fase para los seis sujetos. Finalmente, para todos los sujetos la secuencia homogénea de tener un nivel cercano a cero en la fase de adquisición incrementó su frecuencia desde el primer bloque a un promedio de entre 15 y 20 manteniéndose en este nivel a lo largo de la fase. La duración de la sesiones en la fase de adquisición fue en promedio de ocho minutos para los seis sujetos. Al introducir el procedimiento de extinción el tiempo de la sesión incrementó a 20 minutos.

La Figura 4 muestra el promedio de las secuencias para los grupos HOM y HET durante los 20 días de extinción. La gráfica superior muestra los sujetos a los que se les reforzó por ejecutar alguna secuencia homogénea. Se produjo un decremento en la frecuencia de la secuencia previamente reforzada y un incremento en la frecuencia de las otras secuencias con respecto a la fase de adquisición, la secuencia previamente reforzada mantuvo una frecuencia constante de alrededor de 20 respuestas. La gráfica inferior muestra los sujetos que fueron reforzados por la emisión de secuencias heterogéneas. La ejecución de la secuencia heterogénea previamente reforzada al inicio de la fase de extinción tuvo un decremento de alrededor del 40% manteniendo este nivel de ejecución durante toda la fase. Se observó un incremento de la frecuencia de la secuencia homogénea no asociada con el reforzador.

Discusión

El propósito del trabajo fue comparar la ejecución de las curvas de adquisición y extinción en sujetos entrenados para responder en un programa de RF2, versus sujetos que tuvieron que ejecutar una secuencia homogénea o una secuencia heterogénea. En la fase de adquisición, al cotejar las curvas de los grupos RF2 y HOM no se encontraron diferencias en su desarrollo ni en su asíntota. Esta ausencia de diferencias sugiere que aunque el requerimiento conductual es el mismo, responder dos veces a la misma palanca, no resultó en un comportamiento diferenciable a pesar de haber tenido un entrenamiento disímil para lograr la obtención del reforzador. En contraste, al comparar las mismas curvas entre los grupos de secuencias HOM y HET, se detectó una clara diferencia en su desarrollo y en el valor máximo de las mismas. Esta diferencia se produjo a pesar de que estos dos grupos recibieron el mismo entrenamiento. Por lo tanto, esta discrepancia puede ser atribuida a las características de los elementos que integran estas secuencias. Bachá et al. (2007)  encontraron que la estructura particular de las secuencias influye en la frecuencia máxima y en el número de sesiones necesarias para alcanzar el criterio de su fase de adquisición. Estas diferencias pueden atribuirse al hecho de que durante la fase de adquisición de una secuencia homogénea, es suficiente con discriminar en cuál de los dos operandos hay que responder dos veces para obtener el reforzador; mientras que para secuencias heterogéneas es necesario discriminar en dónde responder primero, y luego responder en la otra palanca.

Durante la fase de extinción, al comparar las curvas del grupo RF2 y del grupo HOM, se encontró una diferencia importante en su desarrollo y su asíntota. Para el grupo RF2 apareció el patrón de extinción reportado regularmente en la literatura (Fester & Skinner, 1957; Reynolds, 1973), consistente en un incremento de la respuesta al inicio de la sesión, durante los primeros días de la fase y un posterior decremento en el número de respuestas hasta niveles cercanos a cero. En el grupo HOM la frecuencia se mantuvo en niveles superiores a 20 secuencias por sesión. Esta frecuencia se mantuvo estable a lo largo de las sesiones y fue consistente para los seis sujetos del grupo. No es claro qué variable es la responsable de este efecto, pero al comparar los resultados del grupo HOM con los del RF2, se podría sugerir que las diferencias existentes durante el entrenamiento inicial, o las condiciones de mantenimiento (señales diferenciales para secuencias reforzadas y no reforzadas) o ambos factores podrían estar jugando un papel en el resultado observado. Es conveniente además, recordar que existió una diferencia de procedimiento en la fase de extinción; mientras que para el grupo RF2, las respuestas no producían ningún cambio en la iluminación de la caja, para los grupos de secuencias HOM y HET, cada dos respuestas (sin importar su combinación) fueron seguidas de un apagón de luces de seis segundos. Aun cuando esta manipulación representa una diferencia sustancial entre los grupos, el hecho de que la frecuencia de la secuencia se mantuviera alrededor del 35% de su frecuencia original por 20 sesiones no es fácil de explicar. De acuerdo con Timberlake (1984), otra posibilidad es que el nivel de respuesta observado se mantenga porque al final de la sesión se alimentó inmediatamente a los animales en su caja habitación. Sin embargo, esto último no podría explicar la diferencia observada entre el grupo RF2 y los grupos HOM y HET, ya que todos los grupos recibieron el alimento de la misma forma.

Por otro lado, si se considera el total de respuestas registradas durante la operación del programa RF, es interesante notar que el promedio de respuestas obtenido durante la fase de extinción, fue muy similar para los tres grupos: 23.3 para el grupo HET; 25.0 para HOM y 22.8 para RF2. Sólo si se considera que cada dos respuestas en el programa RF2 son una unidad, semejante a una secuencia HOM, entonces el promedio para el grupo RF2 sería 11.4 por sesión. Sin embargo, debido a que los valores promedio son influidos por valores extremos, parece más apropiado comparar la forma de las curvas. La pendiente y la asíntota son claramente diferentes entre el grupo RF2 y los grupos HOM y HET. Estas diferencias sugieren que existe un proceso distinto al ejecutar “respuestas discretas” (RF2) en comparación con la ejecución de secuencias de dos respuestas a dos operandos.

El registro de ciertos cambios ordenados en la frecuencia de secuencias que no fueron reforzadas obliga a la consideración de la participación de algún proceso de reforzamiento secundario o de inducción, (Baum, 2012). Un ejemplo de esto, fue la confirmación de lo reportado por Bachá et al. (2007) sobre la frecuencia de ocurrencia de una secuencia homogénea que no es reforzada y que parece depender del reforzamiento de una secuencia heterogénea específica. Por ejemplo, cuando la secuencia reforzada era ID, en el siguiente ensayo frecuentemente ocurrió la secuencia DD, generando así una alta frecuencia de DD sin ser reforzada. Este efecto ha sido atribuido a la contigüidad entre la última respuesta ejecutada y la entrega del reforzador (Grayson & Wasserman, 1979).

El estudio permitió la posibilidad de confirmar y cuantificar el incremento en la variabilidad producida por el cambio a una condición de extinción. En este caso se observó un incremento en la frecuencia de las secuencias que nunca fueron reforzadas. Estos datos concuerdan con los de Neuringer et al. (2001) quienes utilizando seis ratas y reforzando secuencias de tres respuestas a tres operandos en la fase de adquisición, reportaron un cambio en la frecuencia de las secuencias no reforzadas al introducir condiciones de extinción.

Por último, como un dato novedoso, se encontró que después de reforzar la ejecución de una de las secuencias heterogéneas, fue posible observar durante la fase de extinción un inusual incremento en la frecuencia de la secuencia homogénea cuya ejecución se había mantenido con niveles cercanos a cero durante la primera fase.  Esta frecuencia se mantuvo constante durante los 20 días para todos los sujetos. Hasta el momento no se ha encontrado en la literatura un efecto como el que aquí se reporta. Una posible explicación podría surgir del proceso de decisión que han propuesto Bachá et al. (2007). En cada ensayo, el animal enfrenta dos momentos o puntos de decisión, el primero ocurre al realizar la respuesta que inicia la secuencia: o se presiona la palanca izquierda o la derecha. En el  segundo momento se decide si se repite o se cambia de palanca. Si cada punto de decisión ofrece información, entonces durante la fase de extinción después de haber sido reforzada la secuencia ID, cuando el animal responde a la palanca izquierda en el primer punto de decisión, enfrenta en el segundo punto la siguiente situación: si responde a la palanca derecha (como en la fase con reforzamiento) el resultado, una y otra vez será no reforzamiento; por lo tanto es más probable que varíe su respuesta y entonces se obtenga un incremento en la frecuencia de la secuencia izquierda- izquierda.

Finalmente, es posible concluir que los resultados sugieren que aunque los principios básicos operan de manera muy similar para respuestas discretas (representadas por las respuestas en un RF2) y para secuencias de dos respuestas a dos operandos, se detectaron claras diferencias que parecen depender de la composición de la secuencia, esto es, del uso de una unidad conductual diferente. Siguiendo el argumento de Zeiler, se propuso una secuencia de respuestas (teórica) como una unidad diferente, después se definió formalmente, es decir operacionalmente y se demostró su condicionabilidad, con lo que se avala su validez como unidad conductual. Además se reportan aquí algunos resultados que parecen particulares del uso de secuencias. Por ejemplo, se mostró que el reforzador dependiente de la secuencia apropiada tiene un efecto extendido sobre las secuencias que no son reforzadas. Este efecto fue evidente durante la extinción en donde las secuencias no reforzadas incrementaron su frecuencia. La observación de este efecto es el resultado del registro de la emisión de todas las secuencias ejecutadas por el sujeto. No disponemos aún de una interpretación sobre el proceso operante involucrado en el establecimiento de las diferencias encontradas. Seguramente la replicación de estos resultados podrían sentar las bases empíricas para identificar las variables y su función contribuyendo a la elaboración de una interpretación de la ejecución de secuencias en términos de la unidad conductual apropiada.

Referencias

Bachá, G., Reid, A., y Mendoza, A. (2007), Resurgence of integrated behavioral units. Journal of the  Experimental Analysis of Behavior. 87, 5-24.

Bachá G. & Alonso I. (2011). Reforzamiento concurrente de secuencias de respuestas. Acta Psicológica. 1, 1, 108-120.

Baum, W. (2012). Rethinking reinforcement: allocation, induction, and contingency. Journal of  the Experimental Analysis of Behavior, 97, 101-124.

Fester, C. & Skinner, B. F. (1957). Schedules of reinforcement. New York: Appleton-Century-Crofts.

Fetterman, G. & Stubbs, A. (1982). Matching, maximizing ant the behavioral unit: Concurrent reinforcement of response sequences. Journal of the Experimental Analysis of Behavior, 37, 97-114.

Grayson, R. J., & Wasserman, E. A. (1979). Conditioning of two-response patterns of key pecking in pigeons. Journal of the Experimental Analysis of Behavior, 31, 1, 23-29.

Neuringer, A., Kornell, N. & Olufs M. (2001). Stability and variability in extinction. Journal of Experimental Psychology: Animal Behavior Processes, 27, 79-49.

Reid, A. K., Chadwick, C. Z., Dunham, M., & Miller, A. (2001). The development of functional response units: The role of demarcating stimuli. Journal of the Experimental Analysis of Behavior, 76, 303-320.

Reid, A. K., Nill, C. A., & Getz, B. R. (2010). Changes in stimulus control during guided skill learning in rats. Behavioural Processes, 84, 511-515.

Reynolds, G. S. (1973). Compendio de condicionamiento operante. México. Editorial Ciencias de la Conducta.

S. A. Schneider, S. (2008). A two-stage model for concurrent sequences. Behavioral Processes, 78, 429-441.

Schneider, S. M., & Morris, E. K. (1992). Sequences of spaced responses: Behavioral units and the role of contiguity. Journal of the Experimental Analysis of Behavior, 58, 537-555.

Schwartz, B. (1980). Development of complex, stereotype behavior in pigeons. Journal of the Experimental Analysis of Behavior, 33, 153-166.

Shimp, C. P. (1979). The local organization of behaviour: Method and theory. En M. D. Zeiler & P. Harzem. (Eds.), Advances in analysis of behavior: Vol. 1. Reinforcement and the organization of behavior  (pp. 261–298). New York: Wiley.

Skinner, B. F. (1935). The generic nature of the concepts of stimulus and response. Journal of general psychology. 12, 40-65.

Skinner, B.F. (1938). Behavior of organisms: An experimental analysis. New York: Appleton-Century.

Timberlake, W. (1984). A temporal limit on the effect of future food on concurrent performance in an analogue of foraging and welfare. Journal of the Experimental Analysis of Behavior, 41, 117-124.

Wasserman, E. A., Deich, J. D., & Cox, K. E. (1983). The learning and memory of response sequences. In M. L. Commons, R. J. Herrnstein, & A. R. Wagner (Eds.), Quantitative analyses of behavior: Vol. IV, Discrimination processes. (pp. 99-113) New York: Ballinger..

 Zeiler, M. D. (1977). Schedules of reinforcement. En W. K. Honig & J. E. R. Staddon (Eds.), Handbook of operant behavior.  (pp. 201-232). Englewood Cliffs, NJ: Prentice-Hall.

Journal keywords: 
Undefined

Add new comment

Plain text

  • No HTML tags allowed.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Lines and paragraphs break automatically.
By submitting this form, you accept the Mollom privacy policy.