Aprendizaje y control temporal: la adaptación a regularidades temporales del ambiente

TitleAprendizaje y control temporal: la adaptación a regularidades temporales del ambiente
Publication TypeAcademic Article
Short TitleLa adaptación a regularidades temporales del ambiente
AuthorsLópez-Rodríguez, F, Menez-Díaz, M, Gallardo-Pineda, S
JournalConductual
Year2014
Volume2
Issue2
Pagination26-38
Date01/08/2014
ISSN2340-0242
LanguageEspañol
Acknowledgements

Trabajo financiado por DGAPA, UNAM PAPIIT-IN304211 y DGAPA, UNAM PAPIIT-RN305412

Author Address

División de Investigación y Posgrado. Facultad de Psicología. Universidad Nacional Autónoma de México

PublisherConductual
Keywordsacquisition, adquisición, control temporal, curva de aprendizaje, learning curve, patrón de respuesta, response pattern, temporal control
Resumen

Los programas periódicos de reforzamiento generan regularidades en la distribución de la conducta. Estas regularidades se manifiestan conforme la experiencia en tales programas incrementa hasta concluir con lo que conocemos como control temporal de la conducta. En este escrito se ensaya la descripción cuantitativa de la forma como se alcanza tal control en función de las sesiones. Dicha descripción requiere obtener una medida sensible a los cambios y aquí presentamos una evaluación de dos indicadores: el punto de transición y la vida cuartilar. Finalmente, para ilustrar contribuciones específicas de la descripción cuantitativa aplicamos tres funciones de crecimiento a datos de vida cuartilar obtenidos para cada sesión, a fin de obtener una curva de aprendizaje temporal. Discutimos los tratamientos anteriores considerando la diferencia entre estimación y control temporal, y su significado para el estudio de la adaptación conductual a las regularidades del ambiente.

Abstract

Periodic reinforcement generates regularity in the distribution of behavior. These regularities appear as experience while the periodic schedule increases and animals eventually display the so called temporal control of behavior. We present an exercise on the quantitative description of the acquisition of temporal control as a function of sessions. Because such description requires a measure sensible to changes in the distribution, an evaluation is presented by applying two indexes: the change point and the quarter life. Finally, to illustrate possible contributions of the quantitative description, three growth functions were fitted to the latter index as a function of sessions in order to obtain a temporal learning curve. These treatments are discussed considering a difference between timing and temporal control and its significance for the analysis of behavioral adaptation to environmental regularities.

Full Text

Una manera de concebir los programas de reforzamiento es como una forma de investigar la adaptación conductual a regularidades del ambiente. Por ejemplo, en un programa de intervalo fijo (IF) una rata recibe un reforzador siempre y cuando se cumplan dos requisitos: que haya transcurrido un tiempo fijo desde un indicador y que responda presionando una palanca. Esta regularidad o regla ambiental se sostiene hasta observar que la rata responde regularmente o después de un número considerable de sesiones. Esta manera de proceder ha resultado productiva para identificar relaciones funcionales entre conducta y reforzamiento y generar teorías exitosas que explican el comportamiento observado. El patrón temporal de conducta observado en diferentes especies sometidas a programas IF es notablemente regular: una pausa después del reforzador seguida por una tasa de respuesta positivamente acelerada o constante hasta el siguiente reforzador. Este patrón de respuesta se considera como manifestación del control temporal de la conducta que resulta de la regularidad temporal con que se entrega el reforzador.

Desde que Ferster y Skinner (1957) describieron dicho patrón, se propusieron diversas hipótesis para explicarlo (véase, por ejemplo, Dews, 1970). En la actualidad tienden a prevalecer variantes de los dos modelos de estimación temporal más reconocidos: la teoría conductual (Killeen & Fetterman, 1988) y la teoría escalar (Gibbon, 1977). Éstos se basan principalmente en el principio de la invariancia de la escala temporal que se refiere al traslape de los gradientes temporales, en estado estable, cuando el tiempo se representa escalado en unidades relativas. En otras palabras, si se registra el patrón de respuesta ante intervalos de distintas duraciones y los gradientes de respuesta se grafican en una sola escala normalizada (igualando el valor del intervalo a 1.0), los diversos gradientes se traslapan. Ambas teorías, la escalar y la conductual, predicen el principio de la invariancia pero desde distintas perspectivas. La primera asume que los intervalos entre reforzadores previamente experimentados por los sujetos son tomados como base para los juicios temporales respecto al tiempo transcurrido en el ciclo vigente. La comparación entre ambos, los experimentados y los vigentes, determina la respuesta cuando se traspone un umbral de comparación. La segunda asume que al ocurrir el reforzador, un generador de pulsos provoca una serie de estados de conducta en una secuencia fija. Cuando la respuesta es seguida por un reforzador, se asocia con el estado vigente que entonces adquiere valor discriminativo.

En los programas de IF resulta muy difícil determinar cuál de estas posibilidades describe mejor el comportamiento en estado estable, puesto que las predicciones son prácticamente idénticas. Sin embargo, se puede inferir que difieren en la forma de adquisición del control temporal. En la teoría escalar la determinación de la respuesta depende básicamente de un proceso psicofísico y se puede suponer que la estimación ocurre rápidamente. En consecuencia, la transición hacia la regulación de la conducta por el tiempo sería muy rápida. En la teoría conductual la determinación de la conducta depende de un proceso asociativo y, por lo tanto, la transición hacia la regulación de la conducta por el tiempo sería gradual. Resultaría interesante, entonces, evaluar el curso de adquisición del control temporal de la conducta a lo largo del entrenamiento. Tan simple como parece esta tarea, no lo es. Por un lado, la evidencia es realmente escasa. Por otro, varias dificultades metodológicas tienen que superarse, sobresaliendo la de obtener mediciones sensibles y significativas para representar el curso o trayectoria del control temporal. Un objetivo del presente ensayo es precisamente ilustrar estas dificultades y considerar una forma de describir dicha trayectoria y las decisiones que implica. Otro objetivo, se relaciona con precisar una diferencia entre estimación temporal y control temporal. Desde luego, estos conceptos están relacionados, pero el primero se refiere más a la relación psicofísica entre tiempo real y tiempo subjetivo. El segundo, control temporal de la conducta, se relaciona más con la organización de la conducta y procesos que se generan ante regularidades temporales del ambiente.

En un escrito previo, se analizaron y desarrollaron algunos argumentos que ayudarían a orientar el trabajo de integración teórica del estudio del aprendizaje temporal como proceso (adquisición) y como producto (estado estable o ejecución terminal; López, 2012). Se propone que el curso de dicho aprendizaje puede ser abordado cuantitativamente de manera semejante a como se ha hecho en el área del aprendizaje de tareas como una función de la práctica (Ritter & Schooler, 2002). Es decir, mediante el ensayo del ajuste de funciones de crecimiento a las curvas típicas de ganancias decrecientes observadas durante la ejecución de tareas temporales. Conviene notar que en el aprendizaje de tareas existe un indicador de la destreza esperada, por ejemplo, leer un texto invertido. A pesar de que en los programas IF la destreza esperada no es clara, el enfoque puede aplicarse a este programa porque, por un lado, el programa IF puede considerarse como una tarea temporal que tiene una ejecución terminal conocida y, por consiguiente, esperada al enfrentar estas reglas temporales. Por otro lado, existe una semejanza entre las funciones que describen la relación entre la experiencia y la ejecución en ambos tipos de aprendizaje, el temporal y el de tareas.

La cuestión es, entonces, cómo representar cuantitativamente la ejecución terminal y cómo describir cuantitativamente los cambios que ocurren a lo largo del entrenamiento. En la primera parte de este ensayo, presentamos un indicador sensible a las propiedades moleculares del patrón de respuestas, en la segunda un indicador molar y, en la tercera, intentos de descripción del curso del patrón de respuesta con este último indicador.

La descripción del patrón temporal

Decidir el grado de detalle con que se registran los cambios de comportamiento conlleva tomar decisiones con base teórica y estadística. La primera cuestión implica considerar la forma en que se concibe el aprendizaje y la segunda la fidelidad de la representación cuantitativa. En una discusión sobre la curva de aprendizaje observada en condicionamiento clásico, Gallistel, Fairhurst, y Balsam (2004) abordan ambas cuestiones y sugieren que el análisis cuantitativo debe representar los cambios observados en cada ensayo, puesto que los promedios sobre grupo o sesión pueden ocultar o no representar lo que efectivamente está ocurriendo. En el caso particular de los programas de IF la representación más común es el gradiente temporal de respuesta (registro acumulado), promediado sobre varias sesiones. Este gradiente tiene la forma de una curva creciente, positivamente acelerada, conocida como festoneo. Desde tiempo atrás se conocen las dificultades con esta representación y se han propuesto formas opcionales de análisis (v. gr. Schneider, 1969). La pregunta general es: ¿cuál es la mejor forma de representar los patrones individuales en cada ciclo de reforzamiento?

Una medición molecular: El punto de transición

Gallistel et al. (2004) cuestionan la representatividad de las curvas de aprendizaje, crecientes y negativamente aceleradas, en distintos paradigmas de condicionamiento (automoldeamiento, condicionamiento del reflejo palpebral o ejecución en el laberinto), indicando que podrían ser resultado de un artefacto del promediar patrones de respuesta todo/nada individuales, pues el promedio puede hacer que las transiciones rápidas parezcan graduales (Gallistel et al., 2004, p.13124). Esto es inapropiado, sostienen, porque al buscar una manera de cuantificar la adquisición de la respuesta (clásicamente condicionada, en su caso) se busca conocer, al menos, estas tres cuestiones: 1) cuánto tiempo le toma aparecer; 2) cuál es su nivel asintótico; y, 3) qué tan abruptamente lo alcanza. Proponen el punto de transición (PT) como una medida verídica del cambio. Esta medida se basa en el registro de respuestas acumulado en el que los cambios en la conducta se manifiestan en cambios visibles en la pendiente del mismo. El algoritmo desarrollado por Gallistel y cols., localiza estos puntos de transición mediante recursión, en cuatro etapas: en la primera, identifica puntos de transición putativos trazando una línea recta entre el inicio del registro acumulado y el último punto. Localiza el primer punto que más se desvíe de la línea recta. En la segunda etapa, calcula el logit (logaritmo de las posibilidades u odds, contra la hipótesis nula de no transición). En la tercera etapa, localiza el primer punto de cambio cuya evidencia excede un criterio especificado por el usuario y ahí trunca los datos. En la cuarta etapa, se reanuda el ciclo, tomando esta vez como origen el punto de transición previamente localizado y el primer dato después de éste como la primera observación (ver Figura 1). Así, la conducta se puede representar como una secuencia de niveles de ejecución. Cada nivel representa la pendiente del registro acumulado entre dos puntos de transición sucesivos. El número de niveles depende del criterio establecido en la tercera etapa: entre más bajo este criterio, más sensible resulta el algoritmo.

Figura 1. Ejemplo del cálculo del punto de transición, para un ciclo de un animal sometido a un programa IF 30 s. La línea punteada azul indica la desviación máxima que señala el primer punto de transición putativo. La línea punteada roja indica la desviación máxima que señala el segundo punto de transición putativo. En el texto se detalla cómo se decide su identificación (Adaptado de Gallistel, et al, 2004; p. 13126).

Figura 1. Ejemplo del cálculo del punto de transición, para un ciclo de un animal sometido a un programa IF 30 s

La técnica anterior se puede aplicar para detectar los cambios en el patrón de respuesta en ciclos individuales de los programas de IF, dado el significado que tiene el tiempo que tarda el animal en responder y qué tan abrupto es el cambio a un estado estable de respuesta, que son las cuestiones antes presentadas. Para ilustrar este procedimiento, enseguida se muestran los resultados de la aplicación del algoritmo para la localización del punto de transición a datos de casos seleccionados de un experimento en el que se manipuló la historia previa a la introducción de un programa de intervalo fijo (para detalles, ver López y Menez, 2005). Las ratas recibieron un reforzador (una mezcla de leche condensada diluida en agua) por la primera respuesta después del tiempo especificado y este ciclo se reiniciaba hasta completar 46 ciclos por sesión, durante 30 sesiones. Se registró el tiempo de ocurrencia de todas y cada una de las respuestas de presionar la palanca y éste fue el dato básico para proceder a aplicar el algoritmo de localización de los puntos de transición. El criterio utilizado para su localización fue 2 (esto es, el logaritmo de las 100 a 1 oportunidades en contra de la hipótesis nula de no transición), el cual está considerado como un criterio sensible (Gallistel et al, 2004, p. 13126). En la Figura 2, se muestran los puntos de transición (PT) para cada ciclo de la primera sesión en IF (panel izquierdo de la gráfica) y la última (panel derecho de la gráfica), para un sujeto de la condición con historia estándar (CRF).

 Los círculos llenos indican los PT con valores entre 30 y 31 s, asociados al fin del intervalo, que no pueden considerarse propiamente como puntos de transición. Los círculos vacíos, con valor menor a 30 s, son los que efectivamente representan una transición: el momento en que la tasa de respuesta pasa de ser baja a alta. En las gráficas también es posible observar PT superiores a 30 s. Cuando el valor es superior a 30 s (90 s, por ejemplo), indica que el animal tardó mucho tiempo en dar una respuesta o que inició con un tren de respuestas que finalizó mucho antes de alcanzar los 30 s, seguido por una única respuesta emitida hasta mucho más tarde de los 30 s.

Figura 2. Puntos de transición, ciclo por ciclo, para la primera y última sesiones en la condición IF 30 s, en una rata después de recibir entrenamiento de reforzamiento continuo (CRF). Ver detalles en el texto.

Figura 2. Puntos de transición, ciclo por ciclo, para la primera y última sesiones en la condición IF 30 s, en una rata después de recibir entrenamiento de reforzamiento continuo (CRF)

Figura 3. Puntos de transición, ciclo por ciclo, para la primera y última sesión en la condición IF 30 s, después de haber experimentado un programa de tiempo fijo (TF). Ver detalles en el texto.

Figura 3. Puntos de transición, ciclo por ciclo, para la primera y última sesión en la condición IF 30 s, después de haber experimentado un programa de tiempo fijo (TF)

En la Figura 3 se muestran los puntos de transición para la primera sesión en IF (panel izquierdo de la gráfica) y la última (panel derecho de la gráfica), para una rata después de recibir entrenamiento en un Tiempo Fijo 30 s.

Comparando los puntos de transición, localizados durante la primera sesión en IF 30s, entre las condiciones de entrenamiento estándar CRF (Figura 2) y entrenamiento en TF (Figura 3), se puede ver que sus magnitudes variaron mucho más en el IF después de la primera que de la segunda condición. En general, en ambos casos hubo pocos puntos de transición efectivos, aquellos que representan un cambio antes de que concluya el intervalo programado, pero se observa una mayor frecuencia en el IF después de la condición CRF que de la condición TF.

Para la última sesión (sesión 30), los puntos de transición reflejan un patrón más estable y claro: para la condición de entrenamiento en CRF, se observan transiciones efectivas alrededor del segundo 15. Este valor concuerda con el momento del cambio pausa/carrera generalmente reportado, a saber, alrededor de la mitad del intervalo (Catania, 1970; Schneider, 1969). En la condición de TF 30 s, se puede observar que los valores del punto de transición efectivo se encuentran aún más cercanos al valor de 30 s o valor del IF.

El análisis de los registros acumulados, ciclo por ciclo, sesión por sesión y sujeto por sujeto, dan una idea del tipo de ejecuciones que originaron estos patrones de los PT. En las figuras 4 y 5 se presentan ejemplos de los registros acumulados de dos sujetos en la primera (renglones 1 y 2) y última (renglones 3 y 4) sesiones, con los valores de transición indicados (círculos vacíos, columna izquierda) y la dirección de la transición (columna derecha). Se analizan primero las gráficas en la parte izquierda de la figura, que corresponden a los registros acumulados de respuesta con sus puntos de transición y después las gráficas de la derecha, que muestran la dirección de la transición: los cambios escalonados abajo-arriba indican aumentos en la tasa de respuesta, mientras que los cambios escalonados arriba-abajo indican decrementos.

Los patrones predominantes fueron los siguientes:

Tasa constante. El animal empieza a responder al inicio del intervalo y mantiene una tasa relativamente constante hasta la entrega del reforzador (primera hilera, primera columna; Figuras 4 y 5).

Pausa-carrera-pausa. Después de una breve pausa, se presenta un tren de respuestas y una nueva pausa hasta conseguir el reforzador (segunda hilera, primera columna; Figuras 4 y 5).

Pausa-Carrera. Después de una pausa inicia una tasa constante hasta la entrega del reforzador (tercera hilera, primera columna; Figuras 4 y 5)

Cambios Múltiples. En los que el animal hace transiciones múltiples de tasas bajas a altas a lo largo del intervalo (cuarta hilera, primera columna; Figuras 4 y 5).

En un análisis exhaustivo de varios casos se pudo observar que los patrones predominantes en la primera sesión fueron los de tasa constante y pausa-carrera-pausa. Desde luego también ocurrió un buen número de intervalos en los que se emitió una sola respuesta, la reforzada. Las últimas sesiones se caracterizaron por una gran mayoría de ejecuciones de tipo pausa-carrera y cambios múltiples. Para complementar la idea de estos patrones, se puede observar que las gráficas de la derecha de ambas figuras muestran transiciones hacia tasas más altas (desplazamiento hacia arriba) o hacia tasas más bajas (desplazamiento hacia abajo)

Figura 4. Ejemplo de registro acumulado de un sujeto durante la primera y última sesión en la condición CRF. Las gráficas de la izquierda corresponden a los registros acumulados. Los círculos vacíos indican el PT detectado por el algoritmo. Las gráficas de la derecha muestran la tasa de eventos y la dirección de la transición.

Figura 4. Ejemplo de registro acumulado de un sujeto durante la primera y última sesión en la condición CRF

Figura 5. Ejemplo de registro acumulado durante la primera y última sesión en CRF para el sujeto 2 en esta condición. Las gráficas de la izquierda corresponden a los registros acumulados. Los círculos vacíos indican el PT detectado por el algoritmo. Las gráficas de la derecha muestran la tasa de eventos y la dirección de la transición.

Figura 5. Ejemplo de registro acumulado durante la primera y última sesión en CRF para el sujeto 2 en esta condición.

Estos resultados, en conjunto, sugieren que el PT puede ser un buen indicador del patrón temporal de la conducta en las últimas sesiones, una vez que éste se ha estabilizado. Sin embargo, no parece ser un indicador tan útil en las primeras sesiones. Esto no es inesperado porque durante esa etapa del aprendizaje, el animal aún no ha discriminado la regla de reforzamiento y, por consiguiente, se genera una mayor variabilidad en el comportamiento. La cuestión es, entonces, identificar una medición sensible a ese aprendizaje de discriminación temporal a lo largo de las sesiones. La conclusión más general que obtuvimos es que el desplazamiento gradual de la conducta hacia el segundo período del intervalo entre reforzadores, a medida que transcurren las sesiones, es la característica que refleja de manera más precisa cómo se va estableciendo (aprendiendo) esta discriminación del tiempo. En consecuencia, enseguida analizamos esta posibilidad.

Una medición de la distribución: La vida cuartilar

Para representar el curso del control temporal inicialmente ensayamos los puntos de transición por ensayo. Sin embargo, en este nivel de análisis se presentaron varias dificultades, siendo la principal que, en las primeras sesiones, se observan varios puntos de transición en una buena proporción de los ensayos. Además, los puntos de transición obtenidos no necesariamente indicaban una transición de tasas de respuesta bajas a altas sino también cuando ocurría lo opuesto. Esto se puede entender mejor si se observa lo que ocurre en algunos ensayos de la primera sesión en las Figuras 4 y 5. El gradiente temporal es decreciente y negativamente acelerado (mejor descrito como curva de extinción; Figuras 4 y 5, segunda hilera). En estas condiciones se pueden obtener varios puntos de transición de tasas altas a bajas. La dificultad entonces es que no existe una dimensión única en la que se puedan describir los cambios.

Una manera distinta de razonar sobre los cambios en el patrón de respuesta en función de la experiencia es el curso que sigue el desplazamiento de las respuestas hacia la parte final del intervalo. En la Figura 6 se ejemplifican esos cambios en la respuesta en función de la experiencia: se puede observar el gradiente de respuestas por sesión conforme transcurren las sesiones.

Figura 6. Tasa de respuesta a lo largo del intervalo entre reforzadores, para sesiones alternadas de la primera la 19.

Figura 6. Tasa de respuesta a lo largo del intervalo entre reforzadores, para sesiones alternadas de la primera la 19.

Como se puede ver, en la primera sesión la conducta se distribuye de manera homogénea a lo largo del intervalo, mientras que en la última sesión la mayor parte de la conducta se desplaza hacia la segunda mitad del intervalo. El cambio en la distribución de la conducta de la primera a la sesión 19 parece ocurrir de manera gradual.

 

Una medida tradicional que permite cuantificar este cambio gradual de la conducta es la Vida Cuartilar (véase Dukich & Lee, 1973 y Guilhardi & Church, 2004 para una discusión de mediciones del patrón temporal en programas IF). Este índice se obtiene determinando el tiempo que toma al animal el emitir un cuarto del total de respuestas en un ciclo. Desde luego, esta determinación no tiene sentido cuando el número de respuestas es muy pequeño, sobre todo cuando es menor de cuatro. Como en las sesiones iniciales, en particular la primera, lo anterior ocurre con frecuencia, se prefiere tener una medición acumulada sobre bloques de varios ciclos o sobre sesión. Como se puede verificar en la Tabla 1, los valores de la vida cuartilar (VC) obtenidos para las sesiones mostradas en la Figura 6 capturan este desplazamiento ordenado de las respuestas hacia la segunda mitad del intervalo.

Tabla 1. Vida cuartilar obtenida para sesiones alternadas de una rata sometida a un programa IF 90 s. El valor representa la mediana de los valores observados en cada uno de los 45 ciclos de reforzamiento que componían la sesión.

SESIÓN

Vida Cuartilar

1

17.87

3

25.27

5

27.03

7

42.3

9

53.1

11

61.67

13

56.23

15

57.66

17

54.73

19

60.09

 

En varios análisis detallados del tipo anterior (López, 2012; López & Menez, 2012) encontramos que la VC tiene un buen comportamiento a nivel de sesión y es sensible a los cambios en la asignación de la conducta en dos estados: uno con muy pocas o ninguna respuesta y otro con una tasa alta de respuestas. En consecuencia, concluimos que la VC es un buen indicador del control temporal de la conducta, por lo que la siguiente tarea consistió en describir cuantitativamente su curso a lo largo de las sesiones.

La descripción cuantitativa

Una vez que se ha tomado la decisión respecto al indicador de control temporal y la base que se va a utilizar, se puede describir la trayectoria y observar la congruencia con los modelos aquí considerados. Machado y Cevik (1998) realizaron un ensayo de esta naturaleza con una extensión del modelo conductual. Su análisis consideró algunas predicciones del modelo, pero no derivó la trayectoria de adquisición del control temporal. De hecho, no hay una formulación explícita respecto a la función que sigue dicha trayectoria. Un ejercicio importante podría ser la identificación de la función que mejor describa los datos de adquisición. La principal importancia de lo anterior es descriptiva pues, en la medida en que se encuentre una función que tenga capacidad descriptiva con cierta generalidad, se podrá utilizar para determinar qué propiedades de la función son afectadas por manipulaciones de interés. Una segunda consecuencia es de naturaleza teórica, en cuanto propicia la interpretación teórica de los parámetros de ajuste.

Una vieja noción en Psicología es que la tasa de aprendizaje disminuye sistemáticamente con el estudio o con la práctica. Este comportamiento general también se observa en los cambios que sufre la VC conforme transcurren las sesiones. La disminución de la tasa de aprendizaje significa que se requiere cada vez más práctica, conforme avanza el entrenamiento, para obtener la misma ganancia. Como ya se mencionó, estos rendimientos decrecientes con la práctica resultan en curvas de aprendizaje que son funciones negativamente aceleradas. Existen tres funciones que describen razonablemente las curvas de aprendizaje en diversas tareas: la exponencial, la hiperbólica y la sigmoidea. La importancia que tiene determinar cuál es la función que mejor describe los datos es obtener información sobre los procesos que subyacen al aprendizaje (véase, por ejemplo, Mazur & Hastie, 1978). Con un interés similar al de estos autores comparamos la bondad del ajuste de estas tres funciones a datos generados en varios experimentos realizados en nuestro laboratorio. En la Figura 7 se presentan algunos ejemplos del ejercicio anterior. Como medición del control temporal se obtuvo la mediana de la vida cuartilar en cada una de las primeras 20 sesiones de tres ratas sometidas a un programa IF 90 s. Las líneas continuas representan el mejor ajuste de las funciones exponencial, hiperbólica y sigmoidea de tres parámetros, respectivamente.

Figura 7. Se presenta la mediana de la vida cuartilar (círculos blancos) obtenida en cada una de las primeras 20 sesiones en IF 90 s. Las líneas continuas representan las curvas de mejor ajuste según la función exponencial, la hiperbólica y la sigmoidea de tres parámetros. En la parte inferior derecha se anota la varianza explicada en cada caso.

Figura 7. Se presenta la mediana de la vida cuartilar (círculos blancos) obtenida en cada una de las primeras 20 sesiones en IF 90 s.

Aquí estamos interesados únicamente en la adecuación de la forma de la función y no tanto en el significado de los parámetros de ajuste. En estos términos, parece claro que es la función sigmoidea la que muestra un mejor comportamiento, tanto visualmente como en cuanto a la varianza explicada. Esta situación resulta interesante porque contrasta con los hallazgos más generales y favorables a las funciones exponencial e hiperbólica. En la revisión antes citada, realizada por Mazur y Hastie (1978), los autores llegan a la conclusión de que, de hecho, la función hiperbólica es superior a la exponencial. La importancia de esta conclusión, anotan los autores, es que el aprendizaje puede verse más como un proceso de acumulación (como lo sugiere la primera) que de sustitución (como lo sugiere la segunda). La función sigmoidea no fue considerada en la revisión porque no existía evidencia de su aplicación a estos casos y porque representa un curso un tanto más complejo: mientras que las funciones exponencial e hiperbólica representan un crecimiento monótono en una sola fase, la logística lo hace en dos fases. Desafortunadamente el interés por las curvas de aprendizaje decayó en la investigación sobre teorías del aprendizaje, en particular en aprendizaje instrumental. La idea general que sugiere la ecuación sigmoidea es la presencia de dos etapas. En la primera, que surge al iniciar la tarea de aprendizaje, el ritmo de aprendizaje asume un patrón positivamente acelerado pero en algún momento, en el punto de inflexión, éste cambia a otro negativamente acelerado. Este patrón de cambio resulta incongruente con los modelos de acumulación y sustitución antes comentados. En su lugar ofrecen un panorama un tanto más complicado. Una posibilidad es que implique dos etapas de aprendizaje, la primera asociada al reconocimiento de los elementos pertinentes a la tarea y la segunda a la discriminación de las reglas de entrega del reforzador. En esta etapa de análisis resulta poco apropiado desarrollar estas especulaciones, aunque debe señalarse que han sido motivo de discusión en el contexto de aprendizaje de tareas (ver, por ejemplo, Leibowitz, Baum, Enden & Karniel, 2010). No obstante, el mensaje que se obtiene de este estado de cosas es claro: Si bien el interés por identificar cuantitativamente el curso del aprendizaje es una tarea principalmente descriptiva, sus implicaciones teóricas son fundamentales tanto en la comprensión del o los procesos subyacentes como en cuanto a brindar una descripción que debería ser congruente con los modelos existentes.

Conclusiones

En este ensayo propusimos que la descripción cuantitativa del proceso de aprendizaje temporal puede ser una tarea importante para el estudio del control temporal de la conducta. Distinguimos entre estimación y control temporal porque, mientras el primero tiene un mayor interés en la comprensión psicofísica del fenómeno, el segundo tiene mayor interés en la comprensión de la adaptación a reglas temporales. Si bien las propuestas en uno y otro sentido no pueden ser incongruentes, es evidente que las regularidades empíricas resumidas en la propiedad escalar, reflejan el estado estable observado en los programas IF, pero que el complemento conductual se orienta al curso de adaptación del organismo a las regularidades temporales del ambiente. Estas regularidades son sólo una parte del total de posibles relaciones entre conducta, medio y consecuencias y el aprendizaje temporal ocurre en esta compleja mezcla en que la regularidad temporal del reforzador finalmente se convierte en la principal propiedad reguladora de la organización de la conducta.

Dos consideraciones guiaron nuestro razonamiento. La primera se relaciona con la organización de la conducta generada por regularidades temporales. La segunda, se relaciona con el interés por el curso de adaptación a tales regularidades.

En cuanto a la organización temporal de la conducta, no parece haber duda que puede describirse en términos de dos estados regulados temporalmente. Esta organización se ha visto desde muy diferentes ángulos que van de la necesidad de cuantificar el patrón de conducta de manera verídica (Schneider, 1969), pasan por la organización de clases de conducta en períodos separados del intervalo entre reforzadores (v. gr. Anderson & Shettleworth, 1977; Silva & Timberlake, 1988), hasta llegar a propuestas sobre procesos de inhibición y excitación que actúan diferenciadamente en las partes inicial y terminal de dicho intervalo (Machado & Cevik, 1998). En el presente ensayo, lo anterior se refleja con claridad porque las respuestas se desplazan hacia la parte terminal del intervalo. Creemos que una pregunta que requiere más atención se refiere a la forma y procesos involucrados en el curso que sigue la conducta hasta alcanzar dicha organización. Con este análisis, creemos, podemos entender mejor los mecanismos que operan para llegar a la adaptación observada y fortalecer una visión conductual de la conducta temporalmente regulada.

Hay varias formas de abordar la tarea propuesta y en el presente ensayo anotamos algunas de las que consideramos necesarias: el análisis molecular de la distribución de las respuestas en el intervalo entre reforzadores, la identificación de una medición sensible a tales propiedades distributivas y la descripción cuantitativa de los cambios en esa medición conforme transcurre el entrenamiento. No podemos afirmar con toda seguridad que estas sean las decisiones correctas, pero creemos que ilustramos con claridad los puntos de los aspectos que deben tomarse en cuenta al tomar estas decisiones.

Referencias

Anderson, M.C., & Shettleworth, S. J. (1977). Behavioral adaptation to fixed-interval and fixed-time food delivery in golden hamsters. Journal of the Experimental Analysis of Behavior, 27, 33-49.

Catania, A. C. (1970). Reinforcement schedules and psychophysical judgments: A study of some temporal properties of behavior. In W. N. Schoenfeld (Ed.). The theory of reinforcement schedules (pp. 1-42). New York: Appleton-Century-Crofts.

Dews, P. B. (1970). The theory of fixed-interval responding. In W. N. Schoenfeld (Ed.). The theory of reinforcement schedules (pp. 43– 61). New York: Appleton-Century-Crofts.

Dukich, T. D., & Lee, A. E. (1973). A comparison of measures of responding under fixed-interval schedules. Journal of the Experimental Analysis of Behavior, 20, 281-290.

Ferster, C. B., & Skinner, B. F. (1957). Schedules of reinforcement. New York: Appleton-Century-Crofts.

Gallistel, C. R., Balsam, P. D., & Fairhurst, S. (2004). The learning curve: Implications of a quantitative analysis. Proceedings of the National Academy of Sciences, 101, 13124-13131.

Gibbon, J. (1977). Scalar expectancy theory and Weber's law in animal timing. Psychological Review, 84, 279-325.

Guilhardi, P. & Church, R. M. (2004). Measures of temporal discrimination in fixed-interval performance: A case studying archiving data. Behavior Research Methods, Instruments, & Computers, 36, 661–669.

Killeen, P. R., & Fetterman, J. G. (1988). A behavioral theory of timing. Psychological Review, 95, 274-285.

Leibowitz, N., Baum, B., Enden, G., & Karniel, A. (2010). The exponential learning equation as a function of successful trials results in sigmoid performance. Journal of Mathematical Psychology, 54, 338-340.

López, F. (2012). Aprendizaje y control temporal: Adquisición y transferencia. En P. Guilhardi, M. Menez y F. López (Eds.), Tendencias en el estudio contemporáneo de la estimación temporal. México: Universidad Nacional Autónoma de México.

López, F. & Menez, M. (2012). Transference effects of prior non-contingent reinforcement on the acquisition of temporal control on fixed-interval schedules. Behavioral Processes, 90, 402-407.

Machado, A., & Cevik, M., (1998). Acquisition and extinction under periodic reinforcement. Behavioral Processes, 44, 237–262.

Mazur, J. E. & Hastie, R. (1978) Learning as accumulation: A reexamination of the learning curve. Psychological Bulletin, 85, 1256-1274.

Ritter, F. E., & Schooler, L. J. (2001). The learning curve. In N. J. Smelser & P. B. Baltes (Eds.), International encyclopedia of the social and behavioral sciences, 8602-8605. Amsterdam: Pergamon.

Schneider, B. (1969). A two-state analysis of fixed-interval responding in the pigeon. Journal of the Experimental Analysis of Behavior, 12, 677–687.

Silva, K. M., & Timberlake, W. (1998). The organization and temporal properties of appetitive behavior in rats. Animal Learning & Behavior, 26, 182-195.

Journal keywords: 
Undefined

Add new comment

Plain text

  • No HTML tags allowed.
  • Web page addresses and e-mail addresses turn into links automatically.
  • Lines and paragraphs break automatically.
By submitting this form, you accept the Mollom privacy policy.