Psicologia Del Aprendizaje Parte 2

Alfonso Sanz Castejón – Abril 2002

2

Capítulo 8

Procedimientos básicos del condicionamiento instrumental (operante)

DEFINICIÓN DEL CONDICIONAMIENTO INSTRUMENTAL. El estudio inicial de Thorndike constituye un propósito para casi todos los experimentos en este campo de investigación. Puesto que el proceso de aprendizaje no puede observarse directamente, el CI debe definirse en función de los procedimientos utilizados para fortalecer una respuesta instrumental. Desde el punto de vista formal, el CI se produce cuando el resultado, normalmente un EI, es contingente respecto a la conducta del sujeto. A diferencia de los perros de Pavlov, a los que se administró el EC y el EI independientemente de que se observara o no la reacción de salivación, los gatos de Thorndike controlaban a la presentación de la comida. Se les permitía salir de la caja y comer el alimento sólo si golpeaban el pestillo primero. En otras palabras, la comida no era independiente del comportamiento; la comida era contingente respecto al mismo. Éste aspecto es importante, y constituye la esencia de nuestra definición del CI.

Términos. Los términos utilizados en el CI son generalmente los mismos que los empleados en el CC. Sin embargo, existen algunas diferencias notables. Estímulos. Los EI se utilizan en los experimentos del CI del mismo modo que el CC. El EI (o la ausencia del EI) es el resultado que sigue a la respuesta, del mismo modo que constituye el resultado tras un estímulo en el Cond. Pavloviano (o clásico). Por lo general comida, descargas eléctricas y sustancias azucaradas sirven como consecuencias. Los estímulos condicionados se utilizan también en los experimentos de CI. Son estímulos relativamente inocuos que no poseen ningún significado o poder específico, al menos al comienzo del entrenamiento. Sin embargo, debe hacerse hincapié en tres aspectos importantes. Primero, no hacen falta EECC explícitos. En segundo lugar, aun cuando no se presentan estímulos explícitos, sí existen estímulos en el entorno de la prueba, esto es, el propio aparato de prueba. Por último, los estímulos que actúan como EECC en el CI, ya sean claves explícitas como tonos y luces, o claves implícitas que forman parte del ambiente de la prueba, desempeñan un papel muy diferente al que tienen en el CP o CC. Un estímulo neutro indica cuándo una respuesta puede conducir o no a la consecuencia deseada constituye un estímulo discriminativo (Ed). Un Ed indica si el reforzador está disponible. Informa al sujeto sobre cuándo ha de responder. Dispone la ocasión para la recompensa. Por esta razón, un Ed es totalmente diferente a un EC en el CC, donde el EC indica la presentación del EI, sin tener en cuenta cualquier respuesta que el suelto pueda o no ejecutar. Los estímulos discriminativos pueden tener dos significados. Un E+ es un estímulo que indica que la recompensa está disponible. Un E- es un estímulo discriminativo que indica que la recompensa no está disponible. Un estímulo neutro es una situación de condicionamiento instrumental pueda poseer tanto las propiedades de un Ed como de un EC Pavloviano, aunque, por lo general, los investigadores se interesan más por la primera función que por la segunda. Respuestas. Existen dos términos para las respuestas en un experimento de CI. La respuesta incondicionada RI es, por definición, al poderosa respuesta refleja provocada

3

por el EI. La RI realizada viene determinada por el EI que se presenta. Se produce salivación si el EI es comida, el reflejo patelar con al descarga eléctrica. Sin embargo, los investigadores no se interesan normalmente por la RI en el CI. Suponen que ésta ocurre, pero rara vez la miden. La reacción condicionada, llamada más a menudo RI, es normalmente bastante distinta a la RI. La RI es en la mayoría de los experimentos una respuesta motora relativamente arbitraria, como presionar una palanca o recorrer un laberinto. En el experimento de Thorndike, la respuesta era golpear el pestillo para escapar de la caja.

FASES DEL APRENDIZAJE INSTRUMENTAL. Son esencialmente las mismas que las observadas en el condicionamiento clásico. Adquisición. La adquisición es la fase en la que se adquiere la reacción condicionada. La adquisición proporciona la evidencia palpable de que una respuesta específica se está volviendo más fuerte, debido a su relación con la consecuencia reforzante. Extinción. La extinción implica omitir la consecuencia que sigue a la respuesta. Ésta es similar en el CC, donde la extinción implica omitir el EI que va a continuación del EC. El resultado del procedimiento de extinción es una disminución en la fuerza de la respuesta es decir, una reducción gradual de la ejecución.

TIPOS DE CONDICIONAMIENTO INSTRUMENTAL. Hay cuatro procedimientos fundamentales de cond. Instrumental. Cada uno de ellos responde a una contingencia entre una respuesta y una consecuencia. Son prácticamente idénticos a los del CC. La principal diferencia es que, en el condicionamiento instrumental, la contingencia comporta una conducta y un resultado, mientras que el CC la contingencia comporta dos estímulos. Los procedimientos difieren en dos dimensiones.

Condicionamiento de recompensa. El tipo más común de CI. El experimento inicial de Thorndike ejemplifica esta forma de aprendizaje. En el entrenamiento de recompensa, una repuesta produce, o da lugar a, un resultado deseable, comida por lo general. Cuando se da esta relación respuesta-consecuencia de forma consistente, la probabilidad de la respuesta aumenta.

Entrenamiento de omisión. Aquí, el resultado que sigue a las respuestas es la ausencia de un EI apetitivo. Es decir, aunque el sujeto puede recibir la consecuencia deseable en otros momentos del experimento (cuando no se encuentra realizando la respuesta designada), la ejecución de

PRODUCE CONSECUENCIA

Recompensa Castigo

RESULTADO DE LA

RESPUESTA EVITA O

INTERRUMPE LA

CONSECUENCIA

Omisión Evitación Escape

APETITIVA (Comida)

AVERSIVA (Descarga eléctrica)

TIPO DE CONSECUENCIA

4

la propia respuesta da lugar a la omisión de la recompensa en esa ocasión. El efecto del entrenamiento de omisión es contrario al del entrenamiento de recompensa: esto es, la supresión de la respuesta. En Wilson, Boakes y Swan (1987) se encuentra un buen ejemplo de los efectos del entrenamiento de omisión en la conducta. Se sometió a prueba a dos grupos de ratas en un aparato con una rueda de actividad. Durante las ocho sesiones de entrenamiento, tanto el grupo de omisión como el de control recibieron presentaciones ocasionales de comida si la luz de iluminación general se encontraba apagada. Se proporcionó también comida de forma ocasional a los sujetos control cuando la luz estaba encendida, pero por el contrario, durante este período, se demoró la administración del reforzador si los sujetos de omisión estaban corriendo la rueda. Es decir, si los sujetos de omisión se hallaban corriendo en la rueda de actividad mientras el Ed estaba presente, la administración programada de la comida se demoraba estos 10 segundos. Cuando la luz Ed estaba encendida, el grupo experimental presentó en la contingencia de omisión una tasa de respuesta significativamente inferior a la de los sujetos de control. Además, los animales experimentales respondieron durante la presencia del Ed con una tasa inferior a la que mostraron cuando el Ed estaba ausente. De esta forma, dos tipos de resultados indican que la velocidad de carrera en al rueda de actividad se reduce mediante la contingencia de omisión. Primero, los animales experimentales muestran una tasa inferior de respuesta con el Ed respecto a su propio comportamiento en ausencia del Ed. En segundo lugar, el nivel de respuesta de los sujetos de control en presencia del Ed es superior a la tasa de los sujetos de omisión durante el mismo periodo de tiempo. El entrenamiento de omisión se asemeja a la extinción en que ambos procedimientos dan lugar a la disminución de la ejecución. A pesar de todo, los dos procedimientos son muy diferentes en varios aspectos. Por ejemplo, el grado de supresión es notablemente distintos en los dos casos, la extinción en más eficaz suprimiendo la conducta que la omisión. Hay otros modos de realizar el procedimiento de entrenamiento de omisión. Algunos de ellos producen diferencias conductuales importantes respecto al descrito anteriormente. Por ejemplo, el entrenamiento de omisión puede dar lugar a una mayor supresión –no menos- de la conducta que la extinción convencional. En estudios que muestran ese efecto, se administró el reforzador tras una respuesta alternativa específica, en lugar de darle sólo tras la ausencia de respuesta. Esta forma de entrenamiento de omisión es un contracondicionamiento, porque se refuerza una conducta que se opone o es antagónico respecto a la respuesta criterio. Aquí, la supresión de la respuesta criterio es superior a la ocasionada en al extinción porque no sólo está siendo extinguida (contingencia de omisión), sino que, además, se está reforzando una conducta alternativa competidora (entrenamiento de recompensa para la conducta alternativa).

Castigo. Ocurre cuando la respuesta instrumental va seguida de un resultado aversivo, con frecuencia una descarga eléctrica o un fuerte ruido. No es de extrañar que la consecuencia de un procedimiento de castigo sea una disminución en, o supresión de, la respuesta de la cual depende el castigo. El castigo es el procedimiento contrario al entrenamiento de recompensa. Además, es similar a la preparación aversiva excitatoria del CC (excepto por el hecho de que el elemento que precede a la consecuencia aversiva es una respuesta instrumental en lugar de un EC). Cuando se administra un estímulo aversivo a continuación de una respuesta, las claves ambientales circundantes se vuelven aversivas. Por tanto, la supresión de la conducta no

5

sólo es una consecuencia de la supresión directa de la conducta por medio del castigo, sino también del perjuicio indirecto sobre la conducta provocada por esos estímulos provocadores de miedo. Varios estudios han mostrado que estas dos fuentes de supresión son independientes y distintas. Por ejemplo, Goodall (1984) adiestró primero a las ratas para presionar una palanca con el fin de recibir una recompensa alimenticia. Durante cada una de las doce sesiones de la prueba, los sujetos respondieron para obtener la comida mientras recibían varias presentaciones de una luz o un tono. Durante la presentación de uno de estos estímulos, la respuesta de presión de la palanca era castigada de forma contingente con una breve descarga eléctrica. En presencia del otro estímulo, se programó el mismo número de descargas eléctricas que las administradas durante la presentación del primer estímulo para que se produjesen automáticamente. Estas descargas eléctricas no guardaban relación con las respuestas a la palanca por parte del sujeto. Las razones medias de supresión muestran que cuando el resultado aversivo no es contingente respecto a la respuesta, se produce cierta supresión, pero es relativamente mínima. Sin embargo, cuando las descargas eléctricas son contingentes en relación con la respuesta, la supresión es notable. Por tanto, los resultados demuestran que la supresión es provocada directamente por el castigo contingente e, indirectamente, por el EC provocador de miedo. Sin embargo, la contingencia entre la respuesta y la consecuencia aversiva es el factor más importante. Aunque la supresión de la conducta es la consecuencia más común del castigo contingente, ocurren otros efectos interesantes. Por ejemplo, las conductas alternativas suelen aumentar en frecuencia durante el castigo.

Escape y evitación. En el procedimiento de omisión explicado anteriormente, una respuesta da lugar a la supresión de un EI positivo, por ejemplo, comida. El cuarto procedimiento básico de cond. Instrumental implica terminación (o no ocurrencia) de un EI aversivo. En un estudio de escape, la respuesta termina un EI aversivo. En concreto, el EI nocivo aparece, y desaparece una vez que el animal realiza la respuesta apropiada. A menudo, se presenta un estímulo discriminativo antes de la descarga eléctrica, por ejemplo, un tono, pero esto no tienen ningún efecto en al propia contingencia. De todas formas, el sujeto ha de esperar hasta que se administre la descarga eléctrica para poder terminarla. En un estudio de evitación típico, se coloca una rata en una caja de dos compartimentos, y se presenta un estímulo discriminativo, un tono, por ejemplo. El Ed indica cuando procede responder. En concreto, si el animal salta de un lado de la caja al otro, se omite la descarga eléctrica en ese ensayo. Si el animal no consigue responder durante la presentación del Ed, se administra la descarga eléctrica y el animal ha de interrumpirla entonces (es decir, el sujeto debe realizar una respuesta de escape). Normalmente, se observan las respuestas de evitación y escape en el mismo experimento. Al principio del entrenamiento, cuando el animal no sabe que es posible evitar la descarga eléctrica, tienen lugar las conductas de escape. Sin embargo, una vez avanzado el entrenamiento, cuando el animal aprende que tras la respuesta se interrumpe la descarga eléctrica, comienza a responder antes de que ésta sea administrada. Esto constituye una respuesta de evitación. El aprendizaje de evitación se diferencia del entrenamiento de recompensa en varios aspectos. En primer lugar, la evitación implica terminar o impedir un EI aversivo en lugar de la presentación de una consecuencia apetitiva. Segundo, en la evitación, los animales tienen una cantidad de tiempo limitada para ejecutar la respuesta de evitación. Es decir, generalmente sólo puede realizarse la evitación durante la presentación de la

6

señal de aviso o Ed. Sin embargo, en el entrenamiento de recompensa, el sujeto no tiene esta limitación temporal. A pesar de estas diferencias metodológicas, el adiestramiento de evitación, al igual que el adiestramiento de recompensa, produce el reforzamiento de la conducta en cuestión. Existen otras técnicas para estudiar la evitación además del uso mencionado anteriormente de la caja lanzadera de dos compartimentos. Una es la evitación de Sidman, en la que el sujeto pospone la descarga eléctrica, por lo general presionando una palanca. A diferencia del experimento de la caja lanzadera, la evitación de Sidman no emplea habitualmente un estímulo discriminativo. El animal prevé la descarga eléctrica siguiendo sólo por la separación temporal entre las descargas en vez de por una señal externa. Una tercera técnica utilizada para estudiar el aprendizaje de evitación es la evitación pasiva. En este caso, el animal recibe el estímulo aversivo en un lugar específico del aparato, por ejemplo, la parte negra de la caja de dos compartimentos. Esto hace que el animal escape a la descarga eléctrica corriendo hacia el lado seguro de la caja. Después evita a la descarga permaneciendo pasivamente en el lado seguro. Desde una perspectiva histórica, muchos teóricos del aprendizaje han dominado el paradigma de aprendizaje escape / evitación como reforzamiento negativo. Conforme a esta terminología, el reforzamiento negativo tiene lugar cuando se pone fin a un acontecimiento aversivo, produciendo así un aumento en al probabilidad de la conducta. El uso de este término es menos frecuente en la investigación contemporánea del aprendizaje, debido a la confusión que produce.

ESPECIFICIDAD DEL REFORZADOR Y DE LA RESPUESTA.

¿Qué es el reforzamiento? Definición. Cualquier definición de reforzador debe abarcar la gran variedad de estímulos que poseen esta capacidad. Por tanto, el reforzamiento no puede definirse en función de las propiedades físicas específicas del estímulo reforzante, sino, más bien, en función del efecto que el estímulo tiene en la conducta. Desde este punto de vista, un reforzador se define como cualquier consecuencia o acontecimiento que, cuando se hace contingente respecto a una respuesta previa, aumenta la probabilidad de esa respuesta en el futuro. Un estímulo punitivo se define de forma similar, a saber, como un acontecimiento que, cuando se hace contingente en relación a una respuesta anterior, disminuye la probabilidad de esa respuesta. Si un acontecimiento contingente provoca un aumento en la probabilidad de una conducta, ese acontecimiento, por definición, es un reforzador. Del mismo modo, si un acontecimiento produce una disminución en la probabilidad de la respuesta de la que depende, este acontecimiento es un estímulo punitivo. Sin embargo, uno de los problemas de esta definición es que es circular. El principio de Premack. Varias teorías tratan de resolver este problema especificando principios que son críticos para al relación de reforzamiento. Premack (1959) formuló una teoría muy conocida de este tipo. El principio de Premack incluye dos supuestos. Primero, el patrón de actividad global de un sujeto puede analizarse en función de sus actividades constituyentes. En un entorno dado, sin ninguna restricción al acceso del sujeto a las diversas actividades, éste puede dedicar a cada una de las actividades (o al menos la mayoría) un cierto porcentaje del tiempo. La implicación del primer supuesto de Premack es que el porcentaje de tiempo que el sujeto dedica a una actividad dada refleja la probabilidad de esa actividad y, en

7

consecuencia, el grado de preferencia de la actividad. La preferencia no depende del número o tipo de actividades, sino, más bien, de la tasa de ejecución de la actividad en relación a las opciones disponibles. El segundo supuesto del sistema de Premack hace referencia a la relación de reforzamiento. Dicha relación implica siempre dos conductas. Una actividad preferible refuerza la ejecución de una respuesta menos preferente si el acceso a la actividad preferida se hace contingente respecto a la ejecución de la actividad menos preferida. En la situación típica, comer (una actividad preferente para un animal hambriento) refuerza el presionar la palanca (una respuesta mucho menos preferida) si el acceso del sujeto a la comida es contingente en relación a la ejecución de la respuesta de la palanca. Según la teoría de Premack, todo lo que se necesita para predecir si un estímulo (o actividad relacionada con ese estímulo) será reforzante es estimar su preferencia relativa. De este modo, se resuelve el problema de la circularidad en la definición del reforzador. Como respaldo a esta concepción, Premack (1963) observó ratas durante una serie de sesiones de 600 segundos las cuales el sujeto tenía la oportunidad de correr en una en una rueda regulada a 18 u 80 gramos, o beber una solución de sacarosa al 16, 32 o 64%. La cuestión importante es que la fuerza de la relación de reforzamiento (indicada por el aumento en la conducta de presión de la palanca) resultó ser una función directa de la probabilidad previa de la actividad reforzante. Cuanto mayor era el grado de preferencia de la actividad, mayor capacidad tenía para reforzar la respuesta de la palanca.

Unidades conductuales. Respuesta discreta frente a conducta operante. Una técnica de respuesta discreta implica una respuesta única, unitaria, ejecutada sólo en cierto momento. Un buen ejemplo es un estudio típico de laberinto, en el que e sujeto corre desde una caja de salida a una “caja meta” para recibir comida como recompensa. La técnica alternativa implica la respuesta operante libre. Aquí, el experimentador determina qué comportamiento es correcto, pero el sujeto determina cuándo se realiza la conducta. Los estudios de presión de palanca en ratas emplean esta técnica normalmente. Se coloca a los sujetos en la caja y se les permite responder a su propio ritmo para recibir recompensa. Siempre que realizan la respuesta necesaria, o completan la secuencia apropiada de respuestas, se administra la recompensa. Se realizan también estudios que combinan elementos de las aproximaciones discretas y operantes. Clase de respuesta. La mayoría de los estudios de condicionamiento instrumental utilizan reacciones motoras voluntarias, como recorrer un laberinto o presionar una palanca, pero se emplean también otras clases de respuesta. Una de ellas comporta reacciones fisiológicas, como cambios en la tasa cardiaca o la tensión arterial. Esta investigación se denomina biofeedback porque el sujeto recibe una recompensa, o se le proporciona cierta forma de retroalimentación, contingente respecto a la realización de una respuesta biológica. Para los seres humanos, la recompensa consiste a menudo en elogios, dinero, evitación de una descarga eléctrica o información relativa a la propiedad de la conducta. Para otras especies animales, entre otras recompensas, se encuentran la comida, la evitación de una descarga eléctrica y a la estimulación cerebral placentera. La investigación en biofeedback es importante por varias razones. En primer lugar, el solo hecho de que las respuestas biológicas puedan condicionarse instrumentalmente es interesante desde el punto de vista teórico. Es más que evidente que las reacciones viscerales pueden condicionarse utilizando técnicas de CI. Por lo general, el proceso supone esperar hasta que la reacción biológica tenga lugar, y presentar entonces la recompensa.

8

El biofeedback tiene un gran potencial como tratamiento para ciertos trastornos médicos. Por ejemplo, se ha permitido una notable mejoría de los pacientes que no podían regular su tensión arterial. Por desgracia, muchos de estos pacientes no pudieron mantener el control de su tensión arterial una vez regresaron al mundo agitado y rápidamente cambiante en el exterior del laboratorio. Un segundo tipo de respuesta inusual es la conducta verbal. Al igual que las reacciones motoras, las articulaciones verbales están sujetas a modificación por procedimientos de CI. En un experimento clásico de Greespoon (1955), añadió a continuación de los nombres plurales que decían un grupo de estudiantes “mmm-hm” o “huh-uh”. Por último, los procedimientos de CI pueden aplicarse a unidades mayores de conducta, incluso comportamientos sociales complejos, como hábitos de estudio y respuestas sociales. Esta área de la psicología se conoce con el nombre de modificación de conducta o terapia conductual. Según los terapeutas conductuales, los patrones de conducta humana se adquieren (y extinguen) de forma muy similar a las conductas motoras en especies animales no humanas. Por tanto, para utilizar los procedimientos de CI como terapia clínica, ha de identificarse la conducta desadaptativa pertinente, extinguirla, y condicionar después un patrón de conducta más adaptativo en su lugar. El procedimiento de la modificación de conducta es espectacular y poderoso, como se muestra en una demostración clásica de Ayllon y Houghtton (1962). Estos investigadores redujeron ciertos hábitos alimenticios en personas con esquizofrenia –concretamente, la necesidad de ser llevados al comedor y alimentados con cuchara -. Topografía de respuestas. Para cualquier comportamiento dado, puede condicionarse también variaciones en la forma y detalle de a respuesta. Es decir, si se refuerza a los sujetos sólo cuando responden con una tasa relativamente baja, o, al contrario, con una tasa relativamente alta, la propia tasa de la conducta cambia en consecuencia. Otra dimensión que caracteriza los patrones globales de respuesta es la variabilidad de los componentes del patrón. La variabilidad es susceptible de condicionamiento. Puede reforzarse a los sujetos no sólo por realizar una respuesta como picotear una tecla, sino también por hacerlo de forma variable. Sin embargo, no siempre se obtiene variabilidad en estudios de condicionamiento. Si los sujetos no son reforzados selectivamente por responder de forma variable, pueden mostrar un alto grado de estereotipia.

Creación de unidades conductuales mediante moldeamiento. Para que se produzca el CI, el sujeto debe efectuar la respuesta deseada antes de recibir las consecuencias reforzantes. Por tanto, la capacidad para realizar el comportamiento es muy importante. Si los sujetos no son capaces de ejecutar la respuesta indicada, o no la efectúan, no puede administrarse reforzamiento. Dada esta limitación, ¿cómo se instaura una conducta, con procedimientos de CI, si el sujeto no realiza, o no puede realizar, esa conducta en el momento del entrenamiento? Parecería que el experimentador no puede obligar al sujeto a realizar la respuesta correcta. En realidad, esto no es del todo cierto. El experimentador posee medios para enseñar nuevas conductas. La técnica más frecuente es el moldeamiento de respuesta, en el que se refuerzan las aproximaciones a la respuesta criterio final. Por tanto, el moldeamiento crea nuevas unidades conductuales reforzando aproximaciones cada vez mayores a la acción final deseada. La idea esencial del moldeamiento es fortalecer las conductas que son consecuentes con, o forman parte de, la respuesta deseada recompensando las aproximaciones cada vez mayores a la respuesta final.

9

PRINCIPIOS DEL CI.

Contigüidad del reforzador. Es una variable importante del CI, algunos teóricos han sugerido incluso que la contigüidad es tanto necesaria como suficiente para el condicionamiento (Skinner, 1948). Skinner afirmó que cualquiera que fuese la respuesta que el sujeto acababa de realizar justo antes de la administración de la comida resultaba reforzada por la recompensa, aun cuando la respuesta no provocase en realidad la administración de la recompensa. Es decir, se daba por sentado que los sujetos realizaban una gran variedad de respuestas, pero cuando cualquiera de ellas resultaba casualmente contigua a recompensa, era reforzada. Contigüidad es todo lo que se necesita para que se produzca el aprendizaje instrumental. Los investigadores han demostrado que esta conclusión es un grave error, el procedimiento utilizado por Skinner es, de hecho, un procedimiento de condicionamiento pavloviano no un CI. Conductas relacionadas con la comida similares a las observadas por Skinner son, e realidad, RRCC pavlovioanas, no conductas arbitrarias reforzadas mediante recompensas, por tanto, aunque Skinner afirmó que la contigüidad es todo lo que se necesita para que ocurra el CI, de hecho, su experimento no respalda dicha conclusión. No haber conseguido demostrar que la contigüidad es el único factor importante en el CI no significa que la contigüidad no sea importante. Desde luego, la ausencia de contigüidad, da lugar a disminuciones significativas en el aprendizaje instrumental. Imaginemos que un sujeto presiona una palanca pero no recibe comida durante varios minutos o incluso horas.

Contingencia respuesta-reforzador. La investigación confirma que la contingencia entre una respuesta y un reforzador es el factor más importante del CI. El aprendizaje tiene lugar si, y sólo si, la presentación de la recompensa depende de la ejecución previa de una respuesta. La investigación que examina la relación entre el grado de contingencia y al fuerza de la respuesta proporciona también cierto apoyo. Recuérdese que cuando se presenta un EC y un EI relacionados de forma aleatoria entre sí, se produce un aprendizaje escaso. Se ha demostrado algo similar en el CI. Por ejemplo, en un estudio de Hammond (1980), todos los sujetos tenían una probabilidad del 0,05 de recibir agua como reforzamiento si presionaban una palanca durante un segundo. En términos más formales p{reforzamiento/respuesta} = 0,05. Si el animal presionase la palanca continuamente recibiría así, por término medio, el agua una vez cada 20 segundos. La probabilidad de recibir agua sin presionar la palanca durante un segundo era igual a 0; los sujetos nunca recibieron recompensas de agua gratuitas. Sin embargo, en una fase posterior del experimento, la probabilidad de recibir una recompensa de agua gratuita aumentaba 0,05. Aquí, era tan probable que los sujetos recibiesen agua durante un intervalo de un segundo dado por no hacer nada como por presionar la palanca. La recompensa y al presión de la palanca eran, por tanto, aleatorias entre sí. Los resultados, muestran que la respuesta de la apalanca aumentó a medida que se incrementaba la contingencia entre la presión de la palanca y la recompensa del agua. Cuando los sujetos obtenían la recompensa de agua con una tasa de un reforzador cada 20 segundos, pero no recibían recompensas adicionales gratuitas, la tasa de respuesta a la palanca era elevada. Sin embargo, cuando la probabilidad de las recompensas ganadas y gratuitas era la misma, la respuesta a la palanca disminuía de modo espectacular. El experimento de Hammond es importante porque demuestra que la

10

contigüidad desempeña un papel secundario en el aprendizaje instrumental. La presión de la palanca daba lugar a veces a presentaciones de recompensas contiguas, aun cuando las recompensas ganadas y no ganadas fueran igualmente probables. Pero los sujetos no consiguieron realizar la respuesta cuando ésta no daba lugar a la recompensa de forma diferencial. En resumen, la contigüidad es importante, pero la relación de predicción entre la respuesta y el reforzador –es decir, la contingencia- es más importante. Chatlosh, Neunaber y Wasserman (1985) realizaron un experimento análogo con seres humanos. Unos estudiantes universitarios recibieron la siguiente instrucción: “su tarea consiste en averiguar si pulsar un tecla de telégrafo tiene algún efecto en la ocurrencia de una luz blanca”. La respuesta fue de nivel medio para las condiciones intermedias. Por tanto, estos datos confirman los resultados hallados en las ratas. La respuesta instrumental aumenta en función directa a la magnitud de la contingencia respuesta-reforzador. ¿Qué sucedió con los juicios de los sujetos sobre la relación causal entre la respuesta y a consecuencia?. Las puntuaciones sobre el grado en que se percibía que las pulsaciones del telégrafo hacían encenderse la luz blanca muestran precisamente la misma relación. Cuando la probabilidad de recibir una consecuencia tras una respuesta era alta en relación con la probabilidad de recibir luces blancas gratuitas, los sujetos percibieron que su respuesta causaba la luz. Sin embargo, a medida que se producían cada vez más consecuencias gratuitas, respecto a las consecuencias contingentes a la respuesta, los sujetos tendían a percibir que su respuesta evitaba el encendido de la luz blanca. En conclusión, el principio subyacente más relevante del CI es la continencia entre la respuesta y el reforzador. Aunque la contigüidad es necesaria, lo que sustenta el condicionamiento es la relación predictiva diferencial entre la respuesta y la consecuencia.

Capítulo 9

Variables que afectan al aprendizaje instrumental

PROGRAMAS DE REFORZAMIENTO INTERMITENTE. En la mayoría de los trabajos examinados hasta ahora, se ha asumido que el reforzamiento se administra cada vez que un animal realiza la respuesta apropiada –es decir, se recompensa de forma continua al animal durante la fase de adquisición-. Sin embargo, la recompensa rara vez se da así en la mayoría de los entornos naturales. La intermitencia del reforzamiento es un hecho frecuente en la vida cotidiana. Por tanto, el control de la conducta mediante programas de reforzamiento intermitente es una cuestión importante que atañe a casi todas las especies. Existen cuatro tipos básicos de programas de reforzamiento. En los programas de razón, la recompensa depende del número de respuestas efectuadas por el sujeto. En los programas de intervalo, la respuesta se refuerza sólo una vez transcurrido cierto período de tiempo. Cada una de estas modalidades –razón e intervalo- se subdivide según el criterio sea fijo o variable.

fijo IF RF Criterio del programa variable IV RV

Intervalo (tiempo transcurrido)

Razón (número de respuestas)

Base para la recompensa

11

En el programa de razón fija, la recompensa se administra tras un número determinado de respuestas; este número nunca varía de una recompensa a otra. Del mismo modo, en el programa de intervalo fijo, la recompensa a una respuesta se suministra tras un período de tiempo determinado; de nuevo, el intervalo es constante. Sin embargo, aunque en el programa de razón variable la recompensa se basa también en la cantidad de respuestas efectuadas, el número concreto de éstas varía de una recompensa a otra. Por último, en los programas de IV, la respuesta se refuerza tras cierto periodo de tiempo, pero este período varía.

Programa de razón fija. Quizá el programa intermitente más simple. En este programa, el sujeto recibe una recompensa por realizar un número determinado de respuestas. La tasa global de respuesta es relativamente alta, aunque si se aumenta demasiado el valor de RF, la respuesta empeora. Este efecto, denominado tensión del programa, da lugar a largas pausas tras el reforzamiento. Felton y Lyon (1966) demostraron este hecho al verificar que la duración de la pausa estaba directamente relacionada con la magnitud del requisito de la RF. Cuando se ensañaba a palomas a picotear una tecla 100 veces para obtener comida (un programa RF-100), éstas hacían una pausa de aproximadamente 1,5 segundos después de cada reforzamiento. Sin embargo, cuando se aumentaba el requisito de respuesta a RF-150, la pausa duraba casi un minuto. La pausa post-reforzamiento está determinada de hecho por la duración del intervalo entre recompensas.

Programa de razón variable. Es similar al programa de RF, excepto que el número específico de respuestas requeridas para obtener el reforzamiento varía de una recompensa a otra. Un programa de RV viene definido por el número medio de respuestas requeridas. Por ejemplo, si un animal fuese reforzado tras una media de 10 respuestas, el programa sería de RV-10. Sin embargo, de hecho, el requisito para conseguir una recompensa puede ser de 8 respuestas en una ocasión, 12 en la siguiente, 7 respuestas después, luego 13, y así sucesivamente. Los programas de RV poseen dos características notables. En primer lugar, un programa de RV da lugar a una tasa media global de respuestas superior a la de otros programas básicos, aunque, en algunos casos, los resultados de los programas de RV y RF son comparables. En segundo lugar, la tasa de respuesta de un programa de RV suele ser muy estable. Este programa impide que el animal adquiera una impresión exacta del número de respuestas requeridas para conseguir la recompensa, reduciendo así la pausa post-reforzamiento.

Programa de intervalo fijo. En este programa se recompensa al animal por responder una vez transcurrido un periodo de tiempo fijo; la estrategia más eficaz es esperar hasta la finalización del intervalo y realizar entonces una única respuesta para recibir el reforzamiento. Esta estrategia permite al sujeto gastar una cantidad mínima de energía, al tiempo que saca partido de todas las recompensas disponibles. Sin embargo, los sujetos no suelen comportarse de este modo. En lugar de ello, responden a lo largo de todo el intervalo, pero la tasa y el patrón de respuesta varían de una forma complicada e interesante. Por ejemplo, los sujetos suelen hacer una pausa durante cierto tiempo tras la recompensa y, después, comienzan a efectuar la respuesta con una tasa cada vez más rápida. Cuanto más largo es el IF, mayor es la pausa que hace que el animal antes de

12

reanudar su conducta, y más pronunciada es la aceleración de la tasa hasta el siguiente reforzador. Dejan de realizar esfuerzos durante un breve periodo de tiempo porque no esperan recibir otra recompensa de forma inmediata. Sólo después de cierto tiempo comienzan a responder con anticipación a recibir la siguiente recompensa. Distintas evidencias respaldan esta afirmación. Primero, la aceleración de la tasa es más acusada cuando los sujetos reciben un entrenamiento prolongado. Presumiblemente, su impresión de la longitud del intervalo temporal mejora con la experiencia. En segundo lugar, si los animales reciben señales externas que les ayuden a discriminar el paso del tiempo, como una luz que aumenta de intensidad a lo largo del periodo de IF, éstos muestran una aceleración aún más pronunciada de la tasa durante el intervalo. Tercero, simplemente administrar a los sujetos una recompensa tras un intervalo de tiempo fijo, pero no exigirles que respondan, hace que después muestren el patrón de conducta típica del IF cuando se les exige responder. El que los animales hagan una pausa tras la recompensa se debe a que se inhiben temporalmente en el momento de responder. Si se presenta un nuevo estímulo al principio del IF, se produce una alteración, provocando que los sujetos efectúen la respuesta inmediatamente. En otras palabras, si se distrae el animal, anulando así la inhibición que está suprimiendo temporalmente la conducta, la respuesta se expresa de forma inmediata.

Programa de intervalo variable. El programa de IV es similar al programa de IF, con una diferencia importante. El intervalo de tiempo entre los periodos en los que el reforzamiento se halla disponible varía. El programa de IV se define según el tiempo medio transcurrido entre reforzamientos sucesivos. Por ejemplo, un programa de IV de 30 segundos (IV-0,5 minutos) permite al animal obtener recompensas cada 30 segundos por término medio, aunque los intervalos realmente experimentados por el sujeto pueden ser de 40 segundos, luego de 20, después de 5, luego 65 y así. El estilo característico de respuesta en los programas de IV es una tasa estable pero baja. La tasa de respuesta en el programa de IV aumenta en función de la tasa de reforzamiento.

Comparación entre los programas de razón e intervalo. Los programas de razón comportan un nivel de respuesta muy superior al de los programas de intervalo. Esto se debe a que, en un programa de razón, la tasa de respuesta influye en la tasa de recompensa (cuanto más rápida es la tasa de respuesta, más frecuentes son los reforzadores), pero esto no es así en los programas de intervalo (independientemente de la rapidez con que responda el animal, la recompensa sólo está disponible una vez transcurrido un determinado período de tiempo). ¿Se debe está disparidad de las tasas a la mayor frecuencia de reforzamiento en los programas de razón?. La respuesta parece ser negativa. Killeen encontró que las medias de respuestas por minuto de los animales con RF eran superiores a las de los sujetos con IV, aún cuando la tasa de recompensa era idéntica. Por tanto, la diferencia en al tasa de respuesta no puede atribuirse a una desigualdad en la frecuencia de reforzamiento. Una teoría más apropiada para explicar la diferencia en las tasas de respuesta se centra en el tiempo entre respuestas (TER) o pausa entre dos respuestas sucesivas. En los programas de intervalo, la probabilidad de la recompensa aumenta con tiempos entre respuestas más largos. Es decir, cuanto menor es la frecuencia con que responde el animal, más probable es que se refuerce la siguiente respuesta (porque ésta se halla siempre más próxima al final de intervalo temporal). Esto no es así en los programas de

13

razón. Una tasa baja de respuesta en un programa de razón no influye en la probabilidad de que la siguiente respuesta produzca una recompensa. De hecho, los tiempos entre respuestas largos posponen el reforzamiento porque la administración de la recompensa es determinada exclusivamente por el requisito de la razón, no por el paso del tiempo. La explicación de la diferencia en las tasas se basa en las siguientes observaciones. La recompensa fortalece los valores de TER contiguos a la recompensa. Con tiempos entre respuestas más breves, se produce una tasa global de respuesta alta porque los TER se generalizan a otras porciones del intervalo. Por el contrario, los patrones de respuesta con valores amplios de TER se fortalecen de forma selectiva en sujetos que tienden a responder con tales TER próximos a la recompensa; los intervalos entre respuestas largos se traducen en una tasa global más baja. Esta teoría ha sido respaldada de varias formas.

Disposiciones de programas complejos. Programas RDB. En el anterior apartado se indicaba que puede reforzarse de forma selectiva a los animales por responder con valores bajos de tiempo entre respuestas. Puede enseñarse también a los animales a responder con tiempos entre respuestas inusitadamente largos. Esto sucede en el programa de reforzamiento diferencial de tasas bajas de respuesta (RDB). En un programa de RDB, el sujeto tiene que refrenar su respuesta hasta transcurrido un cierto período de tiempo. Si hace esto de forma acertada, se refuerza la siguiente respuesta. De lo contrario, si la respuesta se produce antes de que haya transcurrido el criterio temporal, el temporizador se reinicia y el intervalo comienza de nuevo. En un principio, la ejecución en un programa de RDB es poco eficaz debido al conflicto entre la necesidad de responder y la necesidad de refrenar la respuesta. Por tanto, responder eficazmente sólo en posible cuando se fortalecen dos tendencias de respuesta independiente. Primero, la inhibición impide que el sujeto responda con demasiada frecuencia. En segundo lugar, la discriminación temporal ayuda al sujeto a calcular el momento de sus respuestas. Si se da un entrenamiento suficiente, la respuesta en un programa de RDB llega a ser estable y eficaz, aunque la eficacia está inversamente relacionada con la magnitud del valor de RDB. Una característica única de los programas de RDB es que los sujetos se entretienen en conductas colaterales o incidentales durante el tiempo en que están inhibiendo la respuesta instrumental criterio. Algunos de los animales adoptan posturas extrañas e idiosincrásicas; los psicólogos no acaban de entender este fenómeno, aunque parece ser una reacción en cadena. Cada respuesta es una parte inherente de una cadena y sirve como señal para la siguiente respuesta. Algunos investigadores sostienen que la conducta colateral es, de hecho, la forma que tiene el animal de medir el intervalo. Programas combinados; los psicólogos no se limitan a los cuatro programas básicos elementales explicados anteriormente. Pueden realizarse disposiciones más complejas combinando programas de varias formas. Por ejemplo, cuando la recompensa no es contingente respecto al hecho de completar un solo programa adecuadamente, sino al de completar dos programas distintos, esta disposición se denomina programa compuesto. Un ejemplo de ello es un programa de IF-RF. En este caso, el reforzamiento se halla disponible sólo si el sujeto efectúa un número mínimo y determinado de respuestas en un periodo concreto de tiempo. Si ambas condiciones se cumplen, se administra el reforzamiento. Por lo general, la conducta observada en los programas compuestos refleja los patrones hallados en cada programa por separado. Por ejemplo, en un programa compuesto IF-RF se producen pausas post-reforzamiento y se muestra un

14

aumento en la tasa de respuesta tras las pausas (característico de los programas de IF), pero la tasa de respuesta justo antes de la siguiente recompensa es superior a lo que hubiera sido en un programa de IF solamente. Los programas pueden presentarse también de modo secuencial. En una disposición de programa tandem, el sujeto ha de cumplir los requisitos de dos o más programas individuales sucesivos antes de administrarse el reforzamiento. Si cada programa diferente va acompañado de una clave externa, esta disposición se denomina programa encadenado. En un programa mixto, el sujeto puede obtener reforzamiento en cada uno de los programas componentes, pero los distintos programas se presentan en orden aleatorio. Si cada programa componente se señala mediante una clave discriminativa, la disposición se denomina programa múltiple. En este caso, la tasa de respuesta está determinada no sólo por el programa componente que se esté ejecutando en ese momento, sino también por los otros programas que forman la serie.

Programas de reforzamiento en el entorno humano. Los premios de las máquinas tragaperras en los casinos constituyen el ejemplo más claro de un programa básico en el entorno humano cotidiano. La recompensa (premio) se administra sólo después de realizar un número variable de respuestas (jugadas). La conducta de los jugadores (su tasa de juego) se mantiene así en un nivel relativamente alto y estable, del mismo modo que la tasa de presión de la palanca por parte de una rata de laboratorio se mantiene alta y estable mediante un programa de RV. Ejemplos de otros programas básicos son menos evidentes. La paga semanal o mensual puede considerarse un ejemplo de programa de IF, porque a recompensa (la paga) viene tras un intervalo de tiempo fijo. Se debe ser cauto al aplicar nuestro conocimiento al mundo real, especialmente el entorno humano cotidiano, porque suele ser difícil identificar la conducta que es reforzada y, por tanto, el programa que está desarrollándose.

CARACTERÍSTICAS DE LOS REFORZADORES.

Magnitud del reforzador. La magnitud del reforzador es un factor importante en el aprendizaje instrumental. Cuanto mayor es la recompensa, mejor es el aprendizaje. Esta noción está de acuerdo con una perspectiva evolucionista. Los animales invierten tiempo y energía para obtener comida. Por tanto, cualquier estrategia que maximice la ingesta de comida respecto al tiempo y energía invertidos sería ventajosa. Sin embargo, la relación entre el aprendizaje instrumental y la magnitud del EI es compleja. Aunque se ha demostrado que influye en la conducta, hay muchas inconsistencias. Un problema para comprender cómo afecta la magnitud del reforzamiento al aprendizaje es definir la magnitud del reforzador. Otra dificultad para evaluar los efectos de la magnitud de la recompensa en la conducta concierne a la medida del aprendizaje. Entrenamiento de recompensa. La complejidad e incertidumbre de los efectos de la magnitud del reforzador en el aprendizaje resulta más evidente en el área del entrenamiento de recompensa que en ningún otro caso. Muchos estudios indican que el aprendizaje está en relación directa con la magnitud del reforzador, pero esto es más cierto en el caso de la velocidad de carrera en los callejones que para la tasa de respuesta en la caja de Skinner. Considérese el entrenamiento en un corredor recto. Tanto la proporción de mejora como la ejecución final están directamente relacionadas con la magnitud de recompensa, como muestra un estudio de Roberts (1969). Se entrenó

15

a cinco grupos de ratas para recorrer un callejón recto con el fin de obtener comida. Los sujetos recibieron 1, 2, 5, 10 o 25 bolitas de comida como recompensa en la caja meta.

Ratliff y Ratliff (1971) obtuvieron un resultado similar. La situación es menos clara cuando se considera la tasa de presión de la palanca. La relación entre la magnitud de la recompensa y la tasa de respuesta puede ser directa, inversa, ambas, o ninguna. Por ejemplo, Skjoldager, Perre y Mittleman (1933) probaron a unas ratas en una caja de Skinner utilizando un programa de reforzamiento progresivo de RF. En este programa, los sujetos recibían primero una recompensa siguiendo, por ejemplo, un programa de RF-5, pero este requisito aumentaba después a RF-10 tras la recompensa; una vez obtenida la siguiente recompensaos e incrementaba de nuevo la razón. Cuando el requisito de RF resulta demasiado alto, los sujetos dejan de responder por completo (se denomina “punto de ruptura”). Los grupos diferían en cuanto a la magnitud de la recompensa, recibiendo una o tres bolitas de comida. La magnitud del reforzador no afectó a la tasa de respuesta, la latencia para iniciar la presión de palanca, o el tiempo invertido en recoger el alimento del comedero. Sin embargo, el punto de ruptura resultó afectado por la magnitud del reforzamiento. La persistencia o esfuerzo por responder a pesar del aumentó del requisito de la RF se incrementó con recompensas mayores. En otras palabras, la magnitud de la recompensa administrada en una caja de Skinner puede no afectar a algunas medidas del aprendizaje, pero sí afecta a la persistencia del animal. Los animales persisten más tiempo con un incentivo mayor (el efecto motivacional de la recompensa), pero no aprenden mejor la tarea. Una razón por la que la magnitud del reforzador tiene efectos tan diversos en al tasa de ejecución en la caja de Skinner es que la magnitud interacciona con el tipo de programa utilizado. Otro factor que influye en el modo en que la magnitud del reforzador afecta a la tasa de respuesta es si los sujetos han de obtener toda la comida del día en la cámara experimental (este sería un experimento de economía cerrada) o bien se les devuelve a su jaula tras la sesión de prueba para recibir una cierta cantidad suplementaria de comida. Collier, Johnson, Hill y Kaufman (1986) estudiaron esta cuestión. Sus ratas obtuvieron toda la ración de comida diaria pulsando una palanca en un programa de reforzamiento de razón. La magnitud de la recompensa se definió en función del periodo de tiempo en que los sujetos tenían acceso al comedero. Las ratas mantuvieron un nivel de consumo constante, independientemente de la duración del acceso a la

16

comida. Cuando el acceso era breve, los sujetos lo compensaban respondiendo con mayor rapidez y obteniendo así comida más a menudo. En otras palabras, la tasa de respuesta estaba inversamente relacionada con al magnitud de la recompensa. Este resultado contradice la noción convencional de que cuanto mayor es el reforzador, mas fuerte es la respuesta. Castigo. Puesto que los castigos suprimen la conducta, la tasa de respuesta debería ser una función inversa de la intensidad del EI. Cuanto mayor fuese la intensidad del castigo, más se suprimiría la respuesta. Esto parece ser cierto. En muchos experimentos se ha encontrado una relación gradual entre la intensidad de la descarga eléctrica y la supresión de la respuesta, incluso en las reacciones de evitación. Además, otros castigos distintos a la descarga eléctrica muestran la misma relación entre a respuesta y la intensidad. Escape y evitación. Se ha estudiado también la intensidad del EI en relación con el aprendizaje de escape / evitación. Respecto al condicionamiento de escape, los estudios muestran que cuanto más fuerte es el EI, mayor es la mejoría en la ejecución del escape. La mayoría de estos estudios emplearon descargas eléctricas como EEII, pero la relación se ha observado también utilizando el escape del agua fría, los ruidos fuertes y la luz intensa.

Efecto hallado en el entrenamiento de recompensa o de castigo porque las tareas difieren de modo significativo. En el aprendizaje de escape, tanto la consecuencia de la respuesta como el nivel de motivación inicial del sujeto resultan afectados por la intensidad del EI. Cuanto más fuerte es la descarga eléctrica, más motivado está el animal y más rápida es su ejecución. Esto no es así en el caso de la recompensa y el castigo. Por tanto, una ejecución más rápida en los ensayos de escape puede tener menos que ver con un mejor aprendizaje que con una motivación más fuerte. Como sucede con la respuesta de escape, la intensidad del EI influye también en el entrenamiento de evitación, pero los efectos son más complejos. Varios estudios han mostrado que la conducta de evitación de presión de la palanca está directamente relacionada con la intensidad de la descarga eléctrica.

La figura muestra los resultados de un estudio de Franchina. Se colocaba a las ratas en una caja de salida blanca y se les administraba una descarga eléctrica a la que podían poner fin saltando a un comportamiento de seguridad adyacente de color negro. La intensidad de la descarga eléctrica era de 20, 50 u 80 voltios. La velocidad de respuesta mostró una relación directa con la intensidad; cuanto mayor era la descarga, más rápida era la respuesta de escape. Sin embargo el efecto de la intensidad del EI en la conducta de escape no es realmente análogo al

17

La intensidad de la descarga eléctrica afecta también al aprendizaje de evitación pasiva. Pearce (1978) mostró que la intensidad y la ejecución están directamente relacionadas, pero sólo cuando se trata de las reacciones naturales del animal. Por último, la relación entre la intensidad del EI y el aprendizaje de evitación ha sido estudiada utilizando un aparato más convencional, la caja de lanzadera. El aprendizaje de evitación en la caja lanzadera tiene lugar cuando el animal corre de un lado a otro de la caja para evitar la descarga, y después, en el siguiente ensayo, vuelve al lado inicial para evitar la descarga una vez más. Varios investigadores hallaron que la evitación de la caja lanzadera está inversamente relacionada con la intensidad de la descarga. Cuanto mayor es la intensidad el EI, peor resulta la ejecución de la evitación. Aparentemente este resultado resulta paradójico porque los niveles de descarga eléctrica más altos deberían aumentar la motivación del animal para la evitación e incrementar así la ejecución de la evitación tratados previamente. De hecho, se produce la relación inversa porque, como argumentan Theios, Lynch y Lowe (1966), el condicionamiento de evitación en la caja lanzadera comporta dos tendencias contrarias. La primera es la reacción de evitación en sí misma. La segunda es la tendencia a la evitación pasiva –abstenerse de regresar adonde se había producido la descarga eléctrica en el ensayo anterior-. Según estos autores, el sujeto se encuentra en una situación conflictiva. Éste tiende a huir de su situación actual, pero, al mismo tiempo, recela del otro lado de la caja. Después de todo, la descarga eléctrica se administró allí en el ensayo anterior. Respaldando esta cuestión, el aprendizaje de evitación de un único sentido se encuentra directamente relacionado con la intensidad de la descarga eléctrica. Se han formulado otras teorías de la relación inversa entre la intensidad de la descarga eléctrica y la evitación en la caja lanzadera. Una de ellas sostiene que la cámara a la que el animal ha de regresar provoca inmovilización, que compite con el aprendizaje de evitación activa. Otro afirma que al aprendizaje de evitación en la caja lanzadera comporta, en general, una magnitud de reforzamiento inferior respecto a otras formas de condicionamiento de evitación. Concretamente, el reforzamiento se produce cuando los animales huyen de las claves provocadores de miedo que están experimentando en ese momento hacia un lugar seguro (cuanto mayor sea el número de clave segura, mayor será el reforzamiento). Puesto que el lado hacia el que corre el animal es una caja lanzadera también provoca miedo, el nivel general de recompensa es bajo.

Inmediatez de la recompensa. La contigüidad entre el EC y el EI es necesaria para desarrollar una asociación pavloviana. Puede hacerse la misma afirmación del CI. Para que se forme una asociación respuesta-consecuencia, la respuesta y la recompensa deben darse conjuntamente en el tiempo. Si se produce una demora apreciable de la recompensa, la ejecución disminuye y de forma acusada. La demora interfiere en el aprendizaje de nuevas conductas, además de en la ejecución de respuesta muy arraigadas. Entrenamiento de recompensa. El efecto debilitante de la demora de la recompensa es uno de los hallazgos más fiables de la investigación contemporánea del aprendizaje. Por ejemplo, Dickinson, Watt y Griffiths (1992) entrenaron a ratas para presionar una palanca en un programa de reforzamiento continuo. Distintos grupos recibieron demoras de reforzamiento de 0, 2, 4, 16, 32 o 64 segundos, la figura muestra la relación entre la presión de la palanca y la demora experimentada. La demora del reforzamiento puede cambiar de forma selectiva la naturaleza de la unidad de respuesta que se ejecuta. Arbuckle y Lattal (1988) lo demostraron. Entrenaron a palomas a picotear una tecla con el fin de obtener comida en un programa de IV de 60 segundos; la demora de a recompensa en una parte del estudio fue de

18

ocurrencia del aprendizaje?. Hay poco consenso acerca de la respuesta. El hecho de que se haya logrado escaso acuerdo implica que otros factores distintos a la propia demora son también importantes.

rojo. La duración de la luz roja variaba sistemáticamente, de 0,5 a 27 segundos. En la figura se muestran los resultados de una de las palomas. El nivel de ejecución resultaba demasiado bajo cuando no se proporcionaba ninguna señal de demora. Sin embargo, cuando aumentaba la duración de la señal respecto al intervalo de demora, la ejecución mejoraba espectacularmente. Por tanto, aunque la demora del reforzamiento retarda de forma acusada el aprendizaje, recibir una clave externa durante el período de demora suprime prácticamente ese déficit. Además, las claves que ocupan un porcentaje mayor del intervalo de demora facilitan la ejecución más que las claves que ocurren sólo brevemente al principio del intervalo. ¿Por qué mejora la ejecución una clave externa en esta situación? No es fácil responder esta pregunta, pero se han propuesto varias sugerencias. Una hipótesis es que la clave externa funciona como un reforzador en sí misma. Cuando la clave se presenta inmediatamente después de la respuesta, el sujeto está recibiendo dos recompensas. Una recompensa es la comida; la otra la clave, cuya fuerza se deriva del hecho de que está emparejada con al recompensa de la comida.

0,5 segundos. Esta breve demora no tuvo ningún efecto en la tasa global de respuesta, pero sí afectó a la distribución de los TER. Los valores altos de TER, que son característicos de los programas de intervalo, se suprimieron de forma selectiva. Cuando el valor de la demora aumentó a 5 segundos, sucedió lo contrario. Estas demoras mayores provocaron un aumento en la frecuencia de valores largos de TER. Los estudios muestran que el aprendizaje es posible con demoras breves, pero no con demoras más largas. ¿Tiene un límite el punto hasta que la recompensa puede demorarse permitiendo todavía la

Uno de estos factores es en qué medida se producen claves externas durante el intervalo de demora. Los estímulos externos relacionados con la demora no sólo facilitan la ejecución, sino que también eliminan prácticamente el déficit producido por al demora. Considérese un experimento de Schaal y Branch (1990). Las palomas tenían que picotear una tecla verde para obtener comida en un programa de IV-60 segundos. La recompensa se demoraba durante 27 segundos tras el picoteo operativo de la tecla. Durante este periodo de demora, el color de la tecla de respuesta cambiaba de verde a

19

Una teoría alternativa es la hipótesis del marcado. El objetivo inicial de los experimentos de Liebrman, McIntosh y Thomas (1979) era examinar la afirmación de que los sujetos aprenden el giro correcto en un laberinto en forma de T, a pesar de administrarles una demora prolongada de la recompensa. Al comienzo de cada ensayo se colocaba al sujeto en la caja de salida y se le permite escoger uno de los dos callejones. El blanco se definió como el correcto, allí recibían la recompensa los que elegían el blanco. Todos recibieron una demora de 2 minutos tras al respuesta correcta, los grupos diferían en función de lo que sucedía inmediatamente después de la elección. Algunos animales recibieron un tono o una luz; los sujetos de control no recibieron ninguna clave. Todos los sujetos comenzaron con un nivel de ejecución del 50% aproximadamente, sin embargo ,los grupos de la luz y el ruido aprendieron al discriminación al final del entrenamiento. La ejecución en este grupo fue superior al 90% de respuestas acertadas en el último bloque de ensayos del entrenamiento. Por el contrario, el grupo de control continuaba respondiendo a niveles de azar; no aprendieron a escoger el lado correcto.

Condicionamiento aversivo. No es de extrañar que la demora de los efectos de la recompensa afecte al condicionamiento instrumental aversivo del mismo en que afecta al aprendizaje de recompensa. Por ejemplo, Fowler y Trapold (1962) entrenaron a unas ratas para poner fin a la descarga eléctrica se demoró durante diversos periodos de tiempo. El aprendizaje guardaba una relación inversa con la demora. El final inmediato de la descarga dio lugar a los mejores resultados de adquisición; las demoras de 8 o 16 segundos retardaron el aprendizaje de escape. Las claves que intervienen entre la respuesta y la recompensa facilitan el condicionamiento aversivo del mismo modo que el condicionamiento de recompensa. Tarpy y Koster (1970) mostraron que incluso una demora de 3 segundos del final de la descarga eléctrica impedía el aprendizaje de una respuesta de escape como la presión de una palanca. Sin embargo, si se administraba una luz durante el intervalo de demora, el aprendizaje no resultaba afectado; los sujetos respondían con el mismo nivel de eficacia que el grupo sin demora. Por último, el efecto de la demora en la administración de un castigo es una reducción en el grado de supresión de la respuesta. Es decir, el castigo es menos eficaz cuando se demora. El resultado que cabría esperar si el castigo se demora es precisamente una reducción de su efecto supresor.

¿Por qué mejoraron la luz y el tono el aprendizaje de discriminación?. Según los autores, las claves ayudaron a marcar la respuesta elegida en la memoria. Un acontecimiento inesperado y saliente (luz o sonido) inmediatamente posterior a una respuesta de elección, da lugar a un mejor repaso, y por tanto recuerdo, de la respuesta de elección. Al reforzarse posteriormente, los sujetos muestran una mayor capacidad para asociar su elección correcta anterior con la recompensa de la comida.

20

¿Afecta el reforzamiento al aprendizaje o ejecución?.

Para obtener comida. Un grupo recibía una recompensa grande (64 bolitas) otro 16 bolitas y el tercer grupo 4 bolitas. En la segunda fase se cambiaron el nivel de recompensa de los grupos 1º y 3º igualándolos al segundo grupo en 16 bolitas. Así se espera que, si la magnitud de la recompensa afectase a la conducta, los tres grupos deberían responder con la misma tasa aproximada durante la segunda fase. Sin embargo, si algún otro factor afectase a la conducta durante la fase 2, como el recuerdo del nivel previo de recompensa, la conducta de los grupos debería diferir. La conducta fue diferente, como se muestra en la figura. El grupo 1º corrieron más despacio en la fase 2ª, a este fenómeno se denomina contraste negativo porque la conducta disminuye por debajo del nivel mostrado por el grupo que no cambia. El segundo resultado, el grupo que paso de 4 a 16 píldoras (corrieron aún más rápido que el grupo 16-16), se denomina contraste positivo, porque cuando las condiciones de recompensa mejoran de repente, los animales sobrepasan el nivel de ejecución y rinden aún más. Los cambios fueron tan repentinos que es improbable que el aprendizaje de los animales se viese afectado, otro aspecto que respalda el argumento es la disminución de la ejecución del grupo 64-16, estos animales no podían haber desaprendido de repente su respuesta.

Naturaleza del reforzador. Un reforzador es cualquier acontecimiento que incrementa la probabilidad de una respuesta contingente. Reforzamiento sensorial. Consiste en un cambio de la entrada sensorial (input), en el que la presentación de una luz o ruido es contingente respecto a una conducta, tal como presionar una palanca. El cambio sensorial actúa como reforzador eficaz. Este reforzamiento sensorial se produce principalmente cuando los animales no han experimentado de forma reciente cambios en los patrones de luz o ruido, es decir, cuando los animales han experimentado un periodo de privación sensorial, sino el efecto de reforzamiento sensorial se reduce notablemente.

La recompensa instrumental no afecta a lo que el animal aprende sino que, más bien, influye en su motivación para realizar la respuesta. Según esta concepción, los sujetos que reciben una recompensa grande están más deseosos de recibir el reforzador que los sujetos que reciben una recompensa pequeña. Un fenómeno que respalda este punto de vista es el contraste de incentivo. Considérese el experimento clásico de Crespi (1942). Tres grupos de ratas recibieron 20 ensayos de entrenamiento en los que podían recorrer un callejón.

21

Olores. Muchos estudio se centran en los patrones de aprendizaje naturales de los animales. La mayoría indica que los animales son sumamente sensibles a los estímulos naturales, encontrándose los olores entre los más salientes para los roedores. Reforzamiento social. Los estímulos sociales pueden servir como reforzadores en el aprendizaje instrumental. Un estudio de Swart y Rosenblum (1980) ofrece una buena ilustración. Unos macacos coronados tenían acceso a una palanca que encendía una televisión en color, ante la presentación de varios vídeos, la reacción más fuerte la produjo el video de la hembra de la misma especie en movimiento. El hecho de que cada estímulo reforzase la presión de la palanca es consecuente con el fenómeno del reforzamiento sensorial. Sin embargo, el hecho de que el reforzador más poderoso fuese el vídeo del mono en movimiento de la misma especie indica que los reforzadores sociales no afectan a la conducta elevando sólo el nivel general de estimulación sensorial. Son reforzadores en sí mismos.

Respondiendo en consecuencia. El resultado indica que las ratas aprendieron una regla, que cada ensayo incluía menos píldoras que el anterior. Utilizando una regla de este tipo, los animales extrapolaron entonces al ensayo número cinco, anticipando así la ausencia de comida. El hecho de que corriesen de forma inusitadamente lenta en el quinto ensayo respalda la noción de una regla de respuesta. Si los sujetos estuvieran respondiendo de memoria, no habrían actuado de ese modo, porque nunca experimentaron 0 píldoras tras el ensayo con 1 bolita y, por tanto, no podían tener ningún recuerdo de ello.

Características de la respuesta: relevancia ecológica. La investigación indica que, no todas las respuestas son condicionables en la misma medida, aun utilizando el reforzador adecuado. Breland y Breland (1961) realizaron un destacado experimento sobre esta cuestión (el conocido de los cerdos que depositan monedas en la hucha). En dicho experimento no había ningún indicio de que el reforzamiento fuese inapropiado, o de que los animales fuesen incapaces de realizar la respuesta, sin embargo, los sujetos recurrieron a sus patrones instintitos de conducta alimentaria. Este comportamiento no deseado se denominó conducta inadecuada [misbehaviour].

Patrón de la magnitud de recompensa. Afecta poderosamente al aprendizaje instrumental . En el experimento de Hulse y Dorsky, que entrenaron a ratas a recorrer un callejón recto para obtener comida. En los animales experimentales, la magnitud de la recompensa en la caja meta disminuía de forma sistemática de 14 a 0 bolitas a lo largo de series de ensayos. Cuanto más pronunciado era el patrón, mejor anticipaban los animales la magnitud en el siguiente ensayo,

22

Entrenamiento de recompensa. A partir del trabajo de Breland y Breland, gran parte de nuestro conocimiento procede de la obra de Shettleworth, que estudió varias conductas naturales en el hámster dorado. Una de las tareas principales de Shettleworth era investigar si estos patrones de acción resultan afectados del mismo modo por la recompensa de la comida. Tres conductas mostraron aumentos elevados e inmediatos en al tasa, en función de un reforzador de comida contingente. Los últimos tres patrones de acción manifestaron efectos débiles. La implicación es que algunas respuestas (rozarse, escarbar), pero no otras (arañar una superficie, lavarse la cara) son más relevantes para, o influenciadas por, la recompensa de la comida. Este hallazgo es consistente con una perspectiva evolucionista. En concreto para hámsteres hambrientos es adaptativo entretenerse en conductas como rozarse y escarbar porque aumentan las posibilidades de entrar en contacto con al comida.

Pueden estar implicado tanto factores de aprendizaje como de ejecución, una evidencia a favor de la hipótesis del déficit de la ejecución procede de un estudio de Charlton, que estudio el acicalamiento de los hámsteres, una conducta difícil de condicionar. Vio como aumentó la tasa de acicalamiento con un programa IF pero no con el reforzamiento continuo. Con la recompensa continua los hámsteres se veían limitados normalmente a realizar conductas próximas al momento de la recompensa, tales como aproximarse, comer, y así sucesivamente. Sin embargo, en el programa de IF era más probable que se efectuasen conductas que tienen lugar en momentos anteriores, tal como el acicalamiento y que fuesen así afectadas con mayor probabilidad por el reforzador. La dificultad de condicionar también puede reflejar una incapacidad para asociar la conducta con la recompensa. Morgan y Nicholas respaldaron esta postura mediante un experimento en que ofrecían a las ratas la oportunidad de presionar la palanca para obtener una recompensa de comida tras lavarse la cara, etc. El reforzador aumentó la tasa de cada una de estas conductas, aunque los arañazos parecían ser mucho menos sensibles a la recompensa que erguirse o lavarse. Aunque la conducta de arañar se aprendía como respuesta instrumental, era mucho más difícil de condicionar que erguirse o lavarse, y resultó menos eficaz como estímulo discriminativo. Por tanto, el

Condicionamiento aversivo. Shettleworth estudió también el efecto del castigo en estos patrones de conducta. El resultado general fue que la descarga contingente respecto a la respuesta suprimió los rozamientos sustancialmente; se observó una escasa recuperación una vez cesó el castigo. El castigo suprime la conducta, pero los patrones de acción afectados difieren de aquellos afectados por la recompensa de la comida. La teoría de los efectos de recompensas y castigos. Ilustran los fallos del trabajo de Shettleworth una falta de aprendizaje, o se trata sólo de una carencia de ejecución.

23

experimento no sólo muestra niveles retardados de condicionamiento instrumental, sino también que la propia conducta no es muy saliente. Por tanto, el déficit sugiere una carencia de aprendizaje asociativo. En conclusión, la evidencia indica que no lograr condicionar una respuesta dada puede deberse a factores de ejecución o a un fallo en el aprendizaje asociativo.

Capítulo 10

Fenómenos del condicionamiento instrumental.

Reforzamiento condicionado. Un concepto importante en la investigación del aprendizaje es el reforzamiento condicionado (secundario). Un reforzador secundario (designado como Sr ) es un estímulo inocuo que adquiere las propiedades de un reforzador primario, como al comida o el agua, al emparejarse de forma consistente con el reforzamiento primario. En ocasiones posteriores, la clave secundaria por sí misma refuerza la conducta. Dicho de otro modo, un reforzador secundario es un EC pavloviano (ha sido emparejado con un EI apetitivo o con la terminación de un EI aversivo) que sirve como reforzador en un contexto de aprendizaje instrumental.

Pruebas del reforzamiento secundario. La capacidad de una clave para actuar como un reforzador instrumental en sí misma puede demostrarse de varios modos: el mantenimiento de la respuesta (técnica de la extinción), la técnica del encadenamiento, y la técnica de la adquisición). Mantenimiento de la respuesta. Una forma de demostrar reforzamiento secundario es la técnica de extinción. La presentación de una reforzador condicionado durante la fase de extinción mantiene la conducta respecto a la cual es contingente la clave. Es decir, que los sujetos que reciben el reforzamiento secundario tras la respuesta criterio muestran generalmente un nivel de respuesta más sostenido durante la extinción que los sujetos en los que no se da esta circunstancia. Del mismo modo, los reforzadores secundarios mantienen la conducta durante la adquisición en condiciones que, de lo contrario, producirían un déficit en la conducta. Por ejemplo, una demora de la recompensa provoca una disminución significativa de la tasa de respuesta. Sin embargo, si se administra una clave breve durante la demora, no se observa tal reducción de la tasa de respuesta porque el Sr actúa como una recompensa. Técnica del encadenamiento. La técnica del encadenamiento ha sido ampliamente utilizada para demostrar el reforzamiento condicionado. Durante el entrenamiento, un sujeto experimenta dos clases de consecuencias tras su conducta. Una respuesta no produce ninguna recompensa en presencia de E2 pero da lugar a una recompensa ante E1. En una prueba de reforzamiento secundario posterior, responder durante a presentación de E2 da lugar a E1; responder ante E1 produce entonces la recompensa. Si se mantiene la conducta en presencia de E2, el E1 debe ser un reforzador porque la respuesta ante E2 no va seguida de reforzamiento primario sino por la presentación de E1, el reforzador condicionado. Hay varias condiciones de control. La más común implica la presentación de un nuevo estímulo, E3, contingente respecto a la finalización del primer programa. Puesto que E3 no se emparejó nunca con una recompensa (o con ausencia de recompensa), no puede actuar como un reforzador para responder en presencia de E2.

24

Un buen ejemplo de la técnica de encadenamiento fue un estudio de Kelleher y Fry (1962). Las palomas recibieron tres componentes de IF, cada uno de ellos designado por un color distinto. Al comienzo de un ensayo, la tecla iluminada era de color blanco, pero tras un intervalo fijo de tiempo, al respuesta hacía que el blanco se convirtiese en verde. De nuevo, transcurrida una cantidad fija de tiempo, una respuesta transformaba el color en rojo. Por último, responder durante la presentación de la luz roja producía una recompensa de comida con un programa de IF. La respuesta fue bastante lenta en presencia del componente blanco, y las pausas eran frecuentes. Por tanto, el estímulo verde resultó ser un reforzador débil para responder ante el componente blanco. Sin embargo, las respuestas se aceleraron de manera acusada durante la presentación de los estímulos verde y rojo, especialmente durante el estímulo rojo donde la tasa de respuesta fue máxima. La clave roja, que actuó como reforzado condicionado, mantuvo la respuesta ante la luz verde. Técnica de la adquisición. Una técnica que proporciona una demostración aún más convincente del reforzamiento condicionado es el procedimeinto de la adquisición. En la fase 1 de un estudio Hyde (1976), los sujetos con reforzamiento secundario recibieron un estímulo auditivo de 3 segundos (un tono o un clic) seguido de alimento como recompensa. En este caso, el estímulo auditivo debería convertirse en un reforzador condicionado porque estaba emparejado con comida. Un grupo de control recibió presentaciones aleatorias del estímulo auditivo y la comida. Dos grupos de control adicionales recibieron las presentaciones de la comida, pero no los EECC auditivos. Durante la fase de prueba, se introdujo una palanca en la jaula por primera vez. Uno de los grupos que había recibido exclusivamente presentaciones de la comida en la fase 1 no recibía nada después de presionar una palanca (fueron incluidos para ofrecer una línea base de respuesta con la que comparar el rednimeinto de los otros grupos). Los otros grupos recibieron una presentación de tres segundos del estímulo auditivo tras cada presión de la palanca (en el otro grupo con comida sólo, esa clave era nueva). En el gráfico se muestra la respuesta media durante las ocho sesiones de prueba.

Por ejemplo, Williams y Dunn (1991) entrenaron a ratas para que realizasen una discriminación condicional. Se reforzó a los sujetos por presionar una palanca durante la presnetación de un sonido pero una palanca distinta ante una luz. Una respuesta corecta iba seguida tanto por un tono como por comida. El tono facilitó al aprendizaje de

Se dio un grado de respuesta considerable en todos los grupos en relación al grupo sin clave, pero el estímulo auditivo emparejado previamente con la comida tuvo el mayor efecto en la presión de la palanca. El número medio de pulsaciones de la palanca durante la primera sesión fue casi sesis veces mayor que el nivel del grupo de control sin clave. Un reforzador condicionado no sólo mantiene conductas que han sido ya aprendidas (técnicas de mantenimiento de la respuesta y de encadenamiento) y aumenta de frecuencia de otras nuevas (técnica de adquisición), sino que afecta también a la propia tasa de aprendizaje.

25

discrimación; de hecho, el tono sustituyó a la comida, lo que indica que su papel era idéntico al del reforzador primario.

Teorías del reforzamiento secundario. Adquisición de la fuerza. Muchos consideran que un reforzador secundario obtiene una fuerza considerable mediante su asociación con la recompensa, es decir, por medio del condicionamiento pavloviano. Varios resutados respaldan esta afirmación mostrando que los principios para generar un fuerte reforzamiento secundario son precisamente los utilizados para entrenar fuertes EECC pavlovianos. Fción de la clave. El segundo aspecto teórico hace referencia a la función de la clave. Según la hipótesis del estímulo discriminativo, un estimulo secundario actúa principalmente como un Ed. En una prueba de reforzamiento secundario, la conducta se mantiene en un nivel relativamente alto porque cada presentación de la clave desencadena una respuesta adicional. Algunos trabajos anteriores han respaldado está hipótesis. Aunque las funciones de una clave como Ed pueden ser importantes en varios contexto experimentales,la contingencia respuesta-clave es más crítica para los efectos observados en estudios de reforzamiento condicionado que la relación que al relación clave-respuesta. Parte de la evidencia de esta afirmación procede de estudios que han medido simultaneamente las propiedades de la clave como Ed y Sr.

Conducta de elección. Uno de los principios más celebrados que describen la conducta de elección es la ley de igualación, es un enunciado matemático que describe la relación entre la tasa de respuesta y la tasa de recompensa: los animales equiparan su tasa de respuesta con al tasa a la que se refuerza la acción. Frecuencia del reforzamiento. Hernstein (1961), que desarrolló inicialmente la formulación de la igualación, entrenó a unas palomas para picotear una de dos teclas con el fin de obtener comida. Se asoció cada tecla con un programa de IV distinto. A éste se le denomina “programa concurrente IV-IV” porque ambos programas se administran de forma simultánea, y el sujeto tiene la posibilidad de elegir entre ellos. El sentido común, indica que beneficia más al sujeto picotear al clave asociada con el programa de reforzamiento más favorable. Sin embargo, halló que los sujetos igualaban sus respuestas en una tecla dada a la frecuencia relativa del reforzamiento para esa clave. Formalmente la ley de de la

igualación se define mediante la siguiente ecuación: ( ) ( )ba

a

ba

a

FFF

RRR

+=

+ los términos

Ra y Rb representan el número de respuestas en los programas a y b respectivamente, y los términos Fa y Fb corresponden al número (o frecuencia) de reforzadores recibidos como consecuencia de responder en los programas a y b, respectivamente. En resumen, cuando se les presentaba la elección entre dos programas que diferían en cuanto a al frecuencia del reforzamiento, los animales no sólo respondían al mejor de los dos (esto es, IV-1). En lugar de ello, distribuían sus respuestas de tal modo que el número relativo de picotazos dados a la tecla “a” se equiapraba al número relativo de reforzadores para ese programa.

26

Otras características de la respuesta. Si al tasa relativa de recompensa es el valor reforzante esencial de la opción “a” (cuanto mayor es el núemro de recompensas pro hora, mayor e sel valor), otras dimensiones de la recompensa –tales como la magnitud, naturaleza e inmediatez- las cuales afectan al valor general de una recompensa, deberían influir también en la conducta de elección de un modo similar. Este resultado se ha hallado en muchos estudios. Por ejemplo, en cuanto a la magnitud de la recompensa, la ley de la igualación puede reformularse del

siguiente modo: ( ) ( )ba

a

ba

a

MMM

RRR

+=

+. La tasa relativa de respuesta se iguala con la

magnitud del reforzador. La ley del reforzador describe también la conducta de elección cuando las recompensas difieren respecto a la inmediatez. Para la demora de la recompensa, la fórmula de la igualación se expresa mediante la siguiente ecuación

( )

+

=+

ba

a

ba

a

D1

D1D1

RRR . La inmediatez se define como lo recíproco de la demora; a

medida que la demora aumenta,la inmediatez disminuye. En resumen, cuando se presentan dos programas de IV a un sujeto, y cada uno produce la misma magnitud de recompensa demorada, los sujetos responden más al programa que ofrece la recompensa más inemdiata. Sin embargo, responden también a la opción menos favorable, al menos parte del tiempo. La proporción de respuesta a cada programa se describe mediante la ecuación de la igualación. Estos resultados indican que la ley de la igualación concierne al valor cuantitativo del reforzador, independientemente de si ese valor viene determinado por la frecuencia de la recompensa, su magnitud o su inmediatez. Sin embargo, la igualación se produce también cuando los reforzadores difieren cualitativamente. Condicionamiento averisvo. La fórmula de la igualación atañe a situaciones que comportan consecuencias aversivas además de apetitivas. Por ejemplo, un estudio de Baum. De vez en cuando, se concedía un tiempo libre de descarga eléctrica, pero la frecuencia de estos períodos difería según el lado de la jaula en que se encontrase el sujeto en ese momento. Los sujetos igualaban el tiempo relativo invertido en el lado “a” con la frecuencia relativa de los tiempos libres de ese lado. Los experimentos han examinado también como afecta al castigo a la elección, en un estudio realizado por Villiers (1980), halló que la respuesta relativa se igualaba a la proporción con bastante exactitud.

En la figura. La linea diagonal representa los valores predichos por la ley de igualación. No supone ninguna diferencia cuáles son los valores del programa IV concreto; las tasas relativas de respuesta deberían igualarse.

27

Desde su formulación por Hernstein, muchos estudios han confirmado que las ecuaciones se cumplen generalmente en una amplia variedad de condiciones. Por último, la ley de igualación ofrece una buena descrición de la conducta de elección en un entorno natural. Autocontrol. Muchos estudios de autocontrol muestran que las ratas y las palomas actúan de forma compulsiva; escogen la opción de recompensa más inmediata pero más pequeña. Dicha impulsividad se observa también en los seres humanos, en particular los niños. Aparentemente, la mayoría de los animales consideran el valor de una recompensa demorada inferior al valor de la misma recompensa administrada de forma inmediata. Vemaos como explica la ley de igualadad la elección impulsiva. Supongamos que una paloma puede elegir entre responder en un programa “a” o un programa “b”. El programa “a” comporta una recompensa grande pero demorada (4 gr., demorado durante 4 segundos). Por otra parte, el programa “b” incluye una recompensa más pequeña (2 gr.) con una demora de 1 segundo. Según la ley de la igualación un sujeto ajusta la tasa de respuesta a la tasa del efecto combinado de la magnitud e inmediatez.

La fórmula que describe esta relación es la siguiente: ( )

+

=+

b

b

a

a

a

a

a

a

DM

DMDM

RR

bR. Los

términos aR y bR hacen referencia al número de respuestas en los programas “a” y “b” respectivamente. Los términos aa D/M y bb D/M representan la magnitud de la recompensa dividida por la demora de los programas “a” y “b”, respectivamente. Por tanto, la ecuación anterior es simplemente una combinación de las dos ecuaciones anteriores. Sustituir en esta fórmula los valores arbitrarios utilizados previamente da

lugar a la siguiente predicción: ( ) 33,031

12

44

44

RR

a

a ==+

=+ bR

. Así, la fórmula de la

igualación predice que sólo el 33% de las respuestas estará dedicado al programa “a”, la opción de recompensa grande demorada. En este caso, el animal se comporta de forma impulsiva durante el 67% del tiempo total. Varios factores hacen que los sujetos ejerzan un mayor autocontrol de lo que indica la formulación de igualación. En primer lugar, los estímulos administrados durante el intervalo de demora justo antes de la administración de la recompensa disminuyen los efectos perjudiciales de la demora. Esto significa que una recompensa señalada nos edevalúa tanto como la recompensa que no viene señalada. En segundo lugar, los humanos adultos muestran a menudo un mayor autocontrol, porque desarrollan reglas relativas a los requisitos para obtener recompensas. En tercer lugar, el que in animal demuestre impulsividad o autocontrol depende, en parte, de las actividades que efectúe durante el intervalo de demora. Si las reocmpensas son salientes, los animales tienden a ser impulsivos. En cuarto lugar, el autocontrol puede mantenerse omitiendo la demora al principio pero aumentándola después de forma gradual durante el entrenamiento. Si una condición de recomensa, varía poco a poco hasta convertirse en otra, los sujetos pueden msotrar un autocontrol considerable. Quinto, la experiencia del sujeto afecta al grado de autocontrol. En un interesante estudio de Eisenberger, Weier, Masterson y Theis (1989),se entrenó a las ratas para seguir un corredor hasta una caja meta y regresar al origen para recibir comida. Los animales con refrozmaiento continuo recibieron una recompensa por cada

28

viaje de ida y vuelta completo. Los sujetos con razón fija (RF) tenían que realizar hasta cinco viajes completos para recibir la recompensa de comida.

Evaluación de la ley de igualación. La ley de la igualación proporciona una descrición precisa de la conducta de elección en muchas situaciones, pero se han fundamentado graves problemas. Uno de los desafíos, planteado por Logue y Chavarro (1987), se centraba en si los valores absolutos de la inmediatez, magnitud y frecuencia de la recompensa eran importante para el igualación. La ley de igualación predice que se realizará la misma elección siempre que se mantengan los valores relativos de estos parámetros; el valor absoluto no debería importar. Sin embargo, los autores hallaron que la proporción de respuestas dedicadas a la mejor elección disminuía a medida que aumentaban los valores absolutos de la recompensa, a pesar del hecho de que la proporción permanecía constante. Éste es un

Los sujetos del grupo obligado a responder cinco veces por recompensa en el corredor presionaron la palanca que requería un mayor esfuerzo más veces el grupo que había recibido recompensa tras efectuar un viaje de ida y vuelta en el laberinto, en otras palabras haberles forzado a realizar cinco viajes de ida y vuelta por recomepnsa en el laberinto, en oposición a uno, hizo que los sujetos de RF mostrasen psoteriormente un mayor autocontrol. Por ultimo, la impulsividad se evita cunado los sujetos se comprometen con la recompensa grande demorada antes del punto de elección. Esto se demostró en un estudio de Rachlin y Green (1972). Los suejtos podían picotear la tecla izquierda o la derecha (ambas iluminadas con una luz blanca). El procedimiento se representa en la figura de la izquierda. Según la teoría el porcentaje de respuestas en la tecla izquierda debería ser del 61%. Éste es precisamente el resultado hallado en esta situación. Es más probable que el sujeto escoja no realizar una elección posteriormente; si el sujeto responde principalmente en el lado que evita una elección.

29

serio problema para la igualación porqu ela fórmula predice qu el aproporción debería mantenerse constante siempre que no cambien los parámetros relativos de reforzamiento. Un segundo problema de la ley de la igualación es que no siempre predice la conducta de forma precisa. Según Baum, los sujetos suelen cometer tres errores sistemáticos en situaciones de elección, sesgos, sobre igualación e infraigualación. Los sesgos se muestran cuando el sujeto tiene una especial afinidad o preferencia por una de las elecciones. La sobre igualación es una tasa de respuesta superior para el mejor de dos programas respecto a lo que predice la fórmula de la igualación. La infra igualación se produce cuando el sujeto responde menos de lo previsto en el programa preferido o ventajoso. Según Baum, la igualación se describe mediante la siguiente ecuación:

s

b

a

b

a

FFk

RR

= , donde aR , bR , aF y bF , hacen referencia a las respuestas y frecuencia

del reforzamiento en los programas “a” y “b”, respectivamente; k es una constante que representa el sesgo de respuesta, y s es un exponente que regula la sensibilidad del sujeto hacia los dos programas (la sobre igualación se produce cuando s>1; la igualación cuando s=1; y la infra igualación cuando s<1). Existe un tercer problema con la ley de igualación. Imaginemos que se ofrece a los sujetos una elección entre dos programas de RV, en lugar de entre dos programas de IV. Supongamos que el programa “a” es de RV-10 y el programa “b” es de RV-5. Los

fórmula de la igualación predice siguiente: ( ) ( ) ( ) 33,02010

10=

+=

+=

+ ba

a

b

a

FFF

RRaR . El

porcentaje de respuestas efectuadas en el programa “a” debería ser del 33,3%. Éste no fue el resultado encontrado. Los sujetos no igualan la tasa relativa de respuesta con al tasa de reforzamiento cuando se les ofrece la posibilidad de elegir entre dos programas de RV. En lugar de ello, responden exclusivamente en el mejor programa.

Teorías de la igualación. Maximización. Según la teoría de la maximización de la igualación, los animales han evolucionado para comportarse de un modo que produce la tasa más alta de reforzamiento. Veamos como la conducta de igualación en programas concurrentes IV-IV maximiza de hecho la recompensa. Cuando un animal opera en un programa de IV, el tiempo avanza respecto al otro programa también. Cambiando momentáneamente de “a” a “b”, el animal recoge la recompensa que se ha almacenado en “b”. Por tanto, resulta ventajoso para el sujeto responder en ambos programas, aun cuando uno de ellos sea menos generoso que el otro. Sin embargo, en el programa concurrente RV-RV no cabe almacenar recompensas para su futura recogida. En este caso, lo único que da lugar a un reforzador es completar el requisito de la razón. Si el sujeto cambia al programa “b”, debe completar todavía el número requerido de respuestas estipulado por ese programa antes de entregar la recompensa, la interpretación de la maximización no ha sido respaldada de forma universal. Mejora. Es una segunda teoría de la igualación. Mejorar se entiende en el sentido de hacer algo más ventajoso. Según este parecer, la conducta de igualación se produce porque el sujeto está escogiendo continuamente la opción más prometedora. Como en el caso de la teoría de la maximización, se ha encontrado evidencia a favor y en contra de la concepción de la mejora.

30

Efectos del reforzamiento parcial. Se define como un aumento de la resistencia a la extinción que se produce cuando los animales reciben reforzamiento intermitente (en lugar de continuo) durante la adquisición. Históricamente, el efecto de reforzamiento parcial se consideró una paradoja. Si la recompensa fortalece una respuesta, los animales reforzados de forma continua deberían persistir durante más tiempo durante la extinción que los animales reforzados parcialmente, porque cuanto más recompensa, más fuerte es la respuesta. Sin embargo, el efecto de reforzamiento parcial y a no se ve como una paradoja porque se han producido avances significativos en al teoría en las últimas décadas.

Factores que afectan a la persistencia. Muchos de las variables que afectan a la adquisición influyen también en la persistencia del animal durante la extinción. Magnitud de la recompensa. Una variable es la magnitud de la recompensa durante la adquisición. Las recompensa grandes, cuando se administran en cada ensayo de adquisición, disminuyen la posterior resistencia a la extinción. Sin embargo, las recompensas grandes, cuando se administran de forma intermitente durante la adquisición, aumentan la resistencia a la extinción. Consideremos un experimento de Ratliff y Ratliff (1971). Se entrenó a unas ratas para recorrer un callejón con el fin de obtener comida. Durante la adquisición, los grupos recibieron 2, 4, 8 o 16 bolitas de comida en la caja meta. Se subdividió a los animales en cada una de las condiciones de magnitud tomando como base el porcentaje de la recompensa. En concreto, el porcentaje de ensayos en los que los sujetos recibieron recompensa en la caja meta fue del 255, 50%, 75% o 100%. En resumen, la magnitud de la recompensa afecta a la conducta de forma diferencial, dependiendo del programa de reforzamiento, entre otras cosas. La resistencia a la extinción es baja tras una recompensa grande continua, pero alta después de recompensas grandes parciales. Número de ensayos de entrenamiento. Se obtienen resultados similares al variar el número de ensayos de entrenamiento. La resistencia a la extinción disminuye en función del número de ensayos reforzados de forma continua, pero aumenta con un número mayor de ensayos de reforzamiento parcial.

Por ejemplo, en une studio de Hill y Spear 81963), cinco grupos de ratas recibieron ensayos de reforzamiento parcial durante 8, 16, 32, 64 o 128 ensayos. Durante la fase de extinción, la velocidad de desplazamiento por el corredor resultó una función directa del grado de entrenamiento. Los sujetos que recibieron 128 ensayos siguieron correidno más rápido durante la extinción, mientras que los sujetos que recibieron menos ensayos fueron lentos.

31

Patrones de recompensa durante la adquisición. Una secuencia alterna de recompensa y ausencia de recompensa durante la adquisición produce menos resistencia a la extinción que el patrón aleatorio de ensayos de recompensa y no recompensa, aun cuando se utilice el mismo número de recompensas. Una teoría es que los animales con presentación aleatoria muestran persistencia durante la extinción de las que se experimentaron durante la adquisición. Otro patrón importante que afecta a la extinción es el orden de los programas. La resistencia a la extinción es mayor cuando los ensayos reforzados de forma intermitente se administran tras los ensayos reforzados de forma continua que cuando se invierte el orden.

Teorías del efecto de reforzamiento parcial. Teoría de la frustración. Según la teoría de la frustración, los sujetos desarrollan la expectativa de recompensa durante la adquisición. Durante la extinción, cuando no se administra ninguna recompensa, experimentan una reacción incondicionada denominada “frustración” (RF). Esta sensación de frustración vigoriza la conducta. Zaslaw y Porter (1974), unas ratas habían de pulsar 18 veces una palanca situada en el lado izquierdo. Tras una breve demora, se insertó una palanca en el lado derecho de la jaula, y las ratas tenían que presionarla 18 veces. Los sujetos del grupo designado como 100 recibían siempre reforzamiento por completar la secuencia de respuestas en la palanca izquierda. En cambio, los sujetos del “grupo 50” recibían recompensa sólo el 50% de las veces por responder en la palanca izquierda; no obtenían recompensa en los otros ensayos. Todos los sujetos fueron recompensados por completar las 18 respuestas de la apalanca derecha. La medida de la ejecución era la velocidad con que los sujetos iniciaban la respuesta en la palanca derecha una vez insertada.

Una mayor frustración implica más perturbación y, por tanto, una extinción más rápida. Otro supuesto de la teoría es que mediante CC se condiciona el estímulo resultante de la reacción de frustración y, posteriormente, actúa como un Ed de la RI. Esto explica la resistencia a la extinción en los sujetos reforzados parcialmente. Cuando los animales experimentan frustración en un ensayo sin recompensa, la estimulación de retroalimentación, denominada EF, se generaliza a la caja de salida. Es decir, el sujeto experimenta un EF cuando se le vuelve a colocar en la caja de salida en

Este tipo de conductas inducidas por la frustración contribuyen a explicar la conducta de sujetos recompensados continuamente durante a extinción. En la fase de adquisición, estos sujetos esperan recibir una recompensa en cada ensayo. Cuando se encuentran con una ausencia de recomepnsa durante la extinción, experimentan un grado significativo de frustración. De hecho, siguen frustrados cuando se les coloca en al caja de salida al comienzo del sigueinte ensayo. La reacción incondicionada a la frustración compite o interfiere con la repsuesta instrumental ensañada durante la adquisición: es decir, seguir el corredor de forma directa y eficaz.

32

el siguiente ensayo. Si el sujeto procede a efectuar la respuesta en presencia del EF y recibe reforzamiento en ese ensayo, la asociación entre el EF y la recompensa se fortalece. Hipótesis secuencial. Similar a la anterior, pero afirma que los animales tienen recuerdos de las consecuencias de ensayos previos que no son necesariamente de naturaleza emocional. Los animales recuerdan las consecuencias de responder en ensayos previos. En algunos casos, los ensayos fueron recompensados (N), de modo que el post-efecto en al memoria es de recompensa (ER). En otros casos, los ensayos no fueron recompensados (N), de modo que el post-efecto es por ausencia de recompensa (EN). Una segunda afirmación de la teoría es que los post-efectos de la recompensa y no recompensa se convierten en parte del abanico de estímulos que el animal experimenta en al caja de salida durante el siguiente ensayo. Muchos estudios muestran que una perturbación del complejo estimular durante la extinción acelera el curso de la extinción. Al igual que la teoría de la frustración, la teoría secuencial explica con facilidad el efecto de la magnitud de la recompensa y la duración de la adquisición sobre la extinción. Cuanto mayor es la magnitud, más salientes son los post-efectos de la recompensa durante la adquisición. Por tanto, en la extinción, la omisión de un ER saliente produce un déficit mayor en el complejo estimular discriminativo que la omisión de un ER débil. Del mismo modo, el recuerdo de los post-efectos de la recompensa resulta fuerte tras un entrenamiento prolongado. La teoría secuencial explica el efecto del reforzamiento parcial como sigue. Durante la adquisición del reforzamiento parcial, se están formando dos tipos de memoria –a saber ER y EN-. Cuando un sujeto experimenta el EN en la caja de salida, pero recibe posteriormente una recompensa por correr hasta la caja meta en ese ensayo, el EN se convierte en parte del complejo estimular, porque correr en su presencia va seguido de recompensa. En otras palabras, los animales reforzados parcialmente son recompensados por responder en presencia del EN. Los animales reforzados de este modo incorporan el EN en su complejo estimular discriminativo durante la fase de adquisición y toleran así la extinción con mayor facilidad que los animales recompensados de forma continua.

Indefensión aprendida.

Ejemplos de indefensión aprendida. Transferencia aversiva-aversiva. En uno de los primeros estudios, Seligman y Maier (1967) utilizaron tres grupos de perros. Los animales del grupo de escape fueron sujetados mediante un mecanismo similar a una hamaca y recibieron descargas eléctricas no señaladas en sus patas traseras. Sin embargo, podían poner fin a la descarga pulsando cualquiera de dos paneles, localizados a cada lado del hocico. Los sujetos del grupo acoplado fueron colocados también en el arnés y recibieron el mismo número y patrón de descargas que los animales de escape, pero los sujetos acoplados no podían controlar la descarga pulsando los paneles. En la fase 2, todos los animales fueron tratados del mismo modo. Fueron colocados en una caja de lanzadera de dos compartimentos y se les enseñó una reacción normal de escape / evitación. El grupo acoplado mostró una perturbación acusada en el aprendizaje de la nueva reacción de escape / evitación. Este déficit del aprendizaje constituye el fenómeno de la IA. El diseño específico utilizado en este estudio es importante porque igualaba los grupos de escape y acoplado respecto a la descarga eléctrica. Según los autores, esta

33

falta de control provocó el desarrollo de la expectativa general de que la conducta es irrelevante respecto a la terminación de la descarga. La expectativa de la falta de control se transfirió, a su vez, a la nueva situación provocando un retardo del aprendizaje. Transferencia apetitiva-apetitiva. Por lo general, se ha observado el mismo tipo de transferencia negativa, la pereza aprendida. No conseguir controlar la entrega de comida en la fase 1 se transfirió negativamente a la fase 2, en la que de hecho podían obtenerse recompensas. Transferencia motivacional cruzada. Algunos autores han sugerido que el perjuicio del aprendizaje no se debe a la transferencia de una expectativa, sino más bien el hecho de que el animal experimenta un cambio de actividad general como consecuencia de una descarga incontrolable. Sin embargo, hay razones para creer que está ocurriendo algo más que un simple cambio de actividad. En primer lugar, los estudios muestran una transferencia negativa entre las situaciones apetitivas y aversivas que conllevan tipos notablemente distintos de tareas de respuesta. Un buen ejemplo de ello es un experimento de Rosellini, DeCola y Shapiro (1982). Entrenaron primero a ratas para esperar la entrega de comida tras un EC luz-ruido. Se formaron después dos grupos de sujetos. Uno recibió una descarga inescapable, mientras que el otro fue simplemente colocado en el aparato y no recibió ninguna descarga. Por último, en la fase 3, se administró el entrenamiento de discriminación. Los sujetos de la descarga inescapable no pudieron aprender esta simple discriminación. Por el contrario, los sujetos sin descarga, aprendieron fácilmente. Se ha utilizado también la estrategia contraria –esto es, administrar a los sujetos presentaciones de comida no contigentes y observar entonces si tenían una mayor dificultad para prender una tarea aversiva. En varios estudios, se ha mostrado una transferencia negativa. Por ejemplo, Sonoda, Okayasu y Hirai (1991) utilizaron tres grupos de ratas. Los sujetos del grupo con contingencia respecto a la respuesta presionaban una palanca para recibir 100 bolitas de comida al día. A los sujetos acoplados, se les administró comida siempre que los sujetos con contingencia en la respuesta obtenían una recompensa. Los sujetos del grupo de control en masa recibían toda su ración de comida de 100 bolitas al comienzo de cada sesión. Después del pre-entrenamiento, los sujetos eran colocados en una caja de lanzadera y se les permitía escapar de la descarga corriendo al otro lado de la caja y volviendo otra vez. A los fracasos para escapar se les asignó la latencia máxima de 60 segundos. Los resultados aparecen en la figura.

Final de la descarga. Al grupo sin descarga, se le colocó simplemente en el aparato durante esta fase.

Una de las demostraciones más interesantes del efectos de IA fue de Rosellini, DeCola, Plonsky, Warren y Stilman (1984). Se entrenó primero a las ratas de tres grupos para presionar con su hocico a través de un pequeño agujero de la pared con el fin de recibir una bolita de comida. El grupo de escape recibía después 80 ensayos en los que podían espacar de la decarga corriendo al otro lado de una caja lanzadera y volviendo de nuevo. Los sujetos acoplados experimentaron la misma descarga, pero su conducta resultaba irrelevante respecto al

34

Por último, todos los sujetos recibieron tres sesiones de prueba durante las cuales se entregaba una bolita de comida de forma aleatoria, aproximadamente cada 10 segundos. Puesto que ya no se precisaba la conducta de presionar con el hocico para producir la recompensa, los sujetos, por lo general, dejaron de efectuar su respuesta durante este periodo.

Maestría aprendida. Experimentar un control sobre la administración de reforzadores no sólo elimina los déficit de aprendizaje causados por el entrenamiento de indefensión (efecto de inmunización), sino que también hace que los animales sean inusualmente persistentes en varias tareas de aprendizaje. Este fenómeno se denomina maestría aprendida. Un buen ejemplo es el de Volpicelli, Ulm y otros (1983), un grupo de ratas recibió 4 días de entrenamiento de escape, en los cuales dos pulsaciones de palanca ponían fin a una descarga. Se incluyó también un grupo acoplado y otro sin descarga. Los sujetos fueron puestos a prueba 24 horas después en una caja lanzadera. Se administraron descargas inescapables durante cada una de las cuatro sesiones de prueba. En este caso, el sujeto no podía evitar escapar a las descargas y, por tanto, se esperaba que los intentos de hacerlo disminuyesen con el tiempo.

Este resultado confirma que la descarga inescapable afecta a la conducta en una situación de aprendizaje apetitivo y que la indefesión se manifiesta no sólo a través de un déficit en aprender que la conducta controla la administración de la recompensa, sino también mediante la potenciación del hecho de aprender que la conducta y la recompensa son independientes.

Principios de la IA. Inmunización. Los reforzadore sin controlables no impiden el aprendizaje posterior si

Los sujetos experimentan recompensas controlables antes de la fase de indefensión. Los efectos de la inmunización se producen incluso cuando la respuesta durante la fase de inmunización difiere de la respuesta en la fase de prueba. Los sujetos inmunizados no se comportaron de forma esencialmente distinta a los sujetos de control sin descarga, lo que indicaba que la exposición a descargas escapables previas les inmunizó contra los efectos perjudiciales de la descarga inescapable, incluso cuando la respuesta utilizada en la fase de inmunización (vuelta de una rueda) difereía de la utilizada en la fase de la prueba (correr).

35

Ejecución y un nivel superior de pasividad. En segundo lugar el sujeto tiene una expectativa generalizada de que su conducta seguirá siendo independiente de las consecuencias reforzantes. Esta creencia persistente es la causa de futuro déficit del aprendizaje. La hipótesis de la IA ha sido desafiada por estudios que muestran que no falta de control lo que da lugar a la consecuencia de la IA, sino, más bien, la incapacidad para predecir el EI. Hay dos hallazgos específicos relevantes para esta cuestión. En primer lugar, recibir una descarga inescapable y predecible perjudica el aprendizaje futuro en un grado significativamente menor que recibir una descarga no señalada. En segundo lugar, la presentación de estímulos tras la finalización de una descarga inesperada elimina el déficit de la IA. O sea la retroalimentación elimina el déficit de aprendizaje. Hipótesis de la ansiedad. La hipótesis de la ansiedad fue desarrollada por Overmier, Minor y demás como una alternativa a la hipótesis de la IA. Afirma que los animales que reciben una descarga inescapable desarrollan una ansiedad crónica (porque la descarga es impredecible e inescapable). Induce también varias anormalidades bioquímicas que pueden explicar por qué los animales que experimentan ansiedad crónica muestran un déficit de aprendizaje posteriormente. Aunque los sujetos se recuperan de los efectos de una descarga inescapable, existe también una forma más permanente de la condición de indefensión basada en el derivado del estrés. Se observó un déficit de aprendizaje sólo cuando los animales recibieron descargas eléctricas inescapables y experimentaban los olores estresantes en la prueba. ¿Por qué inducen indefensión aprendida los olores estresantes?. La respuesta no está del todo clara, pero algunos creen que los olores desencadenan una reducción condicionada de sustancias neuroquímicas y, por tanto, restablecen el estrés experimentado anteriormente.

Los datos aparecen en la figura. Se observa una disminución de la ejecución en los grupos sin descarga y acoplado. Por el contrario, los suejtos de escape siguieron respondiendo en al prueba de la caja lanzadera aun cuando su conducta no guardaba ninguna relación con el final de la descarga. Reversibilidad. Esta condición puede reverstirse.

Teorías de la IA. Hipótesis de la IA. La teoría original se centraba en la falta de control del sujeto sobre las consecuencias reforzantes. Según esta posición, cuando las consecuencias son independientes de la conducta del animal, el sujeto desarrolla une stado de indefensión aprendida, el cual se manifiesta de dos formas. Primero, se da una pérdida de motivación, indicada por una disminución de la

36

Con un menor grado de éste, el miedo mediado por el olor no produce el efecto de indefensión posteriormente. Sin embargo, la hipótesis no especifica con claridad como median los olores en el déficit de aprendizaje. Una posibilidad es que provoquen una disminución condicionada de norepirefrina. Otra es que el miedo excesivo en el grupo inescapable produzca una reducción de la actividad en al prueba. El nivel de actividad reducido es incompatible con la ejecución de la reacción aprendida. La teoría no puede explicar el hecho de que la ansiedad en sí misma sea innecesaria para que se produzca el déficit de aprendizaje. La IA no puede basarse exclusivamente en la ansiedad. Teoría del procesamiento cognitivo. Los sujetos que reciben descargas inescapables cambian el modo en el que procesan la información posteriormente. Los animales indefensos Aprenden con menor eficacia, independientemente de su estado de ansiedad. Este hecho se mostró en un estudio de Jackson y otros.

La IA se puso de manifiesto sólo cuando se utilizaba la descarga eléctrico más débil(panel izquierdo). Cuando se aumentaba la intensidad de la descarga, no se hallaron diferencias entre los grupos (panel derecho). Por tanto, estos datos indican que el nivel superior de descarga redujo el déficit de motivación mostrado normalmente por los animales indefensos. En otras palabras, la descarga más intensa hizo que los animales indefensos corriesen con tanta rapidez como los sujetos del grupo sin descarga. Por tanto, aumentar la intensidad de la descarga no eliminó el déficit, medido por la

El miedo crónico resulta crítico para el efecto de IA, y señalar su alivio suprime la indefensión. ¿Significa esto que las señales de retroalimentación causan una disminución en el nivel de miedo crónico?, la respuesta es afirmativa. En resumen, la hipótesis de la ansiedad indica que cuando una señal predice el final de la descarga,los animales sienten menos miedo.

El propósito de este estudio era determinar si los sujetos presentarían un déficit en el aprendizaje de discriminación, independientemente de si mostraban una disminución en la velocidad de carrera (que la mayoría de los estudios de IA utilizan como evidencia de un déficit de aprendizaje). La intensidad de la descarga eléctrica en al prueba del laberinto en forma de “Y” era la misma que antes (1 mlA) en uno de los grupos con descárga eléctrica inescapable y en uno de lso grupos sin descarga, pero ésta era de 2 miliamperios en los otros dos grupos.

37

velocidad de carrera, pero no varío el déficit medido por la precisión de la discriminación (figura). Es decir, los animales con descarga inescapable mostraron una falta de capacidad para resolver el problema de la discriminación, independientemente de la intensidad de la descarga aunque corrieron con mayor rapidez ante la descarga más intensa. La descarga inescapable provocó un déficit cognitivo.

Capítulo 11

Perspectivas teóricas en el condicionamiento instrumental.

Mecanismos fisiológicos del aprendizaje.

Sustrato biológico de la memoria. Primeras investigaciones. Las estrategias de Lashley consistían en dañar o extirpar áreas específicas del cerebro y realizar después pruebas de aprendizaje. Normalmente, la prueba determinaba si el sujeto podía aprender a recorrer un complicado laberinto. La destrucción de hasta la mitad del tejido cortical influía muy poco en el aprendizaje de laberintos simples, aunque en laberintos más difíciles la ejecución resultaba afectada en cierta medida. Lashley formuló dos principios para explicar estos resultados. Primero, el principio de equipotencialidad afirmaba que otras áreas del cerebro asumen las funciones del área dañada; ninguna parte del córtex es más importante que otra para aprender tareas como éstas. En segundo lugar, el principio de acción en masa afirmaba que las áreas corticales del cerebro no están especializadas. La eficacia dela ejecución disminuye en función de la masa total del tejido destruido, pero los déficit no son selectivos. Penfield operó a varios pacientes epilépticos graves para extirparles áreas del cerebro susceptibles de producir ataques. Para identificar estas áreas. Penfield estimulaba el tejido cerebral y determinaba después si el área en cuestión podía originar ataques observando la conducta del paciente. En este caso, el paciente había de estar despierto para poder comportarse así de modo que fuese indicativo. Halló que la estimulación de áreas concretas del cerebro hacía que el paciente expresase a menudo vívidos recuerdos. La investigación contemporánea ha cuestionado estos resultados. Hebb (1949) propuso una influyente teoría de los fundamentos neurológicos del aprendizaje. Según esta teoría, cuando se estimulan varias neuronas de forma reiterada y sucesiva, se producen cambios estructurales en las sinapsis. Se desarrollan protuberancias o botones en el axón, los grupos de asociaciones de células forman conjuntos aún mayores de material neurológico, denominados secuencias de fase. Hebb sostuvo que, en teoría, los recuerdos se basan en una red interconectada de asociaciones de células. Investigaciones contemporáneas. Se ha conseguido un considerable avance. La memoria puede estar relacionada con cambios en el ácido ribonucleico cerebral. Puede ser afectada por varias hormonas, como las catecolaminas cerebrales. En cuanto a la localización anatómica de la memoria, se ha identificado el hipocampo como un elemento importante. Las personas que han sufrido lesiones de este tipo muestran un acusado deterioro en la formación de nuevos recuerdos, especialmente de índole espacial, aunque los recuerdos anteriores no se ven

38

afectados. Una características importante del hipocampo es que desarrolla potenciación a largo plazo. Autoestimulación eléctrica. Olds y Milner (1954) hicieron un descubrimiento extraordinario al mostrar que unas ratas equipadas con unos finos electrodos introducidos hasta el área septal de su cerebro presionaban una palanca para administrarse una pequeña corriente eléctrica. Otro célebre estudio, realizado por Delgado, Roberts y Miller (1954), mostró que la estimulación de otras partes del cerebro puede tener efectos completamente distintos. En concreto, los sujetos de estos estudios presionaban palancas para poner fin a la estimulación cerebral. Este resultado indicaba que la estimulación era aversiva. De este trabajo se derivan dos implicaciones. En primer lugar, las zonas anatómicas que sustentan la autoestimulación constituyen una especie de centro de placer. En segundo lugar, la estimulación de estas áreas mediante medios artificiales puede originar los mismos procesos que tiene lugar cuando un animal es reforzado en su entorno natural. Anatomía de la recompensa y el castigo. La principal área del centro de placer es el fascículo frontal medial, es un tracto de fibras nerviosas que discurre longitudinalmente por el cerebro, proyectándose hacia delante hasta las áreas septal y lateral hipotalámicas, y hacia atrás hasta la materia gris central, área tegmental ventral y la formación reticular. El sistema principal de castigo es el tracto periventricular. Éste es un grupo de fibras nerviosas que discurre paralelo al sistema de recompensa frontal medial, pero más próximo al eje central del cerebro. El sistema se origina en parte anterior del cerebro, cerca de los núcleos periventriculares y supraópticos, y se extiende a través del tálamo y el hipotálamo posterior hasta el tectum en la parte posterior del cerebro. Aun cuando los sistemas I y II forman parte del denominado centro del placer, desempeñan papeles distintos en el proceso de reforzamiento. En primer lugar, la presión de la palanca para estimular el estriado (sistema II) conlleva conductas muy estereotipadas. La destrucción del estriado provoca una disminución de conductas, como correr de un lado a otro de la caja o morder la palanca. Segundo, la topografía conductual cuando se presiona para proporcionar estimulación al sistema I incluye componentes de conductas específicas de

La especie, como respuestas alimentarias. Además, las conductas de alimentación producidas como consecuencia de la estimulación del sistema I son afectadas por variables como el grado de privación de comida o el valor de incentivo de la comida como precomepnsa. Esto no es así en el sistema II. Por tanto, el sistema I, a diferencia del II, está implicado en los aspectos motivacionales de la recompensa. El modelo procedente constituye la base de la teoría de la respuesta consumatoria del reforzamiento. Según esta teoría, elr eforzamiento consiste en la “facilitación de la actividad neuronal subyacente a la

39

Expresión de conductas que son importantes para la supervivencia del organismo. En otras palabras, lo que los sujetos encuentran reforzante es precisamente la ejecución de conductas de supervivencia específicas de la especie. Cuando los animales realizan esas conductas experimentan una recompensa. Entre esas conductas se encuentran: alimentarse, beber, explorar, los comportamientos sexuales y el aprovisionamiento. La mayoría de estas conductas puede provocarse mediante la estimulación directa del cerebro, el especial del hipotálamo. Estas son las mismas áreas que sustentan la autoestimulación reforzante. Neuroquímica de la recompensa. La investigación se ha centrado también en al naturaleza bioquímica del reforzamiento. Los estudios muestran que el sistema de recompensa implica neuronas catecolaminérgicas (noradrenalina y dopamina). Por el contrario, el sistema periventricular aversivo (castigo) es un sistema colinérgico (acetilcolina). La evidencia a favor de esta posición es convincente. La destrucción de las neuronas dopaminérgicas del sistema I disminuye la autoadministración de drogas catecolaminérgicas como la cocaína o la anfetamina, y reduce los efectos reforzantes producidos por la estimulación eléctrica de esas áreas. Además, la acción de varios antagonistas de la dopamina se asemeja a los efectos obtenidos al procurar una reducción en la magnitud de una recompensa convencional. Los mecanismos fisiológicos subyacentes de la recompensa son una serie bien definida de estructuras y tractos que contienen neuronas catecolaminérgicas. Con esta concepción del reforzamiento, no es de extrañar que ciertos tipos de drogas psicoactivas, como la heroína, resulten tan reforzantes.

Teorías mecanicistas (E-R) del aprendizaje.

Teoría neoconductista de Hull. La teoría de Hull es mecanicista en el sentido de que propone el uso de variables intermedias, estas hacen referencia a estados o características de los animales que median su conducta. La teoría formal de Hull incluía 16 postulados fundamentales. Varios de ellos establecían importantes supuestos sobre procesos psicológicos. Postulado IV: reducción del impulso. Hull afirmó que los organismos tienen necesidades biológicas básicas como las de comida, agua, aire, y sueño. Éstas suscitaron uno de los conceptos más importantes de Hull, el impulso [drive]. La necesidad de un estado biológico que ocasiona conductas no aprendidas encaminadas a reducir esa necesidad. Hull sostenía que el reforzamiento implica la reducción del impulso. Siempre que un sujeto experimenta cierta secuencia estímulo-respuesta seguida de una reducción de su estado de impulso, aumenta el hábito EHR, que consiste en la tendencia a efectuar esa respuesta en presencia del estímulo. Desde un punto de vista formal, la tasa de aumento de la fuerza del hábito equivale a EHR=1-10-0,0305N donde N es igual al número de reforzamientos. Postulado VII: potencial de reacción. Hace referencia a la ejecución del sujeto. El hábito se traduce en ejecución manifiesta sólo cuando se motiva al sujeto. La ejecución produce cuando tanto el hábito como el impulso se hallan presentes. Esto se expresa: EER = EHRX D el potencial excitatorio EER predice la ejecución del sujeto. La relación multiplicativa entre el impulso y el hábito fue demostrada por varios colaboradores de Hull. Postulados VIII-IX: inhibición reactiva y condicionada. Los sujetos se fatigan durante la sesión de entrenamiento incluso aunque sean reforzados. La inhibición reactiva Ir es esencialmente la fatiga acumulada

40

consecuencia de la respuesta. La inhibición reactiva disminuye el potencial excitatorio. La inhibición condicionada se basa en al reducción de la inhibición reactiva. Las conductas que suprimen o reducen un estado desagradable se refuerzan. La reacción que disipa la inhibición reactiva –o fatiga-, esto es- no responder, se refuerza cuando el animal deja de responder. Desde un punto de vista formal, se expresa: EĒR = EHR X D – ( Ir + E Ir ) el término EĒR representa el potencial excitatorio efectivo o neto. La ecuación expresa que la ejecución se vigoriza mediante la combinación de hábito e impulso pero se reduce debido a fatiga momentánea del animal Ir, además de por su tendencia condicionada a dejar de responder cuando está cansado E Ir.

Estado de la teoría de Hull. Es difícil exagerar la influencia que la teoría de Hull ha ejercido en la investigación del aprendizaje. Esta teoría tuvo éxito porque era coherente y susceptible de verificación. Críticas. Muchos encontraron fallos en la concepción molecular de la conducta propuesta por Hull, según la cual la conducta de un animal se explica en función de movimientos musculares en lugar de conceptos más molares, tales como metas. En segundo lugar, aunque al precisión matemática de la teoría era un argumento sólido en muchos sentidos, resultó ser un problema porque los conceptos psicológicos en los que se basaban los términos matemáticos estaban sujetos a verificación directa y eran, por tanto, susceptibles de refutación. Además no todos los conceptos desarrollados por Hull han sobrevivido a un examen minucioso. Teóricos rechazan explícitamente la idea de que la reducción de la necesidad desempeñe un papel fundamental en el aprendizaje, sosteniendo en lugar del ello que los animales, están mas motivados por la curiosidad que por el desequilibrio biológico.

Teorías cognitivas (R-E) del aprendizaje.

El conductismo cognitivo de Tolman. Un principio fundamental de la teoría de Tolman es que los animales obtienen conocimiento general del entorno, y desarrollan expectativas sobre las consecuencias de su conducta. La implicación es que el reforzamiento no es necesario para el aprendizaje, sólo para la ejecución. El experimento de aprendizaje latente indica que los animales no necesitan el reforzamiento para desarrollar un mapa cognitivo de su entorno. La recompensa es innecesaria para el aprendizaje; sólo requiere para estimular una ejecución eficaz. Mapas cognitivos. Según Tolman, la ratas desarrollan expectativas sobre las consecuencias de su conducta y desarrollan mapas cognitivos o mentales de su entorno. A diferencia de lo que Hull sugirió, no se limitan a efectuar una secuencia de movimientos musculares. Se critica de esta teoría que, la conducta no siempre parece estar orientada a metas, además los animales realizan a menudo conductas con una gran orientación a metas, pero difícilmente pueden calificarse de intencionadas. Además dice poco sobre las conductas que efectuará un animal.

Las asociaciones en el aprendizaje instrumental. Otro aspecto de la teoría de Tolman es que afirma que los animales desarrollan representaciones mentales de su propia conducta. Esta cuestión está relacionada con al investigación contemporánea del aprendizaje pavloviano. La fuerza y significado de un EC depende, entre otras cosas, de su valor informativo. El CI se ve ahora bajo la misma

41

luz que el CC. Los sujetos procesan la información no sólo respecto a los estímulos (CC), sino también respecto a su propia conducta (CI). En una situación típica de aprendizaje instrumental existen tres componentes principales. Los estímulos discriminativos, la respuesta y la consecuencia. Se pueden asociar el estímulo y la respuesta E-R, además de con la consecuencia E-C y la respuesta con la consecuencia R-C. Asociaciones R-C. Se sabe mucho de las asociaciones respuesta-consecuencia. Por ejemplo cuando los sujetos desarrollan una asociación R-C1, esa asociación no se ve afectada si la respuesta va seguida de una consecuencia distinta, C2. La asociación R-C1 original permanece intacta. En segundo lugar, la asociación R-C2 sigue desarrollándose durante el curso de un entrenamiento prolongado. Por último, la asociación R-C persiste a pesar de la administración de tratamientos que causan interferencia. Por ejemplo, un procedimiento de extinción hace que disminuya la respuesta, pero la asociación R-C original permanece intacta. En general, la investigación sobre la formación de asociaciones basadas en la respuesta indica que el CI, al igual que el CC, implica el desarrollo de asociaciones. Por tanto, esta investigación respalda al concepción cognitiva del CI, en cuanto a que el sujeto funciona como un procesador de información al aprender asociaciones entre la respuesta y el objeto meta. El recuerdo o representación del objeto meta es decisivo para la ejecución de la respuesta. Asociaciones E-C. Al igual que los EECC pavlovianos, los estímulos discriminativos se asocian con consecuencias. Colwill y Rescorla (1988ª) mostraron esta cuestión. El diseño del experimento se muestra en el cuadro.

Asociaciones jerárquicas. Un sujeto forma también una red jerárquica de asociaciones en la que los estímulos se asocian con la relación entre una respuesta y su consecuencia (asociación E-[R-C]). Rescorla (1990b) ofreció una buena demostración de asociaciones jerárquicas. Los procedimientos de entrenamiento se muestran en la figura.

Ojo-- cambiar O por C

Los estímulos discriminativos facilitaron con mayor eficacia la realización de una nueva repsuesta cuando el estímulo y la respuesta tenían una consecuencia en común. Por tanto, el Ed deber haberse asociado con la consecuencia debido a que la capacidad de éste para modular la repsuesta era mayor cuando su cosnecuencia y la de la respuesta coincidían.

El entrenamiento poseía otra característica importante. Durante el intervalo entre ensayos, cuando no se encontraba presente ningún Ed, estaban disponibles las mismas combinaciones respuesta-cosnecuencia que en presencia de E1. Es decir, los sujetos podían responder R1 para obtener C1, y R2 para conseguir C2. Por tanto, el estimulo precedía R1-C1 y R2-C2, pero estas dos combinaciones

42

Respuesta-consecuencia estaban también disponibles cuando E1 no se hallaba presente. Así, no era fiable, o no informaba, respecto a si R1 produciría C1, y si R2 daría lugar a C2. Por otra parte, el estímulo E2 era muy informativo sobre las relaciones respuesta-consecuencia. Sólo cuando E2 estaba presente podía los sujetos obtener C2 efectuando R1, y C1 realizando R2.

Consecuencias se encuentra disponible. El trabajo sobre asociaciones jerárquicas está de acuerdo con la aproximación cognitiva al aprendizaje porque la meta (es decir, la consecuencia) se encarna en la representación o memoria desarrollada por el sujeto. Además, una asociación jerárquica es análoga a un mapa cognitivo.

Teorías de la regulación conductual. A diferencia de las aproximaciones mecanicista y cognitiva del aprendizaje, la perspectiva del análisis conductual se centra exclusivamente en las condiciones que regulan la conducta; no especula sobre los mecanismos o asociaciones internos.

La aproximación del análisis conductual de Skinner. Decir que una respuesta es provocada por un estímulo debido a la existencia de un mecanismo interno (por ejemplo, el impulso), no explica la respuesta porque el propio mecanismo interno no es explicado. En lugar de basarse en estados internos para explicar la conducta, Skinner se centra en el concepto de contingencia de reforzamiento, esta tienen dos efectos importantes, primero selecciona la conducta, se potencian las conductas que van seguidas de un acontecimiento reforzante, así la selección de la conducta entre otras muchas potenciales es el resultado del reforzamiento diferencial. Los reforzadores tienen una segunda función: mantener la conducta. Este fortalecimiento de la respuesta mediante el reforzamiento se denomina ley empírica del efecto. Esta ley no es una explicación de la conducta, sino más bien una descripción del hecho de que las conductas que van seguidas por reforzadores aumentan su probabilidad.

La fuerza de los dos estímulos discriminativos se puso a prueba en una fase de extinción. Se administraron cuatro presentaciones de 30 segundos de cada estímulo estando disponibles la palanca y la cadena. Los reusltados se muestran en la figura. El experimento mostró que los sujetos no sólo forman asociaciones entre elementos individuales en una situación de aprendizaje, sino que realizan también asociaciones jerárquicas, previniendo en función de un estímulo discriminativo qué combinacion de respuestas y

43

Hipótesis de la privación de respuesta. La contingencia de reforzamiento desempeña un papel central en el enfoque del análisis de la conducta. Una formulación o expresión de este concepto es el principio de Premack, según este el efecto del reforzamiento se basa en la probabilidad o preferencia de dos actividades distintas cuando el sujeto no está limitado. En segundo lugar, se establece una relación de reforzamiento cuando la ejecución de una respuesta más probable se hace contingente respecto a realizar primero una conducta menos probable. La hipótesis de la privación de respuesta de Allison (1989) es una teoría de la regulación conductual que cuestiona la afirmación del principio de Premack. Según esta explicación, el cambio previsible en la tasa de una conducta instrumental no se produce debido a una consecuencia especial denominada “reforzador”, sino, más bien, porque se priva al sujeto de la actividad respecto a la cual la conducta instrumental es contingente. Supongamos que un sujeto puede acceder a dos actividades durante 60 minutos, sin imponer ninguna limitación a su conducta. El sujeto realizará probablemente ambas conductas. La combinación de las dos actividades preferida por el sujeto es su punto de deleite. Si la limitación de un programa de reforzamiento impide el acceso a una conducta particular, los sujetos efectúan otras conductas por encima de su tasa de línea base preferida para intentar realizar esa actividad restringida con una tasa lo más cercana posible al punto de deleite. La fuerza del efecto de reforzamiento depende de la diferencia entre la conducta permitida por el programa y el punto de deleite. A medida que aumenta la diferencia, la conducta instrumental aumenta también. Esto explica porque los grandes incentivos producen un mayor efecto reforzante que los incentivos pequeños.

Economía conductual. Principios económicos. Las leyes de la oferta y la demanda indican que a medida que aumenta el coste de un bien, la demanda de ese bien disminuye. En el estudio del aprendizaje y la conducta animal, puede establecerse una función de demanda de este tipo mediante un programa de razón fija (RF). En este caso, el animal ha de pagar cierto coste para obtener el reforzador deseado. Variando el programa de RF se demuestra la relación entre el coste y el beneficio obtenido en sujetos de laboratorio. La demanda de un reforzador varía no sólo con su coste, sino también en la medida en que ese bien constituye una necesidad esencial. Los bienes esenciales para la supervivencia, no muestran una disminución tan brusca en su demanda con el aumento de precio como los bienes que no son esenciales. Otro factor que afecta a la demanda es la sustitución. Los individuos pueden sustituir un bien por otro cuando el coste aumenta. La demanda puede expresarse como una elección entre dos bienes distintos. La elección entre dos objetos puede expresarse mediante una curva de indiferencia, como se muestra en la figura.

44

Los axiomas de la demanda sostienen que aunque una persona sea indiferente respecto a dos puntos cualesquiera a lo largo de una curva particular, prefiere situarse en la curva más externa, porque ahí es donde tiene el mayor valor total de bienes. En la figura se muestra la misma preferencia por los puntos A y B, pero se tiene menos preferencia por ellos que por los puntos C y D, que representan una mayor cantidad total de bienes. La familia de curvas de indiferencia muestra las combinaciones de bienes que un sujeto encuentra igualmente aceptables. En la figura anterior se ven las líneas de presupuesto. Si la línea de presupuesto cambia se establece un nuevo punto de equilibrio. Planes de conducta optima. Manejando o regulando su conducta respecto a los costes y beneficios, un individuo puede obtener el máximo beneficio de sus esfuerzos. Así, los animales maximizan las funciones coste-beneficio mediante la conducta adaptativa. Según esta línea de razonamiento (denominada teoría de la optimización), diversos planes de conducta reflejan una decisión inconsciente de maximizar el beneficio respecto a los costes. Si encontrar una parcela apropiada es el primer problema crítico de un animal que busca comida. La segunda decisión es cuándo debe abandonar la parcela después de alimentarse durante un cierto tiempo. Según al teoría de la búsqueda óptima de comida, el momento en que el sujeto debe abandonar una parcela depende de diversos factores, entre los que se encuentran la tasa de ingestión de energía dentro de la parcela, el tiempo necesario para trasladarse de una parcela a otra, y el tiempo requerido para buscar y procurar una presa. Si el dejar una parcela depende de la estimación de la ingestión de energía por unidad de tiempo, ¿cuál es el período de tiempo respecto al cual el sujeto evalúa la tasa de ingestión?. Los denominados horizontes temporales fueron estudiados por Timberlake y otros. Según el modelo de optimización desarrollado por MacArthur y Pianka, la selección de la dieta debería seguir los principios mostrados en la figura.

La estrategia del animal no debería consistir simplemente en atrapar la presa más grande disponible, sino más bien en la presa más provechosa. Los animale siguen este tipo de estrategia al escoger qué presas van a comer. Sin embargo, la estrategia concreta puede ser más compleja, especialmente cuando el coste de distinguir una presa comestible de otra incomestible resulta considerable. Varios experimentos muestran que cuando la amenaza de un predador es baja, el sujeto invierte más tiempo en la búsqueda de comida que cuando es alta.

45

Tema 12

Especializaciones adaptativas del aprendizaje.

Aprendizaje específico de fase. Una característica del aprendizaje de respuestas específicas de la especie es que, a menudo, no se necesita un reforzador o ni siquiera éste se halla presente de forma clara. Los individuos realizan un acto, pero no reciben ninguna recompensa evidente por hacerlo. Además, varias formas de aprendizaje específico de la especie corresponden a una fase específica, lo que significa que se producen sólo, o al menos con su mayor fuerza, durante cierto periodo de tiempo en al vida del animal. Tales periodos, o fases, se denominan periodos críticos. Dos formas de aprendizaje específico de fase consideradas aquí son el aprendizaje de cantos en aves y la impronta en diversas especies animales.

Aprendizaje del canto. El canto es innato en muchas especies de aves, tales como el papamoscas ailero y el saucero. Sin embargo, en otras, los cantos son aprendidos. Aunque los cantos no se aprenden a través del CI o CC, muchas especies los aprenden como consecuencia de una retroalimentación crítica del entorno. Si se aísla a los individuos al principio de su vida, desarrollan cantos anormales en comparación con otros miembros de su especie que no han sido aislados. Limitaciones en al naturaleza del canto. Algunos investigadores creen que las aves se encuentran limitadas en cuanto al tipo de canto que pueden aprender. Ésta es la perspectiva de la teoría de la plantilla. Según esta concepción, las aves nacen con u patrón, o plantilla, que se encarga de dar forma a los detalles del canto. En cierto sentido, la plantilla es una especie de filtro, la evidencia a favor de esta postura muestra, por ejemplo, que los machos que son criados aisladamente desarrollan cantos anormales. Sin embargo, la exposición al canto adecuado entre los 10 y 50 días de edad da lugar al desarrollo del canto normal. Aunque la teoría de la plantilla explica algunos resultados, no sucede así con otros. Por ejemplo, algunas aves aprenden, y responden a, cantos que ellas mismas nunca emiten. Por tanto, el aprendizaje del canto es más flexible de lo que indica la estricta teoría de la plantilla. Según Petrinovich, “parece probable que otros factores distintos al filtrado del estímulo o plantillas afinadas genéticamente tengan una profunda influencia en el aprendizaje del canto. Periodo sensible. Tradicionalmente se ha pensado que el aprendizaje del canto no puede producirse antes o después de un periodo sensible, la conclusión general es que el período sensible no es invariable. El aprendizaje del canto se produce antes de, y con posterioridad a las fechas críticas. En el estudio de Clayton se demuestra como los pinzones cebra macho aprenden durante los primeros 35 días de edad, pero esta circunstancia no impide el aprendizaje adicional con un tutor durante la fase sensible. De este modo si puede accederse al canto de un macho adulto tras 35 días de edad aproximadamente, los sujetos no sólo no tienen dificultades para aprender dicho canto, sino que éste reemplaza de hecho cualquier canto que pueda haberse aprendido de la madre. La oportunidad de interaccionar socialmente con otro ejemplar constituye un factor importante en el aprendizaje del canto.

46

Impronta. En el caso de muchos animales, la identificación de especies se aprende, al menos en términos de preferencia, por medio de un proceso de aprendizaje específico de fase denominado “impronta”. La impronta se observa más fácilmente en ejemplares que se encuentran relativamente bien desarrollados en el momento de su nacimiento y pueden, por tanto, utilizar casi la totalidad de sus capacidades motoras. En el medio natural, el proceso de impronta se produce con facilidad. Normalmente la madre, vocaliza repetidamente y se aleja de sus crías lentamente. Los polluelos le siguen poco tiempo después. Esta conducta de seguimiento constituye una evidencia del proceso de impronta. Periodo crítico. Las primeras investigaciones indicaron que la impronta constituye una forma única de aprendizaje completamente distinta al CC o CI. Existían varias fuentes de evidencia. En primer lugar, se pensaba que la impronta era irreversible. En segundo lugar, la impronta podría originarse durante un periodo crítico de tiempo. La investigación ha cuestionado esto último. Por ejemplo, los investigadores han mostrado que incluso las crías de pato de 5 a 10 días de edad pueden recibir impronta. Admitieron que los ejemplares mayores han de recibir una mayor exposición al estímulo de impronta pero, sin embargo, ésta sí se produce. La impronta es también reversible. Con una exposición suficientemente larga a un segundo objeto de impronta, los sujetos cambian su apego a favor de un nuevo estímulo. Este cambio constituye una auténtica variación de preferencias porque la presentación ocasional del primer objeto de impronta retarda dicho cambio. Sin embargo, éste se produce sólo cuando los sujetos son expuestos pasivamente al objeto inicial de impronta. Características críticas de los estímulos de impronta. Muchos estudios han intentado especificar las características críticas del estímulo de la impronta. Uno de estos factores es si el objeto de impronta es inanimado. Aunque las aves pueden recibir una impronta de muchos tipos de objetos inanimados, los tratan de forma distinta a los miembros de su propia nidada. Un segundo factor que influye en al impronta es si el estímulo en cuestión se mueve. En el estudio anterior, los bloques de goma-espuma estáticos resultaron mucho menos eficaces en la producción de impronta que los bloques móviles. Una tercera dimensión importante es el sonido que emite el objeto de la impronta. Aunque muchas crías de patos reales parecen tener una preferencia innata por la llamada materna, la exposición a sus propias vocalizaciones, las cuales se asemejan esencialmente a esa llamada, resultan críticas para la impronta. Además, la respuesta apropiada a la llamada materna tras el nacimiento depende de haber experimentado el patrón altamente específico de la llamada durante el desarrollo embrionario. La llamada materna característica de la especie resulta sumamente importante para dar lugar a la conducta filial. Aunque las jóvenes crías de patos siguen a los objetos en movimiento, la llamada materna asegura prácticamente que se producirá la respuesta filial. La llamada materna sigue aumentando la preferencia por el estímulo aun después de haberse producido el proceso de impronta. Teorías de la impronta. Los investigadores no están del todo de acuerdo respecto a los mecanismos teóricos que subyacen al fenómeno de la impronta. Un planteamiento es que la impronta se basa en el aprendizaje perceptivo. La mera exposición al estímulo de impronta crea familiaridad y preferencia. A medida que el objeto de la impronta resulta más familiar, los objetos nuevos tienden a provocar reacciones de miedo. Una segundo opción es la teoría del condicionamiento de la impronta, propuesta por Hoffman y Ratner (1973). La teoría establece tres afirmativas. En primer lugar, las aves

47

jóvenes están preparadas de forma innata para responder a ciertas clases de estimulación. Loa animales encuentran esta estimulación reforzante y, por tanto, muestran una conducta filial hacia el objeto. Además, por medio del CC, la apariencia visual del objeto de impronta adquiere la capacidad de provocar la conducta filial también. Es decir, la mera visión del objeto basta para producir la reacción de impronta. Un segundo supuesto es que las aves jóvenes desarrollan miedo a los objetos nuevos a medida que crecen. La afirmación final de la teoría del condicionamiento es que la conducta constituye una solución de dos tendencias competidoras suscitadas por el estímulo de impronta –a saber, la tendencia filial o de aproximación y la reacción de miedo-. Algunos teóricos no están de acuerdo con le modelo de reforzamiento de la impronta, afirmando que las especies de aves independientes desde el nacimiento identifican a sus congéneres basándose en llamadas auditivas típicas de la especie, en lugar de un proceso de condicionamiento. Además el modelo del condicionamiento establece varias predicciones que no han sido respaldadas. Por ejemplo, según el modelo del condicionamiento, cuando se expone reiteradamente a los sujetos a los aspectos visuales de un objeto de impronta, debería producirse extinción. No se ha encontrado este efecto. Un tercer problema del modelo de condicionamiento es que, en algunas condiciones, los pájaros jóvenes reciben la impronta de claves ambientales estáticas u objetos estáticos. Este hallazgo no concuerda con la teoría del condicionamiento porque está teoría da por sentado que los polluelos jóvenes muestran preferencia por los objetos en movimiento de forma innata o a través del refuerzo.

Defensa de los predadores y aprendizaje de evitación. Bolles (1979) afirmó que las conductas de evitación son reacciones defensivas innatas y específicas de una especie dada; por tanto, son reacciones de defensa específicas de la especie (RDEE). Muchas RDEE evolucionaron porque, según Bolles, sobrevivir a los depredadores es algo demasiado importante como para depender de un proceso de aprendizaje gradual. Según al teoría de Bolles, cada especie posee una jerarquía de RDEE. Cuando se enfrenta a una amenaza, al animal efectúa primero su RDEE preferida. Si esa respuesta no es eficaz, el sujeto pone en práctica la siguiente RDEE más probable.

Conducta de evitación. La teoría de las RDEE es respaldada por el hallazgo de que pueden criarse las ratas de forma selectiva respecto a conductas de evitación eficaces o deficientes. Los estudios respaldan la teoría de las RDEE al mostrar que los sujetos efectúan una respuesta natural sin enseñarles a hacerlo, y que esta respuesta puede consistir en huir o inmovilizarse, dependiendo de las circunstancias. La teoría de las RDEE plantea que la evitación mediante la presión de palanca debería ser difícil de aprender porque es una reacción poco natural. Normalmente es así. Sin embargo, Crawford y Masterson (1978) cuestionaron a la teoría de las RDEE al mostrar que la evitación mediante presión de palanca puede aprenderse con bastante facilidad, siempre que se utilice el reforzador adecuado. Las ratas fueron sometidas a prueba en una caja de dos compartimentos con una cámara en la que se administraban descargas eléctricas y un compartimiento seguro. Se administró una señal de aviso de 10 segundos antes de la descarga. Un grupo podía evitar la descarga presionando la palanca durante la presentación de la señal, en cuyo momento la señal desaparecía y se abría la puerta que daba a la cámara segura, lo que permitía a estos sujetos correr hacia ésta. Otro grupo podía presionar también a la palanca, peor entonces se retiraba manualmente a los sujetos de la cámara de descarga. Por último, un tercer grupo podía evitar la descarga, pero los sujetos eran extraídos del

48

compartimiento de la descarga eléctrica y vueltos a colocar inmediatamente en la cámara de descarga. Tanto el grupo con posibilidad de correr como el que fue trasladado mostraron una buena conducta de evitación mediante la presión de palanca.

pisar en un suelo de parrilla electrificado. En el caso de algunos sujetos , la plataforma se encontraba en el centro de la jaula, pero para otros se hallaba en al esquina de la jaula. Ambos grupos pisaron rápidamente la parrilla en el primer ensayo. Sin embargo, en el segundo ensayo, ambos grupos evidenciaron una evitación pasiva, pero el grupo de la esquina mostró mejor evitación pasiva que el grupo del centro. La explicación es que la tigmotaxis (tendencia a correr hasta la periferia y permanecer cerca de la paredes) resultaba incompatible con al respuesta de evitación pasiva en el grupo del centro. La conclusión general es que las tareas de evitación compatibles con la RDEE de un sujeto se aprenden con mayor facilidad que aquellas que no lo son.

Reacciones defensivas. La teoría de las RDEE estipulaba que las principales reacciones defensivas de una rata eran la huida y la inmovilización . Sin embargo, las ratas y otras especies recurren también al enterramiento y a la agresión cuando se enfrentan a estímulos aversivos. Enterramiento. Pinel y Treit mostraron que enterrar un objeto constituye una respuesta defensiva. Moser y Tait pusieron también a prueba la noción de que el enterramiento defensivo es una RDEE determinando si el enterramiento surge cuando la huida y la inmovilización se encuentran también disponibles. Las conductas de inmovilización y escape eran RDEE más dominantes que el enterramiento. La diferencia existente con otras especies en cuanto a la conducta de enterramiento, según Whillams y Shettleworth es debido a que las ratas son animales sociales; viven juntas en grandes colonias. Por otra parte, los hámsteres (por ejemplo) son criaturas solitarias. Así, el enterramiento se halla desarrollado en las ratas como una forma de altruismo heredado. Agresión. Es otra forma de defensa instrumental. Los ataques constituyen una estrategia defensiva pero sólo en ciertas circunstancias. En la rata macho, los ataques son idénticos ya sea el objeto una rata u otro animal. Respecto a las hembras, la agresión constituye una forma de ataque preventivo dirigido a proteger a los jóvenes y sólo se produce cuando se les desafía de este modo.

Estos datos desafían la teoría de las RDEE mostraron que respuestas defensivas no específicas de la especie, como la presión de una palanca, pueden aprenderse siempre que se utilice un reforzamiento apropiado: esto es, el acceso a un área segura. Evitación pasiva. Se obtuvieron conclusiones similares en estudios de aprendizaje de evitación pasiva. Por ejemplo, Pearce (1978) entrenó a ratas para evitar una descarga eléctrica pasivamente permaneciendo en uan plataforma segura de madera en lugar de

49

Enfoque de los sistemas de conducta. Según la aproximación tradicional el reforzamiento produce aprendizaje y da lugar a la ejecución. El modelo de reforzamiento no tiene en cuenta todas las relaciones críticas mostradas en la figura, en especial la fase de entrada del estímulo, Timberlake indica

Según el enfoque de los sistemas de conducta, las repsuestas y los estímulos parecen ser arbitrarios para el experimentador, pero sin duda no resultan arbitrarios para el suejto. Las conductas del sujeto, y sus reacciones perceptivas ante los estimulos, se encuentran pre organizadas en unidades funcionales. El experimentador puede presentar a un sujeto un estímulo con el que nunca se ha encontrado en el pasado, pero el sujeto reacciona ante el estímulo según una estructura existente, organizada de antemano, o conjunto de reacciones perceptivas. El enfoque de los sistemas de conducta afirma así que la conducta aprendida se halla preorganziada. Los animales cuentan con varios procesos de motivación, sistemas perceptivo-motores y secuencias de respuesta organizadas en unidades funcionales. Estas unidades se encuentran organizadas de forma jerárquica. Las características críticas de un sistema de conducta son: (1) procesos motivacionales que desencadenan otras estructuras y ayudan a organizar y mantener la secuencia de su expresión, y (2) estructuras perceptivo-motoras que realicionan afinidades específicas de los estímulos con componentes de respuesta particulares. Sistemas de conducta, evolución y aprendizaje. La aproximación de los sistemas de conducta se encuentra estrechamente relacionada con una perspectiva evolucionista del aprendizaje. El nivel más inclusivo es el nivel de sistema; ésta es la función general que realiza el sistema. El sistema identifica una serie de unidades perceptivas y conductuales motoras que contribuyen a una función particular de forma integrada. El subsistema es el siguiente nivel más general de organización. El subsistema hace referencia a “estrategias coherentes que sirven a la función general del sistema”. Siempre que se pone en funcionamiento un subsistema dado, se vuelven salientes para el animal una serie de estímulos particulares y se inician ciertas líneas de conducta. Por ejemplo, dado un sistema de entrada, se excita el subsistema de depredación; el animal se sensibiliza ante objetos en movimiento. Un modo es un “sustrato motivacional relacionado con la organización secuencial y temporal de los patrones de acción respecto a los estímulos terminales del sistema”. En otras palabras, un modo es una unidad motivacional, un sustrato del subsistema, que coordina líneas de conducta específicas. Por ejemplo, en el sistema de alimentación de la rata, las presas que se encuentran lejos del organismo espacial y temporalmente activan el modo de búsqueda general y desencadenan la secuencia conductual apropiada. Los módulos son “predisposiciones a responder a estímulos particulares con componentes de respuesta particulares”. Los módulos representan tipos de acciones conductuales más específicas o más refinadas. Proporcionan también una especie de filtro de estímulos en el que las claves ambientales desencadenan algunos módulos pero no otros. Por último la unidad más básica de salida es el patrón de acción. Éstos son los movimientos específicos y

que una aproximación más provechosa es considerar la conducta del animal como parte de un sistema de conducta funcional integrado, que posee (1) un valor de comienzo inicial (entrada del estímulo), (2) conductas adecuadas para esos valores iniciales (respuestas), y (3) la propiedad de modificarse por medio de la consecuencia (retroalimentación).

50

reacciones motoras ejecutados de forma estereotipada. Son las conductas componentes de los módulos o las secuencias conductuales. La localización y exploración son dos ejemplos que forman parte del módulo de desplazamiento.

Los sistemas de conducta y la conducta integrada. Conductas inadecuadas. Uno de estos fenómenos es la ejecución de conductas inadecuadas en lugar de la respuesta criterio para la que se hallan disponibles las contingencias de recompensa. Según esta aproximación, la conducta inadecuada se produce porque el sistema de alimentación natural del sujeto es activado por estímulos. Los patrones de acción asociados con al alimentación son desencadenados automáticamente por estos estímulos, haciendo irrelevante el reforzamiento. Recorrido de laberintos. Se ha aplicado también la aproximación de los sistemas de conducta al recorrido de laberintos. Según Timberlake (1983), la acción de correr hasta el final del laberinto no está regida por la consecuencia instrumental porque los animales se desplazan por corredores aun cuando no se proporciona ninguna recompensa. En lugar de ello, la conducta de correr se asemeja a patrones de acción característicos de animales que viven en madrigueras.

Fanselow comparó la conducta de inmovilización de tres grupos de ratas. A uno se le concedía 2 minutos para explorar una caja de prueba antes de recibir una descarga eléctrica. Otro recibía una descarga inmediatamente después de ser colocados en al caja. Un tercer grupo no recibió ninguna descarga. Los grupos con descarga inmediata y sin descarga no mostraron prácticamente ninguna inmovilización. Sin embargo, las ratas que recibieron una descarga demorada mostraron una considerable inmovilización. Según Fanselow, el enfoque de los sistemas de conducta es una forma adecuada de explicar estos datos. Esta aproximación argumenta que la estrategia defensiva de una rata posee tres modos –esto es, pre-encuentro, post-encuentro y próximo a la lucha-. Estos modos son activados por distintos tipos de estímulos ambientales. El modo de pre-encuentro se activa cuando el animal es colocado en una situación potencialmente amenazante. El modo post-encuentro se desencadena cuando el animal se encuentra de hecho con la amenaza aversiva y tiene que afrontarla. Por último, el modo próximo la lucha se activa siempre que existe un contacto sensorial directo con el predador o la propia amenaza. Cuando el animal se halla en el modo de pre-encuentro, se activan varios tipos de módulos de conductas. Una es la alteración del patrón de alimentación

Conductas defensivas. La teoría de RDEE del aprendizaje de evitación sostiene que los organismos están dotados genéticamente de conductas apropiadas para hacer frente a depredadores y otras amenazas aversivas. Fanselow (1994) describió una aproximación d elso sistemas de conducta al problema de la conducta defensiva. Ilustraremos estas conductas con un fenómeno denominado el “déficit de la descarga inmediata”.

51

de un animal. Cuando el animal se halla en el modo post-encuentro el módulo predominante es la inmovilización. Por último el modo próximo a la lucha activa tiene dos clases de módulos: desplazarse lejos del predador y el salto/ataque o agresión. Éstas son conductas que se efectúan como último recurso.

Capítulo 13

Generalización y discriminación Cuando otros estímulos similares a la clave original pueden producir también reacciones, se denomina generalización del estímulo. La medida en que estas nuevas claves producen respuestas depende en gran parte de su parecido con el EC o Ed original. La generalización implica responder del mismo modo a dos estímulos distintos debido a sus similitudes. La discriminación es el proceso contrario –esto es, responder de forma distinta a dos estímulos basándonos en sus diferencias aparentes-. Desde un punto de vista formal, un animal discrimina cuando responde al E+ y no al E-. No se establece ninguna distinción entre los estimulos condicionados y los estímulos discriminativos. Los sujetos responden del mismo modo (generalizan) o de forma distinta (discriminan) ante dos o más estímulos, con independencia de si su respuesta es producida por un EC pavloviano o facilitada por un Ed instrumental. Un modo de concebir la generalización y al discriminación es un término del control por el estímulo. Se dice que la respuesta producida por un EC, o que tiene lugar en presencia de un Ed, está controlada por uno o más atributos de la clave.

Gradiente de generalización. Un aspecto notable de la generalización es la relación sistemática entre la fuerza de la respuesta a los estímulos generalizados y la similitud de esos estímulos con el EC o Ed original. Esta relación sistemática se denomina gradiente de generalización. Se utilizan varios métodos para demostrar los gradientes de generalización. Cada uno de ellos posee ciertas ventajas y desventajas. Estímulos múltiples. Esta técnica consiste en condicionar un E+ criterio y, después, durante una sesión de extinción, presentar el estímulo original junto a otros muchos semejantes (todos en orden aleatorio) y observar la reacción del suejto a cada uno de ellos. La ventaja de esta técnica consiste en que cada sujeto experimenta todos los estímulos generalizados. El inconveniente es que responder a un estímulo puede afectar a la reacción del sujeto ante otros estímulos del continuo. Estímulo único. Esta técnica consiste en entrenar a los sujetos con el estímulo original y, después, ponerlos a prueba con sólo una clave generalizada. La capacidad de cada estímulo generalizado para producir respuestas se evalúa mediante comparaciones de grupo. Aunque esta aproximación puede requerir mucho más tiempo y ser costosa, la ventaja es que la reacción del sujeto a un estímulo generalizado no se ve afectada por la exposición a otros estímulos. Procedimiento de generalización mantenida. Consiste en reforzar al sujeto de forma continua por responder al E+ original, por lo general mediante un programa de reforzamiento intermitente, pero administrar periódicamente ensayos de prueba en los que se presenta un estímulo generalizado sin reforzamiento. En el curso de varias sesiones, se presentan todos los estímulos generalizados varias veces en orden aleatorio. En este caso, las ventajas consisten en que los sueltos experimentan todos los estímulos generalizados y que la fuerza de la respuesta al E+ se mantiene a lo largo de la prueba.

52

El inconveniente es que los sujetos discriminan eventualmente el E+ original de los estímulos generalizados y, por tanto, el gradiente puede resultar artificialmente pronunciado.

Tipos de gradientes de generalización. La generalización se produce con estímulos tanto excitatorios como inhibitorios. Estímulos excitatorios. Los gradientes de generalización de los estímulos discriminativos excitatorios se demostraron en un clásico experimento con palomas realizado por Guttman y Kalish (1956). Se colocó una luz tras la tecla de respuesta; el color de la luz podía controlarse de forma precisa mediante filtros cromáticos. Se emplearon cuatro grupos de animales, y la única diferencia entre éstos era la longitud de onda de 530 nanómetros; a otros grupos se les presentó un E+ de 550, 580 o 600 nanómetros. Durante los periodos de presentación del E+, de 60 segundos, se facilitaba el acceso a la comida con un programa de reforzamiento de IV de un minuto (durante los periodos del E-, no se reforzaron los picotazos de la tecla). En la prueba de generalización, se presentó el E+ original durante 30 segundos, además de otros 10 estímulos con una longitud de onda inferior o superior en el espectro cromático. Se repitió 12 veces cada conjunto de 11 estímulos. No se administró ninguna recompensa de comida durante estas sesione de prueba. El número total medio de respuestas a cada estímulo se representa de forma separada para los cuatro grupos. No es de extrañar que el máximo nivel de respuesta en cada grupo se produjese con el Ed originalmente entrenado. Sin embargo, los estímulos generalizados produjeron también la conducta de picoteo, y la magnitud de la respuesta resultó ser una función directa de la similitud entre los estímulos de entrenamiento y de la prueba. Estímulos inhibitorios. Se han demostrado también gradientes en el caso de inhibición generalizada. Una técnica la sumación consiste en entrenar tanto un E+ como un E-, y presentar después el E+ junto a claves similares al E-. Los estímulos E- generalizados restan poder excitatorio al E+; cuanto más se asemeja un estímulo al E- original, más se reduce la excitación producida por el E+. Un estudio de Weisman y Palmer (1969) proporciona un buen ejemplo de inhibición condicionada generalizada. Las palomas recibieron un entrenamiento de discriminación en el que se reforzaba el picoteo de una tecla verde 1 2

53

(E+), pero no se reforzaba el picotear la tecla verde con una línea blanca vertical proyectada sobre ésta (E-). Después del entrenamiento se administró a cada sujeto una prueba de generalización, consistente en el E+ (fondo verde), al que se superponía una de entre 7 líneas blancas, esto es, el E- original, o una línea que divergía de la vertical -90º, -60º, -30º, +30º, +60º y +90º. El gradiente de generalización de una de las palomas aparece en la figura. Se muestra el número de respuestas a cada estímulo generalizado en función de tipo de estímulo. La respuesta a la tecla verde E+ por sí misma se muestra a lo largo de la parte superior de la figura. Interacciones excitatorio-inhibitorias: el desplazamiento del máximo. Cuando el entrenamiento inicial implica la discriminación entre una clave E- y otra E+, y se evalúa después la generalización en una fase de prueba se produce un efecto interesante, denominado el desplazamiento del máximo. Se define como un alejamiento del máximo del gradiente excitatorio respecto al E+ original, en dirección opuesta a la del E-. Este aspecto se demostró en un estudio de Hanson Las palomas podían obtener comida picoteando una tecla durante la presentación del estímulo E+ (luz de color de onda 550 nanómetros). Posteriormente, se administró a distintos grupos entrenamiento de discriminación en el que el E+ continuaba siendo al luz de 550 nanómetros y el E- poseía una longitud de onda de 555, 560, 570 o 590 nanómetros. Un quinto grupo de control no recibió entrenamiento de discriminación. En al fase 3 se administró una prueba de generalización utilizando 13 estímulos distintos, que variaban entre 480 y 600 nanómetros. Los resultados muestran en primer lugar, el máximo de respuesta del grupo control se hallaba, como se preveía, en el E+ inicial, y se observó 3 Constituye la suma algebraica de las diferentes tendencias excitatorias e inhibitorias de ese estímulo. Si los gradientes excitatorio e inhibitorio se miden separadamente y se calculan las sumas algebraicas, el gradiente resultante muestra un desplazamiento del máximo que lo aleja del E+.

Teorías de la generalización.

Generalización de un proceso primario. Según Pavlov, la generalización es un proceso neurológico primario. Cuando se activa un área cerebral mediante un EC+, la actividad eléctrica se extiende a otras áreas cercanas del cerebro.

Una disminución sistemática de la respuesta a los diversos estímulos generalizados. Sin embargo, en los grupos de discriminación, el máximo de la curva no se encontraba en el E+ original sino que, más bien, se hallaba desplazado del E+ en dirección contraria al E-. Spence (1937) argumentó que los gradientes de generalziación post-discriminación se derivan de la interacción entre los gradientes de excitación e inhibición. En concreto, cada estímulo generalizado produce tanto excitación como inhibición generalizada. La respuesta a un estímulo dado

54

Hull sugirió también que la generalización es un proceso inherente y fundamental del aprendizaje, no un subproducto secundario de algún otro proceso. El cerebro registra varios valores del estímulo cuando percibe una clave, no un único valor. Durante la prueba de generalización, los nuevos estímulos producen una respuesta porque algunos de sus valores sensoriales son los mismos que los condicionados anteriormente.

Generalización como un fallo de diferenciación. Una teoría con un respaldo más amplio por Lashley y Wade (1946), indica que la generalización es una consecuencia de la incapacidad del sujeto para diferenciar los estímulos. La teoría de Lashley-Wade establece dos afirmaciones. Primero los sujetos se confunden durante la prueba de generalización. Esta es la razón por la que responden a estímulos que no han encontrado antes. Cuanto más se parece el estímulo al E+ original, mayor es la confusión y, por tanto, mayor es el grado de respuesta generalizada. En este sentido, la generalización es lo contrario a la discriminación. En segundo lugar, un sujeto aprende sobre la dimensión en la que se produce la generalización. Hipótesis inversa. La afirmación de que la generalización consiste en un fallo de discriminación se conoce con el nombre de hipótesis inversa. Si los sujetos no pueden discriminar, éstos generalizan. Si discriminan entre estímulos, la generalización es mínima y el gradiente pronunciado. Factores atencionales. La implicación de procesos atencionales en la generalización se muestra por el hecho de que el entrenamiento de discriminación previo afecta a la generalización, potenciando la atención. Estos resultados respaldan la teoría de Lashley-Wade porque indican que la tendencia a generalizar se debe, en parte, a la incapacidad del sujeto para discriminar, la cual, a su vez, es una función de la falta de atención del sujeto hacia la dimensión relevante del estímulo.

Modelos de procesamiento de la información de la generalización. El modelo de Blough (1975) de la generalización es similar al modelo Rescorla-Wagner del CC, este modelo mide la fuerza de al respuesta en presencia de un EC, el modelo de generalización de Blough incluye estímulos generalizados. Proporciona una descripción cuantitativa de cómo se desarrollan las reacciones excitatorias e inhibitorias generalizadas. En concreto, el modelo afirma que la presentación de un reforzador modifica la probabilidad de una respuesta en presencia del EC de entrenamiento y de otros EECC generalizados que tienen elementos o características en común con el EC de entrenamiento. Según Blough, estímulos como luces y tonos se representan mediante sus elementos o características. Cuando se presenta un estímulo, se activa un conjunto de elementos o características. Cada elemento o característica posee la capacidad para obtener fuerza asociativa mediante su emparejamiento con un EI (vi). Esta fuerza se suma a través de todos los elementos, creando la fuerza asociativa total del estímulo (Ve). La fuerza de un estímulo Ve equivale a la suma de la fuerza de los elementos individuales (vi), ponderada mediante un factor de generalización ( isγ ). Desde un punto de vista formal, la fuerza de un estímulo viene dada por la siguiente ecuación: iie vsV ∑= γ . El modelo afirma también lo siguiente: ( )eii Vsv −=∆ ∑ λβγ donde Ve es la fuerza asociativa del estímulo E, obtenida mediante la ecuación anterior,

iv∆ representa la variación de fuerza asociativa del elemento i, isγ es el factor de ponderación de la generalización, β constituye un parámetro de la tasa de aprendizaje

55

que, en parte, determina cuán pronunciado es el incremento de la curva de aprendizaje, y λ es la fuerza asociativa asintótica o máxima que Ve puede obtener. El factor de generalización isγ aumenta con la semejanza física entre los estímulos. Modelo de Pearce. Por el contrario, Pearce (1987), habiendo encontrado que el modelo de Blough era deficiente en varios aspectos, desarrolló un modelo que supone que los animales poseen un almacén breve de memoria [buffer] que contiene el patrón de estimulación experimentado en su momento por el sujeto. Al presentarse un EC, el hipotético almacén breve de memoria contiene representaciones de sus elementos más elementos de otras claves del entorno, como el aparato de experimentación. Al aparecer el EI a continuación, todas las representaciones del EC en la memoria obtienen fuerza asociativa. Sin embargo, los contenidos del almacén breve de memoria cambian cuando se presenta un nuevo estímulo generalizado. Un estimulo generalizado produce una respuesta en al medida en que los elementos que éste activa poseen ya fuerza asociativa derivada del entrenamiento inicial. Pearce emplea el término ÁA S para representar el grado de similitud de los contenidos del almacén breve de memoria para dos estímulos distintos, AEC y ÁEC . Si dos estímulos son similares, ÁA S se aproxima a 1; sino lo son, el valor de ÁA S se halla próximo a 0. El modelo de generalización de Pearce se expresa formalmente mediante la siguiente ecuación: AAAA ESe ´´= en la que el término AE es la fuerza excitatoria del

AEC ; ÁA S representa la proporción de elementos que AEC y ÁEC tienen en común; y

Áe , es la fuerza excitatoria del estímulo generalizado, esto es, ÁEC . Un estímulo generalizado activa elementos contenidos en la memoria; cuanto mayor es la semejanza entre AEC y ÁEC , más elementos comunes se activa y, por tanto, mayor es la excitación generalizada Áe .

Generalización como respuesta relacional. Todas las teorías anteriores argumentan que la generalización está directamente relacionadas con al semejanza física entre los estímulos del entrenamiento y la prueba. Según el enfoque relacional, la respuesta generalizada no se basa en las diferencias físicas absolutas entre estímulos, sino, más bien en sus diferencias relativas. Efecto de tendencia central. Thomas y Jones (1962) mostraron un ejemplo de respuesta relacional, el efecto de tendencia central. Los observadores humanos recibieron una luz de color verde de 525 nanómetros durante 60 segundos y se les dio la instrucción “recuerden este color porque se le pedirá que lo identifique después. Transcurrido un minuto se apagará esta luz y usted habrá de colocar su dedo en la tecla del telégrafo situado frente a sí y lo pulsará. Recibir la señal “listo” y, unos segundos después, se volverá a presentar un color. Todos los sujetos fueron entrenados sólo con un color como EC, de modo que los gradientes de generalización deberían ser simétricos alrededor del valor de 525 nanómetros si la respuesta generalizada se basa en la semejanza física absoluta de la clave original con los estímulos generalizados. Éste no fue el resultado obtenido. El grupo al que se administró la prueba de generalización simétrica, presentó un gradiente simétrico, pero los otros grupos no. El máximo de estos gradientes se desplazó respecto al valor original en dirección hacia los estímulos de la prueba. Modelo del efecto del nivel de adaptación de Thomas. Thomas propuso un modelo que explica este fenómeno, así, los sujetos juzgan sus estímulos respecto a un referente ya almacenado, o representación subjetiva del valor

56

medio con el que se encuentran. Si los sujetos experimentan sólo un valor de un estímulo, este valor se convierte en el referente. Si experimentan valores múltiples de un mismo estímulo, adquieren un referente del nivel de adaptación o representación de memoria, correspondiente al valor medio de todos los estímulos. Los estímulos generalizados se juzgan según este referente de nivel de adaptación, no según el valor del E+ únicamente. Este modelo explica el efecto de tendencia central al afirmar que los sujetos que experimentan estímulos generalizados inferiores al valor de E+ adquieren una representación subjetiva del valor medio de los estímulos que se halla también por debajo del valor del E+. Su respuesta se basa en ese valor medio. Del mismo modo, los sujetos que experimentan sólo estímulos superiores al valor del E+ adquieren una representación de memoria del valor medio de los estímulos superiores al E+. Thomas expresó formalmente el modelo en los siguientes términos: ( ) ( ) ( )[ ]∑= iXfitY ω , en el que ( )tY denota el valor subjetivo medio que se produce tras t presentaciones de todos los estímulos, ( )iω es un parámetro que pondera el valor del estímulo i, y ( )[ ]iXf representa los valores percibidos de los estímulos generalizados. Por tanto, la ecuación implica que el valor del nivel de adaptación subjetivo de todo el conjunto de estímulos es una función del valor de cada estímulo generalizado multiplicado por los valores ponderados del E+ original. (pag. 459) El desplazamiento del máximo respalda el modelo relacional de la generalización de Thomas. La razón exacta de por qué las palomas presentan un desplazamiento del máximo y los humanos no está aún por determinar.

Factores que afectan al gradiente de generalización. Un gradiente de generalización pronunciado refleja escasa generalización; incluso estímulos bastante similares al E+ original producen sólo una respuesta marginal. En cambio, los gradientes más planos reflejan una mayor generalización. El grado de entrenamiento administrado con el E+ influye en la generalización. Cuanto más extenso es el entrenamiento, menor es la generalización (gradiente más acusado). La generalización aumenta con el tiempo, no porque el sujeto responda menos a la clave E+ original, sino porque los estímulos generalizados más discrepantes, los cuales no produjeron al principio una respuesta de generalización fuerte, ejercer un mayor control a medida que transcurre el tiempo. Indica que los detalles de un estímulo particular se olvidan con el tiempo. Aunque con el transcurso del tiempo hace más plano el gradiente de generalización, un cambio en el contexto general tiene el efecto contrario. Cuando se pone a prueba los animales en una caja distinta a la utilizada en el condicionamiento original, se observa un gradiente más abrupto (menos generalización). Tiende a afirmarse que se distorsionan los detalles del contexto de entrenamiento original, provocándose así un fallo de recuperación de memoria. Cuando un sujeto recibe un entrenamiento de discriminación seguido de una prueba de generalización, el gradiente es más pronunciado que si el sujeto no recibe dicho entrenamiento de discriminación. El entrenamiento de discriminación produce no sólo una tasa superior de respuesta al E+, sino un gradiente más pronunciado. Estos resultados respaldan la teoría de la generalización de Lahley-Wade. Para discriminar entre dos estímulos, un sujeto debe aprender las dimensiones relevantes del estímulo implicadas en la discriminación. Al hacerlo, el sujeto confunde menos el estímulo y muestra así menos generalización.

57

Entrenamiento de discriminación: tipos de discriminación. Simultánea. En la técnica simultánea, E+ y E- se presenta a un tiempo, y se utiliza, por lo general dos teclas de respuesta distintas. Si el sujeto percibe una diferencia entre los mismos y se halla bajo el control estimular, la respuesta al E+ es superior a la respuesta al E-. La incapacidad para diferenciar los estímulos, o la ausencia de control estimular hace que el sujeto responda a los dos patrones del mismo modo, aproximadamente. Sucesiva. Otra técnica es presentar el E+ y el E- sucesivamente. La medida de la discriminación depende de que el suejto responda de forma distinta. Una versión especial de la tarea sucesiva se denomina procedimiento de “discriminación respuesta/no-respuesta”. En este caso, el E+ es la presencia de una clave, y el E- es su ausencia. Las discriminaciones sucesivas son, por lo general, más difíciles de resolver que las discriminaciones simultáneas. Discriminación de programas de reforzamiento. Las técnicas de discriminación simultánea y sucesiva establecen un contraste entre una condición reforzada y otra no reforzada. Sin embargo el programa de recompensa puede variar también durante las presentaciones del E+ y el E-. Condicional. Una discriminación condicional se produce cuando un sujeto efectúa la R1 en presencia del E1, pero una respuesta distinta –esto es, R2-, ante E2. En otras palabras, la respuesta correcta está condicionada a, o depende de, que estímulo se presente. La clave E1 constituye el E+, pero el E- para R2. La discriminación condicional es esencialmente lo mismo que la inhibición condicionada y la modulación en el CC.

Teorías de la discriminación. Las dos teorías principales del aprendizaje de discriminación, señaladas anteriormente, fueron desarrolladas por Hull y Spence, y por Sutherland y Mackintosh. Hull-Spence. Su teoría establece tres supuestos. En primer lugar, el reforzamiento da lugar a la excitación condicionada al E+. Segundo, la ausencia de reforzamiento produce la inhibición condicionada al E-. Por último, la excitación y la inhibición se generalizan a otros estímulos, y, lo que es más importante, estas tendencias contradictorias se suman algebraicamente para cualquier estímulo dado. La teoría de la discriminación de Hull-Spence ha sido respaldada por una serie de experimentos. El respaldo más sólido procede de los estudios sobre el fenómeno del desplazamiento del máximo tratado anteriormente. Sutherland-Mackintosh. La teoría atencional de la discriminación que formularon, establece que el aprendizaje de discriminación consta de dos procesos diferenciados. En primer lugar, a la propia atención resulta afectada cuando se refuerza al sujeto. Concretamente, el cerebro posee analizadores que reciben y procesan información sensorial. Cada dimensión que caracteriza a un estímulo particular se representa mediante un analizador distinto. Al comienzo del entrenamiento, la fuerza de un analizador dado se relaciona con la fuerza de la señal entrante. Si un estímulo posee un rasgo saliente, como el brillo o el color, la atención del sujeto resulta atraída por esa dimensión. Esto explica el hecho de que los estímulos más fuertes susciten una mayor atención y, por tanto, se condicionen con mayor facilidad. Si el animal presta atención a una dimensión particular del estímulo y es reforzado tras su respuesta, la reacción de atención, el analizador, aumenta de fuerza. El segundo proceso identificado por la teoría de la atención consiste en al adquisición de

58

una respuesta. Se desarrolla un vínculo o unión entre una respuesta específica y un analizador. Waller obtuvo respaldo directo par ala teoría de la atención. Medidas de atención. Se ha medido la propia respuesta de atención en diversas situaciones, incluyendo estudios en los que se emplea un método denominado “igualación de la muestra” [matching to sample] .

Factores que afectan a la discriminación. En al aprendizaje de discriminación influyen muchos factores. Dificultad del problema. El aprendizaje de discriminación es más rápido cuando los estímulos E+ y E- se distinguen con facilidad uno de otro que cuando no es así. Discriminación previa. La experiencia previa con un problema de discriminación influye en cómo un sujeto aprende un segundo problema. Este hecho, el efecto de fácil a difícil, fue mostrado por primera vez por Lawrence (1952). El estudio encontró que dominar el problema de discriminación fácil facilitó la ejecución en el problema más difícil. La explicación de Lawrence era que los animales atienden mejor a la dimensión relevante del estímulo con una tarea fácil, y que esta reacción de atención facilita después la discriminación más difícil. Información del estímulo. El valor más informativo de un Ed afecta al aprendizaje de discriminación. Los estudios confirman que un Ed adquiere fuerza como consecuencia de su validez relativa. Estos resultados respaldan la teoría de la atención de discriminación, según al cual los sujetos prestan atención a los estímulos relevantes o predictivos para resolver el problema de la discriminación. Efecto de la consecuencia diferencial. Otra condición que afecta al aprendizaje de discriminación es en qué medida la respuesta da lugar a una única consecuencia. Se consigue responder de forma distinta a E1 y E2 (efectuando R1 y R2 ) con mayor facilidad cuando R1 produce C1 (una consecuencia) y R2 da lugar a C2 (otra consecuencia distinta). Las consecuencias pueden diferir de algún modo significativo. Los animales aprenden una discriminación condicional con mayor facilidad incluso cuando las consecuencias diferenciales son dos acontecimientos sensoriales diferentes en lugar de dos tipos distintos de recompensa. Fedorchak y Bolles explicaron la facilitación del aprendizaje de discriminación en términos de la representación de reforzador.

Fenómenos de discriminación. Se han descubierto numerosos fenómenos en el curso del estudio del aprendizaje de discriminación. Estos fenómenos demuestran muchas de las formas en que opera la discriminación. Efecto del sobreaprendizaje en la inversión. Es un fenómeno fiable, aunque se obtiene sólo cuando se emplea un problema de discriminación relativamente difícil y se administra una recompensa grande por la respuesta correcta. Este efecto no se observa normalmente en problemas de discriminación espacial, como dar un giro a la izquierda o a la derecha en un laberinto en forma de “T”. Sin embargo si el problema es más difícil o si se administra mucho entrenamiento en la discriminación inicial, se obtienen el efecto del sobre aprendizaje en la inversión.

59

La teoría más exitosa del efecto del sobreaprendizaje en la inversión es la teoría de la atención. Según esta teoría, la atención a la dimensión relevante, de la que depende la discriminación, fortalece la respuesta de atención o analizador. La teoría supone también que la discriminación se produce sin que el sujeto atienda de forma exclusiva a la dimensión relevante del estímulo. La teoría de la atención del efecto del sobreaprendizaje en al inversión ha recibido otros apoyos de diversa índole. Según la teoría de la atención, el sujeto no sobreentrenado no atienden de forma exclusiva a la dimensión apropiada al final de aprendizaje inicial, de forma que la nueva dimensión, el competir por la atención, perjudica la ejecución. La teoría de la atención explica también el hecho de que haya de usarse un problema difícil para demostrar el efecto del sobreaprendizaje en al inversión, ya que cuando el problema de discriminación es difícil se necesitan más ensayos para desarrollar un analizador fuerte, y, de este modo, el sobreentrenamiento tiene una mayor influencia en la conducta de inversión. Disposiciones de aprendizaje. La discriminación de nuevos objetos mejora si se administra de antemano un entrenamiento de discriminación con otros estímulos. En concreto, la exposición a muchos problemas de discriminación distintos produce un aumento espectacular de la capacidad para aprender nuevos problemas. Este fenómeno se denomina disposiciones de aprendizaje. Este aumento de la capacidad para aprender problemas de discriminación ocurre en muchos animales. Se produce también cuando el entrenamiento implica la evitación de estímulos desagradables en lugar de la recepción de recompensas positivas. El trabajo de Harlow demostró un principio importante del aprendizaje –esto es, que las experiencias de aprendizaje previas pueden influir en al capacidad para resolver problemas, la capacidad para aprender en sí-. La formación de disposiciones de aprendizaje proporciona una valiosa información sobre las capacidades de aprendizaje de varias especies, pero no ofrece una medida simple de la inteligencia general. La teoría sobre la formación de las disposiciones de aprendizaje de Harlow afirmaba que un sujeto aprende lo que no ha de hacer. La tendencia de un sujeto a realizar una elección incorrecta se inhibiría gradualmente en el transcurso del entrenamiento. Levine propuso una teoría más elaborada de la ejecución en disposiciones de aprendizaje. Este autor afirmó que los animales desarrollan y ponen después a prueba, hipótesis sobre los problemas de discriminación. La estrategia que los animales adoptan con mayor frecuencia en la solución de disposiciones de aprendizaje es la siguiente: ganar-continuar con el objeto; perder-cambiar a otro objeto. Las investigaciones respaldan la teoría de Levine. Transferencia después de la discriminación. Se produce la facilitación sólo cuando los viejos y nuevos problemas utilizan la misma dimensión estimular cambio intradimensional, u ocurre también cuando los nuevos problemas de discriminación implican una nueva dimensión del estímulo cambio extradimensional. Los resultados mostraron que aprender una segunda discriminación resultó más fácil cuando el problema inicial implicaba la misma dimensión del estímulo que cuando comportaba una nueva dimensión. Aprendizaje del rasgo. El efecto del rasgo positivo, se produce cuando el rasgo predictivo simple que distingue al E+ del E- forma parte físicamente de la presentación del E+. La cuestión esencial era si el aprendizaje de discriminación sería más eficaz cuando el rasgo distintivo se encontraba en el estímulo criterio E+ o E-. Sainsbury halló que el aprendizaje de discriminación era más eficaz cuando la característica distintiva se encontraba en al

60

tecla E+. Cuando el rasgo forma parte de la presentación del E+ se facilita el aprendizaje de discriminación porque la reacción es recompensada inmediatamente.

Capítulo 14

Memoria

Naturaleza general de la memoria.

Fases de la memoria. Decimos que un ítem pasa al menos por tres fases en la memoria del individuo. En primer lugar, la fase de aprendizaje es aquella en la que se codifica la información, es aquí donde se forma la memoria. En segundo lugar durante la fase de retención o almacenamiento, la información o el conocimiento persisten en el tiempo. En tercer lugar, la fase de recuperación o ejecución es aquella en la que el individuo recuerda la información y efectúa la respuesta, ofreciendo así una evidencia de haber aprendido con anterioridad. Las teorías generales de olvido, o enfoques teóricos son, la teoría del almacenamiento y de la recuperación.

Memoria a corto plazo: igualación demorada de la muestra. El procedimiento más común para investigar la memoria a corto plazo en animales es una técnica denominada igualación demorada de la muestra. El procedimiento fundamental en un experimento de igualación demorada ala muestra comporta las mismas fases señaladas anteriormente, esto es, codificación, intervalo de retención y recuperación. Tipos de tareas de igualación demorada a la muestra. Se coloca a un animal en una caja con tres teclas de respuesta en las que pueden proyectarse distintos colores o formas geométricas. Al comenzar el ensayo se ilumina la tecla del centro, que presenta el estímulo de muestra, por ejemplo un color rojo. Los sujetos demuestran que reconocen la muestra respondiendo en consecuencia. Se administra entonces un período de demora (intervalo de retención), después del cual se iluminan las dos teclas laterales. Una de estas contiene el estímulo recién presentado en al tecla central mientras que la otra presenta un estímulo distinto, por ejemplo, un color verde. La tarea del animal consiste en demostrar su recuerdo de la muestra escogiendo el estímulo de comparación correcto: a tecla roja. Si el animal identifica la muestra, recibe reforzamiento; si se equivoca, no obtienen ninguna recompensa. La ejecución empeora siempre en función del intervalo de demora. En el experimento típico de igualación demorada a la muestra, se utilizan manchas de color o figuras geométricas como estímulos de muestra y comparación. Una tarea más compleja atañe a la denominada igualación condicional. En este caso, la igualación se basa en una asociación arbitraria entre la muestra y al comparación, en lugar de en una semejanza física. Evidencias del repaso. El repaso constituye una parte destacada del proceso de memoria a corto plazo. Los estudios indican que las palomas procesan o repasan de forma activa las características de la muestra durante el intervalo de retención a menos que se les indique lo contrario mediante una clave de olvido. Así, los sujetos se inclinan automáticamente a repasar y

61

procesar un estímulo de muestra, a menos que se les indique que no va a evaluarse su memoria, en cuyo caso el repaso cesa.

Teoría de la huella de la igualación demorada a la muestra. Una de las teorías más concienzudamente evaluadas de la ejecución de igualación demorada a la muestra es la teoría modificada de la huella, propuesta por Roberts y Grant (1976). Según esta teoría, la presentación de la muestra crea una huella neuronal que se desvanece con el tiempo. La teoría estipula además que los sujetos realizan la tarea de igualación demorada a la muestra emparejando literalmente los vestigios de la huella neuronal que va desvaneciéndose con las características sensoriales de los estímulos de comparación. Si la huella se ha desvanecido de forma considerable, la igualación resulta difícil. Los sujetos realizan este proceso de forma relativamente pasiva. La teoría de la huella establece un tercer supuesto, es decir, que la fuerza de la huella original de memoria aumenta en función de la exposición a la muestra. Críticas a la teoría. Se han presentado cuatro tipos de evidencias. Todos ellos muestran que los sujeto no son agentes pasivos del proceso de memoria. En lugar de esto, los sujetos repasan la información de forma activa durante el intervalo de retención. En segundo lugar, si la muestra contiene tanto una forma geométrica como un color, pero se hace que el sujeto la empareje basándose sólo en la forma geométrica, la ejecución es peor que cuando la muestra contiene sólo una dimensión. Tercero, la ejecución de la igualación demorada a la muestra empeora si se perturba el repaso durante el intervalo de retención (interferencia retroactiva). Por último, un importante fenómeno denominado “interferencia proactiva”, contradice la teoría de la huella. La interferencia proactiva se produce cuando un estímulo administrado antes de la muestra interfiere con el procesamiento o repaso de ésta por parte del sujeto, disminuyendo la igualación demorada a la muestra posteriormente.

Hipótesis de la discriminación temporal. Según esta hipótesis, la disminución de la ejecución en función del intervalo de retención refleja una especie de confusión. En estas pruebas se expone a los animales a un número limitado de estímulos de muestra, de modo que su dificultad no consiste en recordar las características de la muestra sino, más bien, en recordar en cualquier ensayo dado que muestra se presentó. Un segundo hallazgo que respalda la hipótesis de la discriminación temporal es que el uso de muchas muestras, en lugar de sólo unas pocas, mejora la ejecución de la igualación demorada a la muestra.

Teorías de codificación de la información. Durante la igualación demorada a la muestra los sujetos piensan retrospectivamente en, o repasan, las características de la muestra y las codifican en la memoria. Cuanto más amplia es la codificación retrospectiva, mejor es la memoria y, por tanto, mejor es la ejecución de la igualación cuando se ofrecen los estímulos de comparación. Codificación prospectiva. La codificación prospectiva comporta el repaso de los estímulos que han de presentarse en lugar de pensar retroactivamente en la muestra. Los sujetos piensan con antelación respecto a los estímulos de comparación que van a presentarse y aprenden una serie de instrucciones sobre su futura respuesta. Por ejemplo, si la muestra es de color verde, el animal podría codificar una instrucción implícita como “responder al estímulo de comparación verde”. Se han mostrado tres tipos de evidencias de la codificación

62

prospectiva. Primero, los sujetos realizan discriminaciones condicionales o simbólicas tras el intervalo de retención. En segundo lugar, la cantidad de información que ha de procesar un sujeto afecta a su memoria. Un tercer resultado que confirma la codificación prospectiva es el hallazgo de que los sujetos a los que se administran consecuencias distintas muestran una memoria a corto plazo superior. Procesamiento conjunto. La hipótesis de la codificación retrospectiva afirma que los sujetos repasan la muestra durante el intervalo de retención. La hipótesis de la codificación prospectiva indica que los animales repasan lo que van a hacer a continuación. Varios experimentos han mostrado que se producen ambas clases de procesamiento en al misma situación, aunque no ha podido todavía determinarse si los dos procesos ocurren de forma simultánea o secuencial. Los autores suponen que existe una correspondencia entre el número de brazos y la cantidad de información que ha de retenerse en al memoria, y que la perturbación de la memoria en mayor cuando se retiene más información que cuando se procesa una menor cantidad de ésta. El repaso retrospectivo y prospectivo se produce de forma simultánea.

Olvido y memoria a largo plazo. La mayor parte de la literatura sobre la memoria humana considera que ésta puede considerarse como “a largo plazo” cuando la información se retiene hasta 24 horas, aunque este período de tiempo no tiene nada de particular. Una segunda característica de la memoria humana a largo plazo es que parece poseer una capacidad ilimitada; la cantidad de información que puede contener es ilimitada. Unos pocos estudios han investigado sistemáticamente la capacidad de la memoria a largo plazo en animales son humanos (Vaughan y Greene). En estos estudios, las aves reconocieron estímulos de cientos de ejemplos durante un período superior a dos años. Aunque estos hallazgos indican que la memoria de una paloma para estímulos visuales puede durar varios años, otras investigaciones han mostrado olvido en un periodo mucho más breve.

Condiciones que afectan a la memoria a largo plazo. Interferencia retroactiva. Desempeña un papel importante en la memoria a largo plazo, al igual que en los procesos de memoria a corto plazo. Si un sujeto experimenta un acontecimiento traumático tras aprender una respuesta, el acontecimiento puede afectar retroactivamente al recuerdo de la reacción aprendida. El agente utilizado con mayor frecuencia, o acontecimiento traumático, es la descarga electroconvulsiva. La descarga electroconvulsiva interfiere con la memoria de forma retroactiva. Cuanto más tiempo transcurrió entre la descarga en la pata y la descarga electroconvulsiva, mejor era el recuerdo. Una explicación del efecto de la descarga electroconvulsiva en la memoria propuesta en un importante artículo por McGaugh (1966), es la teoría de consolidación de la memoria. Según esta postura, los recuerdos deben experimentar un período de consolidación si han de perdurar. Los recuerdos se fijan durante este período de consolidación. Según los teóricos de la consolidación, la descarga electroconvulsiva afecta a la memoria de forma parecida a como rociar agua pueda afectar a la marca del cemento. La descarga desorganiza la actividad de las neuronas de modo que la huella neuronal establecida durante el aprendizaje no logra consolidarse o fijarse. Sin embargo, cuanto más tiempo se concede al proceso de consolidación, más se fortalece la memoria. Muchos teóricos creen ahora que la teoría de la consolidación es incorrecta. Según estos autores, el

63

olvido no refleja que se haya impedido la formación de la memoria, sino más bien, la incapacidad de recuperar el recuerdo en el momento de la prueba. Interferencia proactiva. La fuente más importante de interferencia en la retención a largo plazo procede de acontecimientos o condiciones acaecidos antes del aprendizaje inicial. Como se mencionó, este hecho se denomina “interferencia proactiva”. Desde un punto de vista formal, la interferencia proactiva se produce cuando efectuar la tarea “B” antes que la tarea “A” interfiere en el recuerdo de la tarea “A”. Un factor o condición que influye en la retención a largo plazo es la edad del sujeto a la que se forma una memoria particular. El conocimiento convencional indica que los traumas experimentados a una edad temprana ejercen una influencia desproporcionada en al conducta adulta. Éstos son inusitadamente intensos y duraderos. Sin embargo, la investigación no ha logrado confirmar esta noción. De hecho, los recuerdos aprendidos al principio de la vida se olvidan con mayor rapidez que los recuerdos formados en la edad adulta. Este hecho se denomina efecto de la edad en al retención. Organización en la memoria. Uno de los factores más importantes que contribuye a la permanencia de la memoria a largo plazo es su organización y cohesión. La cantidad de información que puede retenerse aumenta cuando los sujetos organizan la información en agrupaciones jerárquicas o unidades de memoria. A menudo, esto se basa e las características perceptivas de la información. Se han hallado resultados análogos en animales. Las unidades de memoria pueden ser más grandes y más complejas que las presiones de palanca, giros a la derecha e izquierda y teclas de color. Los individuos agrupan la información formando así unidades organizadas y globales. El agrupamiento de la información aumenta a capacidad de memoria y permite al animal predecir la recompensa de forma más eficaz. Gran parte del trabajo en agrupaciones de memoria ha sido realizado por Capaldi y sus colegas. Capaldi identifica tres clases de agrupaciones de memoria: agrupaciones de ensayos, agrupaciones de series y agrupaciones de listas. Las agrupaciones de ensayos hacen referencia a un conjunto de respuestas individuales que se organizan de modo significativo. En las agrupaciones de series, los sujetos agrupan una cantidad de acciones individuales. Por último, las agrupaciones de listas consisten en una jerarquía de varias agrupaciones de series. Cuando un sujeto anticipa cuál de dos series de ensayos ocurrirá, ha combinado las series en una agrupación de listas.

Teoría de la recuperación. La noción de que el olvido se debe a un fallo de recuperación ha sido respaldada ampliamente en los últimos años. Según esta teoría una respuesta es producida por una red o complejo de estímulos. Cualquier manipulación que cambie la red altera también la medida en que la red da lugar al recuerdo. La teoría establece tres predicciones específicas. En primer lugar, cuando nuevos estímulos procedentes de fuentes internas o externas se añaden al complejo estimular, éste difiere del presentado durante el aprendizaje original, y se produce olvido porque el contexto del estímulo alterado ya no provoca la respuesta en cuestión. En segundo lugar, si los estímulos salientes que formaban parte del complejo original se omiten de repente, y disminuye su capacidad para producir la reacción la reacción aprendida. En tercer lugar, si los estímulos que formaban parte del complejo durante la adquisición son restituidos en el momento del recuerdo, se aminora el fallo de recuperación. Explicación de la interferencia retroactiva.

64

Gran parte de la investigación contemporánea de la memoria se ha centrado en estas predicciones. Los estudios sobre la interferencia retroactiva, basados en la maduración o la descarga electroconvulsiva, respaldan la teoría de la recuperación. Disminución del precalentamiento. Si se pone a prueba un animal cada día a la misma hora aproximadamente, suele comportarse peor al comienzo de cada sesión, pero muestra una mejora a partir de ese momento. Este fenómeno de la disminución del precalentamiento respalda la teoría de la recuperación de la memoria. Reactivación y recuperación. Muchos estudios muestran que los tratamientos de reactivación restauran los recuerdos que de lo contrario, se olvidan. La memoria que se restituye mediante un tratamiento recordatorio puede ser de hecho más fuerte que la memoria original. El efecto de reactivación parece mejorar el aprendizaje original; fortalece a la información aprendida durante la adquisición. Los sujetos procesan la memoria original durante el tratamiento recordatorio, fortaleciéndola así aún más. Por último, la eficacia de un tratamiento recordatorio depende de cuánto se administre. Por tanto, el estudio implica que la información puede recuperarse mediante tratamientos recordatorios, pero que el estado de vigilancia del animal es un factor importante. La reactivación del recuerdo aminora el olvido, pero sólo si el animal es capaz de atender a, y repasar, la información en su memoria. Cuando no es posible utilizar esta capacidad –por ejemplo, cuando los sujetos están durmiendo- el tratamiento de reactivación tiene un escaso efecto en la memoria. Papel del contexto. La evidencia recién revisada aquí respalda la teoría de la recuperación de la memoria mostrando que los recuerdos que aparentemente se han olvidado pueden reactivarse si los sujetos reciben los tratamientos recordatorios apropiados antes de la prueba. La noción del contexto ambiental resulta crítica para la teoría de la recuperación. El contexto en que un animal es entrenado y puesto a prueba desempeña un papel fundamental tanto en el proceso de aprendizaje como el de memoria. De hecho, el contexto es un concepto unificador, que relaciona los procesos del condicionamiento y del recuerdo. Bouton (1993) ofreció tres principios generales de la memoria a largo plazo en relación a cómo afecta el contexto a la recuperación de la memoria. El primero y más importante es que los estímulos del contexto guían la recuperación de memoria. El experimento confirma la teoría de Bouton (1993) de que se precisa tanto la activación de los recuerdos del contexto como la del EC para una recuperación eficaz. Por último, el fenómeno denominado “renovación de la RC” confirma también el principio de Bouton. El fenómeno de la renovación de la RC muestra que la memoria para la adquisición y la memoria para la extinción se muestran muy dependientes del contexto. En otras palabras, el grado en que un animal efectúa la RC depende de forma crítica del contexto en el que se pone a prueba. Si se examina en el contexto de extinción adicional, la RC se recupera; si se le recuerda el contexto de extinción, la RC no se recupera. El segundo principio de Bouton resulta también crítico para nuestra comprensión del proceso de memoria. Bouton afirma que el propio paso del tiempo provoca un cambio en el contexto. En otras palabras, el olvido se produce porque el contexto del estímulo en que se halla el sujeto, tanto interno como externo, varía con el paso del tiempo. Ésta es, en esencia, la teoría del fenómeno de la edad en la retención explicad anteriormente. Los sujeto jóvenes aprenden fácilmente, pero el olvido se produce porque el contexto interno varía a lo largo del proceso de maduración. El último principio de Bouton respecto al contexto y la memoria afirma que el olvido se produce en el momento de la recuperación.

65

Memoria espacial. La memoria espacial se trata en este capítulo como una categoría de memoria distinta, aun cuando se explica brevemente su relación con procesos de memoria a corto y largo plazo.

Laberinto de brazos radiales. Olton y Samuelson realizaron un experimento que despertó el interés en la memoria espacial. Se puso a prueba unas ratas en una aparato denominado “laberinto de brazos radiales”, el cual contenía ocho callejones distintos que partían de una posición central de salida. Durante los 10 días de entrenamiento, el número medio de brazos distintos escogidos en los primeros 8 intentos fue de 7,7. Los resultados indican que lo que determinó la elección del sujeto fue su recuerdo de los corredores visitados previamente. Otros factores eran irrelevantes. Los estudios con laberintos de brazos radiales son importantes no sólo porque demuestran que el animal posee recuerdo de las localizaciones espaciales, sino también porque ayudan a explicar la estrategia de búsqueda de comida natural de una rata. En su entorno natural, en el que las ratas agotan normalmente una fuente de comida antes de pasar a un nuevo lugar, evitar las ubicaciones visitadas previamente tiene lógica desde un punto de vista ecológico. La razón de esta conducta es escogiendo de forma consistente nuevas rutas, los animales maximizan su consumo potencial de alimentos a largo plazo.

Mapas cognitivos. Las ratas desarrollan un mapa cognitivo o modelo interno, de las características espaciales del entorno, lo que les permite resolver el laberinto de brazo radial. Zonas de almacenamiento en aves. La implicación de la investigación en mapas cognitivos es que los recuerdos espaciales se emplean en el medio natural del animal. Este hecho se ha demostrado en varias especies de aves que almacenan alimentos en escondrijos. Por lo general, cuando se dejaban las semillas en su lugar, los sujetos cometían pocos errores por cada semilla recobrada. Sin embargo, cuando se volvía a colocarlas aleatoriamente, se produjeron muchos errores. Sherry (1992) demostró que los pájaros que almacena comida son también sensibles a las referencias geográficas globales. También los invertebrados como las abejas, adquieren mapas cognitivos.

Capítulo 15

Procesamiento cognitivo complejo

Cálculo y medida del tiempo.

Procesamiento de los intervalos temporales. Tareas de medida del tiempo. Esta técnica se denomina procedimiento de “discriminación respuesta/no-respuesta” porque el sujeto responde (respuesta) si la señal es un E+, pero no responde (es decir, no-respuesta) si la señal es un E-. Una investigación de Roberts, Cheng y Cohen (1989) utilizó el procedimiento del máximo con el fin de estudiar la capacidad de las palomas para medir la duración de las señales de luz y tono. El procedimiento del máximo saca partido del hechod e que la tasa de respuesta en un programa de reforzamiento de intervalo fijo (IF) se acelera a lo largo del intervalo. La medida del tiempo en los

66

ensayos de la prueba fue bastante precisa. El máximo d ela respuesta se produjo, de forma adecuada, a los 15 y 30 segundos, independientemente de qué estímulo se utilizase. Por tanto, los animales demostraron una buena noción de la medida del tiempo. Aunque los máximos de la respuesta fueron los apropiados tanto para el tono como la luz, los datos revelan también que las palomas miden la duración de las luces con mayor facilidad que la de los tonos. Características del procesamiento temporal. Las características del proceso interno de medida del tiempo parecen ser exactamente como las de un cronómetro. El reloj interno, permite a un animal medir intervalos de distintas longitudes aunque los acontecimientos sean de distintas modalidades. Otra características es que el reloj interno mide desde cero en adelante. Otra, el reloj interno se asemeja a un cronómetro en que puede ponese a cero con bastante facilidad, una característica interesante del reloj interno es que la estimación del animal de la duración de un estímulo empeora con el propia paso del tiempo. Por último, una característica del proceso de medida del tiempo es que los animales miden al duración de los estímulos de distintas modalidades sensoriales, y lo hacen de forma simultánea e independiente por medio de dos relojes internos distintos. Teorías de la medida del tiempo. Algunas se centran en los determinantes biológicos de la medida del tiempo, mientras que otras consideran los conceptos psicológicos subyacentes tras la conducta de medida del tiempo, como la memoria, percepción y atención. Uno de los modeloes se basa en el efecto fisiológico de las sustancias químicas en el cerebro. La investigación de Meck y sus colegas ha confirmado que determinadas drogas afectan a la conducta de medida del tiempo. Meck inyectó también a los suejtos un suero salino fisiológico (sustancia placebo), metanfetamina (la cual incrementa el nivel de dopamina) o haloperidol (que bloque a la dopamina). Se produjeron dos resultados destacables. En primer lugar, ambos fármacos perjudicaron el aprendizaje de discriminación. La identificación de los ruidos de 2 y 8 segundos fue menos precisa en los dos grupos con fármaco que en los animales de control con inyección salina. En segundo lugar, los dos fármacos afectaron a la noción del tiempo del animal. Los sujetos con metanfetamina respondieron a períodos más breves de tiempo como si fuesen mas largos; no fue así en los sujetos con placebo. Esto resultado indica que, como un cronómetro que mide el tiempo más rápido de lo normal, el mecanismo interno de medida del tiempo va a un ritmo superior bajo los efectos de esa sustancia. Por otra parte, la administración de haloperidol tuvo el efecto contrario. En resumen, el reloj interno de una rata puede manipularse de forma selectiva mediante drogas que afectan al sistema dopaminérgico. Otros investigadores han mostrado que ciertas áreas anatómicas específicas son importantes para el proceso de medida del tiempo: por ejemplo, la sustancia negra, el área septal medial y el núcleo basal magnocelular. Church (1984) propuso una explicación de la conducta de medida del tiempo basada en mecanismos psicológicos. Según esta teoría, la medida del tiempo se efectúa por medio de cuatro mecanismos: el reloj interno, la memoria de referencia, la memoria d etrabajo y un comparador. El propio reloj posee tres compoenentes. El marcapasos proporciona una corriente continua de pulsos, de forma semejante a un reloj d ecuarzo. Estos pulsos pasan a través de un comutador o puerta, la cuals e abre siempre que se presenta uan señal, y los pulsos se suman entonces en un acumulador o contador. La memoria de referencia retiene una representación de las duraciones experimentadas en el pasado. El comaprador recibe información tanto del acumulador como de al memoria de referencia. Cuando el comparador percibe que la cuenta del acumulador se iguala aproximadamente al valor contenido en al memoria de referencia, desencadena entonces

67

la decisión “sí”, si estos dos valores se aproximan, o “no” si no es así. Por último, la memoria de trabajo almacena información del acumulador e influye en el comparador también.

Procesamiento numérico. La ratas y las palomas pueden contara demás de medir el tiempo. Las capacidades de calculo y medida del tiempo son simialres en muchos aspectos. Recuérdese que las palomas pueden identificar un estímulo por su duración. Sin embargo, si se inserta una demora entre los estímulos de muestra y comparación, la ejecución se deteriora; los suejtos clasifican la muestra de mayor duración como si tuviese una menor duración. En el cálculo hallamos un resultado similar.

Procesamiento conjunto del tiempo y el número. La teoría de Church de la medida del tiempo, señalada anteriormente, fue modificada para explicar estos resultados de procesamiento conjunto de tiempo y número en palomas. Al igual que el modelo explicado anteriormente, esta versión contiene un reloj, procesos de memoria y un comparador. De nuevo, el marcapasos emite pulsos con una tasa constante, los cuales, tras pasar a través del conmutador o puerta, activan los acumuladores apropiados. El cálculo total enc ada acumulador se transfiere al lugar apropiado de la memoria de trabajo. Del mismo modo que en el modelo anterior, se establece una comparación entre los valores del acumulador y los valores almacenados en al memoria de referencia. Se desarrolla entonces una regla de salida en el comparador basada en esta comparación.

Adquisición de conceptos. Los conductistas sostienen que la genealziación es el mecanismo esencial de la conducta cocneptual. Dicho de otro modo, un tipo de estímulo al que el sujeto reacciona de forma semejante (esto es, generaliza) es la definición conductual de una categoría conceptual. El problema de decidir si los animales efectúan conductas conceptuales es más complicado d elo que parece. Una d elas cuestiones de esta área de la psicología hacer eferencia a cómo los animales y los seres humanos aprednen a identificar los estímulos que forman una clase conceptual. Una segunda cuestión hacer referencia a la investigación del aprendizaje animal de forma más directa. ¿Son los humanos, las ratas, las palomas y los monos más o menos semejantes en sus capacidades abstractas, conceptuales?.

Teorías d ela clasificación. Aprendizaje mecánico. Los animales pueden formar categorías conceptuales memorizando miembros individuales de una clase. Aunque es improbable que esta estrategia pueda servir para muchos cocneptos del entorno natural. La capacidad de las palomas para formar categorías basadas en al memoria mecánica fue demostrada en un estudio de Vayghan y Greene. Teoría del rasgo. Es más probable que los miembros de categorías conceptuales compartan ciertos rasgos definitorios, al menos en el entorno natural. Por tanto, para identificar un estímulo dado como ejemplar de una categoría, los sujetos han de comparar las características del estímulo en cuestión con aquellos típicos de la categoría. Algunso investigadores sostienen que los sujetos hacen esto comparando el estímulo con un ejemplar típico,

68

denominado prototipo. La teoría del rasgo para la categorización adolece de dos problemas importantes. En primer lugar, con frecuencia, no está claro cuáles son los rasgos relevantes. En segundo lugar, no todos los rasgos poseen el mismo rango como propiedades definitorias de la categoría. Algunos son más importantes que otros, o reciben una mayor ponderación. Conceptos polimórficos. Una versión modificada de la teoría del rasgo plantea que las categorías conceptuales son polimórficas y, por tanto, la pertenencia a las mismas es probabilística. Los conceptos polimórficos son categorias en las que los ejemplares pueden adoptar muchas formas; ningún rasgo simple o conjunto de rasgos es esencial. Los ejemplares contienen algunas de las características relevantes que definen la categoría, pero no necesariamente comparten todas, o incluso las mismas, características. Los ejemplares de la de la categoría no tienen que poseer todos los rasgos, o incluso rasgos particulares. Esto da lugar a la interesante situación en la que dos ejemplares pueden ser ejemplares positivos de la mimsa categoría sin que haya solapamiento alguno en su lista de características. Por ejemplo, tanto ABX como CDY cumplen los requisitos para ser ejemplares porque dos de sus tres rasgos proceden del conjunto de características positivas, aunque no compartan ninguna característica en absoluto. Muchos estudios muestran que los animales categorizan estímulos artificiales basándose en este aspecto. Es importante advertir que las pruebas de adquisición de conceptos, para ser convincentes requieren la utilización de nuevos estímulos.

Conceptos naturales. A diferencia de las categorías artificiales bien definidas, como las recién descritas, las categorías naturales son categorías polimórficas encontradas en el entorno natural. Como todas las categorías polimórficas, suelen desafiar una definición clara; poseen límites difusos. Las categorías naturales puede implicar distintos niveles de abstracción. Éstos se describen en los siguientes aparatados. Categorías abiertas. Las categorías abiertas son clases de objetos o estímulos con una cantidad ilimitada de miembros. Un ejemplo es el concepto de “hoja de roble”. Presumiblemente, los mecanismos para identificar los ejemplares de esta categoría abierta se basan en algún tipo de análisis de rasgos como el descrito anteriormente. En lugar de discriminar entr ela presencia y la ausencia de un objeto, algunos experimentos han mostrado que las palomas aprenden als propiedades de los objetos. Por ejemplo, las aves pueden dominar el concepto de simetría. Del mismo modo, Dittrich y Lea (1993) demostraron que la spalomas aprenden el concepto de movimiento. Por último, varios experimentos han demostrado que la spalomas conceptualzian las propiedades abstrcatas de los estímulos complejos, generalziando de forma correcta a nuevos ejemplos. En un estudio de Proter y Neuringer, se reforzó a lso suejtos por picotear una tecla durante un fragmento de Bach d dos minutos de duración. Fragmentos de obras compuestas por Stravinsky, un compositor más reciente, actuaban como E-. Las aves no sólo se mostraron capaces de aprender esta discriminación, sino que también generalziaron a música escrita por otros compositores del período en cuestión. En un tipo de estudio similar, Watanabe, Sakamoto y Wakita mostraron que las palomas podían categorizar pinturas. Conceptos de nivel superior. Un artículo de Lea (1984) distinguía entre categorización abierta y los conceptos d enivel superior. Según Lea, la adquisición de una categoría abierta refleja la discriminación de un cocnepto, por la cual un sujeto desarrolla la noción de qué

69

estímulos pretenencen a la categoría E+ y cuáles no basándose en las características físicas. Lea sosteiene que , por el contrario, los conceptos de nivel sueprior son distintos, en el sentido de que se requiere más que un análisis de rasgos físicos para generar las categorías. Lea sostienen que para demostrar que un animal posee un concepto de nivel superior hemos de mostrar que el animal no está procesando sólo los rasgos físicos de los estímulos, independientemente del grado de sutileza de esos rasgos para los sujetos humanos. Más bien, una prueba adecuada de los conceptos de nivel superior implicaría entrenar a un sujeto para adquirir un concepto del modo normal, tomar una de las claves E+ y E- originales y establecer una respuesta completamente nueva para ellos y, después, por último, poner a prueba la relación del sujeto con los restantes ejemplares. Si el sujeto hubiese adquirido un cocnepto de nivel superior, el sujeto debería responder a todos los ejemplares con la misma reacción aprendida en último lugar para sólo dos de ellos. Bhatt y Wasserman realizaron esta prueba. Aunque este estudio ni proporcionó la evidencia exigida por la teoría de Lea, se han obtenido otros resultados más prometedores. Relaciones abstractas. Existe un nivel conceptual de organización superior incluso al de un concepto de orden superior. Herstein argumenta que el nivel más alto de conceptualización implica un conocimiento de las relaciones abstractas entre los objetos. Los ejemplos de una categoría pueden permanecer a ella en virtud de su relación con los miembros de otra categoría. Por ejemplo, pueden ser uniformemente más grandes o más pequeños, más brillantes o más pálidos, más pesados o más ligeros. Los estudios que utilizan un procedimeinto de igualación o de singularidad proporcionan respaldo a la capacidad para discriminar de este modo. El estudio demostró la adquisición del concepto de relación. Aunque las palomas tenían una noción de las relaciones abstractas “igual” y “diferente”, la ejecución no se transfirió a los nuevos estímulos. Dado los resultados descritos anteriormente en palomas y monos rhesus, parece que los primates no humanos se manejan mejor en los problemas de singularidad e identidad que las aves. Los primeros son capaces de transferir el concepto igual diferente a nuevos ejemplares, mientras que los últimos no. Sin embargo, los trabajos más recientes muestran que esto no es así. Las palomas pueden resolver problemas de igualación y singularidad, como demostró Wasserman. Generalización mediada. Si lso estímulso no son físicamente semejantes de algún modo, ¿cómo es posible clasificarlos como mienbors de la misma categoría? Uan respuesta es que la pertenencia a una categoría puede basarse en la noción de generalización medidada o equivalencia estimular aprendida. Los conceptos de orden superior pueden formarse porque lso miembros de una clase conceptual desencadenan una representación equivalente. Esta equivalencia funcional no tiene que basarse en la semejanza física. Para ilustrar la noción de generalización mediada, Wasserman, DeVold y Coppage (1992) proporcionan una útil analogía. Las cañas de pescar y las pelotas de baloncesto no se asemejan en ningún aspecto, ni tienen la misma función. Sin embargo, pertenecen a la misma clase conceptual porque cada uno de ellos se asocia, de forma independiente, con tiendas de deporte.

70

Razonamiento e inferencia.

Aprendizaje relacional. Algo que caracteriza el proceso de razonamiento es la capacidad para responder de forma relacional a los estímulos. Analogías. Por ejemplo, los chimpacés poseen capacidad para resolver analogías. El razonamiento analógico adopta la forma siguiente: A es a Á, lo que B es a ´B. Se ha demostrado una forma de razonamiento inductivo en chimpacés. Continúan sin explorar otras formas de razonamiento lógico, en particular por lo que respecta a otras especies. Transitividad. Una de las características distintivas de la inteligencia es la capacidad para utilizar las reglas de la lógica en la resolución de silogismos. Una regla es la transitividad. Cuando un sujeto responde de forma transitiva a un conjunto de estímulos, aquél infiere la relación entre dos elementos basándose en la relación entre otros dos elementos. En concreto, si un sujeto recibe la secuencia A>B>C, decimos que se produce transtividad si el sujeto percibe A>C. Concebir la transitividad es característico del pensamiento humano adulto. Durante siglos, se creyó que los animales carecían de capacidad para tal forma de pensamiento. Pieget afirmó que incluso los niños con menos de 7 años eran incapaces de ejercer esta forma de razonamiento lógico. Sin embargo, se ha mostrado el uso del razonamiento transitivo no sólo con niños en edad preescolar, sino tambien en otras especíes, incluyendo los chimpacés, monos, ardillas, e incluso palomas.

Psicologia Del Aprendizaje Parte 2

Documents

Transcript of Psicologia Del Aprendizaje Parte 2