ᐈ Thorndike, Edward Lee

Thorndike, Edward Lee
Psicólogo y educador estadounidense, nacido en Williamsburg (Massachusetts), estudió en Wesleyan y en las universidades de Harvard y Columbia. Thorndike se acercó a la psicología en el Teachers College de la Universidad de Columbia en 1899, donde trabajó como profesor adjunto de psicología de la educación desde 1901 hasta 1904 y como profesor de psicología desde 1904 hasta su retiro en 1940. Desde 1922 hasta 1940 fue también director de la división de psicología del Instituto de Investigación Educativa del Teachers College.

Mediante el uso de los experimentos de ensayo y error con animales, Thorndike formuló su ley llamada del efecto según la cual, se aprende aquella acción cuyo resultado es más satisfactorio y la aplicó al desarrollo de técnicas especiales de enseñanza para usar en la clase. Es especialmente conocido por la elaboración de varios tests de inteligencia y por el rechazo de la creencia de que temas considerados intelectuales como las lenguas y las matemáticas organizaban el cerebro. Como consecuencia de esta posición trabajó intensamente para favorecer la inclusión de nuevas disciplinas académicas, como la física y las ciencias sociales, en los currículos tanto de la escuela primaria como de la secundaria.
Entre los trabajos de Thorndike destacan los siguientes Psicología de la educación (1903), Inteligencia animal (1911), La medida de la inteligencia (1926) y Naturaleza humana y orden social (1940).

Teoria

Edward Thorndike realizó su investigación, también observando la conducta de animales pero después realizó experimentos con personas. Thorndike implantó el uso de “métodos usados en las ciencias exactas” para los problemas en educación al hacer énfasis en el “tratamiento cuantitativo exacto de la información”. “Cualquier cosa que exista, debe existir en determinada cantidad y por lo tanto pude medirse”. Su teoría, conexionismo, establece que aprender es el establecimiento de conexiones entren estímulos y respuestas.

La “ley de efecto” dice que cuando una conexión entre un estímulo y respuesta es recompensado (retroalimentación positiva) la conexión se refuerza y cuando es castigado (retroalimentación negativa) la conexión se debilita. Posteriormente Thorndike revisó esta ley cuando descubrió que la recompensa negativa (el castigo) no necesariamente debilitaba la unión y que en alguna medida parecía tener consecuencias de placer en lugar de motivar el comportamiento.

La “ley de ejercicio” sostiene que mientras más se practique una unión estimulo-respuesta mayor será la unión. Como en la ley de efecto, la ley de ejercicio también tuvo que ser actualizada cuando Thorndike encontró que en la práctica sin retroalimentación no necesariamente refuerza el rendimiento.
La “ley de sin lectura”: Debido a la estructura del sistema nervioso, ciertas unidades de conducción, en condiciones determinadas, están más dispuestas a conducir que otras.

Las leyes de Thorndike se basan en la hipótesis estímulo respuesta. El creía que se establecía un vínculo neural entre el estímulo y la respuesta cuando la respuesta era positiva. El aprendizaje se daba cuando el vínculo se establecía dentro de un patrón observable de conducta.

Clases de condicionamiento instrumental

En el condicionamiento instrumental hay cuatro principios básicos: premio, castigo, huída y omisión. En los cuatro casos ha de tenerse presente que primero se produce la respuesta y luego recién se premia, o se castiga, etc.

Premio: Un premio después de la respuesta aumenta la probabilidad que ocurra. El premio se llama refuerzo positivo, y esto fue enunciado en la ley del efecto de Thorndike.
Castigo: Un castigo después de la R disminuye la probabilidad que vuelva a ocurrir. Es lo inverso a lo anterior (castigo positivo).

Huída: Si una respuesta es para escapar de un castigo, aumenta la probabilidad que vuelva a ocurrir. Esto se llama refuerzo negativo.

Omisión: Si el presente está presente pero no se da, la respuesta que lleva a esta frustración decrece su probabilidad de ocurrencia (castigo negativo).

Métodos de medición

Medir en el condicionamiento clásico significa descubrir la respuesta a un estímulo, pero más interesa aquí medir en el condicionamiento instrumental, donde significa detectar con algún aparato los cambios producidos en la conducta por el aprendizaje.
Se citan dos medidas para medir la variable dependiente ‘respuesta’: latencia y tasa de respuesta.

Latencia: es el tiempo transcurrido entre una señal y la ocurrencia de la respuesta. Cuando la madre llama al hijo a comer, éste vendrá más rápido (latencia menor) si le gusta la comida, etc.
Tasa de respuesta: es la cantidad de respuestas por unidad de tiempo. Luego de ser llamado a comer (señal) el niño dará más -o menos- mordiscos por unidad de tiempo.

La extinción en el condicionamiento instrumental

En el condicionamiento clásico, extinción significa desaparición de la conexión EC-EI. En el instrumental, significa desaparición de la conexión respuesta-premio (o castigo).
La extinción se define entonces a partir de una correlación cero entre la respuesta y el refuerzo, o sea la R sigue ocurriendo aunque haya tantos premios como antes, más premios, menos premios o ningún premio. Lo esperable es que el organismo pare, entonces, de responder, que es lo que pasa normalmente, salvo en tres excepciones. En efecto, la respuesta sigue ocurriendo cuando hay falta de discriminación, superstición o psuedocondicionamiento.

a. Falta de discriminación. El estudiante sigue dando la misma respuesta (por ej sigue estudiando bien) a pesar de que el maestro sigue poniendo mecánicamente la misma nota (mismo premio). Sólo tiende a desaparecer la respuesta cuando ve que el maestro pierde las hojas de exámenes, está distraído, etc.
b. Superstición. Este fenómeno se da cuando en un tiempo dado, la relación entre dos sucesos no puede deberse al azar. Aunque podamos programar una serie de premios en forma totalmente independiente de la respuesta, se quiera o no los premios establecerán cierta relación con las respuestas. Habrá correlaciones accidentales, aunque tales correlaciones no hayan sido programadas. Un jugador le va mal un día, pero al otro día donde usa otro bate de béisbol, por azar le va bien, entonces decide usar este bate en forma superticiosa.
c. Pseudocondicionamiento.Ocurre por ejemplo cuando una rata mueve la palanca para salir y en ese momento le damos adrenalina, que aumenta su actividad. La conexión se establece entre la inyección de adrenalina y mover la palanca, lo cual es un pseudocondicionamiento porque el condicionamiento instrumental “verdadero” sería conectar el mover la palanca con el premio (salir de la jaula).
Vemos que en los tres casos se producen respuestas que no mantienen relación con el premio, o sea, no está marcada una relación instrumental (respondo “para” obtener un premio). En el primer caso la falta de discriminación se debe a que la falta de una relación instrumental no puede discriminarse de alguna condición anterior, cuando aquélla existía. En el caso de la superstición es debido a una relación instrumental accidental y temporaria. En el tercer caso la relación no tiene nada que ver con la respuesta, pero el premio por sí mísmo puede causar la respuesta. Todas estas conclusiones valen también para los castigos.

Aprendizaje retardado

Es aquel aprendizaje donde la extinción se presenta “antes” que el condicionamiento, lo que trae como consecuencia que el condicionamiento tarde más en formarse (aprendizaje retardado). Si primero castigamos a un niño, haga lo que haga (extinción de la respuesta, no hará nada), y luego cambiamos la situación y castigamos sólo las conductas malas, entonces tardará mucho más tiempo en superar la primera etapa donde no respondía con ninguna conducta.

Programas de refuerzo o castigo

Un día a Skinner se le acabaron las bolas de alimento que daba a las ratas, y entonces hizo un aparato que les daba bolas de alimento automáticamente, siempre que la rata tocase la palanca un minuto. No sólo las ratas comenzaron a presionar la palanca durante ese lapso sino que también aumentó su tasa de respuestas (cantidad de respuestas por unidad de tiempo), lo cual iba en contra de la idea que a menor premio o refuerzo, menor cantidad de respuestas. Skinner pensó que este ‘programa’ de dar bolas automáticamente podía servir como eficaz método para controlar el comportamiento.

Hay varios tipos de programas:

a) De intervalo fijo: es el ejemplo anterior. El intervalo fijo era un minuto, o sea cada minuto la rata recibía el alimento.
b) De razón fija: aquí se premia a la rata cuando realiza un cierto número de respuestas. Por ejemplo cada cuatro respuestas.
c) Programas combinados: una combinación de los dos anteriores.
d) Programas variables: es cuando los programas de intervalo o de razón son variables en vez de fijos.
e) Programas de refuerzo diferencial: pueden ser de refuerzo diferencial bajo (RDB) o alto (RDA). En el primer caso se premia al sujeto siempre que haya pasado por ejemplo 3 segundos desde la última respuesta. Si responde antes de los 3 segundos no hay premio (o sea una respuesta cada 2,5 segundos no tendrá refuerzo o premio). Esto da tasas de respuesta muy lentas. No es eficaz para el aprendizaje humano. En el caso del RDA, hay premio si la respuesta ocurre antes de un tiempo especificado, con lo cual la tasa de respuestas aumenta mucho.

f) Extinción después de un refuerzo parcial: cuando una respuesta ha sido premiada constantemente, la extinción ocurre más rápidamente que si aquélla fue premiada solo una vez.
g) Programas de castigo, refuerzo negativo y omisión: las pautas de respuesta con castigo de IF son generalmente una aceleración inmediatamente después del castigo y luego una supresión de la respuesta inmediatamente antes del mismo. Un programa de refuerzo negativo (huída) puede consistir en dar descargas eléctricas a la rata hasta que cumpla cierto requerimiento, como una razón fija de 10 respuestas. Por último, un programa de omisión sería proporcionar premio continuamente y luego retirarlo cuando se cumple el requerimiento serial.

Parámetros de premios y castigos

Los instrumentos más sencillos para medir premios y castigos son la caja de Skinner con un único mando (por ejemplo una palanca), y el ‘corredor recto’, por donde el animal circula. Este último evalúa más el comportamiento en el espacio, y la caja de Skinner en el tiempo. Por ejemplo, el primero muestra cuánto se desplazó la rata, y la segunda cuánto tardó en apretar la palanca.
Se citan dos parámetros de premios o castigos: la tasa o cantidad de premio, y el retraso del premio.
Tasa o cantidad de premio: puede ser la mayor o menor cantidad de bolitas de comida, o también cuanto tiempo se lo deja comer una vez que se le dio la comida, o también variar la concentración de azúcar (cuanto más dulce, más premio). Se comprobó que sin premio, la respuesta el cero o cercana a cero; luego, cuando se incrementa el premio, se incrementa también la tasa de respuesta al principio rápido, pero luego lentamente.

Retraso del premio: la tasa de respuesta de la rata varía con el retraso del refuerzo positivo (bolas de comida) y del refuerzo negativo (reducción de la descarga). La rata deja de correr (o bien de pulsar la palanaca si está en la caja de Skinner) inmediatamente al principio pero luego en forma más gradual. El retraso del premio es importante en la vida diaria, como cuando una persona hace dieta pero el premio (bajar de peso), tarda en aparecer.

En cuanto a la relación entre estos parámetros, ellos son independientes en el sentido de que se puede variar la tasa o la cantidad de premio sin variar su retraso, y viceversa. Pero en la práctica se influyen mutuamente, y entonces a veces no se puede saber qué influye más en la conducta: si el retraso del premio o su tasa.
Respecto de la relación entre tasa y cantidad, ella es constante: si se varía la tasa (se le da poca comida a intervalos frecuentes) esto equivale a darle una sola comida grande (cantidad). Pero esto no significa que ambas cosas influyan de la misma forma en la conducta, porque quizás una comida grande sea menos premio porque el animal se siente más pesado.

Huída (refuerzo negativo)

El experimento típico consiste aquí en darle a la rata un estímulo aversivo pero sólo hasta que el animal realiza cierta conducta (llamada entonces conducta de huída). Según la teoría de las necesidades, todo refuerzo es negativo: comer sería ‘huír’ del hambre, beber ‘huír’ de la sed, etc.
Sin embargo las conductas de animales sometidos a descargas (estímulo aversivo) es distinta al que actúa porque tiene hambre o sed, quizás porque el estímulo aversivo en la descarga es externo al organismo, y además no aparece gradualmente.

Una forma de estudiar esto es con la dosificación, donde se aumenta de a poco la intensidad del estímulo aversivo, y las respuestas del sujeto reducen la descarga cuando llegan a cierta cantidad.

Castigo

Es posible que el castigo no forme un condicionamiento instrumental. Con refuerzos positivos buscamos que el animal ‘haga’ algo, pero con el castigo tratamos de que ‘no haga’ algo. Sin embargo muchos investigadores dijeron que desde cierto punto de vista el castigo sí produce condicionamiento instrumental: el castigo dado independientemente de la respuesta del animal tiene algún efecto supresivo de la misma, pero no tanto como cuando depende de la respuesta. En la medida en que hay una diferencia entre los efectos de las respuestas producidas por castigo y las respuestas independientes del mismo, éste será una forma de condicionamiento instrumental.

Evitación

La evitación es una huída pero no del castigo sino de la situación donde este se presenta. Evitar la lluvia es huír, pero ir a un lugar donde no llueve es evitación. El problema es: qué condiciona al sujeto a correr? Huír de la lluvia o ir hacia donde no llueve?

La evitación fue estudiada con dos procedimientos: la evitación discriminativa (se avisa de antemano con un señal que vendrá el castigo), y evitación no-discriminativa (no se da una señal previa). En el primer caso, por ejemplo, se vio que ante la señal los perros pasaban rápidamente de la huída a la evitación, mientras que en otros el paso fue más gradual.

Extinción de la evitación: cuando se intenta extinguir la evitación dando siempre castigos (de forma que no los pueden evitar), las conductas evitativas se reducen más rápidamente. Pero resultados opuestos se consiguen si es retirado el castigo a ser evitado: aquí la conducta de evitación tarda más en desaparecer.