U.5 Condicionamiento instrumental (2017)

Examen Español
Universidad Universidad de Barcelona (UB)
Grado Psicología - 1º curso
Asignatura Aprendizaje, Motivación y Emoción
Año del apunte 2017
Páginas 13
Fecha de subida 15/06/2017
Descargas 1
Subido por

Vista previa del texto

U.5- CONDICIONAMIENTO INSTRUMENTAL THORNDIKE Trabajó principalmente con gatos como sujetos experimentales y los metió en un tipo de jaulas y en cada una de ellas se le ocurrió diferentes mecanismos con los que poder abrir las cajas (tirar de un cordel, abrir un cajón, etc.) el objetivo del experimento era escapar de las cajas y él se dedicó a ver como el gato aprendía a realizar la actividad correcta para salir de las cajas.
En esta caja en concreto observamos que solo podia salir apretando la palanca. En salir de las cajas problema al principio tardaba 2 minutos però al pasar el tiempo cadavez pressionava el pedal con mas rapidez y tardava menos (disminuïa el tiempo de escape).
ENSAYO DISCRETO  SOLO UNA RESPUESTA POR ENSAYO. Vienen definidos peruqe en cada ensayo solo se puede produir una rspuesta y para que vuelva arepetirse la respuesta tiene que volver a reproduir toda la sensación (abrir la caja meter al gato, que este presione la palanca y salga..)  Según la situación experimental se suele medir la latencia de respuesta, o el tiempo (velocidad) en alcanzar la meta, o el porcentaje de respuestas correctas.
TIPOS: 1. Corredor recto Se guarda el tiempo en que el sujeto tarda desde el pnto de salida hasta el punto de meta.
2. Laberinto en T el sujeto tiene que decidir si girar a la izquierda o a la derecha. Porcentage de repsuesta correcta principio (50%) – final 100% cuando ya ha aprendido que ek camino y no lo hace al azar (0,5) En el 2010 Thorndike planteó la ley del efectó, porqué sus gatos cada vez iban más rapidos?  “De varias respuestas en una misma situación, aquellas acompañadas o seguidas de cerca (estando lo demás igual) por la satisfacción del animal, se conectarán firmemente con la situación, de forma que, cuando la situación se repita tendrán más posibilidades de producirse; Aquellas respuestas acompañadas o seguidas de cerca, estando lo demás igual, por la incomodidad del animal, debilitarán sus conexiones con la situación, de forma que, cuando la situación se repita, tendrán menos posibilidades de ocurrir. Cuanto más grande sea la satisfacción o incomodidad, más grande será el fortalecimiento o debilitamiento de la conexión."  Decia que si tenemos una situación (esimulo- conteto estimular) en esta el sujeto se da cuenta que puede realizar diferentes conductas R1 R2 E R3 El sujeto intentará asociar la respuesta óptima con el estímulo situacional debido a la conducta satisfactoria R4 SKINNER  Introduce el termino de conducta instrumental (Thondike no hace diferencia entre condicionamiento clásico y instrumental).
 Propone la ley del refuerzo: 1. La conducta operante que produzca refuerzo, aumentará su frecuencia de aparición.
2. La que produzca castigo, tenderá a desaparecer.
 NO es dependiente del contexto (Thorndike si). Por este motivo lo llaman conductista radicar porque la conducta de los sujetos puede aparecer de forma libre y no depende de donde estén estos  Tambén se inauguran: 1. Condicionamiento instumental = Condicionamiento operante 2. Entendia que lo que hace la conductao actividad de los suejtos es operar al entorno para ver que posibilidades hay, la entendia como un instrumento que se utiliza para alcanzar el objetico 3. Se decide estudiar la conducta con la famosa caja de skinner y estudia con palomas y con ratas OPERANTE LIBRE  Puedes registrar tantas respuestas como el sujeto quiera/pueda omitirla  Se mide la tasa de respuesta, es decir, la frecuencia de respuesta durante un tiempo determinado (por minuto, hora etc.) MEDIR TASA DE RESPUESTA:  Registro acumulativo construyo una situación pequeñita para tener una respuesta operante presionando la palanca, si el contexto hubiera sido mas complicado la respuesta habría sido más tardía.
1. La pendiente = frecuencia o tasa de la respuesta.
2. Entre A y B no emite respuesta (línea plana).
3. Entre B y C una tasa de respuesta baja (hay pendiente).
4. Entre C y D mayor tasa de respuesta (más pendiente) PROGRAMAS DE REFUERZO SIMPLE  Continuo cada vez que realice la conducta las veces que sea obtendrá reforzador (palanca-comida).
 Intermitente la porción de comida aparecerá de vez en cuando pero no siempre que presione la palanca. A veces realizara la actividad pero no obtendrá reforzador. Hay parámetros que determinan cuando el sujeto va a tener acceso a la comida. Se producen cuando se pone la secuencia en paralelo.
CRITERIO DE RAZON (REFUERZO INTERMITENTE)  Exigimos al sujeto que haga una cantidad de conductas para llegar al reforzador 1. Programas de razón fijo se la va a pedir una cantidad de conducta determinada para obtener el reforzador RF-10 Ex. Si tenemos a sniffy en la caja de skinner va a tener que presionar la palanca 10 veces y a la décima vez se le proporcionara reforzador.
SIEMPRE CONSTANTE EX. Sueldo 2. Programa de razón variable Se establece un razón promedio de numero de respuestas EX. RV-10. El sujeto obtendrá el reforzador cada 10 respuestas de promedio. A veces unas veces se le proporciono comida con 2 repeticiones de conducta y otras con 18 18+2=20. 20/2=10. Podemos observar como el promedio es 10 por lo tanto sniffy estará obteniendo comida.
EX. Máquinas tragaperras (a veces reparte premio con poco intervalo otros con mucho intervalo). Es adictivo por dos factores, el primero es que cada vez que haces la conducta y no recibes el refuerzo dices bueno la siguiente quizás sí, cuando pasa la siguiente y no has ganado dices bueno a la siguiente estoy más cerca de obtener el premio. El otro motivo que lo hace adictivo es la distribución (los dos palitos del principio) es que como hay poca diferencia entre reforzador y reforzador con poca conducta tienes reforzadores enseguida.
El primero es el de razón fija y el segundo el de razón variable: 1. Periodo de razón fijo alterna periodos de actividad con periodos de descansa. Los periodos en los que no haya actividad vienen alternados según la muestra. Nos indica cuando tiene el reforzador. Estas pausas POSTREFORZAMIENTO siempre ocurren después de haber obtenido al comida (el escaloncito recto) 2. Razón variable patrón fija tiene una pendiente “estable”, sin muchas alteraciones.
PROGRAMAS INTEMITENTES DE INTERVALO  Vienen determinados por un periodo temporal. Por mucho que el sujeto haga la conducta no tendrá acceso al reforzador 1. Intervalo fijo de 10 segundos. 10 segundos de restricción por mucho que la rata presione la palanca esta no tendrá acceso al reforzador y una vez acabado el tiempo se le da el reforzador pero este es obtenido la primera vez que vienva a repetir la conducta después de haber pasado este tiempo. Cuando acabe esta proporción se volver a activar la restricción de 10 segundos y hasta que no pasen y el sujeto vuelva a realizar la conducta no se le proporcionará comida.
EX. IF-10 (CADA 10SEGUNDOS) 2. Intervalo variable Durante un intervalo de tiempo varía la proporción del reforzador.
3 EX. IV-10. Este es un reforzador que cada 10 segundos de promedio puede conseguir el reforzador siempre que se dé la respuesta.
GRAFICO DE LAS REFUERZAS ACOMULATIVAS 1. Intervalo fijo conforme se acerca el final el intervalo de restricción recibirá reforzamiento. El sujeto acaba detectando el tiempo de restricción en el cual obtendrá reforzador. Suele dar un dibujo llamado testón.
2. Intervalo de razón  encontramos una semejanza con el de razón variable ya que expresa una pendiente estable sin alteraciones, es decir, patrón de pendiente estable.
- Los programas variables dan lugar a tasas estables de respuesta.
- Los programas de razón dan lugar a tasas más altas de respuesta.
DIFERENCIAS RAZÓN INTERVALO  El de intervalo como dependía de otros factores que señalaban en que tiempo se le administraba el reforzador iba probando  El de razón es superior ya que hay un tiempo y espera hasta que se le administre el alimento para volver a hacer la conducta.
PROCEDIMIENTOS DE CONDICIONAMIENTO INSTRUMENTAL CI la conducta que hace y la consecuencia que obtiene al realizarla CORRELACION ENTRE RESPUESTA (conducta) Y CONSECUENCIA (reforzador)  Positiva Si realiza la conducta y obtiene de manera explícita un reforzador (apetitivo y aversivo) como consecuencia de su conducta. Si hay una relación entre conducta y reforzador  Negativa Si la conducta va acompañada de que la conducta provoque que no haya nada y hace desaparecer un reforzador explícito.
TIPO DE CONSECUENCIA  Apetitivo le gusta obtenerlos al sujeto  Aversivos le disgusta obtenerlo al sujeto y no quiere que se produzcan En base a estos parámetros se definen los procedimientos del condicionamiento instrumental TIPOS DE PROCEDIMIENTO  Reforzamiento aumentará la posibilidad de que la conducta aparezca más en el futuro.
1. Reforzamiento positivo con la conducta se obtendrá un reforzador apetitivo EX. La presión de palanca en las ratas va seguida de comida por lo tanto aumenta que en un futuro esta conducta siga produciéndose EX. Comprar chuches a una niña que tiene una rabieta 2. Reforzamiento negativo este reforzará a que el reforzador aversivo aparezca o no se presente.
EX. Su madre compra chuches a la niña para que deje de hacer la rabieta - Escape es igual en el lado de la caja que esté en cualquier momento dado la rata le dará un shock si ella aprende que al saltar al otro lado de la caja le permite escapar del reforzador aversivo fomentara esa conducta. Implica que habrá contacto con el estímulo aversivo pero se realizara una conducta para dejar de estar en contacto con el - Evitación Para que esta pueda producirse necesitamos alguna señal o índice con el reforzador desagradable para cuando se produzca predecirlo e evitarlo.
 Castigo procedimientos de CI que producen que la conducta tienda a repetirse menos en el futuro. Que la conducta se deje de hacer 1. Castigo positivo la conducta va acompañada de un reforzador explícito y aversivo EX. Cuando aparcamos mal y nos ponen una multa 2. Castigo negativo procedimiento de omisión donde la conducta provoca que el reforzador apetitivo desaparezca  Modelado o aprendizaje observacional se aprende con un modelo de adquisición o ejecución.
Adquisición: 1. Atención características del modelo; del observador; condiciones estimulares 2. Retención y registro representación simbólica, elaboración cognitiva.
Ejecución: 1. Elaboración reproducción motora.
2. Motivación refuerzo o castigo obtenido por el modelo VARIABLES DEL CI La influencia sobre el CI de:  la R respuesta operante o instrumental  la C consecuencia; o ref: reforzador.
 y la Relación Respuesta-Reforzador RESPUESTA INSTRUMENTAL Con la experiencia, el resultado del reforzamiento instrumental es el hábito: conducta automática estereotipada.
 G. Control La misma secuencia derecha/izquierda de 8 respuestas a dos teclas se repite con la práctica continuada. La secuencia cada vez las palomas la repetían de la misma forma.
 G. Experimental se puede reforzar la variabilidad de una respuesta siempre y cuando la variabilidad sea la operante a condicionar. Para evitar la monotonía si hacia la misma conducta no se le administraba reforzador, es decir, si no cambiaba la secuencia en vez de 4 i 4 hacia 3 i 5 se le reforzaba si hacia 4 i 4 no obtenía reforzador.
REFORZADOR INSTRUMENTAL Hutt (1954) demostró que la cantidad y la cualidad del reforzador influyen en la tasa de respuesta RELEVANCIA O PERTINENCIA RESPUESTA-REFORZADOR Shettleworth (1975): Respuestas preparatorias dirigidas a la obtención del reforzador son las más fáciles de condicionar.
La privación de comida activa el sistema de respuestas relacionado con la alimentación, disminuyendo actividades no relacionadas con dicho sistema y aumentando las relacionadas con la búsqueda de comida.
Shettleworth (1975): Por otro lado, Las respuestas consumatorias son imposibles de condicionar en un gran número de especies.
El mapache si coje el balon con las manos y lo relaciona con la comida sera instintivo.
Breland querian entrenar a cerdos a dejar monedas denro de una hucha al principio del entrenamiento estos eran mas buenos ya que la inicio tenian que aprender a como suejtar ese meta y a veces no les salia bien la dejaban caer y se les caia dentro de la hucha progresivamente fueron aprendiendo y como la asociron con comida no la querian tirar.
CONTIGUIDAD TEMPORAL RESPUESTA-REFORZADOR La demora en la administración del reforzador produce un deterioro del aprendizaje (Dickinson, Watt y Griffiths, 1992).
En 1 segundo aprenden más que en dos pero al cabo de 20 segundos si tienen el reforzador no conectan ni asocian actividad en la rata ya que no saben asociarlo.
El CI es sensible a la demora debido a la interferencia de otras respuestas. Dos formas de controlar la interferencia:  La utilización de reforzadores secundarios Se tienen que aplicar una vez realizada la conducta.
Ex. Si sigues igual asi a final de curso obtendrás un regalo EX. Dinero, reforzamiento verbal, economía de fichas... en humanos señalan la demora del refuerzo primario.
 El procedimiento de marcado mantiene la atención del sujeto sobre la respuesta precedente. La idea del marcado es que la respuesta se marque de alguna forma y se ponga como un asterisco o señale la respuesta para que el sujeto durante el tiempo de demora mantenga la atención sobre la respuesta y si más tarde viene el reforzador podría conectar ambos, el tiempo de atención i el reforzador.
El grupo de marcado (experimental) aprendre que si elige el negro obtenra comida pero si escoje el brazo blanco no la obtendran. Señalizar llamar la atencion sobre una conducta El grupo no marcado (control) no aprenden que por el negro habrá comida i por el blanco no.
EXP1- Colwill y Rescorla (1986) Entrenamiento  Estos van a poner varias palancas y presionar la primera puede provocar la respuesta 1 (estos obtendran comida) y en la segunda palanca provocara la respuesta 2. En el otro grupo al revés.
 Palanca 1 derecha comida  Palanca 2 izquierda bebida Cuando tenian hambre o sed presionavan una u otra.
Devaluacion les dieron un reforzador una comida dentro de las jaulas casa (las cambian de lugar) y estas le provocaron un malestar gastrico (Licl) Prueba donde las volvieron a poner en la caja de esquiner y querian observar la repsuesta 1 y la 2 en una palanca u otra. Para observar así si se producia una palanca u otra. Thorndike decia que aquella actividad que vayan acompañadas con satisfacción provocará un fortalecimiento del estimulo y la respuesta que provoca la satisfacción (de las diferntes respuestas las q vayan acompañadas de satisfaccion favorecerá el entorno).
Esa caja de skiner deberia haber fortalecido el hecho de que se producieran las respuestas Thorndike las asociaciones son implicadas por el contexto Conclusión:  Aprenden a relacionar estimulo respuesta cuando relacionan que el reforzador les ha provocado malestar (comida) y por lo tanto augmenta la respuesta 2 pero disminuye la respuesta 1.
 No es necesario remitirse a una asociación ER EXPERIMENTO 2- Colwill i rescorla Entrenamiento 1: Cuando esta activa:  Lluz tienen acceso a el reforzador 1, es decir, cuando este la luz activa solo tendran acceso a la comida  Tono si hacen la respuesta dos obtendran agua si hacen la 1 no obtendran nada.
Entrenamiento 2 Se introducen dos nuevas actividades:  Si empujan para para la derecha comian  Si empujan para la izquerda bebian Fase de prueba Mezclaron los estimunos discriminativos de la fase uno con la palanca vertical de la fase de skinner.
Si la luz y el tono se hubieran relacionado en la fase de prueba ante la luz esperariamos más respuesta 3. Si la luz informara del reforzador que pudiera obtener obtendria la 3 ya que es la que le produce el reforzador 1 (la comida). Y el tono fomentaria la actividad 4. En el grafico observamos que cuando está la luz se produce más respuesta 3 y cuando está el tono se establece más respuesta 4.
Estructura Jerarquica o condicional Ed activa la expectativa de refuerzo: MOTIVACIÓN; Expectativa que activa asociaciones R-C aprendidas; Se realiza la respuesta posible.
Con esta estructura se destaca el estimulo discriminativo la respuesta y la consecuencia:  Ed: Estímulo discriminativo (contexto o estímulo/s discretos) presente cuando se obtiene la consecuencia (el reforzador).
 R: Respuesta (conducta operante/instrumental)  C ó ref : consecuencia o reforzador provocan refuerzo o castigo ...