Tema 5 CONDICIONAMIENTO INSTRUMENTAL (2017)

Apunte Catalán
Universidad Universidad de Barcelona (UB)
Grado Psicología - 1º curso
Asignatura Aprenentatge, Motivació i Emoció (AME)
Año del apunte 2017
Páginas 17
Fecha de subida 26/06/2017
Descargas 0
Subido por

Vista previa del texto

TEMA 5: CONDICIONAMIENTO INSTRUMENTAL Tornem a parlar d’aprenentatge, el condicionament instrumental es el aprenentatge a partir de les conseqüències de les accions que fem.
En el condicionament clàssic les respostes son automàtiques. En canvi en el condicionament instrumental no pas, per exemple amb un càstig es suposa que el nen anirà reduint la conducta de “pegar a la seva germana”, y també amb un reforç positiu cada cop s’augmenta la conducta.
Thordike va començar la seva obra a finals del segle XIX. Va començar a estudiar als animals, haurien de ser capaços de resoldre problemes senzills. Va ser alumnes de William James a la universitat de Harvard.
L’intent original de Thorndike va ser estudiar la intel·ligència animal. La publicació de la teoria de la evolució de Darwin va fer que moltes persones es preguntessin fins a quin punt les capacitats intel·lectuals humanes estan presents en la resta d’animals.
Els primers experiments presenten poques novetats, no obstant, les conclusions i la teoria que va desenvolupar a partir d’aquestes observacions constitueixen una important aportació científica.
Va proporcionar un marc nou i sistemàtic per a la investigació dels processos d’aprenentatges.
En les primeres investigacions va treballar amb animals com els gats, i les seves caixa problema que s’obriran amb un pestell. La primera vegada que el gat era dipositat a la gàbia, es movia d’un cantó a l’altre d’una manera aparentment desordenada.
Finalment, el gat pressionava el pestell, la porta s’obria i l’animal tenia accés a menjar.
Al repetir aquest procediment varies vegades, el que s’observa es que el gat cada cop el costa menys sortir de la gàbia, aprèn fent accions que l’alliberen de la cosa desagradable, es a dir, la habilitat del animal per obrir la gàbia augmentava, requerint cada com menys temps per accionar el pestell.
Els gats utilitzen un mecanisme per poder sortir, ell pensa que s’estableixen relacions no tant amb la conducta y les seves conseqüències si no, més aviat entre la gàbia (estímul) y la resposta. Es a dir, en presencia de certs estímuls algunes respostes es reforcen y altres no ( ER); Els seus estudis reflecteixen un aprenentatge d’Associació entre un estímul i una resposta. A partir d’aquí ell formula una de les lleis mes importants per la psicologia: Llei de l’efecte.
Llei de l’efecte Si una RESPOSTA executada en presència d’un ESTÍMUL va seguida d’un fet satisfactori, l’associació entre l’ ESTÍMUL i la RESPOSTA s’enforteix. SI la RESPOSTA va seguida d’un fet molest, l’associació es debilita.
Es important remarcar que els animals aprenen una associació entre la RESPOSTA i els ESTIMULS presents en el moment de la RESPOSTA. La conseqüència de la RESPOSTA no està implicada en la associació.
La conseqüència , satisfactòria i molesta, simplement serveix per enfortir o debilitar la associació entre a RESPOSTA i la situació estimular.
La formulació original manté que els reforçadors enforteixen les connexions entre els estímuls i les respostes que les precedeixen. Les respostes instrumentals són hàbits elicitats per estímuls antecedents, sense considerar les conseqüències per part del subjecte.
Condicionament clàssic vs. Condicionament instrumental A diferència dels gossos de Pavlov, els gats de Thorndike “controlen” la presentació del menjar. Es a dir, els estímuls que es presenten a l’animal no són independents de la seva conducta.
1.PROCEDIMENTS EXPERIMENTALS DEL CONDICIONAMENT INSTRUMENTAL Algunes tècniques contemporànies són similas als procediemnts de Thorndike. A partir d’aquí es comencen a estudiar aquests fenòmens de dos maneres principals (mètodes): Assajos discrets: Consisteix en agafar l’animal, posar-ho en situació o aparell repetides vegades i, l’animal farà alguna resposta (només poden realitzar la RESPOSTA una vegada col·locats). Per exemple: el ratolí en el laberint i també el passadís.
Operant lliure: Posem a l’animal en una situació per obtenir una resposta negativa o positiva. L’animal va fent el que vol. Es a dir, un cop situat al animaló en la situació experimental pot efectuar les RESPOSTES que vulgui repetidament. Per exemple: els coloms que picotegen tecles que s’il·luminen, o les ratetes que pressionen les palanques.
Mètode d’assajos discrets Habitualment s’utilitza algun tipus de laberint. L’ús del laberint va ser introduït per Small a principis del segle XX. Va investigar el sistema de caus que les “rates cangur” construeixen en el seu ambient natural.
Un assaig consisteix en introduir l’animal en l’aparell i un cop a realitzat la resposta instrumental, se’l retira. Només es permet una resposta per assaig. En funció de la situació experimental es mesura la làtencia de la resposta, el percentatge de respostes correctes, la velocitat de carrera...
S’avalua utilitzant: ▪ ▪ ▪ ▪ Temps de recorregut La velocitat Latència de resposta Percentatge de respostes correctes Corredor (o laberint) de passadís recte: S’enregistra el temps o velocitat que l’animal utilitza per recórrer el corredor. L’animal va investigant i al final del passadís es troba menjar.
Laberint en T: En el punt de decisió s’ha d’escollir entre girar a la dreta o a l’esquerra. S’enregistra el percentatge d’eleccions correctes.
Piscina de Morris: A les rates de entrada no els hi agrada l’aigua, però són molt bones nedadores. S’introdueix a la rata dins de la piscina, ella vol sortir d’allà, i neda dins trobar una plataforma. Si jo la trec de la situació experimental, però la torno a introduir així repetides vegades, la rata cada cop nedarà més directa cap a la plataforma.
Una part important d’aquesta situació experimental, es que les rates tenen un patró, es a dir, unes senyals o indicacions que els indica la orientació de la plataforma. Si no tinguessin aquets patrons o claus no aprendrien, ja que la situació on es troba la piscina te cortines negres amb una marca i l’aigua esta tenyida de color blanc.
D’aquesta manera la rata s’orienta millor cap a la plataforma i cada cop neda més ràpid cap a ella.
Place cell: Tenim neurones que codifiquen la orientació del espai, d’aquesta manera podem fer mapes mentals (sistema molt sofisticat).
Mètode d’operant lliure Els mètodes d’operant lliure van ser ideats per B.F. Skinner (1938) per estudiar la conducta d’una manera més continua de la que és possible amb els laberints.
La característica principal és que l’animal pot realitzar la conducta instrumental tantes vegades com vulgui durant la sessió experimental.
La resposta instrumental és la de prémer una palanca o picotejar una tecla, per rates i coloms, respectivament. L’execució de la resposta va seguida per l’entrega del reforçador (normalment menjar). Es mesura la taxa de respostes, és a dir, el nombre de respostes per unitat de temps (segons, minuts...).
▪ Procediment d’operant lliure La majoria de les rates no pressionen la palanca (pp) quan es col·loquen a la caixa.
Existeixen uns passos preliminars: ▪ Entrenament a la menjadora S’ensenya primer als animals quan està disponible el menjar...
Emparellant el so de l’aparell que subministra el menjar (EC) amb el menjar (EI). A aquesta fase se a denomina entrenament a la menjadora. Així fins que el subjecte ja està preparat per aprendre la resposta instrumental requerida.
▪ Emmotllament (Shapping) Per a pressionar la palanca és necessari que l’animal s’acosti a ella, aixequi les potes i la premi.
En un principi es pot reforçar a l’animal quan s’acosti a la palanca. Desprès se li pot entregar el premi nomes quan toqui o olori la palanca. Finalment, es pot entregar el premi nomes si realitza pressions de palanca (pp). La seqüència de passos d’entrenament es denomina emmotllament per aproximacions successives.
Vaig reforçant conductes que cada cop s’assemblen més al que o vull aconseguir.
1.1 PROCEDIMETNS DEL CONDICIONAMENT INSTRUMETAL ▪ ▪ ▪ ▪ Reforçament positiu Càstig positiu Entrenament d’omissió Reforçament negatiu Els procediments de condicionament instrumental venen determinats per: ▪ ▪ El tipus de conseqüència: -Apetitiva -Aversiva Resultat del procediment: -Reforçament: augment en la taxa de resposta -Càstig: disminució en la taxa de resposta ▪ La correlació existent entre la resposta i la conseqüència: -Positiva -Negativa Reforçament positiu: L’execució de la resposta instrumental porta a l’aparició d’un estímul agradable. La contingència positiva entre la resposta instrumental i l’estímul apetitiu produirà un increment en la taxa de resposta.
Faig una acció i obtinc una resposta que m’agrada. D’aquesta manera augmenta la taxa de respostes.
▪ ▪ ▪ Tipus de conseqüència: Apetitiva Contingència resposta – conseqüència: Positiva (Ha més respostes més menjar) Resultat: Increment de la resposta Càstig positiu: L’execució de la resposta instrumental porta a l’aparició d’un estímul desagradable. La contingència positiva entre la resposta instrumental i l’estímul aversiu produirà una reducció en la taxa de resposta.
Quan tu fas una acció, reps una conseqüència negativa. L’execució de la resposta instrumental porta a la aparició d’un estímul desagradable.
▪ ▪ La contingència es positiva entre la resposta instrumental i l’estímul aversiu produirà una reducció de la taxa de resposta.
Com a resultat es produeix una supressió o disminució de la resposta.
Exemples: tortures. Es tracta de donar seguidament allò que et desagrada.
Entrenament d’omissió: L’execució de la resposta instrumental provoca la desaparició d’un estímul agradable. La contingència negativa entre la resposta instrumental o l’estímul apetiu produirà una reducció en la taxa de resposta.
▪ ▪ ▪ Es un càstig negatiu amb una conseqüència apetitiva.
Contingència resposta – conseqüència es negativa, ja que retirem l’estímul agradable.
Com a resultat obtenim una disminució o supressió de la resposta.
No reps una cosa desagradable com “pegar-te”, sinó que et treuen allò que t’agrada.
Exemple: Arribes tard a casa i no et deixen sortir. No deixar-te fer alguna cosa que t’agrda.
Reforçament negatiu: L’execució de la resposta instrumental provoca la desaparició (fugida) o impedeix l’aparició (evitació) d’un estímul desagradable.
La contingència negativa entre la resposta instrumental i l’estímul aversiu produirà un increment en la taxa de resposta.
Faig accions per evitar allò (conseqüència) que em desagrada.
▪ ▪ ▪ Tipus de conseqüència: Aversiva.
Contingència resposta – conseqüència: Negativa Resultat: Increment de la resposta.
Exemple: A vegades els pares són molt insistents amb un tema “ ordena la habitació” al final o acabes fent per no escoltar les queixes. Quan pulles al cotxe per posar-te el cinturo sona un “pi” llavors et fiques el cinturó per no escolar-ho. Faig coses per evitar coses desagradables.
2.DESVENTATGES D’UTILITZAR EL CÀSTIG El càstig pot ser un mètode de canvi del comportament tant efectiu com el reforçament. Però el càstig té efectes emocionals (por, ira) que poden impedir l’aprenentatge. Pot portar a una reducció de totes les conductes, no només de la castigada (“aquesta és una pregunta estúpida”). Requereix d’una monitorització continua. Pot portar a agressió. Moltes vegades no és un programa, si no que és una resposta...
▪ Perquè amb nens no s’utilitza un càstig positiu? El càstig pot ser un mètode de canvi de comportament tant efectiu com el reforçament. Però el càstig té efectes emocionals (por, ira) que poden impedir l’aprenentatge.
3.ELEMENTS DEL CONDICIONAMENT INSTRUMENTAL Exemple: Estudi del 2000, on es volia veure si la gent pot aprendre de la mateixa manera.
Inicialment les persones veien dos signes japonesos de manera aleatòria, escollien un. Depèn del signe que escullen els hi donava al 80% diners i al escollir altre els i donaven el 20%.
Un cop això presentaven el A q donava el 80% de vegades amb el C, D, F,E : si la gent aprèn amb recompensa la gent tenia tendència a agafar el A. En canvi el B que era el 20% de diners el presentaven amb el C, D, E, F, amb càstig.
Parkinson (dèficit de dopamina a la mesoestriada): els hi passen la proba amb dopamina y altre sense dopamina.
Que passa amb la gent que pren dopamina aprenia ve al escollir però no aprenia ve a evitar bé, tenen molta facilitat per aprendre sobre el reforçament però no sobre el càstig. Sense dopamina no aprenia ve a escollir A, però evitaven millor el càstig.
3.1 LA RESPOSTA INSTRUMENTAL 3.1.1 VARIABILITAT I ESTEROTÍPIA Que passa quan els animals tenen diferents possibilitats per escollir diferents opcions. Els animals y les persones tenim tendència a estereotipar les respostes, per això es produeix una disminució de la variabilitat de la resposta.
Però puc fer un experiment per pujar la variabilitat en les resposta, però s’ha de reforçar d’una forma especifica y automàtica, si no es reforça automàticament i explicita.
En l’experiment de Page i Neuringer (1985), coloms havien de picotejar dues tecles (esquerra i dreta), però les seqüències han de ser diferents de les 50 seqüències anteriors. Per tant s’han de generar patrons novedosos en cada assaig. En la condició de control es proporciona reforçador cada vuit seqüències sense que hagin de ser diferents.
▪ ▪ Pel contrari, el resultat típic del reforçament instrumental és una disminució de la variabilitat de la resposta.
El condicionament instrumental pot reforçar la variabilitat de les respostes, sempre quan s’estableixi la variabilitat com una operant. PERÒ si la variabilitat no es reforça la resposta es fa més estereotipada.
3.1.2 RELLEVÀNCIA O PERTINÈNCIA La deriva instintiva dels germans Breland i Breland, que es dedicaven a entrenar animals, en aquest cas ossos rentadors, explicaria aquest fenomen.
Objectiu: el os rentador, havia de deixar una moneda dintre d’una capça.
No eren capaços de aconseguir-ho, perquè és un instint que tenen, quan un d’aquest animals troba un objecte valuós el seu instint es guardar-ho. Per molt que insisteixi és difícil ensenyar-li perquè va en contra de la deriva instintiva de l’animal. O sigui jo puc entrenar o ensenyar aspectes simples però aquelles que vaguin en contra dels instints dels animals, són molts difícil.
De altre banda hi ha comportaments que venen donats per la espècie, llavors entrenar-ho o ensenyar-ho és molt més fàcil. En conclusió hi ha respostes que són més fàcil i més difícil de ensenyar.
Les respostes relacionades amb el reforçador són més fàcils de condicionar que les conductes que no hi estan relacionades.
3.2 EL REFORÇADOR (conseqüències) La quantitat i qualitat del reforçador influeix a la taxa de resposta.
Exemple gràfica: com millor i més gran és més alt...
Hutt (1954) va mostrar que la quantitat i la qualitat del reforçador influeixen en la taxa de resposta.
3.2.1 CANVIS EN EL VALOR DEL REFORÇADOR Te a veure amb la quantitat del reforçador, però moltes vegades es un fet relatiu del que estic acostumant a rebre.
Crespi (19423) va ser el primer en descriure els efectes d’un canvi en la quantitat de la recompensa: Tinc dos grups d’animals.
Grup 1: 16 boletes de menjar  corba més petita Grup 2: 255 boletes de menjar corba d’aprenentatge més gran En un moment donat a partir del punt X, Al Grup 1 hi dono 255, augmenten la taxa de resposta. I al altre Grup 2 de 255 hi dono 16, redueixen la taxa de resposta. Això es coneix com contrast positiu i negatiu.
Altre exemple: Canvis en quantitat del reforçador Les rates eren posades en un corredor / laberint. La resposta consistia en recórrer un corredor per obtenir el reforçador. Reforçador diferents quantitats de pellets (boletes dolces de menjar) depenent del grup i la fase experimental.
El primer efecte (grup 4-16) es denomina contrast positiu, perquè la conducta s’intensifica per sobre del nivell normal del grup constant.
El segon efecte (grup 64-16) és el de contrast negatiu, quan empitjoren les condicions de recompensa, els animals redueixen excessivament la seva actuació i responen a una velocitat inferior a la normal.
(Mellgren, 1972) G-G es mante la resposta P-P es mante la resposta P-G  contrast positiu (resposta alta) G-P contrast negatiu (resposta baixa) 3.3 LA RELACIÓ RESPOSTA – REFORÇADOR 3.3.1 Contigüitat temporal Entra la meva resposta i el que jo espero passa un temps, es dona per suposat que passarà alguna cosa. La meva resposta té un tipus de conseqüència, si no tinc això tenim un problema per aprendre.
La resposta i el reforçador al anar junts dona més possibilitats de que es donarà.
El temps en l’aprenentatge es clau, la demora en el lliurament del reforçador produeix un deteriorament de l’aprenentatge (Dickinson, Watt i Griffiths, 1992).
Temps entre apretar la palanca i donar el menjar.
A vegades no puc reforçar de forma immediata, existeixen dues maneres per a poder aconseguir aprenentatges amb procediments de demores resposta – reforçador grans o elevats: • Reforçador secundaris o condicionat És un estímul que em recorda que tindre una recompensa més endavant. Un EC associat amb un reforçador, pot actuar com a reforçador de la conducta instrumental ( ex.
Reforç verbal, clik video del gosset..). S’anomena secundari ja que la seva capacitat de reforçador no és innata sinó apresa.
Aquests reforçadors secundaris actuen com a pont entre la resposta i el reforç primari.
• Hipòtesi del marcatge És un recordatori de la resposta. Marca la resposta d’alguna manera perquè pugui ser distingible de les altres respostes (llum, moure l’animal en un altre lloc després d’haver fer la resposta...).
Exemple: l’ascensor; botó; llum.
Liieberman, Mclntosh i Thomas (1979). La resposta d’elecció d’unes rates era assenyalar per un estímul en el grup experimental i no assenyalada en el grup de control.
Els subjectes del grup marcat van aprendre la R (amb demora en el reforç de 60s) molt millor que els subjectes del grup no marcat.
Exemple de Williams (2000). Rates els hi donen menjar al pressionar una palanca cada 30 segons. A les rates els hi costa aprendre. En una altre condició la rata quan pressiona la palanca al cap de 5 segons s’encén una llum y als 30 cau la bola de menjar, obtenen un increment de la taxa de resposta.
Control: R ------------------C llum(30s) Experimental 1 R----(5s)llum------------------ C Experimental 2 R-------------(25s)llum---C (les rates no aprenen)  Bloqueig, no associen la palanca amb el menjar, elles aprenen que quan apareix la llum apareixerà el menjar, elles esperen a que s’encengui la llum, així disminueix la taxa de resposta.
3.3.2Contingència resposta – reforçador La contingència es refereix a la relació predictiva entre la resposta instrumental i el reforç. La contingència respostareforç es defineix en termes de la probabilitat de que el reforç (Er+) es presenti quan la resposta instrumental (R) s’ha efectuat [p (Er+ / R)] i la probabilitat de que s’obtingui reforç quan la resposta instrumental no s’ha realitzat [p (Er+ / noR)].
Hammond (1980) va manipular la contingència entre la resposta i el reforçador en un grup de rates que premien una palanca per obtenir menjar.
-Quan la contingència era positiva, la taxa de resposta era al voltant de 3-4 respostes.
-Quan la contingència es va fer nul·la presentant reforçadors “gratuïts”, la taxa de respostes va baixar a 0.
L’entrega del reforçador es depenent de l’aparició prèvia de la resposta instrumental. Les conductes supersticioses son conductes que s’associen a un reforçador però realment no porten a cap.
• Conducta supersticiosa Skinner (1948), experiment amb coloms. El colom feia conductes supersticioses, donava una volta i menjava, llavors el colom va associar a donar voltes i menjar.
Skinner defensa que els animals aprenen per contingències (normalment altes), entre una resposta i la seva conseqüència, ja que cada cop que feien aquella conducta menjaven, o nosaltres al portar un amulet aprovem un examen. La idea del Skinner es que la conducta supersiticiosa ve de la relació entre la contingència i la relació causal.
L’experiment de superstició de Skinner (1948) posa a prova el paper de la contigüitat temporal enfront el de la contingència en l’aprenentatge instrumental.
Defensa que la contigüitat temporal està per sobre la contingència. Skinner (1948) va presentar menjar cada 15segons a uns coloms, independentment del seu comportament. Va observar que els seus coloms acabaven duent a terme diferents conductes de forma estereotipada.
Skinner va concloure que es basava en un reforçament accidental.
• Indefensió apresa Una contingència positiva forta entre una resposta instrumental i un reforçador significa que la resposta controla el reforçador. Gran part de la investigació s’ha centrat en els efectes de control sobre la estimulació aversiva.
Sabem que una resposta donada amb un reforçador aquesta resposta augmenta, jo faig aquesta resposta per obtenir més reforçadors o menys càstigs.
Seligman al 1975, va fer el procediment de: Grup 1: en la primera fase els hi donava una descarrega, però al moure una roda, evitaven la descarrega (reforçament negatiu) Grup 2: tot igual però ells encara que moguessin la roda tenien una descarrega Grup 3: no hi havia cap descarrega En la segona fase el grup 1 i 3 Ell va observar que els dos grups que en el grup Control (Grup 1) y el Experimental (Grup 3), aconseguien millor escapar o evitar la descarrega, en canvi en el Grup 2 no aconseguien escapar. Per tant conclou que l’animal del grup 2, les seves respostes no tenen conseqüències, no pot fer res i res serveix per evitar la descàrrega. Això es la indefensió apresa. Es a dir no tinc control sobre el que em passa.
RESULTATS: La idea de Seligman això es aplicable al humà, en els casos socials o clínics per exemple maltractament, “faci el que faci al arribar a casa el meu pare em pegarà, això em comporta a no fer res”.
TEORIES SOBRE LA INDEFENSIÓ APRESA 1.Hipòtesi de la interferència de respostes: Durant la fase de descàrregues inescapables, els animals aprenen a quedar-se immòbils, i aquesta resposta interfereix amb la resposta posterior (fase 2) de fugida.
2.Hipòtesis de la indefensió: Durant la fase de descàrregues inescapables, els animals creen l’expectativa que la seva conducta no pot controlar els esdeveniments de l’entorn. En conseqüència, aquesta expectativa dificulta l’aprenentatge posterior, quan els animals poden controlar realment els esdeveniments.
Hipòtesis de la indefensió (Seligman, 1975): L’exposició a esdeveniments incontrolables produeix indefensió degut al desenvolupament de l’expectativa segons la qual aquests esdeveniments són independents de la conducta.
L’expectativa de incontrolabilitat produeix certs dèficits importants: ✓ Dèficit motivacionalDesprès d’adquirir indefensió, animals i humans són “incapaços” d’iniciar conductes voluntàries.
✓ Dèficit cognitiu La forma de l’expectativa que no tenim control sobre els esdeveniments ambientals fa que no ens beneficiem de la nostra experiència futura.
✓ Trastorns emocionalsEstudis sobre indefensió amb humans mostren que desprès d’una experiència incontrolable, s’observa un increment de sentiments d’indefensió, incompetència, frustració i depressió.
4. PROGRAMES DE REFORÇAMENT Un programa de reforçament és una pauta o regla que determina la forma i el moment en què una resposta del subjecte anirà seguida d’un reforç.
Els programes de reforçament són una de les tècniques conductuals més potents que es coneixen. Afecten profundament a la conducta i és per això que s’hi ha prestat tanta atenció durant les ultimes dècades.
4.1 TIPUS DE PROGRAMES DE REFORÇAMENT • Reforçament continu L’ocurrència de la resposta instrumental provocarà el 100% de les vegades la entrega del reforç.
Els programes de reforçament que reflexen més adequadament l’ambient natural dels animals són els de reforçament intermitent, i no tant els de reforçament continu. Això seria degut a que poques vegades totes les respostes en l’ambient natural van seguides d’una recompensa.
• Refornçament intermitent (quatre programes bàsics: RF, RV, IP i IV) Els programes de reforçament intermitents s’han estudiat normalment en caixes de Skinner, ja que permeten una observació continua de la conducta de l’animal i analitza els canvis en la taxa de resposta d’aquests.
Existeixen quatre tipus de programa de reforçament. En dos d’aquests, el de raó, la recompensa està determinada pel numero de respostes que el subjecte realitza. En els altres dos, d’interval, la resposta és reforçada només després d’un cert període de temps.
A més a més, cadascuna d’aquestes classes de programes (Raó o Interval), es diferencien segons el criteri sigui fix o variable.
o PROGRAMA DE RAÓ FIXA (RF ) Existeix una raó fixa entre el numero de respostes que dóna l’animal i el numero de reforços que rep.
Exemple: L’entrega d’un reforç cada 10 pressions de palanca RF10 Patró de resposta: ✓ Taxa constant i alta un cop començat la conducta instrumental.
✓ Es pot trigar un temps en començar de nou la resposta requerida (pausa post-reforçament).
o PROGRAMA DE RAÓ VARIABLE (RV) Es necessita un número de respostes diferents per l’entrega del reforç. El valor numèric del programa de raó variable indica el número promig de respostes requerides per aconseguir el reforç.
El numero de respostes sempre és impredictible.
Per exemple: RV10, s’entrega a l’animal un reforç cada 13 pressions, 7 pressions, 9 pressions, 15 pressions, 10 pressions... es a dir RV10 = 10±5 pressions.
Ja que tenim el número de respostes necessàries no es predictible, tampoc hi ha pauses predictibles. S’acostuma a respondre amb una taxa de respostes clarament estable.
Per exemple: una maquina “escurabutxaques”, alguns esports... funcionen mitjançant raó variable.
RV i RF: taxa global de respostes en els dos programes es similar sempre i quan es requereixin un número similar de respostes. El patró de resposta és més estable en la RV ja que no hi ha tantes pauses.
o PROGRAMA D’INTERVAL FIX (IF) La resposta és reforçada només després d’un cert període de temps fix.
Per exemple: es reforça a picotejar una tecla cada 4 min (IF 4min). Així les respostes donades durant aquests 4 minuts no reben reforç, únicament la resposta als 4 minuts rep reforç.
Els animals aprenen a esperar a donar la resposta. A mesura que el temps de “disponibilitat” del reforç s’acosta, la taxa de respostes augmenta. Es caracteritza per una taxa de resposta baixa i inestable.
Exemple: Convocatòria d’exàmens de la facultat.
o PROGRAMA D’INTERVAL VARIABLE (IV) La resposta és reforçada només desprès d’un cert període de temps variable; es a dir, poden ser impredictibles. Com els programes de raó variable, els IV mostren taxes de resposta constants i estables (però relativament baixes), sense pauses regulars.
Exemples: -Un venedor de qualsevol tenda (un for de pa).
-El cotxe que el tenim al mecànic.
-Quan es pengen les notes d’un examen als dossiers electrònics.
o COMPARACIÓ DELS PROGRAMES DE RAÓ I D’INTERVAL Tan els programes de raó fix (RF) com els interval fix (IF) produeixen una pausa predictible en les respostes desprès de la presentació del reforç.
Els programes de raó variable (RV) i els de interval variable (IV) mantenen taxes estables de resposta, sense pauses predictibles.
• Reforçament de taxes de resposta En els programes de reforçament diferencial de taxes altes (RDA), una resposta es reforça només si apareix dins d’un període determinat de temps posterior a la ultima resposta.
Per exemple: es reforça quan l’animal realitzi 20 respostes per minut.
En canvi, en un programa de reforçament diferencial de taxes baixes (RDB), el subjecte ha d’evitar respondre fins que hagi passat un determinat període de temps. Si el subjecte s’ajusta a aquest requisit, la següent resposta que emeti serà reforçada. Un error fa que el comptador es posi a zero.
5.L’ESTRUCTURA ASSOCIATIVA DEL CONDICIONAMENT INSTRUMETAL 5.1 ASSOCIACIONS 5.2 L’EXTINCIÓ No existeixen a la natura programes de reforçament que segueixin actuant al llarg de tota la vida de l’organisme. Les respostes que aconsegueixen reforçament en un moment determinat poden deixar de ser eficaces quan canvien les circumstàncies. El no reforçament d’una resposta que prèviament havia estat reforçada s’anomena extinció.
En el condicionament instrumental, a l’igual que en el Pavlovià, desprès d’una extinció també apareix la recuperació espontània.
La troballa general és que l’extinció és més lenta si els subjectes han experimentat prèviament un programa de reforçament parcial que si han experimentat un programa de reforçament continu.
5.3 PROGRAMA CONCURRENT Normalment es treballa amb caixes d’experimentació amb dues alternatives (dues palanques o dos disc d’elecció), en les que els subjectes passen lliurement d’una alternativa a l’altra.
En un experiment típic les respostes a cada alternativa es reforcen amb un programa de reforç diferent. A aquesta manera de procedir se l’anomena programa concurrent.
En els programes concurrents es mesura la preferència (l’elecció) dels animals per un programa o un altre.
Es mesura la taxa de respostes en cada alternativa o el temps que el subjecte passa responent en cada un d’elles.
Per exemple: el cas de que ambós programes concurrents siguin de raó, els subjectes escullen la raó més petita.
Normalment s’observa dues corbes , una per a cada alternativa (o programa). Per tant, el que més interessa en aquests programes és saber com distribueix un animal les seves respostes entre les dues alternatives i de quina forma el programa de reforç de cada alternativa influeix en les seves eleccions.
• Programa concurrent: diagrama Les respostes en la tecla A són reforçades d’acord a un programa de refroçament (en aquest cas, Interval de variació (IV) de 60 s), mentre que les respostes en la tecla B son reforçades d’acord a un altre programa de reforçament (RF 10).
5.4 MESURA DE LA RESPOSTA D’ELECCIÓ Una tècnica comuna es la taxa relativa de respostes en cada alternativa. La taxa relativa de respostes en la tecla A es calcula dividint la taxa de respostes en la tecla A per la taxa total de respostes (la taxa de la tecla A més la taxa en la tecla B).
5.5 LLEI DE LA IGUALACIÓ El programa de reforçament de cada alternativa té gran influència en la distribució de la conducta dels subjectes entre ambdues alternatives.
Per exemple: si està disponible el mateix programa de reforçament en les dues tecles ( IV60 i IV60), el colom picotejarà les dues tecles amb la mateixa freqüència.
El resultat és raonable. Si el colom picotegés només en un costat rebria els reforçadors d’aquest costat. Rebrà més reforçadors si picoteja en els dos costats. Ja que el programa de reforçament és igual en cada tecla, no existeixen cap avantatge en passar més estona en una tecla que en l’altre.
Al respondre amb la mateixa freqüència en cada costat del programa concurrent, el subjecte obtindrà també reforçadors amb la mateixa freqüència en ambdós costats. La taxa relativa de reforçament obtinguda amb cada alternativa de resposta pot calcular-se d’una manera comparable a la taxa relativa de resposta.
La taxa relativa de reforçament en la tecla A es calcula dividint la taxa de reforçament en la tecla A per la taxa total de reforçament (la taxa de la tecla A més la taxa en la tecla B): Herrnstein (1961) va estudiar la distribució de les respostes de diversos programes concurrents IV-IV en els que la taxa total màxima de reforçament que el subjecte podia obtenir era 40 per hora. Per exemple: IV6min en la tecla de la dreta (es podien obtenir 10 reforçadors per hora) i un IV2 min en la tecla de l’esquerra (s podien obtenir 30 reforçadors per hora).
Va observar que els coloms distribuïen les seves respostes d’una manera uniforme i que es podia predir.
No es dedicaven a donar respostes en aquella alternativa que els hi era més favorable, sinó que distribuïen les seves respostes de forma que acabaven obtenint el màxim de cada alternativa (o programa).
El número de relació de respostes de picoteig a la tecla A en relació al número de respostes de picoteig a la tecla B s’equipara amb el número de recompenses que es poden obtenir en la tecla A en relació amb el número que es poden obtenir en la tecla B.
Expressió formal simbòlica de la llei de Herrnstein: D’acord amb aquest resultats, la llei de la igualació afirma que “la taxa relativa de respostes a la alternativa A és igual a la taxa relativa de reforçament per a aquesta”.
Aquesta llei reflexa un fet fonamental de la conducta d’elecció: Les eleccions no es realitze capritxosament, sinó que es fan en funció de les taxes relatives de reforç.
...

Tags:
Comprar Previsualizar