Tema 3. Validesa (2017)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Psicología - 3º curso
Asignatura Psicometria
Año del apunte 2017
Páginas 22
Fecha de subida 28/09/2017
Descargas 1
Subido por

Vista previa del texto

TEMA 3 VALIDESA I EVIDÈNCIES DE VALIDESA Concepte de validesa Els estudis de validesa aportaran significat a les puntuacions que estem obtenint, permetentnos conèixer si l’ús que pretenem fer d’elles és o no adequat. La validesa és la propietat més important i fonamental al desenvolupar i avaluar un test.
La definició de validesa ens diu que aquesta és el grau en que la teoria i les dades disponibles donen suport a la interpretació de les puntuacions d’un test per a un us concret. Hi ha varis aspectes que es poden destacar d’aquesta definició: 1. Ja no parlem d’un test sinó de les puntuacions d’un test. No té sentit parlar de les propietats del test, ja que aquestes depenen del context d’avaluació i de la mostra.
2. El professional responsable de l’aplicació d’un test ha de consultar el manual d’aquest per esbrinar si la utilització e interpretació que pretén fer coincideix amb la que et proporciona la documentació de la prova. En cas negatiu, s’ha de desenvolupar una investigació, un estudi de validació que permeti recollir informació que suporti o no la seva utilització.
Fins ara hem parlat sobre si un test era vàlid o no, però a partir d’ara parlem d’evidències de validesa intentant aportar unes determinades raons per a dir si el test és més o menys vàlid.
En comptes de parlar sobre si és vàlid o no, parlem de quantes evidències de validesa porta i de si aquestes són bones o no.
El manual de Standards.. intenta posar en relleu totes aquelles coses que són importants a l’hora de valorar la validesa d’un test, és una guia que ajuda a les persones que treballen això.
Quan parlem de quines evidencies ens pot aportar el test parlem de que:  El test depèn del context d’avaluació i de la mostra  Domini de cobertura: les puntuacions s’han de referir al constructe, puntuació creïble.
Tenim diferents tipus de validesa, i acumular evidències de validesa consisteix en anar mirant cada una per veure si aquella es compleix o no.
Seguint la proposta de Kane el procés de validació implicaria l’ús de dos arguments: argument interpretatiu i argument de validesa. El procés de validació ha de començar amb el desenvolupament de l’argument interpretatiu, que suposa proposar amb detall interpretacions i usos de les puntuacions. Aleshores, el segon, l’argument de validesa, consisteix en avaluar l’argument interpretatiu. La interpretació proposta per a les puntuacions determina les classes d’evidència necessàries per a la validació.
A l’hora de decidir si un test és vàlid o no tenim dos arguments: interpretatiu i de validesa. El procés de validació consisteix en obtenir evidències científiques que serveixin per a justificar, en determinats contextos, les interpretacions desitjades de les puntuacions d’un test.
TEMA 3 Les evidències científiques poden ser de diferents tipus:  Lògics: són els que utilitzen per fer deduccions quan intentem donar una explicació coherent a tota la informació acumulada en la literatura relacionada amb un determinat constructe.
 Teòrics: definició de conceptes desenvolupats en teories, com per exemple per explicar el comportament de persones o especificacions d’hipòtesis sobre relacions entre constructes.
 Empírics: s’obtenen a partir de les respostes de varies persones que han contestat el test.
Procés de validació:  Argument interpretatiu Significa proposar amb detall interpretacions i utilitzacions de les puntuacions. Ens diu que el que volem en el fons és fer interpretacions de les puntuacions i saber quins usos té el test. Per a fer l’argument hem d’especificar:  Assumpcions en les que es basa el test  Components del constructe  Diferències amb altres constructes  Relació amb altres variables Si les interpretacions i usos no estan clarament identificats, no poden ser avaluats. Abans de començar un test cal saber com interpretar i utilitzar el test i per això cal assumir que hi ha una base teòrica, que les components del constructe es corresponen a les subescales teòriques del test i que pot ser que el test estigui relacionat amb altres constructes i per tant, altres tests.
 Argument de validesa Reflexió sobre si l’argument interpretatiu és bo o no, mirem si el marc teòric s’està complint o no.
Primer fem un test en el que tinc les interpretacions i estem fent un ús del test.
TEMA 3 La interpretació proposada per a les puntuacions determina les classes d’evidències necessàries per a la validació. És possible que una o varies de les interpretacions siguin valides mentre que altres no. Per exemple, un test de personalitat pot ser vàlid per un procés de selecció de personal però no per a un diagnòstic de patologies.
L’argument de validesa implica l’avaluació de les interpretacions propostes a través d’una sèrie d’anàlisis lògics i estudis empírics, sent sempre necessària la integració de les diferents classes d’evidència.
Per tant, les evidències de validesa són les proves recollides per a donar suport a la interpretació proposta.
Per a obtenir aquestes evidències hem d’utilitzar algun d’una enorme varietat de mètodes i estratègies.
Estratègies de validació amb metodologia qualitativa Hi ha diferents estratègies possibles per a obtenir la evidència que justifiqui l’ús del test amb la finalitat proposada. No parlem de diferents tipus de validesa sinó de diferents aspectes del test en els que podem especificar hipòtesis i obtenir evidència científica.
Evidències de validesa de contingut La validesa de contingut comprova si les preguntes o ítems del test parlen sobre el constructe que mesuren i també si totes aquelles preguntes estan ben repartides dins del constructe.
Encara que per contingut no es refereix només als ítems que composen el test, sinó també a les instruccions per a las seva administració i a les rúbriques o criteris de correcció i puntuació.
Per tant avaluarà:      Tema Tasques Expressió Procediments d’administració Puntuació del test TEMA 3 Sireci indica que hi ha almenys dos aspectes essencials que s’han de tenir en compte per a realitzar la validació del contingut: la definició del domini i la representació del domini.
 Definició del domini Es refereix a la definició operativa del contingut. A la majoria dels tests aquesta definició té forma de taula d’especificacions de doble entrada, en les quals les files indiquen les àrees de contingut rellevants per al domini en qüestió i les columnes indiquen les operacions o processos cognitius implicats en la resolució de les tasques plantejades. A més a més s’especifiquen els percentatges d’ítems assignats a cada combinació d’àrea i procés cognitiu.
Per a definir el domini de manera adequada podem utilitzar varies fonts com per exemple llibres de texts i objectius curriculars, resultats d’anàlisis de llocs de treball (en el cas de selecció de personal), etc. Aquestes fonts s’utilitzen per a defensar l’avaluació d’àrees específiques i per a establir la seva importància en el test.
 Representació del domini Aquest element envolta dos aspectes: la representativitat i la rellevància. La representativitat indica l’adequació amb la que el contingut del test representa totes les facetes del domini definit. S’ha d’examinar si tot el contingut del domini està sent mesurat i si hi ha facetes concretes que han sigut infrarepresentades. A l’estudiar la rellevància examinem el grau en que cada ítem del test mesura el domini definit, podent-se detectar problemes relatius a la presència de continguts irrellevants.
Aquestes evidències s’aporten o ho mirem amb evidències de caràcter teòric (què diuen diferents autors, consultant diferents experts), lògic (preguntar a un grup d’experts que treballen amb trastorns bipolars, però no a qualsevol expert, sinó especialistes en el constructe avaluat. Consultar a la població diana, perquè aportarà coses que no aportin els experts) i empíric (fer càlculs passant el test a diferents persones i veure el que contesten).
TEMA 3 La majoria dels treballs de validació de contingut estan basats en les avaluacions de jutges, però també s’han proposat l’examen del contingut dels tests a partir de les respostes donades pels subjectes que el responen.
El resultat que espero de tot això és que un cop acabi de llegir totes les evidències estigui segur que aquest test s’adequa perfectament al domini previst.
Els problemes que podria tenir és que al test hi hagi ítems que no estiguin relacionats amb l’objectiu del test. Un altre problema que podem tenir és que només preguntem una part de l’objectiu o domini.
Exemple: En aquest estudi es volia revisar si les preguntes del test eren bones o no. Aleshores, 27 especialistes van avaluar la pertinença i la cobertura dels continguts i les preguntes del test.
Els especialistes, però, havien de tenir uns criteris:     Tenir un títol sobre l’especialitat Tenir experiència docent en els primers semestres de llicenciatura Tenir bona reputació com a professor Conèixer les necessitats acadèmiques dels estudiants que ingressen a la universitat A més, van agafar les persones corresponents i els van passar el test per a que els diguessin si pensaven que els ítems estaven mesurant el constructe. Per tant, les persones objectiu d’estudi també poden ser incloses per saber si amb els nostres ítems estem arribant a tot el domini o estem fent preguntes irrellevants. A aquestes persones se’ls va demanar que assignessin a cada ítem un valor entre: “ho descriu molt”, “no descriu ni poc ni molt” o “ho descriu poc”.
Evidències de validesa basades en el procés de resposta El procés de resposta és el procés que fa la persona a l’hora de contestar el test. Molta variabilitat en el procés de resposta fa dubtar sobre la interpretació de les puntuacions. És millor si tenim una teoria o un model explicatiu dels possibles processos de resposta.
Entre els ítems i la resposta hi ha tot el procés de resposta en el que la persona llegeix, pensa, interpreta, etc. i és en aquest procés on hi ha problemes.
Una manera d’obtenir informació sobre les inferències que podem realitzar amb les puntuacions d’un test és analitzar els processos de resposta que els subjectes han de realitzar per a obtenir aquestes puntuacions. Per a això, es requereix d’un model explicatiu d’aquests processos de resposta que hauria de guiar el procés de construcció del test i que hauria de servir per a precedir el diferent rendiment en els ítems.
TEMA 3 Embretson (2002) defensa que el disseny de tests des d’un enfocament cognitiu hauria de seguir el següent procediment: 1. Especificar els objectius de la mesura: Es tracta d’identificar el tipus de tasques i característiques que s’han de manipular per alterar l’exigència cognitiva que es planteja. Per exemple, en un test de raonament abstracte, s’han d’establir ítems relativament independents dels coneixements previs de les persones. Per aquesta raó s’escull en aquest cas un format de completar matrius (test de raven).
2. Establir un model de processament: hi ha d’haver un model de processament on s’indiquin tres coses:  Processos, estratègies i estructures de coneixement implicades  Quantificació de les característiques dels ítems que influeixen en el processament  Establir previsions sobre la influència de la manipulació de les característiques sobre les propietats psicomètriques dels ítems, com per exemple, sobre la seva dificultat.
3. Generar ítems: les variacions en la seva estructura han de representar variacions en els processos de resposta.
4. Avaluar empíricament les previsions del model: això es fa sobre el rendiment dels subjectes en els ítems i també establint estudis de validesa.
Amb això veiem que no només es mesuren les respostes del subjecte als ítems, sinó que es consideren els passos executats dels subjectes per a obtenir aquestes respostes.
El que hauré de mirar en el procés de resposta és el següent:  Contingut dels ítems  Disseny dels ítems d’acord amb el model de processament, he de pensar que el processament que facin les persones sobre aquells ítems sigui bo.
 Contextualització: Una mala traducció o contextualització ens pot fer fallar o no entendre la pregunta  Ítems ambigus: A vegades és tant rebuscada una pregunta que no saps el que està demanant.
 Instruccions clares i comprensibles  Explícites: sinceritat  Implícites: no dedicar massa temps  Format dels ítems i/o del test  Efecte halo: realitzar una generalització errònia a partir d’una característica o qualitat de la persona, cosa o situació. Ens fem un judici intern sobre aquesta i ho generalitzem tot.
 Aquiescència  Tendència a respostes centrals o positives TEMA 3  Motivacions de les persones que contesten  Desitjabilitat social  Optimització o suficiència  Defensar els interessos propis Les evidències que fan que no tinguem aquest problema en la validesa de resposta serien:  Observar què fan les persones quan responen  Preguntar a les persones què fan quan responen  Anàlisi empírica de les respostes: això segueix un patró coherent amb el model de processament. Les persones amb TDAH contesten pitjor les preguntes d’atenció, etc. i també incloem aquí la detecció de patrons anòmals, com que tothom deixa en blanc una mateixa pregunta.
En el procés de resposta moltes vegades es fa servir el funcionament diferencial dels ítems, que és que en un determinat ítem un grup de subjectes contesten de forma diferent. Per exemple, estic fent un test per a entrar al cos de bombers, i al fer-lo, passo un test de força i els nois puntuen més alt que les noies. Jo quan veig això, estic en un problema de funcionament diferencial dels ítems encara que en la puntuació final el resultat sigui el mateix.
Si el funcionament diferencial està relacionat amb el que jo vull mesurar no passa res, però si responen diferent per alguna cosa anòmala és quan falla aquesta validesa.
Els resultats que espero tenir és si hi ha desacord amb les previsions teòriques, o bé molta variabilitat en el procés de resposta. Això ha de fer reconsiderar el format dels tests.
Exemple: El que feien aquí a part de lu de abans és sol·licitar que indiquessin quins ítems resultaven confusos o poc comprensibles. Per tant, si els ítems no estan redactats de forma clara és un problema d’evidència de validesa relacionat amb el procés de resposta.
Evidències de validesa relacionades amb l’aplicació del test: conseqüències.
En tots els escenaris l’aplicació de tests pot tenir conseqüències socials diferents al propòsit fonamental que es pretén amb l’aplicació, i això és el que ha portat a incorporar a la última edició dels Standards la necessitat d’aportar evidències sobre la validesa conseqüencial. És a dir, l’anàlisi de les conseqüències intencionades i no intencionades que es deriven de l’aplicació de tests en determinats contextos d’avaluació.
Quan passem un test, el fet de passar-lo d’una determinada manera pot tenir unes conseqüències, i això pot afectar a les puntuacions de les persones de forma diferent. Per exemple, si ara ens passen un examen però una fa el test de forma diferent hi ha conseqüències diferents.
Per tant el que volem és:  Demostrar que les conseqüències de l’avaluació coincideixen amb les conseqüències previstes.
TEMA 3  Indagar sobre l’existència de possibles conseqüències no previstes:  Degudes a infrarepresentació del constructe  Degudes a inclusió d’aspectes irrellevants, com el fet de passar el test a ordinador o a mà.
 És molt important indagar sistemàticament possibles contra-hipòtesis.
Els procediments o tècniques que podem aplicar per a aportar evidències sobre les conseqüències de les aplicacions dels tests són els següents:  En la construcció d’un test podem justificar i analitzar la representació del constructe.
 Comprovar si l’estructura interna del test, aplicat en un context determinat, es manté en una nova aplicació del mateix en altres condicions. Per exemple, l’estructura interna del model de cinc factors de la personalitat de certs tests no es manté quan s’aplica en processos de selecció de personal  Disposem de procediments i tècniques per a estudiar el biaix i l’impacte advers  Determinades conseqüències poden avaluar-se mitjançant l’aplicació de qüestionaris o entrevistes a les persones que poden veure’s afectades per l’aplicació dels tests.
 Investigacions empíriques per a estudiar determinats efectes, per exemple, dissenys longitudinals on s’analitzin els canvis produïts pels programes d’avaluació educativa en el rendiment dels estudiants, en les pràctiques educatives o en un altre tipus de variables dependents.
Per tant, es pot justificar i analitzar la representació del constructe (contingut molt limitat que no permeti generalitzar), també mirar si l’estructura interna es manté en un altre context (exemple, test remunerat o no) i fer un estudi del biaix i l’impacte advers (factors irrellevants pel constructe).
Els resultats han de ser que allò que volem aconseguir amb el test no es produeix per coses indesitjades, és a dir, cal provar que les conseqüències previstes es produeixen i les indesitjades no.
Evidències de validació amb metodologia quantitativa Evidències de validesa basades en l’estructura interna L’avaluació empírica de l’estructura interna d’un test comporta la obtenció i anàlisi de les respostes emeses per part de varies persones davant dels ítems que el formen.
Aquestes evidències ens permetran saber si el test mesura un constructe coherent o es tracta simplement d’un conjunt d’ítems no relacionats. L’estructura interna és el grau en què les relacions entre els ítems i els components del test conformen el constructe que es vol mesurar i sobre el què es basaran les interpretacions.
TEMA 3 Per analitzar l’estructura interna del test es realitzen estudis sobre la dimensionalitat (AFE i AFC) i sobre el funcionament diferencial dels ítems (FCI).
 Estudis sobre dimensionalitat Permeten determinar l’estructura del test. Aquest pot haver estat construït per avaluar una o diferents dimensions i es mira si coincideix amb l’estructura proposada al construir la prova. Aquest examen es basa en les relacions entre els ítems del test amb la finalitat de determinar empíricament quins conceptes es poden aplicar per a interpretar les puntuacions.
Les tècniques que s’utilitzen són anàlisis factorials, i amb aquestes i a partir de correlacions entre els ítems, s’obté una matriu factorial que expressa la correlació entre els ítems i els factors.
L’estudi de la dimensionalitat es pot fer mitjançant dos models d’anàlisi:  Anàlisi factorial exploratori (AFE) Tècnica de reducció de la dimensionalitat que permet passar d’un conjunt de variables observades (ítems) a un nombre menor de variables latents (factors). Es tracta d’identificar un conjunt de factors hipotètics que poden explicar les correlacions observades entre els ítems del test. NO es fan hipòtesis prèvies sobre les dimensions i saturació dels ítems.
 Anàlisi factorial confirmatori (AFC) L’objectiu també és identificar factors que expliquin la covariació entre les variables observades. Es posa a prova si una solució factorial concreta és o no adequada per a unes dades. S’especifica el nombre de factors, si estan o no relacionats, quins ítems saturen, etc.
 Estudis sobre el funcionament diferencial dels ítems (FDI) Aquest efecte apareix quan persones amb el mateix nivell en la característica mesurada pel test, però que pertanyen a diferents grups, tenen diferents possibilitats d’encertar o estar d’acord amb l’ítem. Els grups difereixen per variables socio-demogràfiques com el sexe, raça, cultura, idioma, etc.
Per a poder parlar de FDI cal que la diferència entre grups sigui deguda a diferències en variables que NO són les que es pretenen mesurar amb el test.
Segons la definició de la APA podem estudiar l’estructura interna de dues maneres: mirant com es relacionen els ítems o bé els seus sub-tests (anàlisi factorial).
Per exemple  L’estructura factorial del WAIS-III s’avalua mirant la relació entre els diferents sub-tests i no entre els diferents ítems. En l’estudi del WAIS es posen a prova diferents estructures de la estructura interna. Això es duu a terme a través de l’anàlisi factorial: càlcul de les carregues factorial (correlació ítem-factor) per una solució obliqua (correlació dels TEMA 3 factors entre sí). En aquest cas s’aplica un anàlisi factorial confirmatori per tal de veure quina solució s’ajusta millor. Aquest és més sofisticat i tot i que conceptualment fa el mateix, és més estricte (no ens dóna totes les correlacions possibles) que l’anàlisi factorial expliratori. El més important en un AFC és que com intentem ajustar un model a unes dades tenim una sèrie d’índex d’ajustament que cal identificar quin és el millor en cada model (el model que acumuli els millors índex d’ajustament serà el millor model).
En qualsevol tipus d’anàlisi factorial cal mirar tres aspectes:  Si es compleixen les condicions d’aplicació (KMO i Barlett)  Si les dades permeten recolzar una interpretació concreta  Si el model ajusta o no les dades Un dels resultats d’aplicar un ACP és que ens treu una sèrie de factors principals amb la seva variància (valors propis) la qual és un criteri d’importància (com més alt sigui el valor propi, si és major que 1, indica que és important agafar el factor).
En el projecte haurem de mirar: “El test del meu projecte pretén mesurar”     Un sol concepte Diversos conceptes independents Diversos conceptes relacionats Diversos nivells de coneixement  Mostra per AFC  Representativitat: Mentre es mantingui l’estructura del constructe, les mostres poden ser de conveniència. Cal descriure el procediment de mostreig i quines característiques tenen les persones.
 Mida: La mida de la mostra ha de ser gran, de l’ordre de tres xifres. Pel que fa al procediment totes les persones de la mostra han de consentir en participar de manera informada i han de contestar el test en les condicions en què està previst ferho en un futur. Només es poden fer usos consentits de les respostes.
 Anàlisi  Anàlisi de dades preparatòria:  Taxa de participació (si és baixa tindrem una mostra amb biaix)  Avaluació i decisió sobre els valors marcants (missings: la gent no contesta, els resultats poden variar molt de si realment els contestessin)  Detecció i decisions sobre patrons de resposta (patrons de resposta anòmals és millor eliminar-los) TEMA 3  Anàlisi de dades principals:  AFE (o ACP) amb la rotació adequada CRITERIS DE REDUCCIÓ DE DADES: Valors propis > 1 i salts en valors propis Diagrama de sedimentació/anàlisi paral·lela Percentatge de variància explicada Nombre petit de components (parsimònia) CRITERIS D’AJUSTAMENT DEL MODEL: Parquedat Interpretació Residuals petits Communalitats  AFC: Índex de coherència entre les relacions previstes pel models teòric i les observades  Altres (Teoria de resposta a l’ítem, anàlisi de classes latents, escala multidimencional, DIF)  Condicions d’aplicació  Test d’esfericitat de Barlett: Comprova si l’estructura de la matriu de correlacions és d’1 a la diagonal i 0 fora de la diagonal (matriu identitat). Si la prova chi és estadísticament significativa (p<0.05) es pot rebutjar la hipòtesis nul·la i concloure que la matriu de correlacions no és una matriu identitat.
 Kaiser-Meyer-Olkin (KMO): Avalúa les correlacions parcials entre els ítems (correlacions entre un parell d’ítems, eliminant els efectes lineals de la resta d’ítems).
Proposta de Kaiser per a interpretar el KMO: > 0.90: Marevellós ~ 0.80: Meritori ~ 0.70: Regular < 0.60: Mediocre, miserable, inacceptable  Interpretació/Estructura  Estructura simple  Interpretabilitat: carregues considerables o no al factor, comprovar si tots els ítems que pesen en un mateix factor avaluen el mateix (>0.30) TEMA 3  Càrregues factorials en el factor esperat amb valors superiors a un mínim i amb errors estàndard petits.
Evidències de validesa basades en la relació amb altres variables Aquesta evidència mira si les relacions empíriques que manté el test amb variables externes del constructe mesurat estan en consonància amb el model teòric que defineix aquest constructe.
L’objectiu en aquest tipus d’evidència és establir si les relacions observades entre les puntuacions en el test i altres variables externes rellevants són consistents amb la interpretació proposta per a les puntuacions.
Per exemple, Moltó prediu (i comprova) que l’escala de susceptibilitat al càstig (que mesura el grau d’evitació de situacions aversives) ha de proporcionar puntuacions relacionades directament amb neuroticisme i inversament amb estabilitat emocional. Si les relacions observades són consonants amb això predit hem obtingut una evidència favorable a la interpretació proposta. En canvi, si les relacions observades no són les esperades s’ha de qüestionar l’adequació de la prova, l’adequació de les mesures de les altres variables o inclús el model teòric.
Les variables externes rellevants a les que donem importància són:  Altres mesures del mateix constructe obtingudes amb diferents tests  Mesures de constructes diferents però que s’insereixen en el model teòric on s’enquadra el constructe d’interès  Algun tipus de variable (criteri) que pretenguem predir a partir de les puntuacions del test.
 Evidència convergent i discriminant Amb aquestes evidències busquem examinar les relacions que es preveuen entre les puntuacions en el test i altres constructes, ja siguin similars als que es pretén mesurar amb el test (evidència convergent) o diferents (evidència discriminant o divergent).
Per exemple, podem pensar que les puntuacions en un test d’opció múltiple de raonament lògic es relacionarà estretament amb una altra mesura de raonament lògic basada en la resolució de problemes, i això és una evidència convergent. En canvi, si mesurem a més a més un altre constructe diferent com la comprensió lectora, esperem que la relació entre ambdues mesures sigui menor (evidència divergent). Tot i així, predominen els treballs que busquen obtenir evidència convergent, probablement perquè estudiar la relació entre diferents mètodes que mesuren el mateix constructe pot ajudar a interpretar el significat de les puntuacions.
 Validesa convergent: evidència que dos constructes teòricament relacionats presenten les mateixes relacions en les seves mesures.
TEMA 3  Relació amb altra mesura del mateix constructe obtinguda amb un altre test  Relació amb mesures que avaluen constructes similars  Relació amb mesures de constructes relacionats  Validesa discriminant: evidència que dos constructes teòricament independents presenten independència en les seves mesures  Baixa relació amb mesures de constructes teòricament diferents que estan poc relacionats  Nul·la relació amb mesures de constructes teòricament diferents que són totalment independents Per a obtenir informació sobre les relacions entre les puntuacions del test amb altres variables que formen part del model teòric es plantegen dos tipus de treballs: 1. Estudis de comparació del rendiment de diversos grups en el test: Per exemple, en un test neuropsicològic podem comparar grups de persones amb i sense lesió cerebral, o en un test de coneixements un grup d’experts amb un de novatos. Un exemple per a comparar grups per a obtenir evidència discriminant seria un qüestionari que mesura depressió podríem comparar les puntuacions obtingudes en el test per dos grups de pacients: un grup amb patologia depressiva i un altre grup amb altres patologies. Si trobem puntuacions significativament més altes en el grup de subjectes amb depressió haurem obtingut evidències sobre un ús concret del qüestionari.
2. Estudis que els que s’obtenen les correlacions entre les puntuacions obtingudes en dos o més tests, per a establir si mesuren o no el mateix constructe. Si la previsió és que mesuren el mateix constructe, s’estaria buscant una evidència de validesa convergent i si la hipòtesis de partida és que mesuren constructes diferents s’estaria buscant evidència discriminant.
Un exemple és l’estudi de convergència entre l’SDQ i el CBCL i DICA-PPY. En aquest exemple esperem que aquests tests es relacionin.
TEMA 3 Aquest quadre ens mostra a la part horitzontal l’escala SDQ amb les seves subescales, i a la part vertical els tests CBCL i DICA-PPY amb les seves subescales també.
Els quadrats vermells mostren la correlació entre les dues subescales en els dos tests (SDQ i CBCL) i els quadrats liles mostren la correlació entre les dues subescales en els dos tests (SDQ i DICA).
 Les puntuacions del SDQ estan moderadament associades amb els altres dos tests amb coeficients de correlació majors a 0.30. Hi ha una correlació més forta amb el CBCL que amb el DICA.
Un altre exemple que podem posar és l’estudi de la correlació entre les subescales de l’EDEQ i les mateixes subescales però de l’EDI-2 i la puntuació total del BSQ.
 La taula presenta el coeficient de correlació que vàlua la validesa convergent i divergent entre les puntuacions de l’EDE-Q i el BSQ i EDI-1. Les puntuacions de les quatre subescales de l’EDE-Q correlacionen alt i positivament amb l’EDI-2 així com també amb TEMA 3 la puntuació global del BSQ. Tant el drive for thinness com el BSQ global correlacionen alt amb les quatre subescales del EDE-Q. Les escales de weight concern i de shape concern correlacionen alt amb l’EDI-2 body dissatisfaction.
En un altre exemple tenim el test-retest de les puntuacions del QÜIC un i set mesos després i la correlació entre les mesures del QÜIC i de les actituds amb el menjar (EAT-40), influencies sobre l’estètica d’un cos ideal (CIMEC) i la forma (EDE-Q-SC).
 La taula també presenta els coeficients de correlació que avaluen la validesa convergent i divergent entre les puntuacions de les mesures QUIC i EAT-40, CIMEC, EDE-Q-SC. Les influències sobre el cos estètic ideal i la preocupació per la forma correlacionen alt i negativament amb la puntuació total de satisfacció pel cos, satisfació amb el tors (factor 1), amb l’aparència física general i amb la conformitat del pes. I correlacionen alt i positivament amb el nombre de parts del cos problemàtiques.
No es tracta només de veure si els valors són molt alts sinó també mirar que els patrons siguin congruents amb les relacions que trobem. Com més propers els constructes més altes les correlacions.
Disseny multitret-multimètode Per als autors d’aquest disseny un test és el resultat d’unir un constructe amb un procediment de mesura. Quan les puntuacions de dos instruments covarien pot ser degut a que comparteixen un constructe comú o a que comparteixen un mètode d’avaluació. Per a separar els dos aspectes i així estudiar les contribucions relatives de la variància del constructe i del mètode, van proposar un disseny en el que una mostra de subjectes és avaluada en un conjunt de constructes, mesurats cada un amb un conjunt de mètodes diferents. La matriu MTMM inclou totes les correlacions entre condicions de mesura.
L’objectiu d’aquesta és avaluar els efectes de la variància atribuïda al constructe d’interès TEMA 3 i la variància del mètode, ja que l’efecte del mètode altera les correlacions entre els constructes introduint biaixos sistemàtics.
Al llibre (pàgina 175) tenim un exemple que farem servir per a explicar com s’organitza la matriu MTMM. Aquesta s’organitza per mètode, de manera que cada constructe mesurat està incrustat en cada bloc de mètode. Aquest exemple mostra una matriu de correlacions per a tres constructes mesurats per dos mètodes diferents. Per a interpretar aquesta matriu s’ha d’identificar quatre regions o grups de correlacions: 1- El primer grup està format per les correlacions obtingudes entre els mateixos constructes fent servir els mateixos mètodes (dades entre parèntesis). Són les correlacions monotret-monomètode i són les diagonals de fiabilitat.
 Argument interpretatiu: Tots els mètodes utilitzats són fiables per a mesurar tots els tests.
2- El segon grup el formen les correlacions entre les mesures del mateix constructe quan s’utilitzen diferents mètodes (dades en cursiva-negreta). Són les correlacions monotret-heteromètode. Mostren evidència sobre la convergència i constitueixen les diagonals de la validesa.
 Argument interpretatiu: S’espera relació al mesurar els mateixos trets amb diferents mètodes 3- El tercer grup el composen les correlacions entre diferents constructes mesurats amb el mateix mètode (dades subratllades) o correlacions heterotret-monomètode.
Aquestes correlacions formen triangles situats de forma adjacent a cada diagonal de fiabilitat.
 Argument interpretatiu: No s’espera relació al mesurar diferents trets amb el mateix mètode 4- EL quart grup està format per les correlacions entre diferents constructes i diferents mètodes, correlacions en les que no es comparteix ni el constructe ni el mètode, és a dir, heterotret-heteromètode. Aquests formen triangles adjacents a la diagonal de la validesa i els triangles no són iguals.
 Argument interpretatiu: La relació entre diferents trets es manté al mesurar-los amb diferents mètodes TEMA 3  Bloc monomètode (rosa) on tenim la fiabilitat i el discriminant. Bloc heteromètode (verd) convergent i heterotret-heteromètode.
Com interpretar la matriu MRMM: 1) En primer lloc s’ha d’avaluar la diagonal de fiabilitat. Aquests coeficients haurien de ser els més alts de la matriu, perquè és poc probable que una mesura corelacioni més amb qualsevol altre cosa que amb ella mateixa.
2) En segon lloc, les correlacions monotret-heteromètode es prenen com a indicadores d’evidència convergent, perquè ens informen del grau en que diferents mètodes són congruents al mesurar el mateix constructe. Aquestes correlacions haurien de ser significativament diferents de zero i lu suficientment altes per a que tingui sentit continuar un anàlisi de validesa. Tots els mètodes haurien de proporcionar el mateix ordenament dels individus per a un particular constructe.
3) En tercer lloc, les correlacions monotret-heteromètode s’han de comparar amb els triangles heterotret-monomètode. Els valors en la diagonal monotret haurien de ser més alts que els valors dels triangles heterotret, perquè diferents mètodes avaluant el mateix tret haurien de correlacionar més que el mateix mètode avaluant trets diferents. Si això no passés, el mètode de mesura explicaria una part important de la variància de les puntuacions.
4) En quart lloc, i per acabar, l’investigador ha de comparar els triangles heterotretmonomètode i heterotret-heterometode, ja que si dos trets estan correlacionats, aquesta relació hauria de mantenir-se amb independència del mètode utilitzat per a mesurarlos i el mateix patró hauria d’estar visible en tots els blocs monomètode i heteromètode. A més a més per aquells constructes que estiguin correlacionats, les correlacions heterotret-heteromètode haurien de ser més altes que per als constructes que no ho estiguin.
Resumint, una matriu MTMM hauria de proporcionar evidència a favor de la convergència al mesurar els mateixos constructes, de la divergència al mesurar diferents constructes i de TEMA 3 l’absència d’efectes del mètode. Tot i així existeixen algunes limitacions (mirar llibre pàg.
177).
 Evidències basades en relacions amb criteris rellevants Quan es pretén utilitzar el test per a pronosticar determinats criteris de rendiment com per exemple rendiment escolar, es requereix que aquest es relacioni molt estretament amb els criteris. Aleshores ens referim a evidències referides a criteri, el qual requereix: 1) Identificar un criteri rellevant i la manera adequada de mesurar-lo 2) Escollir una mostra apropiada 3) Obtenir a la mostra les mesures del test i del criteri, de forma independent a. Primer el criteri i després el test: evidència postdictiva  La puntuació del test obtinguda ara és vàlida per a mesurar quelcom que ha tingut lloc abans? Per exemple, records en adults de sentiments durant la infància.
 Sovint aplicat en processos judicials. Per exemple, com a prova d’abús sexual amb nens petits s’utilitza un test basat en la interacció de la possible víctima amb una “anatomically-detailed doll”.
 També per a detectar factors de risc de certs diagnòstics. En les addiccions s’utilitza per estudiar els precedents de les conductes addictives b. Tots dos al mateix temps: evidència concurrent  El test s’aplica per establir el criteri en el moment actual  En la validació de proves diagnòstiques com capacitat o validesa diagnòstica (sensibilitat/especificitat)  Corbes ROC que permeten escollir un punt de tall en una prova diagnòstica per optimitzar la sensibilitat i l’especificitat i es basa en el càlcul d’aquests dos indexs per a cadascun dels punts de tall possibles (possibles puntuacions).
TEMA 3  Per disseny de test en versions reduïdes (correlació entre un test original i un altre amb menys nombre d’ítems)  Com a substitució d’un disseny predictiu perquè no és possible.
TEMA 3 c. Primer el test i després el criteri: evidència predictiva  Principalment aplicat quan el criteri té un caràcter emminentment pràctic com predir el rendiment acadèmic, predir el rendiment laboral i vendes o el test com a factor de risc de malalties.
 El model estadístic més utilitzat és la regressió simple, on la VI és el test i la VD és el criteri.
4) Determinar el grau de relació entre les puntuacions del test i el criteri a. Coeficient de validesa (correlació entre el test i el criteri) b. Coeficient de determinació Coeficient de validesa Indica el grau en que les puntuacions en el test serveixen per a pronosticar amb precisió les puntuacions en el criteri. Aquest coeficient no és una propietat del test, sinó que hi haurà un coeficient específic en cada mostra on s’obtingui i per als diferents criteris que puguin establir-se.
Si les puntuacions en el test (X) i el criteri que es desitja pronosticar (Y) són variables continues, el model de regressió lineal simple permet quantificar la capacitat predictiva del test. La hipòtesis bàsica del model és la linealitat de la relació entre ambdós. La funció que TEMA 3 relaciona les puntuacions en el test amb les del criteri haurà de tenir un increment o decrement constant per als diferents valors de X.
Quan tant el test com el criteri són mesures quantitatives la correlació entre ambdues mesures és el coeficient de validesa i el quadrat d’aquesta correlació és el coeficient de determinació i expressa el % de variància comú entre el test i el criteri.
Factors que afecten al coeficient de validesa Hi ha diferents factors que afecten al coeficient de validesa:  La fiabilitat del test  La fiabilitat del criteri  L’autentica relació entre el test i el criteri  Les característiques de la mostra A més és important que els errors de mesura en el test i en el criteri siguin independents.
És a dir, que el coeficient de validesa obtingut reflexi la relació verdadera entre les dues variables, i no sigui deguda en part a altres variables estranyes o irrellevants.
Fiabilitat del test i del criteri El coeficient de validesa depèn del nivell de precisió amb el que es mesuren les puntuacions en el test i en el criteri. Una baixa fiabilitat farà que el coeficient de validesa obtingut subestimi la relació entre les puntuacions verdaderes en el test i en el criteri. Si el coeficient de fiabilitat d’un test és baix, existeix una part important d’error en les puntuacions X que, al ser aleatori, no contribuirà a la correlació entre X i Y; en aquest cas, el coeficient de validesa obtingut serà sensiblement menor que la correlació entre les puntuacions verdaderes en ambdós. El mateix es pot dir per als nivells alts d’error de mesura en el criteri, Quan la fiabilitat no és perfecta, s’atenua el valor del coeficient de validesa. Això significa que reduïm la magnitud de la correlació entre les dos mesures que està causada per la seva falta de fiabilitat. Aquesta atenuació, però, es pot corregir per estimar millor el veritable coeficient: La correlació corregida per atenuació s’obté a partir del coeficient de correlació observat entre el test i el criteri dividit per l’arrel quadrada del producte dels coeficients de fiabilitat del test i del criteri.
Per a la estimació del coeficient de validesa és important que la mostra d’on s’obté sigui representativa de la població i de mida suficient. El que és especialment important és la TEMA 3 variabilitat que manifesta en X i Y. El coeficient de validesa augmenta com major és la variancia de la mostra en els dos. Per exemple, un test d’aptitud per a la venta tindrà un coeficient de validesa major en una mostra de la població general (on hi haurà heterogeneïtat respecta a l’aptitud) que en una mostra de venedors experimentats (segurament hi hauran puntuacions elevades i seria un grup homogeni).
La variable sobre la que es realitza la selecció (test) es denomina directa o explícitament selectiva, i la variable la variabilitat del qual es veu reduïda indirectament (criteri) es denomina incidental o indirectament selectiva.
En la mesura que el poder predictiu d’un test respecte a un criteri depèn del coeficient de regressió, s’haurà de considerar la variabilitat del grup d’on s’ha obtingut. En ocasions, per exemple en contextos de selecció, és inevitable calcular el coeficient de validesa en una mostra de variabilitat reduïda, ja que només es podrà conèixer el rendiment en el criteri dels admesos. Aleshores ens trobem amb un problema de restricció del rang de variació, donat que el nostre interès era conèixer el coeficient de validesa per al grup complet d’aspirants que es presenta al procés de selecció. Si calculem el coeficient de validesa de la manera que sabem, correlacionant les puntuacions de les persones seleccionades en el test i en el criteri, el coeficient no ens indicarà la capacitat de les puntuacions en el test per a predir el rendiment dels aspirants al lloc de treball. Aleshores el que ens permet corregir això és aquesta fórmula: ...

Comprar Previsualizar