BT3: Validesa (COMPLET) (2017)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Psicología - 3º curso
Asignatura Psicometria
Profesor E.P.
Año del apunte 2017
Páginas 30
Fecha de subida 20/10/2017
Descargas 5
Subido por

Vista previa del texto

Psicometria Laura Casado BT3: Validesa A aquest tema se li dona molta importància en l’assignatura. Els Standards, sobre la validesa, ens diuen: • • • La validesa es el grau en que tu tens evidencia empírica i teòrica que doni suport a les interpretacions que farem del test  no es pot dir que un test és vàlid, sinó que hi ha interpretacions o usos concrets d’aquest test.
El procés de validació no és una sola prova, sinó que un test es valida aportant moltes evidencies a favor de les interpretacions que nosaltres volem fer. Per tant, diem que és un procés acumulatiu, és a dir, que la validació d’un test no s’acaba mai.  Difícilment es pot concloure un anàlisi dient que un test està perfectament validat.
Els temes pels que els preocupa la validesa són dos: o Constructe deficientment representat: El constructe que volem avaluar està poc avaluat.
o Constructe contaminat: S’intenta saber si la gent sap matemàtiques, però l’examen depèn de si coneixen l’idioma amb el que està fet la prova.
La validesa pretén demostrat que el constructe està sent demostrat completament i sense contaminació.
1. Com procedir per comprovar-la Si el que validem no és un test, sinó els usos que se’n donen, abans de començar un procés de validació és imprescindible saber quins usos se’n volen fer d’aquell test, en quin context es vol fer servir, etc. D’aquesta part, els Standards de 2014 en diuen construir l’argument interpretatiu.
1.1: Argument interpretatiu: Com volem interpretar el test aplicat? Exemple: En l’article “A validation framework” s’analitza la validesa del test MAPT.
The Massachusetts Adult Proficiency Test (MAPT): S’utilitza en escoles d’adults per saber si s’han adquirit les competències que s’exigien. És un examen. L’argument interpretatiu d’aquest test es: • • Mesurar el coneixements i habilitats dels estudiants en matemàtiques i lectura.
Mesurar els coneixements dels alumnes per saber si la institució fa correctament la seva feina (si és efectiva).
Aquest dos usos s’han de validar. Atesos a aquests propòsits, es creu que s’hauria de comprovar: • • • • Si mesura matemàtiques i lectura de forma completa i que no mesura altres coses (no contaminat).
Si les preguntes s’adapten al currículum del que se suposa que la gent ha d’aprendre.
Si la informació que ens dona sobre aquest punts és acurada.
Si són útils per avaluar el procés.
Psicometria • • Laura Casado Si són apropiats per veure l’efectivitat del programa.
En general, es fan preguntes com: S’està preguntant allò que hauria de reflectir el currículum? Si un estudiant millora, significa que obtindrà una nota més alta? Etc.
Un cop ja tenim clar què es vol avaluar amb el test, també s’ha de dir explícitament per a què NO serveix (quins usos incorrectes en pot fer la gent): • • Aquest examen no serveix per veure les fortaleses i debilitats dels alumnes.
No està pensat com a forma de triatge, per col·locar a les persones en un grup concret.
Per tant, veiem que l’argument interpretatiu és MOLT precís. Després de saber l’argument interpretatiu, podrem valorar les proves de validesa, ja que aquestes de cap manera són les mateixes per tots els test, cada test necessita les seves i depenen del argument interpretatiu, i per això els manuals de test són tan diversos.
1.2: Argument de validesa El següent pas és el que els Standards en diuen “argument de valides” i són les proves que s’aportaran per donar validesa a l’argument interpretatiu. Aquestes proves es basen en fer servir el mètode científic: • • • • En primer lloc fem hipòtesi del que esperen de les puntuacions.
Dissenyar el mètode per obtenir l’evidencia científica Obtenir l’evidencia científica Extreure resultats i conclusions, verificació de la hipòtesi i interpretació de les puntuacions.
També és molt útil fer i comprovar contra-hipòtesi relacionades amb la representació deficient i la contaminació del constructe.
Psicometria Laura Casado 2. Metodologia qualitativa per a l’estudi de la validesa 2.1: Tipus d’evidències Per fer això, els Standard havien endreçat les proves de validesa de 3 maneres diferents (contingut, constructe i de criteri). Actualment, però, la APA considera que es pot parlar de: • • • • • Validesa basada en el contingut del test En els processos de resposta (novetat  els Standard antic no tenien en compte els processos que fa la persona que contesta al test) L’estructura interna La relació amb altres variables (la predicció del criteri s’ha inclòs en aquesta relació amb altres variables  relació del test amb variables que no són el test) Les conseqüències de l’avaluació (novetat  els test han de ser justos i no han de crear més problemes dels que vol solucionar).
Taula comparativa: Standards de 1985: La validesa és tota evidència Standards de 1999: La validesa (o validesa de relacionada amb...
constructe) pot estar basada en...
El contingut del test El contingut del test El constructe • L’estructura interna • La relació amb altres variables Els processos de resposta L’estructura interna La relació amb altres variables La predicció d’un criteri Les conseqüències de l’avaluació S’expliquen les dues maneres perquè tot i que a l’any 1999 van ocórrer tots aquest canvis, no van tenir gaire èxit, i els manuals escrits des dels 2000 fins al 2015 segueixen parlant de les 3 valideses antigues.
2.1.1: Evidencies de validesa basades en el contingut: Solen provenir de fonts que tenen un gran coneixement del que hauria de ser el contingut del test. Exemple: Psicometria Laura Casado Els especialistes avaluen la pertinença y la cobertura dels continguts i preguntes del test. Ser “expert” es regeix per uns criteris preestablerts. La pertinença és relaciona amb al manca de contaminació i la cobertura es relaciona amb la possibilitat d’avaluar tot el constructe. Això és metodologia qualitativa. Les persones són poques i triades, amb grans coneixements. Quan aquestes persones donen una conclusió, aquesta conclusió serà digna de molta confiança.
Exemple 2: A partir de finals del segle passat es va començar a incorporar a l’avaluació dels test les persones que els contesten. Un test també ha de resultar convincent per la persona que els contesta. Per tant, les persones objectiu d’estudi també poden ser incloses per saber si amb els nostres ítems estem arribant a tot el domini o fem preguntes irrellevants.
Per tant, quan busquem evidencies de validesa relacionades amb el contingut: • • Primer haurem de mirar l’àmbit que ocupa (temes que tracta el qüestionari, tasques, expressió, procediment d’administració i puntuació del test).
Metodologia per avaluar-lo: Evidències de caràcter teòric, lògic i empíric: o Empíric: Obtenir dades de persones. Exemple: Si preguntem a persones avaluades si el que llegeixen s’entén, fent una enquesta, seria una evidència empírica.
o Evidències teòriques: Exemple: Si fem un test que mesura personalitat hauria d’estar basat en les teories de la personalitat.
Psicometria Laura Casado o • Lògica: Exemple: Si diuen que un test avalua psicometria, pots convèncer a la gent de que avalua això dient el que es la psicometria i que es basa en 3 apartats bàsic, i seguidament afirmar que el test té 30 preguntes, i 10 pertanyen a cadascuna de les 3 categories citades  aparentment, el test avalua correctament la psicometria.
Aquesta avaluació es pot dur a terme, ja sigui teòrica, lògica o empírica, a través de: o Revisió bibliogràfica: Exemple: Aquest tes s’ha construït tenint en compte totes les versions anteriors de test que intentaven avaluar el mateix constructe.
o Opinió de totes les persones amb interessos en els resultats: ▪ Especialistes en el constructe avaluat ▪ Població diana.
Per últim, mirem els resultats: Si s’observen desacords, incoherències o suggeriments cal reconsiderar el contingut del test.
2.1.2: Evidències de validesa basades en el procés de resposta: Quan ens fan una pregunta, la pensem i seguidament la contestem. En el procés de pensar, passen moltes coses que poden afectar al resultat del test, i és d’això del que parlarem.
Representació del procés de resposta: Molta variabilitat en el procés de resposta fa dubtar sobre la interpretació de les puntuacions.
Millor si tenim una teoria o un model explicatiu dels possibles processos de resposta Quan busquem evidencies de validesa basades en la resposta: • Àmbit: o Contingut dels ítems ▪ Disseny dels items d'acord amb el model de processament ▪ Contextualització (de l’anglès “framing”) ▪ Ítems ambigus o Instruccions clares i comprensibles: Quan apliquem un test, és necessari que donem instruccions molt clares a les persones que l’estan realitzant. Les instruccions, pels test que són de rendiment, es basen en que la gent entengui què ha de fer, però si els tests són de comportament típic (exemple: personalitat) en les instruccions solen dir “no hi ha respostes bones i dolentes.
Psicometria • • Laura Casado Contesteu amb sinceritat”, intentant afavorir el procés de resposta. Podria passar que una persona no tingués interès en contestar amb sinceritat (exemple: quan una persona va a una entrevista de selecció de personal)  això podria comprometre el procés de resposta.
▪ explícites: sinceritat ▪ implícites: no dedicar massa temps o Format dels ítems i/o del test: ▪ Efecte halo: Una de les primeres característiques que captem sobre alguna cosa és generalitzada en ella, provocant biaix. Exemple: En les enquestes a professors, si un professor cau bé probablement totes les respostes siguin positives.
▪ Aquiescència: Contestar tota l’estona que sí.
▪ Tendència a respostes centrals, extremes o positives o Motivacions de qui respon: En test de rendiment, sobretot, no sempre la gent intenta aconseguir el millor resultat possible, i és necessari tenir-ho en compte.
▪ Defensar interessos propis ▪ Optimització o suficiència ▪ Desitjabilitat o desviació social: En els test d’actitud, la gent intenta quedar bé i això pot provocar biaix en la resposta. // Sobretot en l’adolescència, els adolescent tendeixen a contestar amb biaix a preguntes, per exemple, sobre les drogues, afirmant que tenen molts coneixement sobre totes i que les han tastat totes.
Metodologia: o Observar què fan les persones de la població diana quan responen  mètode qualitatiu o Preguntar a les persones què fan quan responen (entrevista cognitiva)  mètode qualitatiu o Anàlisi empírica de les respostes:  mètode quantitatiu ▪ Veure si són coherents amb el model de processament ▪ Detecció de patrons anòmals. Exemple: En un test de nivell de cert constructe, les persones amb un coneixement alt responen erròniament a un ítem al que totes les persones amb coneixements baixos contesten correctament.
Resultats: El desacord amb les previsions teòriques, o bé molta variabilitat en el procés de resposta, ha de fer reconsiderar el format del test.
Tots aquests efectes s’han de tenir en compte i comentar-les en el manual d’un test.
2.1.3: Conseqüències de l’avaluació Es pot produir un ensinistrament de persones o d’institucions per aconseguir una puntuació desitjada en els exàmens que es fan servir per avaluar institucions (saber què saben els de X escola). Els rankings fa que només s’aprengui el que s’ha de fer per quedar en bona posició en aquell ranking, res més, i això és un efecte negatiu.
Psicometria Laura Casado En el cas de les persones, la gent comença a acostumar-se al tipus d’examen que es fan i, de la mateixa manera que en el cas anterior, aprenen a passar un tipus d’examen concret, però res més.
Quan intentem avaluar conseqüències: • • • Àmbit: o Demostrar que les conseqüències de l’avaluació coincideixen amb les conseqüències previstes o Indagar sobre l’existència de possibles conseqüències no previstes ▪ degudes a deficiències en la representació del constructe? ▪ degudes a contaminació del constructe? o Molt important indagar sistemàticament possibles contra hipòtesis Metodologies (exemple) o Entrevistes a persones afectades o Estudis comparatius entre grups o Estudis longitudinals Resultats: Cal provar que les conseqüències previstes es produeixen i que les indesitjades no es produeixen.
2.1.4: Evidencies de validesa relacionades amb l’estructura interna És una de les evidències basades en metodologia quantitativa. Els Standards diferencien dos aspectes: dimensonalitat (també anomenada estructura interna) i el funcionament diferencial.
Sobre l’estructura interna, els Standrds ens diuen que: • • Les anàlisis de l'estructura interna d'una prova poden indicar fins a quin punt les relacions entre els elements de prova i els components de la prova s'ajusten a la construcció sobre la qual es basen les interpretacions de puntuació de prova proposades.
Alguns estudis de l'estructura interna de les proves estan dissenyats per mostrar si els ítems particulars poden funcionar de manera diferent per als subgrups identificables dels enquestats (Ex: Els subgrups racial/ètnic o de gènere).  Els estudis sobre funcionament diferencial dels ítems tenen molta importància quan s’estudia l’adaptació d’un qüestionari d’una cultura a un altre (veure si els ítems funcionen de manera diferent en funció de la llengua, la cultura, etc.) Les respostes al test de les persones de la població diana han de mostrar el patró de relacions previst per la teoria.  S’ha de demostrat empíricament que aquestes relacions es donen en la població diana. Si a partir d’unes respostes a uns ítems es calcula una puntuació concreta, la idea es: es justifica aquesta agregació, o sumem ítems que no tenen res a veure entre sí?  es necessari saber que les respostes als ítems tenen coses a veure entre sí, que estan relacionades.
Psicometria Laura Casado En l’anàlisi de l’estructura interna veiem el grau en què les relacions entre els ítems i els components del test conformen el constructe que es vol mesurar i sobre el què es basaran les interpretacions.
Exemple: Estudi sobre la dimensionalitat del WAIS-III: En aquests diagrames els rectangles són les respostes recollides de les persones (respostes observades), i els cercles són els constructes latents (respostes que no tenim directament).
En el WAIS es plantegen diferents possibles estructures: Figura 1 (a): Planteja un model unidimensional: una sola dimensió (un sol factor, que es l’anomenat “g”). D’aquest factor surten fletxes cap als diferents indicadors que tenim (proves del WAIS). Planteja que tots els subtest del WAIS estan relacionats sota un factor d’intel·ligència general.
Figura 1 (b): Model de dos factors que estan relacionats entre sí. El primer factor es el “V” (verbal), format per 7 indicadors, i un segon factor es el “P” (performance), format per uns altres 7 indicadors. Entre aquests dos factors es preveu una certa relació (fletxa bidireccional entre els dos cercles).
Figura 1 (c): Planteja 3 factors: Verbal, performance i un tercer factor, que es l’atenció (A). Tots tres factors també es preveu que estiguin relacionats.
Figura 1 (d): Model de 4 factors, i tots els factors estarien relacionats entre si (factors oblics).
Figura 1 (e): Model híbrid que planteja una relació jeràrquica. Existeixen 4 factors previstos, anomenats factors de primer ordre, y a la seva vegada aquests factors de primer ordre s’agrupen en un factor general de segon ordre. Té en compte la possibilitat de que tots els indicadors del WAIS formin una estructura multidimensional de 4 factors diferenciats, com la possibilitat de que tots els factors s’integrin en un factor general.
Psicometria Laura Casado Es va avaluar aquesta estructura amb diferents grups d’edat, i aquí veiem un exemple: Els autors proven el model i presenten els resultats. Veiem que han provat el model d’un factor (totes les càrregues factorials són força elevades). En el model de dos factors oblics succeeix el mateix (indicadors de verbal tenen càrregues elevades, i també els indicadors de performance).
En el model de 3 i 4 factors passa el mateix, i en el d’estructura jeràrquica també.
En les correlacions factorials podem veure que són força elevades, i faria dubtar de quina és la solució real. Es verifica que les relacions entre els factors són força elevades.
De cara al projecte, ens interessa saber si el nostre test pretén mesurar: • • • • Un sol concepte Diversos conceptes independents Diversos conceptes relacionats Diversos nivells de coneixement 2.1.4.1: Mètodes que podem emprar: • Mostra: o Mentre es mantingui l’estructura del constructe, les mostres poden ser de conveniència.
Psicometria Laura Casado o • Ara bé, cal descriure el procediment de mostreig i quines característiques tenen les persones.
o La mida de la mostra, han de ser mostres grans, de l’ordre de tres xifres.
Procediment: o Totes les persones de la mostra han de consentir en participar de manera informada.
o Han de contestar el test en les condicions en què està previst fer-ho en un futur.
o Només es poden fer usos consentits de les respostes Exemples: En aquest estudi sobre el WAIS comproven si les característiques sociodemogràfiques de la mostra s’assemblen a las característiques de la població general a través del seny (mirant % de sexe, edat, zona de residencia, nivell educatiu, localització geogràfica, etc.). Així poden afirmar que la mostra es representativa.
En el Test de Pensament Creatiu no ens diu com ha estat seleccionada la mostra, sinó que es limiten a dir com es la mostra final, sense explicar el procediment de selecció d’aquesta. A vegades manquen informacions per tenir una imatge completa de com s’ha conformat la mostra, si pot ser representativa, etc.
Psicometria Laura Casado 2.1.4.2: Anàlisi de dades preparatòria: Abans d’estudiar la dimensionalitat (estructura interna), a part de descriure la mostra, s’ha d’explicar com s’ha dut a terme la preparació de les dades. S’ha d’informar de: • • • • Percentatge de participació: Esmentar el % de persones que han participat del total als quals se’ls hi ha demanat que participin. Si % és molt baix, pot donar poca credibilitat.
La mostra potencial y la mostra finalment escollida és informació que ha de constar.
Avaluació i decisions sobre els valors mancants: Percentatge de “missings”. Moltes respostes en blanc són informatives però no es gaire valorable, s’hauria d’informar del número de missings i també com s’han tingut en compte a l’hora de la interpretació.
Exemple: Hi ha procediments que només tenen en compte les persones que no han deixat en blanc res. D’altres intenten inferir el que hauria contestat la persona atenent a les resposta a la resta d’ítem (a través d’un ordinador)  Tots aquests procediments han d’informar-se.
Detecció i decisions sobre els patrons de resposta anòmals: Si es detecten es necessari explicar com es procedeix.
Variables: Hauria d’informar-se (de forma implícita o explícita) quines són les variables de els quals s’avalua l’estructura interna. El que hem fet fins ara ha estat analitzar els ítems, però també es poden analitzar les puntuacions de les subescales del test o puntuacions del test i d’altres test (és menys habitual fer-ho).
Exemple: Adaptació d’un qüestionari en l’àmbit de psicologia de l’esport. Els autors consideren que hi ha pocs missings. En quant a la influencia de casos atípics s’arriba a la conclusió de que no hi ha gaires casos atípics (o casos poc influents). També s’estudia la distribució dels ítems per veure si segueixen llei normal.
Psicometria Laura Casado 2.1.4.3: Tècniques d’anàlisis: Per estudiar l’estructura interna podem fer servir: • • • Anàlisi factorial exploratòria: Anàlisi factorial (o anàlisi en components principals)  La que coneixem fins al moment.
Anàlisi factorial confirmatòria Altres: TRI, escalament dimensional, classes latents, etc.
2.1.4.3.1: Anàlisi factorial exploratòria (o ACP): El primer que cal veure es si les dades són adequades per factoritzar-les, i hem de mirar que: • • • Els indicadors que es factoritzen segueixin la distribució normal (simetria).
Podem aplicar el test d’esfericitat de Barlett (La H0 és que les variables estan intercorrelacionades  si es confirma no cal fer anàlisi, ja que ja ens diu que les variables no tenen cap relació entre sí).
També podem aplicar el KMO, que ens indica la relació conjunta entre les variables.
Seguidament, haurem de determinar el mètode d’estimació (que pot tenir a veure en si les variables segueixen o no llei normal  si no es segueix llei normal es poden utilitzar mètodes d’estimació adaptats). Els mètodes d’estimació més habituals són el ACP i eixos principals.
Després, hem de determinar el nombre de factors a extreure i valorar l’ajustament. Criteris per decidir el nombre de factors: • • • • • • Regla de Kaiser (factors amb valors propis > 1  no es recomana aplicar-la recomanada) Gràfic de sedimentació o scree-test de Cattel Anàlisi paral·lela % de variància explicada: En ciències socials i psicologia amb un 50-60% ens sembla correcte.
Criteri de parsimònia: Intentar resumir les respostes a tots els ítems en el menor nombre de factors possibles, però que siguin interpretables.
Residuals petits: Han de ser el més baixos possibles.
També haurem de decidir quin tipus de rotació utilitzem: • • Ortogonal (VARIMAX)  Preveu que els factors no estiguin relacionats entre sí.
Obliqua (Oblimin, promax)  Preveu que els factors estiguin relacionats entre sí.
Psicometria Laura Casado Per últim, mirarem l’estructura, i s’ha de complir que: • • • Estructura simple Interpretabilitat.
Càrregues factorials en el factor esperat amb valors superiors a un mínim (Exemple: 30, .35 ó .40) i amb errors estàndards petits.
Exemple: • • • • • Seguint el gràfic de sedimentació, escolliríem 2 factors, ja que veiem un primer salt important entre el 1r i el 2n factor, i un segon salt també important (tot i que menys acusat), i a partir del tercer factor veiem que la línia s’estabilitza.
Van aplicar la regla de Gaiser, veient que 3 factors tenen un valor propi > 1.
Després fan la prova chi quadrat, i van decidir que ajustava millor el model de 3 factors, tot i que el gràfic semblava que apuntava cap al model de dos factors. A més, el criteri de variància ens diu que han 3 factors expliquen quasi el 70% de la variància.
Un cop obtenen la solució inicial, decideixen el mètode de rotació, que es ortogonal (i explica que tot i que no és la més adequada creuen que s’adapta millor als seus propòsits).
Un cop decidit això, avaluem si hi ha estructura simple: o Els autors han obtingut 3 factors (3 primeres columnes). Les càrregues més gran els hi ha posat un asterisc. Per saber si hi ha estructura simple els ítems només poden pesar en un factor. En aquest cas, veiem que a excepció de l’ítem “distraibilidad” es compleix l’estructura simple.
Psicometria Laura Casado Excepció o Ara hem de mirar el contingut dels ítems per cada factor on hi pesin per saber si es possible etiquetar el factor (saber si és interpretable). El primer factor podria etiquetar-se com a “símptomes negatius”, el segon com a “símptomes positius”, i un tercer factor com a “conducta desorganitzada”.
Psicometria Laura Casado 2.1.4.3.2: Anàlisi factorial confirmatòria És molt més restrictiva perquè abans de fer l’anàlisi (a priori) hem de determinar: • • • • Nombre de factors a extreure Relació entre els factors Patró factorial: Quins ítems s’espera que pesin en cada factor.
Es posa a prova una solució única En cada anàlisi posem a prova un model determinat. En l’ACP es mirava a la solució els ítems que pesaven en cada factor, però aquí ho hem de fer abans.
Amb els ítems d’ajustament mirarem la coherència entre les relacions previstes pel model teòric i les observacions (i els més utilitzats són el CFI, TLI i RMSEA).
A nivell gràfic, podem observar les diferències entre l’anàlisi factorial exploratòria i la confirmatòria: Anàlisi factorial exploratòria: • • A l’esquerra veiem el diagrama si esperem 3 factors independents (rotació ortogonal).
De cada factor surten fletxes als 9 ítems, perquè tots els ítems poden pesar en tots els factor. Per tant, tindrem un total de 27 fletxes. Entre els tres factors no esperem relacions.
A la dreta veiem el diagrama del model de 4 components relacionades, rotació obliqua.
Psicometria Laura Casado A nivell de matriu de càrregues factorials, veiem que tenim 27 càrregues factorials. Per tant, l’ordinador calcula aquestes 27 càrregues, i si esperem 3 factors clars aspirem a que només les 9 que estan ombrejades siguin elevades.
Anàlisi factorial confirmatòria: No estimem les 27 càrregues factorials, només calculem les 3 dels 3 ítems que conformen cada factor (ja siguin amb relació o sense). És a dir, que calculem només 9 càrregues factorials i la resta no es calculen perquè es fixen a 0. Això a vegades provoca que el model sigui molt restrictiu, perquè es pot donar que, tot i que el model tingui estructura simple, les càrregues baixes no siguin exactament 0, sinó que sigui un número decimal baix.
Psicometria Laura Casado Ara bé, cal distingir entre la tècnica d’anàlisi i la finalitat amb la que es fa l’anàlisi. L’exploratori es pot fer amb al finalitat de confirmar el que espero que passi, però el confirmatori sempre té la intenció de confirmar allò que esperem (ja que s’ha de posar un model concret a prova en cada anàlisi).
Exemple: Test que avalua la dimensionalitat amb les dues tècniques.
• • • En la solució de dos factors es veu estructura simple.
Seguidament mirem la interpretabilitat en la rotació obliqua la solució de 2 factors apunta a un factor de tipus “somàtic” i un segon factor format per aspectes més heterogenis, per tant no es considera interpretable.
A continuació, es va intentar un anàlisi confirmatori, posant a prova 10 models (1 factor, 2 factors incorrelacionats, 2 factors correlacionats, 2 factors amb un d’odre jeràrquic superior, etc.).  D’aquest anàlisi van treure al conclusió de que plantejar que les diferents dimensions de la sensibilitat a l’ansietat son independents fa que el model no Psicometria Laura Casado s’ajusti correctament, i que els que millors s’ajusten són el de dos i el de tres factors, tot i que deixa oberta una possibilitat de jugar amb l’edat dels nens.
2.1.4.3.3: Funcionament diferencial dels ítems (FDI) Els Standards ens diuen que: • • Alguns estudis de l'estructura interna de les proves estan dissenyats per mostrar si els ítems particulars poden funcionar de manera diferent per als subgrups identificables dels enquestats (p. Ex., Els subgrups racial / ètnic o de gènere).
El funcionament de l'element diferenciat es produeix quan diferents grups de provadors amb capacitat general similar o un estat similar en un criteri adequat tenen, de mitjana, respostes sistemàticament diferents a un element concret.
Funcionament diferencial: Persones amb un mateix nivell del constructe avaluat responen diferent a ítems. A nivell d’estructura interna, ens preguntem si la dimensionalitat és equivalent en grups de persones (per ètnia, sexe, origen, edat, etc.). Per mirar si l’estructura interna és equivalent o no en aquest grups tenim diferents tècniques o indicadors: • • • • • • Congruència factorial Invariància amb anàlisis factorial confirmatòria multigrup TRI MH Regressió logística ....
2.1.5: Evidències de validesa basades en la relació amb altres variables Relació amb altres variables: L’objectiu aquí és establir si les relacions observades entre les puntuacions del test i altres variables externes rellevants són consistents amb la interpretació proposada per les puntuacions  comprovar empíricament si les puntuacions que estem estudiant mantenen la relació esperada segons la teoria.
En els Standards trobem dos apartats: • • Apartat 1: o Evidències basades en relacions convergents o Evidències basades en relacions discriminants (o divergents) Apartat 2: o Evidències basades en relacions amb criteris rellevants.
També es parla d’una quarta evidència  Evidències basades en relacions amb altres variables.
Aquestes seran tractades de forma independent cap al final del tema.
Psicometria Laura Casado 2.1.5.1: Evidències de validesa convergent i discriminant: Hi ha relació entre les puntuacions del test i altres mesures que avaluen el mateix constructe.
Validesa convergent: Evidència que dos constructes teòricament relacionats presenten les mateixes relacions amb les seves mesures. En les puntuacions del test per a mesurar un constructe podem trobar: • • Relació amb altra mesura del mateix constructe obtinguda amb un altre instrument.
Relació amb mesures que avaluen constructes similars.
Validesa discriminant: Evidència que dos constructes teòricament independents presenten també independència entre les seves mesures.
Exemple: Les puntuacions de l’escala de ideació suïcida no s’espera que correlacionin amb mesures d’intel·ligència  obtindríem evidències favorables de la validesa discriminant si les correlacions entre aquestes mesures fossin 0 o molt properes a 0. En les puntuacions del test per a mesurar un constructe podem trobar: • • Baixa relació amb mesures de constructes teòricament diferents que estan poc relacionats.
Nul·la relació amb mesures de constructes teòricament diferents que són totalment independents.
No hi ha un punt de tall concret.
Exemple 1: S’ha avaluat la validesa convergent de les puntuacions de l’SDQ amb el CBCL.
Veiem com a evidència favorable que les escales del SDQ que avaluen aspectes més semblants (no idèntics) que el CBCL presenten correlacions apreciables: • • • Problemes de conducta (SDQ) – Conducta agressiva (CBCL)  Correlació de 0.53 Hiperactivitat (SDQ) – Problemes atenció (CBCL)  Correlació de 0.66 Reactivitat emocional (SDQ) – Problemes emocionals (CBCL)  Correlació de 0.42 Psicometria • • • Laura Casado Reactivitat emocional (SDQ) – Ansietat-depressió (CBCL)  Correlació de 0.49 Internalització (SDQ) – Internalització (CBCL)  Correlació de 0.52 Externalització (SDQ) – Externalització (CBCL)  Correlació 0.62 Exemple 2: Validació del qüestionari EDI (qüestionari trastorn conducta alimentaria). Trobem 4 escales: Escala de restricció de la ingesta, preocupació pel menjar, preocupació pel pes i preocupació per la silueta.
S’han comparat les puntuacions amb altres qüestionaris: La taula presenta les correlacions de coeficients que valoren la validesa convergent i divergent entre les puntuacions EDE-Q i BSQ i EDI-2. Les puntuacions de quatre subescales d'EDE-Q es van correlacionar altament i de manera positiva amb la puntuació EDI-2 Drive for Thinness (r entre 0,79 i 0,72) i la puntuació del factor global BSQ (r entre 0,73 i 0,89). La preocupació per la forma i la preocupació pel pes es van correlacionar altament i positivament amb la puntuació de descontentament corporal EDI-2 (r = 0,75 i r = 0,72, respectivament). La resta de la correlació entre la puntuació subescala EDE-Q i les mesures BSQ i EDI-2 van ser menors.
Exemple 3: QUIC: Qüestionari d’imatge corporal. Té varies seccions: • • • • • Satisfacció: Dividida en 2 factors: Satisfacció amb elements del cap i extremitats i satisfacció amb elements del tronc.
Problemàtica amb la imatge corporal.
Satisfacció amb l’aparença.
Conformitat amb el pes.
Conformitat amb alçada. S S’ha comparat amb EAT-40, CIMEC i EDE-Q-SC. No totes les correlacions són positives, tot i que les magnituds són més o menys apreciables. Aquest signe negatiu es dona perquè en el QUIC els ítems són inversos respecte als altres qüestionaris. Això passa en totes les escales excepte en la de problemàtica amb el total del cos.
Psicometria Laura Casado 2.1.5.1.1: Disseny MultiTret-MultiMétode Un dels dissenys més complets que tenim per avaluar la validesa convergent i discriminants és la matriu MulTitret-MultiMètode. Consisteix en mesurar dos o més trets amb dos o més mètodes diferents.
La matriu s’organitza per mètodes, i dintre de cada mètode s’organitza per trets.
En aquest exemple trobem dos mètodes, i cadascun d’ells s’organitza en 3 trets. El primer que hem de tenir en compte són les hipòtesis: • • Argument interpretatiu: o Tots els mètodes utilitzats són fiables per a mesurar tots els trets.
o No s’espera relació al mesurar trets diferents/independents amb el mateix mètode.
o S’espera relació al mesurar els mateixos trets amb diferents mètodes (CONVERGENT).
o La relació entre diferents trets es manté al mesurar-los amb diferents mètodes.
Argument de validesa: o Bloc monomètode: ▪ Monotret-monomètode: El mateix tret amb el mateix mètode ha de correlacionar de manera molt alta (exemple: si s’administra en més d’una ocasió)  Fiabilitat ▪ Heterotret-monomètode: Si cadascun dels mètodes mesura 3 trets, suposem que no s’espera relació en mesurar trets diferents amb el mateix mètodes.  Discriminants (patró de covariació entre trets).
o Bloc heteromètode Psicometria Laura Casado ▪ ▪ Monotret-heteromètode: S’espera relació en mesurar els mateixos trets amb diferents mètodes  Diagonal de validesa convergent Heterotret-heteromètode: La relació entre els diferents trets s’hauria de mantenir el patró quan ho correlacionem però entre mètodes diferents  manteniment patró de covariació entre trets.
Exemple: 3 constructes i 3 mètodes. El primer mètode, que és l’objecte de validació, és el qüestionari en P&P (paper and pencil). El segon mètode és l’avaluació del professores, i el tercer mètode és l’avaluació dels pares. Els trets que avaluen aquests mètodes són: Autoestima (SE), autorevelació (SD  grau en que les persones expliquen coses d’elles per establir relacions personals) i locus de control (LC).
• • • En la diagonal (números entre parèntesis)  és on s’esperen els valors més alts de tota la matriu (perquè és normal que el que més correlacioni amb una mesura sigui ella mateixa).
Diagonals de validesa convergent: El mateix tret amb diferents mètodes. Esperaríem els segons valors més alts i significativament diferents de 0. En aquest cas es verifica.
Els valors de la diagonals de validesa convergent haurien de ser mes alts que els valors de la seva fila i la seva columna. S’ha de corroborar que el 0.57 es sistemàticament més Psicometria • Laura Casado alt que la resta de valors, que son les correlacions d’heterotret-heteromètode. En aquest cas això es verifica.
Els valors de la diagonal de validesa convergent s’espera que siguin més alts que els valors heterotret-monomètode. En aquest cas, veiem que hi ha certes excepcions (exemple: 0.46 és sensiblement més baix que 0.60). A més a més podem verificar si el patró de correlacions entre els diferents trets amb el mateix mètode es replica quan avaluem les correlacions entre els diferents trets amb diferents mètodes.
o Diferents trets amb el mateix mètode (heterotret-monomètode): Veiem que autoestima amb autorevelació sempre té correlacions una mica més altes que amb les altres escales. Per tant, si veiem un cert patró. Ara hem de valorar si aquest patró es segueix amb diferents trets i amb diferents mètodes.
o Diferents trets amb diferents mètodes: Patró de covariació entre trets es replica quan ho mirem amb mètodes diferents. Per tant podem dir que sí que es verifica.
A vegades la inspecció de la matriu multimètode, que es fa a ull, ens porta a veure resultats contradictoris entre sí.
2.1.5.2: Evidències basades en relació amb criteris rellevants: Definició Standards: La pregunta fonamental amb aquest tipus d’evidències és si les puntuacions del test prediuen o s’associen amb un criteri rellevant. Aquesta variable criteri és una mesura aliena al test que està operativitzada de forma independent al test. Per tant, la prova no és una mesura d'un criteri, sinó una hipòtesi de mesura com a predictor potencial d'aquest criteri específic.
La pregunta és: Les puntuacions del test s’associen amb/prediuen els resultats d’un criteri?  És important segui una metodologia rigorosa. Mètode: a) Identificar un criteri rellevant b) Escollir una mostra apropiada c) Obtenir a la mostra les mesures del test i del criteri, de forma independent (el criteri no hauria d’estar contaminat per les puntuacions del test o viceversa). Exemple: Si el criteri rellevant s’obté amb una entrevista, la persona que fa l’entrevista no hauria de saber quina puntuació té cada persona entrevistada en el test que se li aplica.
d) Determinat el grau de relació entre les puntuacions del test i el criteri: a. Coeficient de validesa: Correlació de Pearson b. Coeficient de determinació: Correlació de Pearson2 e) Quan tant el test com el criteri són mesures quantitatives: a. La correlació entre ambdues mesures és el COEFICIENT DE VALIDESA b. El quadrat d’aquesta correlació (COEFICIENT DE DETERMINACIÓ R2) expressa el % de variància comú entre el test i el criteri Psicometria Laura Casado 2.1.5.2.1: Factors que afecten al coeficient de validesa: • • • • Fiabilitat del test Fiabilitat del criteri Autèntica relació entre el test i el criteri Característiques de la mostra En relació als 3 primers punts: Quan al fiabilitat no és perfecta, s’atenua el valor del coeficient de validesa. Aquesta atenuació es pot corregir per estimar millor el veritable coeficient amb la següent fórmula: La correlació corregida per atenuació s’obté a partir del coeficient de correlació observat entre el test i el criteri dividit per l’arrel quadrada del producte dels coeficients de fiabilitat del test i del criteri.
En quant al 4t punt: Les mesures que no varien tampoc covarien. Si una mesura no varia, tampoc podrà covariar o correlacionar amb una altra mesura, de manera que a vegades es dona el problema de la restricció de rang. Exemple: Si administrem un test a les persones del gràfic, per veure si aquestes puntuacions del test s’associen o prediuen un criteri que s’obté més endavant, és molt habitual que aquest criteri només s’obtingui en una part de la mostra, i que aquesta part hagi sigut seleccionada en funció de els seves puntuacions en el test (normalment és més altes), no de forma aleatòria. Les puntuacions d’aquesta submostra en quant a la variabilitat de les puntuacions del test és molt menor que la mostra completa, i això fa que la correlació obtinguda en el test sigui més atenuada que en la mostra real. Si poguéssim aplicar el test i el criteri en tota la mostra, el resultat obtingut seria el de la fórmula (per tant, amb al fórmula inferim el valor en tota la mostra si haguéssim pogut aplicar el criteri a tots els seus components).
El coeficient de validesa augmenta com major és la variabilitat de les dues variables en la mostra.
Problema de restricció de rang: Psicometria Laura Casado Utilitzarem la següent fórmula: Ens els Standards comenten que històricament s’han utilitzat 2 dissenys per avaluar la validesa de criteri (predictiu i concurrent), però nosaltres afegim un tercer que és menys habitual: Classificació en funció del moment en què s’obtenen les mesures del test i del criteri: • • • Si obtenim primer el criteri temps després el test: Evidència POSTDICTIVA Si obtenim primer el test i després el criteri: Evidència PREDICTIVA Totes dues al mateix temps: Evidència CONCURRENT 2.1.5.2.1.1: Evidència postdictiva: Ens preguntem: La puntuació del test obtinguda ara es vàlida per mesurar quelcom que ha tingut lloc abans? Exemple: Records en adults de sentiments durant la infància.
Sovint aplicat en processos judicials: Per exemple, com a prova d'abús sexual amb nens petits s'utilitza un test basat en la interacció de la possible víctima amb una "anatomically-detailed doll" També utilitzada per a detectar factors de risc de certs diagnòstics: En les addiccions s'utilitza per estudiar els precedents de les conductes addictives.
2.1.5.2.1.2: Evidència predictiva: Principalment aplicat quan el criteri té un caràcter eminentment pràctic: • • • Predir rendiment acadèmic Predir rendiment laboral/vendes Test com a factor de risc de malalties Psicometria Laura Casado El model estadístic més utilitzat és la regressió simple, on la VI és el test i la VD és el criteri.
2.1.5.2.1.3: Evidència concurrent S’utilitza per: • • • • El test s'aplica per establir el criteri en el moment actual En la validació de proves diagnòstiques: capacitat o “validesa diagnòstica”  Sensibilitat/Especificitat - Corbes ROC i AUC Per disseny de tests en versions reduïdes La correlació entre el test original i altre amb menor nombre d'ítems és una evidència concurrent.
Com a substitució d'un disseny predictiu, quan aquest no és possible.
Exemple: Capacitat diagnòstica: • • 8 7 2 1 0 1 4 5 1 0,875 0,66 0,83 Sensibilitat/especificitat: En l’exemple puntuacions més altes implicarien més problemàtica. Tenim 8 persones malaltes i 6 sanes. Si ens proposem establir el punt de tall entre els 19 i 20 punts, podríem omplir la taula de contingència amb les 4 caselles que ha de tenir: Tenim 10 persones que tenen un resultat positiu i 4 amb un resultat negatiu. D’aquestes 10, 8 son realment malalts, i de les 4, sabem que les 4 són realment sanes. A partir d’aquí, podem treure les mesures de sensibilitat i especificitat (números vermells).
Si canviem el punt de tall (números liles) i fem el mateix procediment, podem veure canvis en la S i E  Passar d’un punt de tall més baix (més laxe) a un més alt (més estricte) provoca que augmenti l’especificitat (% persones sanes descartades) però disminueix la sensibilitat (% malalts que detecta la prova diagnòstica) Psicometria • Laura Casado Per tant, la pregunta es: les puntuacions del test “discriminen”/diferencien entre els malalts i els sans?  El fet de que s’utilitzi la paraula discriminant no ens ha de portar a dir que es tracta de validesa discriminant, sinó que segueix sent en relació al criteri rellevant.
Corba ROC (o COR): La corba ROC es basa en calcular els índex de S i E per tots els punts de tall possibles.
La corba vermella sorgeix d’unir tots els punts que s’han obtingut en cadascun dels punts de tall.
Exemple: Amb el punt de tall en 10.5, obtenim una mesura de S i una mesura de E, i en la corba vermella es representa el punt d’unió.
La línia verda es la que divideix el quadrat per la meitat. Hem d’esperar que la línia vermella estigui per damunt de la verda, i en aquest exemple ho està. El tema seria: quin és el millor punt de tall possible?  El millor punt de tall dependrà de què és el que volem maximitzar (quin és el mal major i el mal menor): poden existir contextos en que es millor tenim més especificitat que sensibilitat, i pot haver exemples que siguin al contrari. Exemple: davant d’una malaltia infecciosa que té remei, és més important primer la sensibilitat (detectar als malalts per donar tractament a les persones que realment estan malaltes). A nivell estadístic, però, s’establiria que el millor punt de tall que maximitza alhora els dos índex seria el que estigués més a prop de la cantonada superior esquerra.
Una mesura per saber si la corba ROC és correcte, a banda de que es trobi per sobre de la diagonal, es basa en calcular l’àrea sota la corba (AUC  area under cober). Com més gran sigui millor.
Psicometria Laura Casado Exemple validesa concurrent: Per disseny de test en versions reduïdes del test. La correlació entre el test original i un més curt és una evidència concurrent.
CBQ. La versió curta del CBQ té 94 ítems, i en l’estudi es busca validar un test encara més curt, de 36 ítems.  Les puntuacions directes de la CBQ-VSF de 36 ítems es van correlacionar fortament amb les puntuacions d'escala directa corresponents del CBQ-SF: r entre 0,83 per EC i 0,93 per NA (p <0,0001). Les correlacions de factors eren nuls.
2.1.5.3: Evidències basades en relacions amb altres variables • • • • Evidències basades en relacions convergents: relacions amb altres constructes iguals o similars.
Evidències basades en relacions discriminants/divergents: relacions amb altres constructes diferents o independents.
Evidències basades en relacions amb criteris rellevants (Evidències basades en relacions amb altres variables)  També existeixen altres variables per les quals no tenim noms específics per a tot. Aquestes són les que al principi del punt es diu que seran tractades de forma independent al final del tema.
Exemple: Aquest estudi conté la validació del EDQ en mostra espanyola d’homes. Tenim les puntuacions en cadascuna d’aquestes escales. Les hipòtesis són: • Esperem que les puntuacions en homes espanyols siguin més baixes (menys restricció, menys preocupació) que en dones espanyoles.
Psicometria • Laura Casado També s’espera que siguin una mica més baixes que en homes d’EEUU. Això es verifica: Veiem que les puntuacions (rectangle blau) són considerablement més baixes que en dones (rectangle rosa) i més baixes que en homes d’EEUU (rectangle verd).
Continuació: Com redactar les conclusions de les evidències basades amb altres variables? a) Parlem d’evidències de validesa (no diem que el test és vàlid) b) Necessitem hipòtesis concretes per interpretar els resultats (no sempre és millor una correlació més alta) c) Cal saber interpretar els resultats de tècniques variades d’anàlisi de dades (i estudiar les que calgui) Psicometria Laura Casado Què hem de mirar al projecte: • • • Evidències basades en relacions convergents (amb constructes iguals/similars) i discriminants/divergents (amb constructes diferents/independents)  2.13.2: Relacions amb altres variables Evidències basades en relacions amb criteris rellevants  2.13.1: Relacions amb un criteri Evidències basades en relacions amb altres variables (que no estan incloses en els apartats anteriors)  2.13.2: Relacions amb altres variables ...

Tags:
Comprar Previsualizar