BT4: Fiabilitat (COMPLET) (2017)

Apunte Catalán
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Psicología - 3º curso
Asignatura Psicometria
Profesor E.P.
Año del apunte 2017
Páginas 13
Fecha de subida 14/11/2017
Descargas 2
Subido por

Vista previa del texto

Psicometria Laura Casado BT4: Fiabilitat 1. Definició de fiabilitat D’una manera diferent a la validesa, que ha anat patint canvis en les diferents versions dels Standards, la fiabilitat no ha patit grans canvis, des de que Spearman va presentar el seu model de la TCT. Pel que fa als Standards, al definició que fan de fiabilitat i l’ús del terme té dues accepcions: • • Coeficient de fiabilitat de la TCT  Coeficient de fiabilitat: Indicador del grau en que les puntuacions estan lliures d’errors de mesura aleatoris.
Consistència de les puntuacions  Fiabilitat/precisió: Grau en que les puntuacions d’un grup de persones avaluades amb un instrument es mantenen constant en les diferents repeticions de la mesura.
El coeficient de fiabilitat es refereix a la precisió de la mesura, és a dir, a la seva replicabilitat.
Al manual ens dona aquestes definicions: “Que al repetir las medidas de la misma magnitud se produzcan resultados iguales o parecidos.” / “Si las medidas no se replican de una situación a otra, difícilmente podremos defender ninguna inferència, y diremos que son poco precises o poco fiables.
2. Teoria Clàssica del Test (TCT) Ens centrarem en el primer dels supòsits de la teoria clàssica (que en realitat consta de 5 supòsits en total).
X = V + e  La puntuació observada X es pot descompensar en la puntuació vertadera de la persona (V) i l’error (e). En les mesures en psicologia sempre hi ha un error, i aspirem a que sigui el més petit possible.
L’error (e) no es refereix a “equivocació”, sinó discrepància entre la puntuació observada (X) i la puntuació vertadera (V)  e = X – V Aquesta discrepància (error) existeix sempre i és inevitable (les mesures observades són fal·libles).
Els estudis de fiabilitat pretenen quantificar aquest error de dues maneres: • • Coeficient de fiabilitat Error Estàndard de Mesura (EEM) 3. Error Estàndard de Mesura (EEM): Imaginem que fem una medició (l’alçada d’un nen, per exemple). Per a aquesta persona podem anar prenent mesures en diferents moments, o que ho facin diferent persones, o que s’utilitzin diferent regles. El cas és que anem repetint la medició. En la primera ocasió al puntuació observada és de 1.28. Si l’alçada verdadera és 1.30, estem subestimant l’alçada, tenim un error de -0.02. Si repetim la medició és probable que ens doni un altre valor. En la segona medició Psicometria Laura Casado veiem 1.30, i en aquest cas no hi ha error (0). En la tercera ocasió dona 1.31, estem sobreestimant l’alçada, i l’error de mesura és 0.01.
El model clàssic diu que si repetim la mesura un nombre molt important de vegades es preveu que la mitjana d’aquestes puntuacions observades coincideix amb la vertadera puntuació (1.30). De manera que d’això es desprèn que si fem la mitjana dels error de mesura serà 0.
L’error estàndard de mesura és la desviació estàndard dels errors de mesura σe. Quantifica la precisió de les puntuacions observades.
Les distribucions tenen una desviació estàndard, i aquesta desviació és precisament l’error estàndard de mesura. “σ” s’utilitzarà per parlar de la població, “s” per la mostra.
4. Obtencions d’evidències de fiabilitat: Dissenys: Per quantificar els errors és necessari repetir les medicions. Per estudiar la fiabilitat tenim 3 dissenys possibles: • • • Avaluació de l’estabilitat temporal de la mesura: Estratègia test-retest Avaluació de l’equivalència entre mesures: Estratègia de les mesures equivalents (entre formes d’un test, jutges, entre avaluadors, entre observadors) Avaluació de la coherència interna de la mesura: o Estratègia de la consistència interna o Estratègia de les dues meitats: cada cop menys utilitzada.
4.1: Disseny test-retest: Estabilitat temporal Característiques: • • • S’aplica el mateix test en dues ocasiones.
Entre les 2 medicions hi ha un interval de temps.
Només és aplicable per a trets relativament estables o si no hi ha hagut intervenció durant l’interval de temps.
El que fem és calcular l’associació entre dues mesures.
Psicometria Laura Casado Factors que generen error de mesura: • • És sensible a factors transitoris o temporals de cada aplicació (iguals en tota la sessió).
Exemple: El dia que s’aplica al test a la persona li fa mal de cap. Això pot afectar al resultat.
Factors aleatoris: Hi són sempre, en les 3 estratègies.
Inconvenients: • • • Pot haver record entre el test i el retest.
Per tant cal deixar un interval ampli de temps perquè això no passi. Tampoc ha de ser excessivament ampli com per provocar que el tret variï. No hi ha lapse de temps ideal, depèn del constructe analitzat.
Obtenir respostes en 2 ocasions (sub-mostra). Que tota la mostra inicial torni a contestar a vegades no és possible, i en el retest només trobem una submostra (una part de la mostra inicial).
4.2: Mesures paral·leles. Equivalència.
Característiques: • • • Passem 2 instruments (o avaluadors) que siguin equivalent o paral·lels.
Es passen de forma simultània o consecutiva.
Aplicable a qualsevol constructe, si es disposa de formes paral·leles (continguts similars; mateixes mitjanes, variàncies i covariàncies). Hauria de passar que les mitjanes, desviacions, variàncies, etc., a cada parell d’ítems siguin iguals, però això és molt difícil.
Un cop administrades les dues formes es calcula l’associació entre les 2 mesures.
Factors que generen error de mesura (afecten al coeficient de fiabilitat): • • Especificitat de les mesures (contingut concret dels ítems presentats): Una persona pot saber molt millor la resposta a un ítem que a un altre.
Factors aleatoris.
Psicometria Laura Casado Inconvenients: • • És difícil disposar de 2 formes exactament paral·leles, és molt costós.
No es dissenyen per avaluar la fiabilitat, sinó al contrari. Si s’han hagut de fer dues formes paral·leles per X motius (permutacions exàmens), miraràs la fiabilitat.
És l’estratègia que s’estudia menys sovint.
4.2.1: Cas particular de l’estratègia de mesures equivalents: Concordança interjutges En comptes de que la persona respongui a un test de forma autònoma, es fa una heteroavaluació  Concordança interjutges Administren el mateix protocol, avaluen la mateixa conducta/persona, de forma simultània o consecutiva, i si els avaluadors estan entrenats haurien de proporcionar mesures molt similars.
Característiques: • • • Quan altres persones actuen com a instrument de mesura o “test”: observadors, jutges experts, avaluadors...
De forma simultània/consecutiva Si estan entrenades, haurien de proporcionar mesures comparables.
Es calcula l’associació entre les dues mesures.
Aspectes que cal tenir en compte: • • Grau d’entrenament dels avaluadors.
Si comparteixen els criteris per a la tasca d’avaluació.
4.3: Disseny de consistència interna: Indicadors múltiples En els dissenys anteriors repetim la medició (amb test-retest o test paral·lels). Aquesta estratègia es basa en una única administració del test. La idea és que com els test estan composats per una sèrie de ítems, les respostes a parts del test haurien de ser coherent entre Psicometria Laura Casado sí. Aquestes parts del test es poden entendre de dues maneres: podem fer una partició en dues meitats i mirar el grau d’associació entre una meitat i l’altre. El problema és que si els ítems estan ordenats per dificultat, les meitats no seran equivalents. És per això que s’acostuma a associar les puntuacions d’ítems parells amb els parells, i senars amb senars (tot i així sempre se li diu de dues meitats perquè al cap i a la fi partim el test en dos).
Característiques: • • • Una única medició.
Grau de concordança entre les diferents “part del test”.
Les parts: o 2 meitats o ítems o Grau de consistència interna d’un ítems amb la resta  Les respostes són coherents? Es calcula l’associació entre les mesures (e.g., meitats o ítems).
Factors que generen errors de mesura: • • Especificitat de les mesures (contingut concret dels ítems presentats) Factors aleatoris No li afecten els aspectes transitoris perquè només s‘administra un cop.
Aspectes que cal tenir en compte (sobretot per l’estratègia de consistència interna): • • • Cal haver recodificat els ítems inversos (de manera que tots vagin en la mateixa direcció) Quan interpretem els magnituds dels resultats que obtenim cal tenir en compte el grau de covariació (correlació) entre els ítems (constructe més homogeni o més heterogeni): constructe/s homogeni/s (estret/concret) vs. Constructe/s heterogeni/s (ampli); uni- vs.
Multi-dimensional.
Nombre d’ítems: Interpretar tenint en compte la longitud del test. A més ítems més alt serà l’alfa de Cronbach.
Psicometria Laura Casado 4.3.1: Coeficients de fiabilitat: X=V+e  σ2X = σ2V + σ2e L’associació entre la puntuació observada i la vertadera no la podem conèixer directament, (entre X i VρXX’) però si podem conèixer l’associació entre les mesures observades (en una administració i en un altre, amb uns ítems respecte als altres, etc.)  Associació entre X i X’ρXX’ El coeficient de fiabilitat quantifica la precisió de X o X’ (qualsevol de les dues). Aquest coeficient de fiabilitat indicaria la proporció de variància vertadera (V) que hi ha continguda en tota la variància de la puntuació verdadera (X). La proporció blava del gràfic és la variància verdadera respecte al total, seria el coeficient de fiabilitat = 85%, per tant, el tros del pastís de variància per l’error és de 15%).
4.3.1.1: Coeficient de fiabilitat vs. Índex de fiabilitat.
Hem d’emprar cada terme per allò amb el que ens estem referint. Aquest dos conceptes són coses diferents, no són sinònims.
El coeficient de fiabilitat ρXX’ seria l’associació entre la puntuació observada X i X’ (quocient entre variància verdadera entre variància de l’error  fórmula en blau). Aquest coeficient de fiabilitat també es pot interpretar com el quadrat de la relació entre les puntuacions vertaderes (V) i les puntuacions observades en el test (X). Si fem l’arrel quadrada del coeficient de fiabilitat obtindrem l’índex de fiabilitat.
De manera que aquest valor de correlació entre puntuació vertadera i puntuació observada és el que s’anomena índex de fiabilitat, i mai el podrem obtenir, sempre s’haurà de fer via coeficient de fiabilitat.
Psicometria Laura Casado 4.3.1.2: Obtenció dels coeficients de fiabilitat (Recordatori MEP): Quantitatives Consistència (acord relatiu) Acord (acord absolut) Categòriques 2 mesures Coef. de correlació K mesures Alfa de Cronbach KR-20 KR-21 2 mesures CCI absolut Mesures individuals Kappa de Cohen K mesures Aquests coeficients s’utilitzen per a certs tipus de dissenys. En la taula, a través dels colors, s’identifiquen els coeficient més adequats per a cadascun dels dissenys.
• • • Avaluació de l’estabilitat temporal de la mesura: Estratègia test-retest Avaluació de l’equivalència entre mesures: Estratègia de les mesures equivalents (entre formes d’un test, jutges, entre avaluadors, entre observadors) Avaluació de la coherència interna de la mesura: o Estratègia de la consistència interna o Estratègia de les dues meitats: cada cop menys utilitzada.
4.3.1.2.1: Kappa de Cohen com a coeficient de fiabilitat: • • Té en compte les coincidències per atzar.
Però el valor està influït per la diferent prevalença d’una determinada categoria respecte la resta: Quan tenim la taula de contingència mirem la diagonal d’acord i la de Psicometria Laura Casado desacords. Quan la diagonal d’acord està desequilibrada, la Kappa pot no donar resultats correctes tot i que donin valors considerables.
4.3.2.1.2: Alfa de Cronbach com a coeficient de fiabilitat: • • • És el més utilitzat per a estimar la fiabilitat de consistència interna, però no és l’únic.
Constitueix el límit inferior dels estimadors de la fiabilitat de consistència interna.
Un estimador més adient de la fiabilitat de consistència interna és el coeficient omega (ω) de Mc Donald. Es basa en l’anàlisi factorial. En la fórmula intervenen valors que s’obtenen amb l’anàlisi factorial.
A la dreta trobem els criteris d’interpretació de l’alfa de Cronbach de Nunnally y Bernstein. A l’esquerra trobem la interpretació de DeVellis.
Exemples dels dissenys: • Consistència interna: Qüestionari d’imatge corporal.
En els ítems quantitatius (els que fan referència a satisfacció corporal) s’utilitza l’alfa de Cronbach, i pels ítems dicotòmics s’utilitza la KR-20. Veiem que en l’alfa de Cronbach s’obtenen un resultats excel·lents, i amb el KR.20 obtenim un valor acceptable.
Psicometria • Laura Casado Estabilitat temporal (I) Es va avaluar l’estabilitat temporal al cap d’un mes i al cap de set mesos. La mostra era més petita que la global. Per les mesures quantitatives els autors han fet servir la correlació de Pearson, i per les variables categòriques (estàs conforme amb el teu pes? Si/No) han fet servir la Kappa de Cohen. També podem veure que, si comparem els valors de test retest tant amb els de Kappa com amb Pearson, els valors al cap d’un mes són més alts que al cap de 7 mesos. A més interval de temps és més probable que les mesures variïn.
• Estabilitat temporal (II) En aquest cas els autors van utilitzar, per les mesures quantitatives el coeficient de correlació intraclasse, i per les mesures categòriques amb la Kappa de Cohen. Miren l’estabilitat temporal al cap de dues setmanes (nois dreta, noies esquerra).
Veuen que els valors d’estabilitat temporal al cap de dues setmanes són molt similars per noies i per nois.
Psicometria Laura Casado 5. Formes d’augmentar la fiabilitat: • Augmentar el nombre d’ítems: Aplicació de la fórmula de Spearman-Brown per estudiar l’efecte de la longitud del test.  S’explica a continuació.
• Eliminar els ítems problemàtics (els que estiguin poc relacionats amb al resta).
• Homogeneïtzar al màxim les condicions d’aplicació (especialment instruccions i temps d’aplicació) per tal que no incrementi la variabilitat error de les puntuacions.
5.1: Fòrmula general de Spearman-Brown: Profecia Aplicacions de la profecia: • • • Preveure la fiabilitat de les puntuacions d’un test format per nh elements equivalents als nc elements d’un test inicial.
Comparar la fiabilitat de dues mesures de diferent longitud. Com que l’Alfa està afectat pel nombre de ítems (més ítems, més alfa) podem aplicar la profecia per igualar-ho.
Extrapolar el nº d’ítems necessari per assolir un determinat coeficient de fiabilitat (per quin valor K cal multiplicar la longitud actual).
La relació entre el coeficient de fiabilitat i el nombre d’ítems no és lineal. Si tenim una determinada fiabilitat de consistència interna i doblo els ítems, l’alfa no es multiplica x2. No podrem tenir un alfa més gran que 1, però sí que podem tenir un alfa negativa per dos motius: hi ha pocs ítems i algun és realment un desastre o que algun ítem invers no s’ha recodificat.
Exemple: aplicació profecia S-B(I) Preveure la fiabilitat de les puntuacions d’un test format per nh elements equivalents als nc elements d’un test inicial.
Psicometria Laura Casado Observen que els valors de alfa són més alts que els valors profetitzats, i això passa perquè possiblement l’alfa s’ha fet triant els millors ítems, mentre que la profecia es fa assumint l’equivalència entre ítems.
Exemple: aplicació profecia S-B (II) Comparar la fiabilitat de dues mesures amb diferent longitud: promig de correlacions inter-ítems ≡vestimació de la fiabilitat de qualsevol dels ítems d’ambdues mesures.
En aquest exemple es tracta d’un qüestionari de dificultats en la regulació emocional amb 6 escales. Els autors proporcionen: • • Valor de alfa, i entre parèntesis el promig de correlació entre els ítems de cada escala.
Nombre de ítems (per valorar l’alfa).
Psicometria • • Laura Casado A l’escala “clarity”: Alfa de 0.71 (justa). Formada per 5 ítems.
A l’escala “Strategies”: 0.77 (una mica més alt que clarity). Formada per 7 ítems.
D’aquestes dues puntuacions, estratègies té una millor consistència perquè l’alfa és més alta, però si mirem les correlacions entre ítems veiem que no és tan alt com la de claredat. Per tant, els ítems de claredat són més consistents que no els d’estratègies, però arriba a tenir una alfa més alta perquè té 2 ítems més que claredat.
6. Estimació per interval de la puntuació vertadera.
Reprenem l’EMM per posar-ho en relació amb el coeficient de fiabilitat.
L’error estàndard de mesura és igual a la desviació estàndard de la puntuació observada multiplicat per l’arrel quadrada de 1 menys el coeficient de fiabilitat. En aquesta fórmula intervé el coeficient de fiabilitat.
Aplicacions de l’EEM: Conèixer el rang de puntuacions en el qual es troba la puntuació vertadera d’una persona a partir de la seva puntuació observada.
• • Es fa a partir de X (puntuació observada), ja que V (puntuació vertadera) és desconeguda.
I amb l’estimació mostral de l’EEM.
Exemple: Estimació per interval de al puntuació vertadera: Imaginem una prova en què les puntuacions oscil·len entre 0 i 10 punts. Analitzem diferents escenaris definits per desviació estàndard Sx (0.5, 1.0, 1.5 i 2) i dues fiabilitats α (.7 i .8) A mida que augmenta la desviació estàndard de la puntuació observada, veiem que l’interval de la puntuació verdadera va augmentant, mes ampli, menys precís.
Si mirem la segona part de la taula, veiem que a mida que augmenta la desviació estàndard també augmenta l’interval, més ample, menys precís.
Psicometria Laura Casado A igual SD però diferent fiabilitat, trobem que com més alta és l’alfa l’interval es fa més estret, més precís (mateixa desviació estàndard però més consistència, més estret es l’interval).
Exemple: EEM 7. Evidències de fiabilitat Els diferents dissenys avaluen diferents aspectes de la fiabilitat. Per tant, les evidències que s’obtenen en cada estratègia poden diferir entre sí.
Factors que afecten al coeficient de fiabilitat (segons la teoria clàssica dels tests): • • • • Les característiques de la mostra La variabilitat de l’atribut mesurat.
Les fonts d’errors a què és sensible l’estratègia emprada.
La situació d’aplicació (exemple: instruccions, temps) El coeficient de fiabilitat (associació entre mesures obtingudes amb diferents estratègies) augmenta com major és la variabilitat de l’atribut de la mostra (ja que tots els coeficients que hem vist es basen en les variàncies i covariàncies de les mesures, i si una variable no varia tampoc pot covariar, de manera que és més difícil relacionar-la).
...

Tags:
Comprar Previsualizar