Resum lectures 2.3.1 i 2.4.1 (BT2, conferència 18 septembre) (2017)

Resumen Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Psicología - 3º curso
Asignatura Psicometria
Año del apunte 2017
Páginas 7
Fecha de subida 17/09/2017
Descargas 5
Subido por

Vista previa del texto

Psicometria Laura Casado Lectures 2.3.1 i 2.4.1 (BT2, conferència 18 septembre) 2.3.1. Llegiu els següents fragments del capítol 7 del llibre de text (Abad et al., 2011) sobre interpretació criterial (pp. 271-272, i 283-291). Podeu assistir a la classe programada on es destaquen els punts principals. Aquests continguts són necessaris per realitzar els exercicis sobre interpretació criterial que se us proposen a continuació.
Resum: 1. Introducción: La puntuación directa de una persona en un test no es directamente interpretable. Los Standards afirman que “cuando se informa de los resultados de un test se han de dar las interpretaciones apropiadas”.
Una puntuación se ha de referir a los contenidos incluidos en el test o al rendimiento de las personas del grupo normativo (muestra de persones a la que se ha aplicado el test para obtener baremos, a través del proceso llamado baremación) utilizando normas o baremos.
Los baremos asignan a cada puntuación directa un valor numérico que informa de su posición en relación a las puntuaciones de su grupo normativo. Hay distintos tipos de normas (nacionales, regionales, para hombres y mujeres, según ocupación, edad, etc.).
También se habla de normas de usuario, obtenidas con una muestra concreta que ha respondido al test durante cierto periodo de tiempo, y de normas de conveniencia, obtenidas tras aplicar el test a la muestra disponible durante su elaboración.
Al utilizar baremos, existen dos tipos de interpretaciones: referidas a la norma o normativas (se relaciona una puntuación con el rendimiento en los ítems específicos.
Ejemplo: cuáles en concreto se han acertado y fallado) o referidas al criterio (pueden informar, por ejemplo, de la probabilidad de que aparezca cierta patología).
Con frecuencia, los test suelen permitir y ofrecer ambos tipos de interpretaciones, aunque una sea más útil para su objetivo.
En la interpretación de las puntuaciones se suele recurrir a los puntos de corte. A veces se obtiene uno (estableciendo pertinencia a dos grupos. Ejemplo: aprobados/suspendidos) y a veces dos o más (define 3 o más niveles de rendimiento). En las interpretaciones referidas a la norma se suele fijar un porcentaje de rechazo (Ejemplo: los que estén debajo del 33% en puntuaciones de inteligencia son rechazados).
2. Otros métodos para dar significado a las puntuaciones Para facilitar la interpretación de las puntuaciones se puede describir lo que se espera que sepa o sepa hacer quien ha obtenido cada puntuación. Se suelen utilizar dos estrategias (mapeo de ítem y descripción de los niveles de desempeño), apropiadas para cuando estamos interesados en una interpretación referida al criterio más que normativa.
2.1: Mapeo de ítems En la TRI las dificultades de los ítems (parámetro b) están en la misma escala que los niveles de rasgo, θ. Por ello, es posible construir un mapa en el que aparecen, junto a los distintos valores de θ, las puntuaciones obtenidas por los evaluados y los ítems administrados, según sus valores del parámetro b. La gráfica mostrará los ítems que con alta probabilidad resolvería un evaluado con nivel de rasgo θ (los que tienen parámetros b inferiores que θ), Psicometria Laura Casado los que resolverán con probabilidad media (b similar a θ) y los que probablemente no sabría resolver (b mayores que θ).
El mapeo también puede aplicarse con la TCT. Una vez elegida la escala en la que asignar las puntuaciones, se buscan ítems característicos de algunas puntuaciones. Se asocia a cada puntuación el ítem que sea acertado, con una probabilidad de acierto p (suele ser entre 0,5 y 0.8). A veces se tienen en cuenta otros criterios, como que los ítems tengan alta capacidad de discriminación entre los que puntúan por encima y por debajo de la puntuación, o que el ítem represente bien el contenido del test. Por tanto, se trata de mostrar el ítem que ilustre mejor el rendimiento que se espera de quien obtenga cada puntuación.
2.2: Descripción de cada nivel de desempeño Se establecen, mediante expertos, los niveles de desempeño asociados a determinadas puntuaciones en el test, para informar del nivel de competencia a los interesados. Los expertos deben estudiar bien los ítems para encontrar y describir en pocas fases qué sabe y qué sabe hacer quien obtenga esa puntuación. El evaluado sabrá hacer lo indicado en las descripciones de los niveles de desempeño inferiores al que le ha correspondido.
A veces, al analizar el mapeo de los ítems no es fácil construir una descripción, y por ello se puede complementar la descripción suministrando información de las características de los clasificados en cada nivel. Ejemplo: Test de inglés eCAT  En puntuación “Avanzado”, se indica que las personas que pertenecen a ese grupo han nacido o vivido durante mucho tiempo en países anglosajones, con mucha formación en el idioma, etc.
2.3: Puntos de corte Hay muchos procedimientos para establecerlos. Los que veremos son de aplicación en los test referidos al criterio, en los que los puntos de corte vienen determinados por conocimientos, destrezas y capacidades requeridas por las calificaciones (aunque también hay para normativos, pero no son útiles para la acreditación del evaluado, porque se valora la posición de la persona en relación a los demás, y no su nivel de competencia en términos absolutos).
Hambleton y Pitoniak proponen estos pasos para establecer puntos de corte: • Selección del método a aplicar, que dependerá de: a) tipo de ítems, b) recursos temporales y de otro tipo que el método requiere, c) experiencia anterior con el método, d) datos sobre la calidad de los distintos métodos.
• Elección de los jueces o panelistas y del diseño: Algunos métodos requieren que los jueces sean más expertos en los contenidos del test. Hay que atender a la composición del panel (procedencia, etnia, edad, género…) • Preparar las descripciones de las categorías de rendimiento: Los evaluados frontera con los que tienen justamente el nivel requerido por le punto de corte que se busca, y debe tener una definición precisa del nivel de conocimiento, destrezas y procedimientos que debe dominar.
• Entrenar a los panelistas a usar el método.
• Recoger las evaluaciones que hacen los jueves.
• Dar feedback y comenzar la discusión: Se hace una primera propuesta de punto de corte, se ve el impacto que tiene en la clasificación de los evaluados, se buscan Psicometria Laura Casado fallos de interpretación y se repite el proceso dos o tres veces.
• Se recogen las evaluaciones y se calculan los puntos de corte definitivos (promediando los obtenidos por los panelistas).
• Los panelistas evalúan todo el proceso.
• Recogida de las evidencias de calidez y preparación de la documentación técnica.
Cuando los ítems tienen opción múltiple se recomiendan los método de Angoff y el del marcapáginas (“bookmark”). Cuando los ítems son de respuesta construida o en tareas de evaluación de rendimiento se recomienda el método holístico (“body of work”).
2.4: Método de Angoff Cada panelista le da a cada ítem la probabilidad que considera que tendría el evaluado frontera de acertar el ítem. Se suman las probabilidades de los ítems del test y esa suma sería la propuesta de punto de corte. Se hace la media entre los panelistas para dar el punto de corte definitivo.
Problema: Estimaciones que se hacen suelen tener sesgo negativo (menores de las que se debieran dar) en los puntos de corte inferiores, y sesgo positivo en los superiores. Por eso, en la práctica se suele aplicar el método de Angoff modificado, en el que se añaden otros elementos.
Principal crítica: La tarea que se pide es demasiado difícil para que los panelistas la hagan con precisión.
Angoff también propuso otro método, en el que se dice ante cada ítem si el evaluado frontera acertaría o no.  Método SÍ-NO.
2.5: Método de Nedelsky Adecuado para ítems de opción múltiple. El panelista indica en cada ítem cuántas opciones podría el evaluado frontera saber que son incorrectas; el resto de opciones sería la probabilidad de acierto si respondiese al azar entre ellas. La propuesta del panelista sería la suma de estas últimas probabilidades, y el punto de corte sería el promedio de la suma de todos los panelistas. Ejemplo: Si hay 4 opciones de respuesta y el panelista piensa que una sabrá que es incorrecta, la probabilidad de acertar entre las otras 3 seria de 0,33.
Método del marcapáginas: Se prepara una lista de ítem ordenadas por el parámetro b (menor a mayor dificultad). El panelista debe poner el marcapáginas entre dos ítems (los que están delante serán los bien resueltos por el evaluado frontera con una cierta probabilidad mayor o igual a p, y con una probabilidad menor los que están detrás). La propuesta de punto de corte es la b del ítem de antes del marcapáginas. Después se promedian las propuestas de todos los panelistas.
El panelista debe ver, ítem a ítem, en cuál la probabilidad de acierto del estudiante frontera sería el valor de p prefijado (valor que suele se recomienda que sea 0.67).
2.6: Otros métodos • Método del grupo frontera: Expertos y profesores seleccionan un conjunto de evaluados frontera y la mediana de sus puntuaciones en el test será el punto de corte.
• Método de los grupos que se comparan: Profesores eligen un grupo que esté claramente por encima del punto de corte y otro que esté claramente por debajo.
Psicometria • Laura Casado Se comparan las distribuciones y se toma como punto de corte la puntuación en que ambas se cortan.
Método holístico (body of work): Panelistas ven todo el trabajo de los evaluados.
Los trabajos han sido previamente puntuados y se presentan a los panelistas ordenados por puntuación, y ellos deben clasificar cada trabajo dentro de una categoría de rendimiento. El punto de corte son las puntuaciones donde se cortan las distribuciones.
2.4.1. Llegiu els següents fragments del capítol 7 del llibre de text (Abad et al., 2011) sobre interpretació normativa (pp. 272-282). Podeu assistir a la classe programada on es destaquen els punts principals. Els continguts del capítol són necessaris per realitzar totes les activitats relacionades amb la interpretació normativa de les puntuacions.
Resum: 1. Baremos Es importante elegir y describir bien al grupo normativo (debe ser una muestra representativa y de tamaño suficiente de la población de referencia). Hay mucho tipos de baremos, y destacamos los cronológicos, los centiles y las puntuaciones típicas.
Baremos cronológicos: Útiles para rasgos psicológicos que evolucionan con la edad (permiten comparar puntuaciones de un evaluado con las que obtienen los de su misma edad o de diferentes edades). Esto se puede hacer mediante dos tipos de baremos: Edad Mental (EM) y el Cociente Intelectual (CI). En un test de inteligencia, le EM del niño es la edad que corresponde a tu puntuación. Ejemplo: Si un niño tiene una puntuación de 14, le asignamos 9 años de edad mental, independientemente de su edad cronológica (EC) real.
𝐸𝑀 𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑖𝑛𝑡𝑒𝑙𝑒𝑐𝑡𝑢𝑎𝑙 = · 100 𝐸𝐶 Si la EM coincide con el EC del evaluado, su CI será 100 (puntuación coincide exactamente con la media de su grupo de edad). Si Ci es mayor que 100 la inteligencia es superior al promedio de su edad, y si es inferior a 100, será inferior. Los baremos cronológicos sólo pueden aplicarse cuando la media en el test aumenta con la edad.
1.1: Baremos centiles: Asignan a cada puntuación del test su rango centil (o rango percentil) que indica el porcentaje de personas del grupo normativo que obtienen puntuaciones inferiores a dicha puntuación.
Tabla para ejemplos: X Frecuencia Porcentaje Porcentaje acumulado Rango centil 12 2 1,0 1,0 1 13 3 1,5 2,5 2 Psicometria Laura Casado 14 8 4,0 6,5 4 15 7 3,5 10,0 8 16 11 5,5 15,4 13 Hay dos maneras de obtener el rango centil de una puntuación, dependiendo de si consideramos la variable medida en el test como discreta o continua.
• • Discreta: Ejemplo: Una persona que ha obtenido una puntuación de 12 ha obtenido exactamente esa puntuación. El rango centil de cada puntuación es el valor de la columna Porcentaje acumulado de la tabla, que es la puntuación anterior. Ejemplo: Rango centil de la puntuación 16, obtenemos el porcentaje acumulado de la puntuación 15, que es 10  El 10% de la muestra obtuvo puntuaciones menores de 16 (15 o menos puntos).
Continua: Las persones que obtienen cada puntuación están homogeniamente repartidas en su intervalo. Ejemplo: De los 2 evaluados con puntuación 12, uno tendría una puntuación entre 11,5 y 12, el otro entre 12 y 12,5. El rango centil que corresponde a 12 será (1/201)(100) = 0,5. // Ejemplo 2: Las personas que han obtenido 13 o menos puntos serán las 2 que han obtenido 12 y el 1,5 que ha obtenido 13, por tanto el rango centil de 13 será (3,5/201)(100) = 1,74.
A partir de la tabla se llega al Rango centil restando al Porcentaje acumulado la mitad del correspondiente Porcentaje y redondeando el resultado. Ejemplo: Rango centil de 13 será 2,5 – (1,5/2) = 1,75, que se redondea a 2.
En los manuales de test se ofrece una tabla que tiene, en la primera columna, algunos rasgos centiles, y a su derecha, el centil al que corresponde el citado rango centil. Si el test mide varias dimensiones, se añaden tantas columnas como dimensiones.
Los centiles son los baremos más usados. La relación entre las puntuaciones y sus rangos centiles no es lineal (normalmente los rangos centiles que corresponden a las puntuaciones que están en una cola de la distribución difieren menos entre sí que los de las puntuaciones más centrales  si los restamos, hay menos diferencia).
1.2: Baremos típicos Se distingue entre baremos típicos, típicos normalizados y típicos derivados.
• • Puntuaciones típicas: Una puntuación típica ZX se obtiene aplicando: 𝑋 − 𝑋̅ 𝑍𝑋 = 𝑆𝑋 La puntuación puede ser positiva o negativa e indica el número de desviaciones típicas que se aleja de la media la correspondiente puntuación directa X.
Puntuaciones típicas normalizadas: Cuando se comprueba que las puntuaciones de un grupo normativo siguen Distribución Normal, un rango centil concreto dividido por 100 Psicometria Laura Casado indica el área de la curva normal que queda por debajo del centil correspondiente. Si la puntuación Z es el centil Ck, la puntuación típica normalizada que corresponde a X, Zn, es el valor de la distribución normal Z, N(0,1), tal que P(Z<Zn) = k/100. Ejemplo: La • puntuación X1 corresponde al rango centil 16. En la curva normal, la puntuación Z que deja por debajo de sí la probabilidad 0,16 es -0.99, es decir, que la puntuación típica normalizada de X1 = -0.99.
La normalización permite aplicar las propiedades de la curva normal. Una Zn = 1 indica que la persona supera al 84% del grupo normativo. Las puntuaciones típicas serán más similares a las típicas normalizadas cuando más se parezca la distribución normal a la distribución de las puntuaciones en el test del grupo normativo.
Puntuaciones típicas derivadas: Puntuaciones típicas y típicas normalizadas tiene dos inconvenientes: asumen valores no enteros y negativos. Por eso se han propuesto otros baremos  escalas típicas derivadas o derivadas normalizadas. Las principales son las escalas T y D (con media de 50 y SD de 10 y 20), y se obtienen: o Derivada: T = 50 + 10Z // D = 50 + 20Z o Derivada normalizada: Tn = 50 + 10Zn // Dn = 50 + 20Zn Si tenemos una puntuación X, con media µs y SD σs, la transformación a aplicar es: 𝑆(𝑋) = 𝜎𝑠 𝜎𝑠 𝑋 + [𝜇𝑠 − 𝜇𝑥] 𝜎𝑥 𝜎𝑥 Ejemplo: Puntuación directa de 31, con media de 38 puntos y desviación típica 4: o Puntuación típica: -1,75, porque (31-38)/4 = -1,75 o Escala T: 32, porque 50 + (10)(-1,75) = 32,5 (32 al redondearlo) o Escala D: 15, porque 50 + (20)(-1,75) = 15 La persona está 1,75 desviaciones por debajo de la media del grupo normativo.
También existen otras escalar típicas derivadas normalizadas: o Estaninos (1 a 9)  E = 5 + 2Zn o Decatipos (1 a 10)  DE = 5,5 + 2Zn o CI normalizado (40 a 160)  I = 100 + 15Zn Comentarios finales: Una adecuada interpretación de las puntuaciones requiere tener en cuenta su precisión y fiabilidad. Al informar de las puntuaciones se debe aportar información numérica, el valor en la escala o escalas apropiadas, y gráfica, exponer el erro típico y mostrar la puntuación y el intervalo de confianza en una gráfica.
Impacto adverso: Infra-representación de un grupo sobre otro. Ejemplo: 10% de mujeres se presentan a un puesto de trabajo, sólo 5% llegan a la fase final. Esto lleva a usar baremos distintos para cada grupo, pero no es recomendable.
Acomodaciones: Pese a que los test deben administrarse de forma estandarizada, a veces es necesario introducir ciertas modificaciones. Ejemplo: Si una persona no domina el idioma del test, permitir que use un diccionario.
Psicometria Laura Casado 1.3: Baremos en la Teoría de la Respuesta al Ítem Si se cumples los supuestos de la Tri y disponemos de un banco de ítems calibrados, la puntuación del evaluado (θ estimada), tras aplicarle un conjunto de estos ítems, no depende de los ítems concretos administrados, y la puntuación obtenida puede compararse con la de otro evaluado que incluso puede haber recibido unos ítems diferentes.
Dado que la escala habitual en la que se obtiene las estimaciones de los niveles de rasgo tiene media 0 y varianza 1, a veces se transforma la puntuación a otra escala más fácil, pero a veces se prefiere referir los niveles estimados de rasgo a las características del test concreto administrado, aplicando la curva característica del test (CCT), y se obtiene el valor que corresponde en esa curva a la θ obtenida por el evaluado.
Cuando se aplica la TRI se puede ubicar a las personas y a los ítems en una escala común, porque las θ estimadas y las dificultades de los ítems (b) se expresan en la misma métrica, permitiendo relacionar cada nivel de rasgo con los ítems que probablemente serían resueltos correctamente por quien tuviese dicho nivel (los que tengan dificultades inferiores).
...

Tags:
Comprar Previsualizar