Apuntes completos de Psicometría (parte III) (2015)

Apunte Español
Universidad Universidad Autónoma de Madrid (UAM)
Grado Psicología - 3º curso
Asignatura Psicometria
Año del apunte 2015
Páginas 10
Fecha de subida 21/07/2017
Descargas 0
Subido por

Vista previa del texto

PSICOMETRÍA Ej.: En un test de 40 ítems la varianza de las puntuaciones es 70 y la suma de las covarianzas distintas de todos los ítems es 25. ¿Cuál será la consistencia interna del nuevo test? 2 · ∑ 𝑆𝑗𝑙 𝐽 40 2 · 25 𝛼= ·( )= ·( ) = 0.732 2 𝐽−1 39 70 𝑆𝑥 Ej.: Un test está compuesto por 6 ítems dicotómicos. Obtenga un indicador de la fiabilidad del test si: 1) Todos los ítems fueran independientes. Si todos los ítems fueran independientes, su correlación sería 0 y, por lo tanto, su covarianza también. Si la covarianza entre los ítems es 0, α también sería 0.
2) Fuesen iguales la varianza de las puntuaciones empíricas en el test y la varianza verdadera 𝑆𝑉2 𝑆𝑉2 𝑟𝑥𝑥 = 2 = 2 = 1 (𝑓𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑝𝑒𝑟𝑓𝑒𝑐𝑡𝑎) 𝑆𝑋 𝑆𝑉 SENSIBILIDAD A ERRORES DEBIDO A… Criterios de la EFPA (2013), U.E.
Factores transitorios (cambian de aplicación a aplicación) La especificidad (factores relacionados con el contenido de las preguntas) Factores aleatorios FORMAS PARALELAS TESTRETEST CONSISTENCIA INTERNA X X X X X X CRITERIOS PARA LOS COEFICIENTES FORMAS PARALELAS TESTRETEST CONSISTENCIA INTERNA Inadecuado Adecuado Bueno Excelente < 0.70 0.70 – 0.79 0.80 – 0.90 > 0.90 < 0.60 0.60 – 0.69 0.70 – 0.80 > 0.80 < 0.70 0.70 – 0.79 0.80 – 0.90 > 0.90 CRITERIOS PARA EL TAMAÑO MUESTRAL MUESTRA N < 200 Inadecuado 200 < N < 500 Adecuado N > 500 Bueno Varias muestras Excelente 6. El error típico de la medida Si el error típico de medida es 0, eso quiere decir que el evaluado obtendrá siempre la misma puntuación en las distintas mediciones. Por tanto, cuanto menos preciso sea el test, mayor será el error típico de medida. El valor máximo que puede tomar el error típico de medida es Sx, en el caso de que el coeficiente de fiabilidad sea 0. Esto quiere decir que la variabilidad de las puntuaciones observadas para una persona en distintas mediciones va a ser tan grande como la variabilidad de las puntuaciones observadas en la población. Luego, el test resultará poco útil para informarnos sobre los niveles de atributo de las personas. Según la fórmula, si el coeficiente de fiabilidad rxx aumenta, el error típico de la medida disminuye.
PSICOMETRÍA Ej.: El test A tiene una varianza error de 25 y el test B de 10. ¿Podemos concluir que el test B es más fiable que el A? No podemos concluir que el test B es más fiable que el test A porque depende de la varianza empírica de los tests, y en este caso las desconocemos. Como el coeficiente de fiabilidad depende de la varianza error y de la varianza verdadera, si no conocemos uno de estos dos datos, no podemos concluir cuál de los dos tests es más fiable.
Ej.: Sabemos que la puntuación obtenida por un sujeto en un test menos su puntuación verdadera es igual a 20 puntos. ¿Es 20 el error de medida o el error típico de medida? X – V = 20 ; X = V + E ; E = 20 E es el error de medida, ya que el error típico de medida es una desviación típica de los errores de medida.
El error típico de medida (Se) es una medida de la variabilidad de las puntuaciones X si tomamos para un mismo sujeto distintas medidas. Por ejemplo, si midiese la longitud de una mesa infinitas veces, en condiciones constantes, la media de estas medidas sería su puntuación verdadera. En este sentido, y a nivel teórico, se podría afirmar que la varianza verdadera de las puntuaciones es igual a la varianza error, aunque en la vida real no podemos medir a un sujeto infinitas veces.
El error típico de medida (Se) permite saber si una diferencia entre puntuaciones empíricas refleja una diferencia en puntuaciones verdaderas: 1) ¿La diferencia entre las X de dos personas refleja una diferencia de sus V? Si Z < -1.96 ó Z > 1.96, rechazamos H0 con un N.C. 95% Si Z < -2.58 ó Z > 2.58, rechazamos H0 con un N.C. 99% Ej.: En una prueba var(X) = 25, dos personas obtienen 10 y 15 puntos. Con un N.C. del 95% 1) Si rxx = 0.9, ¿tienen igual V? Se = Sx · √1 – rxx = 5 · √1 – 0.9 = 1.58 Z = (10-15) / (1.58 · √2) = -2.24 Tienen diferentes V, por lo que rechazamos H 0 porque Z = -2.24 < -1.96. Entonces, la persona que ha obtenido 15 puntos es verdaderamente más competente que la otra.
2) Si rxx = 0.9, ¿tienen igual V? Se = Sx · √1 – rxx = 5 · √1 – 0.5 = 3.53 Z = (10-15) / (3.53 · √2) = -1 Tienen la misma V porque mantenemos H0 (-1.96 < Z = -1 < 1.96). Entonces, no sabemos cuál de las dos personas tiene un verdadero nivel de rasgo mayor, es decir, no sabemos cuál de las dos personas es más competente que la otra.
PSICOMETRÍA 2) ¿Cuál es el intervalo confidencial en el que se encuentra la V de una persona? Ej.: ¿En qué test hay un mayor error típico de medida? ¿En qué test hay un mayor coeficiente de fiabilidad? ¿En qué test diría que las dos personas tienen la misma V? Hay un mayor error típico de medida en el test B porque hay una mayor amplitud confidencial. Hay un mayor coeficiente de fiabilidad en el test A por la menor amplitud del intervalo confidencial. Las dos personas tendrían la misma V en el test B porque hay un solapamiento de los dos intervalos confidenciales.
Ej.: Una persona obtiene en un test una puntuación de 63 puntos. Si el error típico del test es 2.13, estime con un N.C. del 95% entre qué valores se encontrará su puntuación verdadera. Calcule la amplitud del intervalo.
VLi = Xi – z1 – α/2 · SE = 63 – 1.96 · 2’13 = 58.825 VLs = Xi + z1 – α/2 · SE = 63 + 1.96 · 2’13 = 67.17 La amplitud del intervalo de confianza se puede obtener restando el límite inferior al límite superior, por lo que, en este caso, 67.17 – 58.825 = 8.35. Pero la amplitud del intervalo también se puede calcular de la siguiente manera: A = 2 · z 1 – α/2 · SE = 2 · 1’96 · 2’13 = 8.35 Es preferible que el intervalo confidencial sea pequeño, porque eso indicaría que el test es preciso.
Si aumenta el nivel de confianza, la Z será mayor y, por tanto, aumentará la amplitud del intervalo 7. Factores que afectan la fiabilidad de las puntuaciones a) Factores que afectan a la fiabilidad de las puntuaciones I.
La covariación entre los elementos 𝛼= II.
2·∑ 𝑺𝒋𝒍 𝐽 ·( 2 ) 𝐽−1 𝑆𝑥 La correlación ítem-test 𝛼= 2·∑ 𝑆𝑗𝑙 𝐽 ·( 𝟐 ) 𝐽−1 𝑺𝒙 𝐽  Sx2 = (∑𝐽−1 𝑆𝑗 · 𝒓𝒋𝑿 ) 2 Entre los elementos de igual varianza, los de mayor rjx son los que más incrementan el coeficiente alfa.
Ej.: A continuación se ofrecen algunos datos de un test de 5 ítems aplicado a una muestra de 200 sujetos. Obtenga un indicador de la fiabilidad del test e interprételo.
Para obtener α necesitamos la varianza de las puntuaciones en el test y no me la dan, por lo que tengo que utilizar la nueva fórmula de la varianza.
2 Sx2 = (∑ 𝑆𝑗 · 𝑟𝑗𝑋 ) = [(1.8 · 0.50) + (2 · 0.72) + (0.5 · 0.31) + (1.32 · 0.43) + (0.94 · 0.87)]2 = (0.9 + 1.44 + 0.155 + 0.5676 + 0.8178)2 = 15.057 𝛼= 𝐽 · 𝐽−1 (1 − ∑ 𝑆𝑗2 𝑆𝑥2 5 4 ) = · (1 − 3.24 + 4 + 0.25 + 1.7424 + 0.8836 ) 15.057 = 0.41 PSICOMETRÍA III.
La longitud del test Los tests más largos tienden a tener mayores coeficientes alfa.
Ej.: En un test todos los ítems tienen varianza 1 y su covarianza es 0.15. ¿Cuándo valdría el coeficiente alfa si el test tuviera 2 ítems? ¿Y si tuviera 100 ítems? 𝛼= 𝛼= 2 2 · 0.15 ·( ) = 0.26 2 − 1 2 + 2 · 0.15 100 9900 · 0.15 ·( ) = 0.946 100 − 1 100 + 9900 · 0.15 Un coeficiente α bajo puede indicar que los ítems miden rasgos diferentes o que el test es demasiado corto Ej.: Sea un test de 6 ítems cuyo coeficiente α es 0.6, ¿cómo es la consistencia interna del test? ¿Podemos considerar que el test es preciso y se puede aplicar? Con los ítems actuales (6), el test no se puede aplicar, ya que el coeficiente alfa no alcanza el valor mínimo aceptable (0.7) y el grado de precisión del test será insuficiente. Sin embargo, si añadimos algunos ítems al test, probablemente alfa alcanzará un valor aceptable o incluso bueno.
IV.
La variabilidad de la muestra Si aumenta la variabilidad, aumentará el coeficiente alfa. ¿Por qué? Porque un alto grado de variabilidad indica que la muestra es heterogénea, lo que aumenta la consistencia interna del test. Además, rxx (coeficiente de equivalencia) es una correlación y las correlaciones dependen de la variabilidad de las variables.
Se ha seleccionado a una muestra de 557 sujetos que cumplen dos condiciones (X > 4 Y < 6) y se observa que al eliminar los valores más altos y los más bajos la variabilidad de la muestra disminuye.
La fórmula para la corrección del coeficiente de fiabilidad por restricción de rango, asumiendo que la varianza de las dos muestras sea igual, es: Ej.: ¿Qué muestra sería más adecuada para estudiar la fiabilidad de un test de actitud hacia el bádminton: una muestra de abonados a un complejo deportivo o una muestra de socios de clubs de bádminton? Para estudiar la fiabilidad de un test de actitud hacia el bádminton, sería más adecuada un muestra de abonados a un complejo deportivo, ya que la variabilidad de dicha muestra sería mayor (puede haber aficionados al tenis, al fútbol, al pádel…) PSICOMETRÍA b) Formas de incrementar la fiabilidad de un test I.
II.
Incrementar el número de ítems Eliminar los ítems con baja correlación ítem-test i. Cuidado con la validez de contenido, ya que podemos eliminar (sin querer) ítems que midan la misma parte del constructo. Debemos recordar que se deben cumplir los requisitos de la tabla de especificaciones.
ii. Si la muestra es pequeña los resultados no se replican III.
Mejorar las condiciones de aplicación c) Valores mínimos para los indicadores de fiabilidad Es un error pensar que existen límites mágicos, como el 0.7 en el caso del coeficiente alfa de Cronbach, ya que el valor de los indicadores de fiabilidad depende del uso específico que se vaya a hacer del test. La precisión necesaria del test será mayor cuanto más graves sean las consecuencias de la aplicación del test y cuanto mayor sea el nivel de discriminación entre puntuaciones que necesitemos. Por ejemplo, si queremos aplicar un test que discrimine entre alumnos con notables, sobresalientes y matrículas de honor, necesitaremos un indicador de fiabilidad más alto que si simplemente queremos discriminar entre aprobados y suspensos.
Se considera incorrecto decir fiabilidad del test, y es más correcto decir fiabilidad de las puntuaciones en el test. Con esto se pretende destacar que el coeficiente obtenido dependerá de la en la que lo hayamos calculado.
PSICOMETRÍA TEMA 4. Concepto y evidencias de validez Los estudios de fiabilidad nos informan de si estamos midiendo con mucho o con poco error de medida, pero no informan de qué atributo estamos midiendo. Los estudios de validez van a aportar significado a las puntuaciones que estamos obteniendo, permitiéndonos conocer si el uso que pretendemos hacer de ellas es o no adecuado. Las dianas representan las diferentes relaciones existentes entre la fiabilidad y la validez de las puntuaciones de un test. La diana A representa medidas muy poco fiables porque cada vez que medimos obtenemos medidas diferentes y medidas sin validez, ya que no están en el centro de la diana. La diana B representa medidas fiables pero no válidas, y la diana C representa medidas tanto fiables como válidas. Otro ejemplo: queremos saber cuánto pesa una cesta de castañas, para lo que utilizamos un metro y ponemos sobre él una castaña tras otra. Encontramos que puntúan 87, y cuando al día siguiente repetimos la medida, obtenemos exactamente la misma puntuación. Concluimos que las castañas de nuestra cesta pesan 87 gr. ¿Es la medida obtenida fiable? ¿Y válida? La medida es fiable, ya que obtenemos la misma medida las dos veces que medimos, pero la medida no el válida porque el metro no es el instrumento adecuado para medir la variable peso.
Primero estudiamos la fiabilidad de las puntuaciones en el test, y si comprobamos que el instrumento es fiable, pasamos a estudiar su validez.
La validación es el proceso de aportar evidencias de que las puntuaciones obtenidas mediante un test cumplen apropiadamente los objetivos para los que se elaboró. Como se trata de un proceso y no de una acción puntual, no acaba nunca. La validez es la consideración más importante a la hora de desarrollar y evaluar las puntuaciones de un test. Se trata de obtener evidencia acumulada que nos permita justificar la interpretación que se va a hacer de las puntuaciones. Por tanto, no es una cuestión de todo o nada, ya que algunas interpretaciones pueden avalarse y otras no. Una vez más, la validez de la que hablamos no es de un test, sino de las interpretaciones y las decisiones tomadas con las puntuaciones del test. La validez es un concepto unitario, pero hay varias estrategias para estudiarla. Las distintas estrategias proporcionan distintos tipos de evidencias que están basadas en el contenido, la estructura interna (validación de constructo, la relación con otras variables (evidencia convergente y discriminante y evidencia referida a un criterio —predictiva y concurrente—), el proceso de respuesta y las consecuencias de la aplicación del test.
Evaluación histórica del concepto de validez Una primera época en la conceptualización de la validez se extiende desde 1920 hasta 1950 y podría resumirse como un modelo de validez referida a un criterio. Este periodo está dominado por una mentalidad práctica: los tests servían para medir aquella variable observable con la que presentaban una alta correlación. Lo importante era que el test tuviese la capacidad de predecir un criterio externo. Este modelo es simple y eficaz si podemos disponer de un criterio plausible (por ejemplo, para predecir el rendimiento en un curso o un trabajo). Durante esta primera etapa también se buscaron argumentos sobre la validez de los tests mediante la revisión de sus contenidos por jueces expertos, con objeto de decidir si los elementos del test eran relevantes y representativos.
Su subjetividad es su principal limitación, ya que la evaluación recae sobre la opinión de unos jueces. Por lo tanto, a principios de 1950 el estudio de la validez estaba basado en la capacidad para predecir un criterio y en el análisis del contenido del test. Pero ¿qué hacer en situaciones donde no es posible disponer de un buen criterio? ¿Cuál sería el criterio para medir la Inteligencia o la Creatividad? En 1954 la APA publicó sus primeras normas sobre los tests, en las que se reconoce que la validación basada en un criterio no siempre es posible.
Surge así, en el periodo entre 1955 y 1989, un nuevo modelo de validez basado en el concepto de constructo.
Los constructos se definían como atributos no observables que se reflejaban en las respuestas a un test. Desde esta nueva conceptualización se considera que la validación es un proceso mucho más complejo cuya efectividad depende de la disponibilidad de un modelo teórico previo, de una teoría bien definida. Por su parte, Campbell PSICOMETRÍA y Fiske (1959), ofrecieron un procedimiento empírico para la validación del constructo basado en el análisis de las matrices Multirrasgo-Multimétodo (MRMM). La nueva conceptualización consideraba que la validación del constructo era una de las posibles aproximaciones al estudio de la validez: validez referida al criterio, validez de contenido y validez de constructo. Se instauró así la denominada concepción trinitaria de la validez. Los Standards de 1985 reconocieron la validez como un concepto unificado y que diferentes tipos de evidencia eran necesarias para diferentes tipos de interpretaciones. Se mantuvo la distinción entre validez de criterio, de contenido y de constructo. Eso sí, ya no se consideraban distintos tipos de validez, sino distintos tipos de evidencias que eran necesarias para diferentes tipos de interpretaciones. A partir de 1985 se adoptó una concepción amplia de la validez de constructo, tratando de establecer un marco de trabajo unificado, que englobaba también las evidencias sobre el contenido y sobre el criterio. Sin embargo, la nueva concepción no establecía guías; se convirtió en un “cajón de sastre” donde cabía casi cualquier tipo de evidencia. Ello puede explicarse, por un lado, por la carencia de teorías fuertes en Psicología. En ausencia de estas teorías, la validez de constructo tiende a ser muy abierta. Por otro lado, esta confusión vino alentada porque los tres tipos de evidencia coincidían con la estructura trinitaria de los tipos de validez. En la edición más reciente de las normas sobre los tests (la de 1999), que recoge el concepto de validez actualmente dominante, aclara lo siguiente:    Se enfatiza el carácter unitario de la validez. Se rechazan las tres categorías tradicionales de la validez.
La validación es una evaluación unificada de la interpretación, no simplemente un conjunto de técnicas.
Se destaca la centralidad de la validez de constructo en el proceso de validación, pero se pretende entender el constructo no ya exclusivamente como un atributo teórico sino como cualquier característica medida por un test. Se pretende una definición clara y detallada de las interpretaciones propuestas.
Se añaden dos nuevos tipos de evidencias: las basadas en el proceso de respuesta a los ítems de un test y en las consecuencias sociales del proceso de aplicación del test.
Aunque éste es la concepción dominante en la actualidad, recientemente, Borsboom y sus colaboradores la han sometido a fuertes críticas. Para ellos un test sería válido si y sólo si (1) el atributo existe y (2) variaciones en el atributo producen causalmente variaciones en los resultados de la medición. Esto significaría, por ejemplo, que las correlaciones entre las puntuaciones en el test y otras medidas no suponen más que una evidencia circunstancial de validez. Necesitamos, por tanto, una teoría que explique el proceso de respuesta a los ítems: cómo diferencias en el atributo conducen a diferentes puntuaciones en el test.
Evidencias sobre la validez de contenido Es fácil comprender la necesidad de examinar el contenido de un test como un primer paso para juzgar si un instrumento puede usarse para un propósito en particular. Es necesario aclarar que por “contenido del test” no nos referimos únicamente a los ítems que lo componen. Actualmente se incluyen, además, las instrucciones para su administración y los criterios para su corrección y puntuación. Para obtener evidencias sobre la validez de contenido del test hay que considerar 4 aspectos: 1. La definición del dominio La definición del dominio se refiere a la definición operativa del contenido. Por lo tanto, se trata de proporcionar una descripción detallada de las áreas de contenido y habilidades cognitivas que mide el test. En la mayoría de los tests educativos esta definición tiene la forma de una tabla de especificaciones de doble entrada, en la que las filas indican las áreas de contenido relevantes para el dominio en cuestión y las columnas indican las operaciones o procesos cognitivos implicados en la resolución de las tareas planteadas.
2. La representación del dominio La representación del dominio abarca dos aspectos: la representatividad y la relevancia. La representatividad del dominio indica la adecuación con que el contenido del test representa todas las facetas del dominio definido. Hay que examinar si todo el contenido del dominio está siendo medido y PSICOMETRÍA si hay facetas concretas que han sido infrarrepresentadas. Por su parte, al estudiar la relevancia examinamos el grado en que cada ítem del test mide el dominio definido, pudiéndose detectar problemas relativos a la presencia de contenidos irrelevantes.
Varianza del constructo no recogida en la medida: no están representados todos los contenidos del dominio (carencia en la representatividad) Constructo Test Varianza irrelevante al constructo: parte de los contenidos del test no son relevantes para el constructo (medimos cosas que no deberíamos medir) Parte del dominio del constructo que está recogido en el test Un panel de jueces expertos revisa y evalúa todos los ítems para decidir si los ítems representan de forma completa y suficiente el dominio. Se recomiendan al menos 10 jueces por estudio, ya que tienen que evaluar qué objetivos mide cada ítem mediante tareas de emparejamiento o escalas tipo Likert. Se pueden incluir ítems que no miden ningún objetivo para evaluar la efectividad de los jueces. Se han propuesto distintos indicadores, entre ellos, el índice de congruencia de Hambleton y Rovinelli (1978), el Content Validity Index CVI (% de valoraciones congruentes) y el índice de validez de contenido V de Aiken (1980), el cual no estudiaremos.
Ej.: Hipotética tarea de emparejamiento llevada a cabo por 5 jueces. ¿Qué ítem del test presenta las peores evaluaciones? ¿Qué juez parece desarrollar su tarea de forma menos eficaz? Observamos que el test mide 4 dimensiones (objetivos), y cada objetivo lo miden varios ítems. Así, los ítems 2 y 7 miden la primera dimensión del constructo, mientras que los ítems 4 y 6 miden la tercera dimensión del constructo. Los jueces ponen un 1 si creen que el ítem es adecuado para medir el objeto para el que fue diseñado y ponen un 0 si creen que no es adecuado. El ítem 10 es el que presenta las peores evaluaciones, ya que el índice de congruencia es 0.2, lo que indica que solo el 20% de los jueces dicen que el ítem es congruente con el objetivo para el que fue diseñado. Se recomienda que el índice de congruencia tenga un valor mayor a 0.7. El juez 2 es el que parece desarrollar su tarea de forma menos eficaz, ya que no ha detectado ninguno de los 3 ítems de relleno. Además, sólo el 58% de sus clasificaciones son congruentes; es decir, de 12 juicios, solo acierta en 7.
 Índice de congruencia de Hambleton y Rovinelli Evalúa la congruencia ítem-objetivo. La tarea del juez consiste en asignar una puntuación a cada ítem: un -1 si el ítem NO mide el objetivo, un 0 si tiene dudas y un 1 si el ítem mide el objetivo. En la siguiente fórmula, N es el número de objetivos, j es el ítem, k es el objetivo, Xjk es la media del ítem j en el objetivo k y Xj es la media del ítem en todos los objetivos. Esta fórmula se suele aplicar el tests con pocos objetivos y pocos ítems.
Ej.: Evaluaciones de 4 jueces en 2 ítems y 5 posibles objetivos El juez 1 en el ítem 1 ha marcado un +1, lo que indica que el ítem mide el objetivo. Como ha marcado -1 en el resto de objetivos, indica que cree que el ítem 1 no mide el resto de objetivos.
El máximo valor del índice de congruencia es 1, en caso de que todos los jueces coincidan en que el ítem 1 mide solo el objetivo 1 y no el resto de los objetivos.
PSICOMETRÍA ¿Qué valoraciones deberían dar los jueces al ítem 6 para que consiga el valor mínimo posible en el objetivo 2? OBJETIVOS Para que el ítem 6 consiga el valor mínimo posible en el objetivo 2, todos los jueces deben puntuar -1, lo que indicaría que ninguno de ellos cree que el ítem 6 mide el objetivo 2. Por tanto, la media debe ser -1.
Todos los jueces puntúan -1 en el objetivo k y puntúan +1 a todos los demás objetivos -1 ≤ Ijk ≤ +1 ÍTEM 6 1 2 3 JUEZ 1 1 -1 1 JUEZ 2 1 -1 1 JUEZ 3 1 -1 1 MEDIA 1 -1 1 Todos los jueces puntúan +1 en el objetivo k y puntúan -1 a todos los demás objetivos Ej.: ¿Qué evaluación otorga el juez 1 al ítem 1 en el objetivo 1? Un 7, lo que nos indica que, de acuerdo con el juez 1, el ítem 1 es adecuado para medir el objetivo 1.
¿Qué ítem refleja mejor el contenido del objetivo 1? El ítem 2, ya que presenta la media más alta (6.4 sobre 7) y la mediana más alta (7).
¿Qué ítem refleja peor el contenido del objetivo 1? El ítem 3, ya que presenta las medias (3.3) y medianas (3) más bajas.
¿En qué ítems se da un menor desacuerdo entre los jueces? En los ítems 5 y 6, ya que el rango, la diferencia entre la puntuación más alta y la más baja, es el más pequeño (de 3 puntos).
Lo ideal es que el rango sea 0, es decir, que haya un máximo acuerdo entre los jueces.
¿De qué juez dudaríamos sobre la calidad de sus evaluaciones? Del juez 5, ya que muestra la discrepancia más alta respecto a la mediana (de 37 puntos).
3. La adecuación del procedimiento de construcción del test Consiste en aplicar una serie de controles de calidad que permitan detectar diversos problemas. Por ejemplo, llevar a cabo revisiones para ver si hay problemas técnicos con el contenido (ej.: un problema que no se puede resolver porque le falta un dato), si se ha justificado adecuadamente el formato de ítem elegido, si se ha violado alguna norma de redacción de los ítems, si hay contenidos irrelevantes que puedan ofender a un grupo de personas sobre otro, etc.
Evidencias basadas en los procesos de respuesta Se estudia si la ejecución de los evaluados en el test refleja los procesos psicológicos o las operaciones cognitivas especificadas en la definición del dominio del test. Es decir, se estudia el ajuste entre el constructo y el procesamiento que siguen las personas para responder a los ítems. Esta evidencia se incluyó por primera vez en los Standards de 1999. Algunos de los métodos empleados son:   Tiempos de respuesta. Se registran los tiempos de respuesta y se relacionan con la complejidad de las operaciones cognitivas implicadas en la respuesta a los ítems y con su dificultad.
Modelos psicométricos de procesamiento. Se especifica un modelo sobre los procesos cognitivos implicados en la respuesta, se generan ítems y se evalúan las previsiones del modelo. Un ejemplo de modelo psicométrico es el modelo lingüístico lineal de Fisher, que descompone el parámetro de PSICOMETRÍA  “dificultad del ítem” en parámetros que son específicos de las operaciones cognitivas implicadas en su resolución. Fisher identificó 8 operaciones implicadas en la resolución de derivadas de funciones, y que para cada ítem se necesitaba dominar un subconjunto de operaciones.
Entrevista cognitiva. Es un método de uso creciente que consiste en una entrevista semiestructurada en la que el entrevistador hace preguntas “follow-up probes” para conseguir diferente información relativa a los procesos de respuesta. Por ejemplo, how did you arrive at that answer? Tell me what you were thinking o Can you repeat the question I just asked in your own words? Evidencias basadas en las consecuencias de aplicación del test Consiste en la valoración de las consecuencias —intencionales o no, positivas o negativas— de la aplicación de un test. Este tipo de evidencias son especialmente relevantes en las evaluaciones educativas a gran escala. Por ejemplo, los TAIs (Tests Adaptativos Informatizados) son más cortos que los tests normales; ¿afecta esto a cómo se preparan las personas el examen? Dicho con otras palabras, ¿los estudiantes estudiarán lo mismo para un examen que durará 20 minutos que para uno que durará 2 horas? No, por lo que al ser más cortos los exámenes los estudiantes sacan peores notas. Otro ejemplo es la Ley No Child Left Behind aprobada en EEUU en el 2001, que establece que las escuelas reciben recursos en función de sus resultados. Esto provoca un estrechamiento curricular, también conocido como efecto teaching to test: si el examen de Matemáticas de la PAU, por ejemplo, consta de un 80% de preguntas de cálculo, el profesor no dedica casi tiempo a la resolución de aplicaciones prácticas de la suma (ej.: problemas con texto).
Evidencias basadas en la relación del test con otras variables 1. Evidencia convergente. Buscar evidencia convergente consiste en buscar evidencia de que nuestro test correlaciona con otras medidas del mismo constructo obtenidas con diferentes tests. Por ejemplo, que la puntuación de estudiantes de Primaria en un test que mide actitud hacia la escuela correlaciona con las valoraciones que da un profesor sobre sus actitudes.
2. Evidencia discriminante. Buscar evidencia discriminante consiste en buscar evidencia de que nuestro test correlaciona con medidas de constructos diferentes insertos en el modelo teórico en el que se encuadra el constructo de interés. Por ejemplo, que las puntuaciones de los estudiantes de Primaria en el test de actitud hacia la escuela correlaciona menos con un test de actitud hacia los deportes que con las valoraciones sobre actitud hacia la escuela proporcionadas por el profesor.
Una buena forma de buscar evidencia convergente y discriminante es mediante:  Estudios cuasi-experimentales  estudios de comparación de grupos que difieran en el rasgo, utilizando baterías neuropsicológicas (con/sin lesión), tests de conocimientos (expertos / novatos) o tests de desarrollo (1 años / 2 años / 3 años). Por ejemplo, aplicar un test de satisfacción familiar a personas que están en terapia familiar y a personas que no lo están.
 Estudios experimentales  estudios con manipulación de factores, como la instrucción (antes / después) o la terapia (antes / después). Por ejemplo aplicar un test de ansiedad estado después de haber inducido a los participantes una situación de ansiedad emocional.
 Estudios correlacionales  se obtienen las correlaciones entre las puntuaciones obtenidas en dos o más tests para establecer si miden o no el mismo constructo. Si la previsión es que miden el mismo constructo, se estaría buscando una evidencia de validez convergente. Si la hipótesis de partida es que los tests miden constructos diferentes, se estaría buscando evidencia discriminante.
En 1959 Campbell y Fiske propusieron un diseño para analizar la validez convergente y discriminante, basado en el estudio de la denominada matriz multirrasgo-multimétodo (MRMM). Para estos autores un test es el resultado de unir un constructo con un procedimiento de medida. Cuando las puntuaciones de dos instrumentos covarían puede deberse a que comparten un constructo común o a que comparten un método de evaluación. Para separar ambos aspectos, y así estudiar las contribuciones relativas de la varianza del constructo y del método, propusieron un diseño en el que una muestra de sujetos es ...

Tags:
Comprar Previsualizar