Resum lectures 3.9.1 i 3.9.2 (BT3, conferència 16 d'octubre) (2017)

Resumen Español
Universidad Universidad Autónoma de Barcelona (UAB)
Grado Psicología - 3º curso
Asignatura Psicometria
Profesor E.P.
Año del apunte 2017
Páginas 17
Fecha de subida 29/10/2017
Descargas 2
Subido por

Vista previa del texto

Psicometria Laura Casado Resum lectures 3.9.1 i 3.9.2 (BT3, conferència 16 d’octubre) 3.9.1. Reviseu, si us cal, els conceptes d’esbtadística inferencial i bivariada (proves de xiquadrat i t de Student, correlació, ANOVA i regressió lineal) que heu estudiat en cursos anteriors. També podeu llegir els següents fragments del llibre de text (Abad et al., 2011): capítol 14 (excepte pp. 494-502). Aquests continguts són necessaris per resoldre les activitats de la 3.10 a la 3.12 i no s’explicaran durant aquest curs.
Resumen: Capítulo 14: Otras estrategias de validación.
1. El análisis de regresión lineal múltiple y la validez referida a un criterio 1.1: Marco de trabajo En los contextos aplicados es muy frecuente que el uso de una única variable predictora sea insuficiente para conseguir una capacidad de pronóstico adecuada, siendo habitual el uso de múltiples variables para lograr un modelo con un poder predictivo razonable. En estos casos la técnica a aplicar es la Regresión Lineal Múltiple (RLM), que es una extensión de la regresión lineal simple. La diferencia está en el número de variables predictoras empleadas. Esta técnica permite examinar la capacidad de un conjunto de variables predictoras para predecir la variable criterio. Ecuación: 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽𝑘 𝑋𝑘𝑖 + ⋯ + 𝛽𝐾 𝑋𝐾𝑖 + 𝜀𝑖 El criterio (Y) se expresa como una combinación lineal ponderada de las variables predictoras (X), hay una intersección y cada predictor tiene su propio peso. Cada uno de los pesos es el correspondiente coeficiente de regresión y 𝜀𝑖 es el error en la predicción para cada caso.
La combinación lineal excluyendo el error se conoce como el valor pronosticado (𝑌̂), que es la puntuación que se esperaría para la persona en el criterio a partir de sus puntuaciones en las variables predictoras.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝛽𝑘 𝑋𝑘𝑖 + ⋯ + 𝛽𝐾 𝑋𝐾𝑖 Los pesos beta se obtienen a partir de una muestra concreta.
Una pregunta que se plantea en RLM es cuál es el tamaño muestral necesario. Generalmente se considera que menos de 5 sujetos por variable predictora es inaceptable incluso para una investigación de carácter exploratorio. Si se usa un método de regresión conocido como por pasos (stepwise) se recomienda que N≥40K.
1.2: La correlación múltiple Al llevar a cabo una RLM tenemos que generar e interpretar varias correlaciones de Pearson (r) y una correlación múltiple (Rm). La correlación de Pearson se usa para expresar la relación lineal entre dos variables de interés, mientras que Rm expresa la relación entre el conjunto de variables predictoras y la única variable criterio. Es decir, Rm se define como la correlación de Pearson entre las puntuaciones en el criterio y los pronósticos obtenidos mediante la ecuación de Psicometria Laura Casado regresión. En el caso de la regresión simple sólo tenemos una correlación de Pearson y Rm es igual a r. En el caso de dos variables predictoras hay tres correlaciones diferentes: la correlación de cada predictor con el criterio (rX1Y y rX2Y), y la correlación de los dos predictores entre sí (rX1X2).
Las correlaciones de Pearson nos permiten realizar algunas consideraciones previas: • • Basándonos en las correlaciones entre cada predictor y el criterio se puede decidir si una variable puede ser descartada (p. ej., si la correlación con la variable criterio es próxima a 0).
Examinar las correlaciones entre cada par de variables predictoras también puede ser útil, ya que si estos valores son elevados nos encontraremos ante un problema de multicolinealidad. Una vez que se han analizado las correlaciones de Pearson entonces se realiza el análisis de regresión múltiple.
El estadístico más importante que obtenemos en una RLM es la correlación múltiple Rm, e indica la proporción de varianza del criterio compartida con la combinación lineal de las variables predictoras óptimamente ponderadas.
El valor R2m que obtenemos en una muestra es una estimación sesgada del valor poblacional. La correlación múltiple corregida (𝑅̃2m) toma diferentes nombres (corregida, ajustada o reducida).
Para unos mismos datos, 𝑅̃2m es necesariamente menor que R2m.
1.3: Los coeficientes de regresión Los pesos β1… βK también se llaman pendientes o coeficientes de regresión. Al peso β0 se le denomina intersección o constante. La intersección representa el punto en que la ecuación de regresión corta al eje de ordenadas y es el valor del criterio cuando todos los predictores valen 0. El valor de βk indica el número de unidades que el criterio cambia si el predictor aumenta en una unidad y se mantienen constantes los restantes predictores. Si es negativo, el valor del pronóstico disminuye βk unidades cuando Xk aumenta en una unidad. Inversamente, si βk es positivo, el valor del pronóstico aumenta cuando Xk aumenta.
Las variables del análisis pueden estandarizarse (se convierten en puntuaciones típicas). con los datos estandarizados no hay intersección. Los pesos mostrados en la ecuación anterior se conocen como coeficientes de regresión estandarizados. Indican el número de desviaciones típicas que cambia el criterio por cada desviación típica que cambia la variable predictora.
Ejemplo: si un predictor tiene un peso estandarizado de 0,5 esto significa que, manteniendo constantes las otras variables predictoras, la ecuación de regresión pronostica un aumento de media desviación típica por cada desviación típica que aumenta la variable predictora. Estos coeficientes son muy útiles porque permiten valorar la importancia relativa de cada variable predictora en los pronósticos. Se recomienda estandarizar los pesos, antes de comparar su importancia relativa.
Aunque parece lógico concluir que un mayor peso estandarizado implica una mayor contribución, esto no es necesariamente cierto si las variables predictoras presentan multicolinealidad moderada o elevada, problema que abordaremos en las siguientes páginas.
Psicometria Laura Casado Los denominados como coeficientes de estructura superan, en parte, estas distorsiones. Un coeficiente de estructura es el valor de la correlación entre cada predictor y los valores pronosticados en el criterio (rs); dicho de otra manera, expresan el grado en que un predictor es reproducido en el cálculo de 𝑌̂. En el caso de la regresión simple el coeficiente de estructura para el único predictor vale 1, ya que el pronóstico es una transformación lineal del predictor.
Por tanto, al determinar qué variables son más importantes en la regresión, los coeficientes de estructura proporcionan una información más precisa que los pesos estandarizados.
El diagrama representa un criterio y dos variables predictoras. El área del criterio que está cubierta por los círculos de las variables predictoras indica la proporción de varianza del criterio compartida con las predictoras, es decir R2m. La figura nos muestra que el área es igual a la suma de las superficies designadas como a, b y c, donde a y b representan la proporción de varianza del criterio compartida respectivamente con X1 y con X2 y el área c representa la parte de esta varianza que es compartida a la vez con las dos predictoras. El área e representa la parte de la varianza del criterio que no se comparte con ninguna de las variables predictoras. Las áreas a y b representan el valor de los coeficientes de correlación semiparcial al cuadrado y son iguales al incremento en R2m cuando la variable se añade a la ecuación. El valor r2X1X2 corresponde a la parte común de los dos círculos de los predictores.
Otra forma de describir la participación de cada predictor en la correlación múltiple nos la da el coeficiente de correlación parcial (prk). La correlación parcial al cuadrado de X1 es la proporción de varianza del criterio no asociada con el predictor X2 que está asociada con el predictor X1. Las correlaciones parciales siempre mayores que las semiparciales, excepto cuando la correlación entre las variables predictoras sea nula (en ese caso ambas tomarán el mismo valor).
1.4: Las pruebas de significación Con el objetivo de calcular la significación de la correlación múltiple, podemos obtener el cociente F. Si el estadístico F es significativo se rechaza la hipótesis nula de ausencia de relación lineal entre la combinación de variables predictoras y el criterio.
Además, podemos comparar modelos al incluir predictores en la ecuación. Los grados de libertad de Fcambio son n1 y n2 , siendo n1 el número de predictores del modelo completo menos Psicometria Laura Casado el número de predictores del modelo reducido y siendo n2 igual a los grados de libertad de la suma de cuadrados error del modelo completo, es decir N – K – 1.
Lo habitual es que si el peso de un predictor no alcanza la significación al nivel de 0,05 sea eliminado de la ecuación.
Los intervalos indican el rango de valores plausibles para cada coeficiente de regresión en la población. Si el intervalo de confianza incluye el valor cero, entonces no podemos rechazar la hipótesis nula de que el coeficiente de regresión vale cero en la población.
La fiabilidad con la que se miden las variables predictoras y el criterio afecta al cálculo de los coeficientes de regresión. Cuanto menor es la fiabilidad más se acerca a cero el correspondiente coeficiente. Es decir, la falta de fiabilidad conduce a una infraestimación de los coeficientes de regresión. Este problema se conoce como atenuación (cap. 5).
1.5: Supuestos Las condiciones de aplicación para poder realizar una RLM son básicamente las mismas que las de la regresión lineal simple, pero adecuándose a la situación de múltiples predictores. El incumplimiento de uno de los supuestos puede tener dos consecuencias.
• • La primera y más seria es que la estimación de los coeficientes de regresión puede estar sesgada  en este caso los coeficientes de regresión, los contrastes de significación y la correlación múltiple pueden ser todos incorrectos.
En segundo lugar, sólo la estimación del error típico de los coeficientes de regresión puede estar sesgada; en este caso el valor de los coeficientes es correcto, pero los intervalos de confianza pueden no serlo.
Los supuestos que veremos están asociados al método de estimación de Mínimos Cuadrados Ordinarios (OLS): a) El modelo está apropiadamente especificado.
b) Los errores (y por tanto la variable criterio Y) se distribuyen normalmente.
c) Existe una relación lineal entre las variables predictoras y la variable criterio. Forzar relaciones lineales en datos que están relacionados de forma curvilínea puede conducir a errores en la comprensión de la relación entre predictores y criterio.
d) Homocedasticidad (o supuesto de la varianza error constante), que implica que los errores que cometamos para los distintos valores de las variables predictoras tienen varianzas iguales.
Cuando se cumplen los supuestos, las estimaciones obtenidas por el método de mínimos cuadrados ordinarios tienen tres propiedades importantes: a) Son insesgadas, lo que significa que la media de los coeficientes de regresión obtenidos en múltiples muestras para un predictor sería igual al coeficiente obtenido en la población.
b) Son consistentes, esto es, los errores típicos son más pequeños cuanto mayor es el tamaño de ls muestra.
Psicometria Laura Casado c) Son eficientes, es decir, ningún otro método de estimación produciría un error típico más pequeño.
El incumplimiento de estos supuestos puede requerir el uso de procedimientos de estimación alternativos. Ejemplo: el método de Mínimos Cuadrados Ponderados (Weighted Least Squared, WLS), permite que la varianza de los errores no sea constante. Este método consiste en minimizar la suma de los errores al cuadrado ponderados. Observaciones del WLS: • • Dificultad de elegir el peso adecuado para cada caso.
Como consecuencia este método funciona mejor cuando el tamaño muestral es grande o cuando tenemos múltiples casos para cada valor de las variables predictoras, como ocurre en un experimento.
1.6: Multicolinealidad La multicolinealidad se produce cuando existen correlaciones altas entre dos o más variables predictoras. Si una variable predictora está muy relacionada con otra o varias de las restantes, aportará poca información única a la predicción del criterio. La multicolinealidad depende sólo de las variables predictoras, con independencia del criterio elegido.
En el caso límite, cuando la correlación entre dos predictores toma el valor máximo, los coeficientes de regresión no se pueden calcular. Estas formas de multicolinealidad exacta aparecen cuando la suma de dos predictores es igual a una constante o cuando obtenemos puntuaciones mediante la transformación de otras variables predictoras incluidas en la ecuación. La correlación múltiple entre cualquiera de las variables predictoras y las restantes valdrá 1.
1.6.1: Efectos de la multicolinealidad La presencia de multicolinealidad puede hacer que un coeficiente de regresión determinado no refleje el efecto inherente del predictor.
1.6.2: Detección de la multicolinealidad La presencia de la multicolinealidad se examina: a) Mediante el cálculo de la matriz de correlaciones entre variables predictoras. La correlación elevada entre dos variables predictoras es un indicador de multicolinealidad bivariada. Aunque no hay un valor de corte exacto, Beck indica que no deben incluirse como predictoras dos variables que correlacionen en valor absoluto más de 0,80.
b) El cálculo de los Factores de Inflación de la Varianza (FIVk). Un FIVk para un predictor indica el grado en que la varianza del coeficiente de regresión aumenta en relación a la situación en la que todos los predictores fuesen independientes. Una regla general es que un FIVk de 10 o más nos proporciona evidencia de problemas serios de multicolinealidad para la variable predictora Psicometria Laura Casado c) Algunos programas estadísticos incluyen una medida de Tolerancia, que es el recíproco de FIVk. La Tolerancia es el porcentaje de varianza de una variable predictora que no es explicada por las otras variables predictoras. Lo ideal sería que la tolerancia fuese 1. Si la tolerancia vale 0 esto significa que la relación lineal es perfecta para ese predictor; es decir, la multicolinealidad sería máxima. Valores inferiores a 0,10 podrían indicar un problema grave de multicolinealidad.
d) Obtener el Índice de condición (IndCondk). Para calcular este índice se ejecuta un análisis de componentes principales sobre la matriz de correlaciones entre las variables predictoras (cap. 6).
Hay diferentes formas de afrontar el problema de la multicolinealidad: • • Cuando un investigador está interesado solamente en la correlación múltiple al cuadrado la multicolinealidad tiene un efecto pequeño y no es necesario emprender ninguna acción para remediarla.
Si el investigador está interesado en el valor de los coeficientes de regresión la presencia de multicolinealidad representa un problema serio y se han propuesto varias acciones para resolverlo. EN algunos casos es posible revisar el modelo: o Podemos combinar todas estas medidas en un único indicador. Una manera sencilla puede ser tipificar las variables y luego sumar las puntuaciones típicas.
o Otra manera de reespecificar el modelo es usar la teoría previa como guía para decidir qué variable eliminar.
o Otra solución puede ser aumentar el tamaño de la muestra. La adición de datos reduce algunos de los problemas relacionados con la muticolinealidad.  La adición de datos reduce algunos de los problemas relacionados con la muticolinealidad. Muestras más grandes incrementan la precisión en la estimación de los pesos, pero el patrón de correlaciones entre variables predictoras no es de esperar que cambie.
1.7: Regresión por pasos En este método se decide qué variables entrarán a formar parte del modelo definitivo en función de su contribución a R2m. El objetivo es conseguir la mayor correlación múltiple con el menor número de variables predictoras.
a) En el método stepwise se selecciona en el primer paso la variable predictora que más correlaciona con el criterio, si esta correlación resulta significativa.
b) En la etapa siguiente se selecciona aquella variable predictora que tiene la mayor correlación parcial y, por lo tanto, que hace la mayor contribución a la correlación múltiple.
c) Cada vez que se incluye un nuevo predictor en el modelo se examinan los predictores que ya habían sido incluidos, de modo que un predictor incluido en un paso puede ser eliminado en un paso posterior.
d) Se termina el proceso cuando ninguna de las variables que quedan por introducir hace una contribución significativa a la correlación múltiple, según un criterio de significación preestablecido (que suele ser 0,05).
Psicometria Laura Casado Especificaciones que deben cumplirse para poder aplicarlo: a) El objetivo de la investigación es principalmente predictivo, y no tanto explicativo.
b) La muestra es de gran tamaño y el conjunto de variables predictoras no es demasiado grande.
c) Se realiza un estudio de validación cruzada, repitiendo el análisis en una nueva muestra antes de realizar una interpretación sustantiva de lo encontrado.
2. La generalización de la validez Se ha enfatizado que las propiedades psicométricas no son de los tests, sino de las puntuaciones que se obtienen en diversos contextos aplicados. Por tanto, los coeficientes de fiabilidad y de validez no son constantes ni inmutables, ni pueden generalizarse automáticamente a aplicaciones (muestras) distintas a aquellas donde han sido obtenidos.
Con la expresión generalización de la validez nos referimos a la aplicación de los resultados disponibles sobre validez referida a un criterio, a nuevas situaciones, nuevas poblaciones y posiblemente a nuevos tests similares a aquellos en los que se ha realizado el estudio. Ejemplo: En varios estudios se muestra que un test de Responsabilidad ayuda a predecir el rendimiento laboral de los trabajadores de banca y de los policías. ¿Es adecuado utilizar las puntuaciones de ese test para predecir el rendimiento laboral de otros trabajadores, en otros lugares, en otros puestos…? El estudio de generalización responderá la pregunta anterior.
Un modo de estudiar la consistencia de los resultados, es decir, el grado en que se generalizan los coeficientes de fiabilidad y de validez, es aplicar técnicas de meta-análisis a los resultados psicométricos obtenidos en dichos estudios. Básicamente, lo que se hace en un meta-análisis psicométrico es aplicar técnicas estadísticas para estimar la media y variabilidad de los coeficientes obtenidos en diferentes aplicaciones del mismo test (o de diferentes tests para evaluar los mismos rasgos), así como determinar las variables responsables de dicha variabilidad.
Para estimar el promedio de un determinado coeficiente (sea de fiabilidad o de validez), es común obtener la media ponderada (por ejemplo, considerando el tamaño muestral) de los valores obtenidos en el conjunto de las investigaciones estudiadas, con objeto de dar mayor peso a los coeficientes mejor estimados.
En un meta-análisis psicométrico es clave estudiar la variabilidad de los coeficientes en los diversos estudios analizados, dado que unos valores muy diferentes no ayudarán a generalizar el valor medio hallado. Para ello, se obtienen diferentes estadísticos a partir de los cuales se pone a prueba la hipótesis de que la variabilidad de los coeficientes es mayor que la esperada por azar.
Psicometria Laura Casado 3.9.2. Llegiu els següents fragments dels capítols 5 i 14 del llibre de text (Abad et al., 2011): evidències basades en la relació amb altres variables (pp. 171-180, 185-190, 192-195) i l’apartat validez diagnóstica de las puntuaciones (pp. 504-510).
Els continguts assenyalats són bàsics, necessaris per fer les activitats de la 3.10 a la 3.12, i per presentar-vos a l’examen. Se’n destacaran els aspectes principals a la classe corresponent programada. En canvi, cal que pareu atenció als indicadors de validesa en relació amb variables externes que s’utilitzen al manual del vostre projecte, ja que segons com sigui l’argument interpretatiu, pot ser que se’n facin servir alguns dels bàsics i també alguns altres de més específics. En aquest cas, us pot ser útil informar-vos sobre els continguts específics tot llegint altres parts del llibre de text o cercant informació en altres fonts. No cal dir que totes les fonts que utilitzeu han de ser de credibilitat contrastada.
Resumen: Capítulo 5: Concepto y evidencias de validez 1. Evidencias basadas en relación con otras variables El objetivo es establecer si las relaciones observadas entre las puntuaciones en el test y otras variables externas relevantes son consistentes con la interpretación propuesta para las puntuaciones. Ejemplo: Se predice (y comprueba) que la escala de susceptibilidad al castigo (que mide el grado de evitación de situaciones aversivas) debe proporcionar puntuaciones relacionadas directamente con neuroticismo e inversamente con estabilidad emocional. Puede pasar que: • • Si las relaciones observadas son consonantes con lo predicho por el modelo teórico en el que se inserta el constructo medido por el test, entonces hemos obtenido evidencia favorable a la interpretación propuesta.
Si las relaciones observadas no son las esperadas hay que cuestionar la adecuación de la prueba, la adecuación de las medidas de las otras variables o incluso el modelo teórico.
Las variables externas relevantes a las que hacemos alusión pueden ser: a) Otras medidas del mismo constructo obtenidas con diferentes tests.
b) Medidas de constructos diferentes pero que se insertan en el modelo teórico donde se encuadra el constructo de interés c) Algún tipo de variable (criterio) que pretendamos predecir a partir de las puntuaciones en el test.
Se examinaran por separado las evidencias para establecer la relación del test con otros constructos (evidencia convergente y discriminante) y del test con algún criterio(validez referida a un criterio).
1.1: La evidencia convergente y discriminante Buscamos examinar las relaciones previsibles entre las puntuaciones en el test y otros constructos, ya sean similares (evidencia convergente) o diferentes (evidencia discriminante) a los que se pretenden medir con el test. Ejemplo: Podemos pensar que las puntuaciones en un Psicometria Laura Casado test de opción múltiple de razonamiento lógico se relacionarán estrechamente con otra medida de razonamiento lógico basada en la resolución de problemas (evidencia convergente). Sin embargo, si medimos además otro constructo diferente, por ejemplo la comprensión lectora, esperamos que la relación entre ambas mediciones sea menor (evidencia discriminante).
Un diseño para analizar la validez convergente y discriminante se basa en el estuo de la matriz multirasgo-multimétodo (MRMM). Una muestra de sujetos es evaluada en un conjunto de constructos, medidos cada uno con un conjunto de métodos diferentes. La matriz MRMM incluye todas las correlaciones entre condiciones de medida. El objetivo es evaluar los efectos de la varianza atribuida al constructo de interés y la varianza del método (varianza atribuible al método de medida específico)  efecto del método altera las correlaciones entre los constructos introduciendo sesgos sistemáticos. Idealmente, una medida no debería contener efecto del método. En contraste, los estudios MRMM han mostrado que las puntuaciones en los tests psicológicos y educativos contienen una cantidad sustancial de efecto del método.
Adicionalmente, una MRMM también proporciona información sobre el patrón de asociaciones entre constructos y las posibles interacciones entre métodos y constructos.
1.1.1: Organización de las matrices MRMM La selección de rasgos y métodos debe hacerse de modo que: a) Cada uno de los métodos sea adecuado para medir todos los constructos de interés.
b) Los diferentes métodos sean lo más independientes posible entre sí.
c) Los constructos incluidos varíen en el grado de asociación entre ellos, con constructos altamente relacionados y otros en los que la asociación sea muy baja.
Para interpretar esta matriz hay que identificar 4 grupos de correlaxiones: a) El primer grupo está formado por las correlaciones obtenidas entre los mismos constructos usando los mismos métodos (datos entre paréntesis). Son las correlaciones monorrasgo- monométodo y conforman las diagonales de la fiabilidad.
b) El segundo grupo lo forman las correlaciones entre las medidas del mismo constructo cuando se utilizan distintos métodos (datos en cursiva negrita). Son las correlaciones monorrasgo-heterométodo. Muestran evidencia sobre la convergencia y constituyen las diagonales de la validez.
c) El tercer grupo lo componen las correlaciones entre distintos constructos medidos con el mismo método (datos subrayados) o correlaciones heterorrasgo-monométodo. Estas correlaciones forman triángulos situados de forma adyacente a cada diagonal de la fiabilidad.
d) El cuarto grupo está formado por las correlaciones entre distintos constructos y distintos métodos, correlaciones en las que no se comparte ni el constructo ni el método, es decir, heterorrasgo-heterométodo. Nótese que forman triángulos adyacentes a la diagonal de la validez y que ambos triángulos no son iguales.
Psicometria Laura Casado Ejemplo: Los métodos 1 y 2 son dos formas distintas de medir las actitudes. Los constructos A, B y C son, respectivamente, sentimientos, creencias e intenciones de actuar.
1.1.2: Interpretación de las matrices MRMM Se debe hacer una inspección visual de la matriz examinando 4 propiedades: a) En primer lugar, hay que evaluar la diagonal monorrasgo-monométodo (o de la fiabilidad). Estos coeficientes deberían ser, de modo consistente, los más altos de la matriz, porque es poco probable que una medida correlacione más con cualquier otra cosa que consigo misma (por ejemplo, en dos aplicaciones). En nuestro ejemplo, las correlaciones varían entre 0,93 y 0,98 indicando valores elevados de la fiabilidad.
b) En segundo lugar, las correlaciones monorrasgo-heterométodo son tomadas como indicadoras de evidencia convergente, porque nos informan del grado en que diferentes métodos son congruentes al medir el mismo constructo. Estas correlaciones deberían ser significativamente distintas de cero y lo suficientemente altas para que tenga sentido continuar un análisis de la validez. Idealmente, todos los métodos deberían proporcionar el mismo ordenamiento de los individuos para un particular constructo.
En nuestro ejemplo, estas correlaciones son altas (varían entre 0,74 y 0,86) lo que sugiere que los diferentes métodos producen resultados similares para los tres constructos. El hecho de que estas correlaciones sean elevadas es una condición necesaria, pero no suficiente, para asegurar la convergencia. Es posible que estas correlaciones estén sobrestimadas por un factor irrelevante (por ejemplo, la varianza del método), y por eso es necesario examinar las correlaciones que nos proporcionan evidencia sobre la divergencia, tal como se indica a continuación.
c) En tercer lugar, las correlaciones monorrasgo-heterométodo hay que compararlas con los triángulos heterorrasgo-monométodo. Los valores en la diagonal monorrasgoheterométodo deberían ser más altos que los valores de los triángulos heterorrasgomonométodo, porque distintos métodos evaluando un mismo rasgo deberían correlacionar más que el mismo método evaluando rasgos distintos. Si no ocurriese esto, el método de medida explicaría una parte importante de varianza de las puntuaciones. En nuestro ejemplo, las correlaciones monorrasgo-heterométodo (0,75, 0,86 y 0,74) son, para cada comparación, mayores que las correlaciones obtenidas en los triángulos heterorrasgo-monométodo: 0,62, 0,19 y 0,17 (para el Método 1) y 0,60, Psicometria Laura Casado 0,21 y 0,20 (para el Método 2). Se debe cumplir también que las correlaciones monorrasgo-heterométodo sean más altas que las obtenidas en los triángulos heterorrasgo-heterométodo para la misma fila o columna. Esencialmente, si diferentes métodos están midiendo el mismo constructo, sus correlaciones deberían ser mayores que las de constructos distintos que están medidos usando métodos distintos. Por ejemplo, en nuestra matriz 0,75 es mayor que las correlaciones de su fila (0,60 y 0,18); y también es mayor que las correlaciones de su columna (0,59 y 0,19). La misma propiedad se cumple para 0,86 (mayor que 0,59, 0,17, 0,60 y 0,18) y también para 0,74 (mayor que 0,19, 0,18, 0,18 y 0,17).
d) En cuarto lugar, y para terminar, el investigador debe comparar los triángulos heterorrasgo-monométodo y heterorrasgo-heterométodo, ya que si dos rasgos están correlacionados, esta relación debería mantenerse con independencia del método utilizado para medirlos y el mismo patrón debería estar visible en todos los bloques monométodo y heterométodo. Si examinamos los datos de nuestro ejemplo, este criterio se satisface siempre. Además, para aquellos constructos que estén correlacionados, las correlaciones heterorrasgo-heterométodo deberían ser más altas que para los constructos que no lo estén.  Se cumple. Si medimos los constructos con el mismo método, encontramos que la relación entre los constructos A y B es más alta (0,62 y 0,60) que la existente entre los constructos A y C (0,19, 0,21) y también que la obtenida entre los constructos B y C (0,18, 0,20). Al comparar las relaciones entre los constructos cuando son medidos con distintos métodos, la relación entre los constructos A y B (0,59 y 0,60) sigue siendo mayor que la obtenida entre los constructos A y C (0,19, 0,18) y que la obtenida entre los constructos B y C (0,17, 0,18). También se obtiene evidencia sobre el efecto del método al examinar la magnitud diferencial de las correlaciones entre dos constructos diferentes medidos por el mismo método y las correlaciones entre los mismos dos constructos medidos por distintos métodos. Por ejemplo, los constructos A y B correlacionan 0,62 ó 0,60, según se midan con el Método 1 o con el Método 2. Si se miden con métodos distintos, las correlaciones difieren muy poco (0,59 y 0,60).
Resumen: Una matriz MRMM debería proporcionar evidencia a favor de la convergencia al medir los mismos constructos, de la divergencia al medir constructos distintos y de la ausencia de efectos del método. Limitaciones: • • • Por una parte, algunas asunciones claves subyacentes no están claramente definidas.
Por ejemplo, en el estudio de la matriz MRMM se asume la existencia de dos tipos de variables (método y rasgo), pero no se especifica su interacción; tampoco se considera el efecto del error de medida en la cuantía de las correlaciones.
Por otra parte, hay algunos problemas prácticos asociados con su uso. Por ejemplo, no siempre es posible disponer de un diseño completo “método x rasgos”; además, las matrices muy grandes pueden ser muy complicadas de evaluar.
También se ha criticado la ambigüedad de la interpretación, dado que a veces se producen resultados contradictorios dentro de una misma matriz.
Con el objetivo de afrontar la dificultad de interpretación de las MRMM se han desarrollado diversos procedimientos estadísticos para complementar le evaluación visual.
Psicometria Laura Casado 1.2: Evidencias sobre la relación entre el test y algún criterio relevante Utilizar el test para pronosticar determinados criterios de rendimiento (como el rendimiento escolar, el total de ventas que se van a conseguir, el aprovechamiento conseguido en un cursillo, etc.) se requiere que el test se relacione muy estrechamente con dichos criterios  necesidad de obtener evidencias de validez referida al criterio, lo cual requiere: a) b) c) d) Identificar un criterio y la manera adecuada de medirlo.
Elegir una muestra apropiada.
Obtener en la muestra medidas en el test y en el criterio.
Determinar el grado de relación ente ambos.
Para obtener la relación entre el test (X) y el criterio (Y), si son variables continuas, se calcula la correlación entre ambas variables, que se denomina coeficiente de validez (rXY) e indica el grado en que las puntuaciones en el test sirven para pronosticar con precisión las puntuaciones en el criterio. El coeficiente de validez no es una propiedad del test, sino que habrá un coeficiente específico en cada muestra donde se obtenga y para los diferentes criterios que puedan establecerse.
Cuando las puntuaciones en los tests van a emplearse para tomar decisiones importantes para los evaluados se necesitan tests con elevada validez referida al criterio.
Esta validez puede ser predictiva o concurrente: • • Las evidencias de validez predictiva reflejan la relación entre las puntuaciones en un test y un criterio, cuando el criterio se mide más tarde. Ejemplo: si en un proceso de selección de personal se aplica un test de aptitudes cognitivas, podrá correlacionarse con medidas de desempeño laboral sólo después de que los admitidos tengan la oportunidad de trabajar durante un tiempo.
En el caso de la validez concurrente, las medidas en el test y en el criterio se obtienen aproximadamente en el mismo momento.
1.2.1: Interpretación del coeficiente de validez Si las puntuaciones en el test (X) y en el criterio que se desea pronosticar (Y) son variables continuas, el modelo de regresión lineal simple permite cuantificar la capacidad predictiva del test. La hipótesis básica del modelo es la linealidad de la relación entre ambos. La función que relaciona las puntuaciones en el test con las del criterio deberá tener un incremento (o decremento) constante para los diferentes valores de X. Es importante complementar el cálculo del coeficiente de validez con el correspondiente diagrama de dispersión.
Ejemplo: Diagrama de dispersión de Y (calificación) sobre X (puntuaciones en un test de admisión). Se ha simulado una muestra de 1.000 estudiantes.
Psicometria Laura Casado Los alumnos con puntuaciones más altas (bajas) en el examen de admisión tienden a obtener una calificación promedio más elevada (baja) durante el primer curso del grado. En nuestro ejemplo la correlación entre ambas variables (coeficiente de validez) fue de 0,532, que indica una relación lineal positiva entre el test y el criterio.
La distancia vertical entre un punto y la línea de regresión es el error de pronóstico o residuo para ese punto. La recta de regresión se ha calculado usando el método de mínimos cuadrados ordinarios, que minimiza la suma de los errores al cuadrado. En nuestro caso, la capacidad predictiva del test no es muy elevada, ya que la mayor parte de los puntos distan bastante de la recta.
El coeficiente de validez es una correlación de Pearson y, por tanto, su interpretación más inmediata se fundamenta en el coeficiente de determinación, que es el cuadrado de la correlación y que indica la proporción de varianza que comparten las puntuaciones del test y del criterio. El coeficiente de validez de 0,532 de nuestro ejemplo indica que con el test se explica un 28,3% de la variabilidad o diferencias individuales en el criterio, mientras que el 71,7% restante se debe a variables diferentes al test.
1.2.2: Factores que afectan al coeficiente de validez La cuantía de la correlación entre el test y el criterio viene condicionada por: a) b) c) d) Fiabilidad del test.
Fiabilidad del criterio.
Auténtica relación entre el test y el criterio.
Caracteríticas de la muestra (tamaño, representatividad y variabilidad en el test y en el criterio).
Además, los errores de medida en el test y en el criterio sean independientes. Es decir que el coeficiente de validez obtenido refleje la relación verdadera entre las dos variables, y no sea debida en parte a otras variables extrañas e irrelevantes.
Psicometria Laura Casado 1.2.2.1: Fiabilidad del test y del criterio: El coeficiente de validez depende del nivel de precisión con que se miden las puntuaciones en el test y en el criterio. Una baja fiabilidad, ya sea en X o en Y, hará que el coeficiente de validez obtenido subestime la relación entre las puntuaciones verdaderas en el test y en el criterio.
Atenuación es el término que se usa para describir la reducción en la magnitud de la correlación entre dos medidas que está causada por su falta de fiabilidad. Corrección por atenuación: 𝑟𝑉𝑥𝑉𝑦 = 𝑟𝑋𝑌 √𝑟𝑋𝑋 𝑟𝑌𝑌 Ejemplo: Supongamos que un investigador desea conocer la validez de las puntuaciones en un test de “Afectividad negativa”, entendida como la tendencia general a experimentar emociones negativas, para predecir las puntuaciones en una escala de “Satisfacción laboral”. En una muestra de empleados, la correlación entre el test y el criterio fue 0,40. Dado que ambas puntuaciones están afectadas por errores de medida, aplica la corrección por atenuación utilizando los coeficientes de fiabilidad del test (0,84) y del criterio (0,76). Para ello, se despeja la correlación entre puntuaciones verdaderas en la expresión.
El nuevo coeficiente de validez, estimado como la correlación entre puntuaciones verdaderas (y por tanto después de corregir la atenuación), toma el valor de 0,50.
Otro asunto importante es el tipo de coeficiente de fiabilidad que debe ser usado para realizar la corrección por atenuación: test-retest, formas paralelas o consistencia interna. Lo más aconsejable es elegir uno u otro coeficiente en función de los objetivos pretendidos en el estudio de validez referida al criterio. Por ejemplo, si el interés es conocer la capacidad de un test para predecir, un año más tarde, el logro académico de los estudiantes, entonces deberíamos emplear un coeficiente de fiablidad test-retest. Si, por el contrario, estamos interesados en incrementar el número de ítems de un test con el objetivo de mejorar su capacidad pronóstica, entonces las estimaciones basadas en la consistencia interna.
Por otra parte, y atendiendo ahora a las relaciones entre la longitud de un test y su fiabilidad, es lógico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud del test (y, en su caso, del criterio) influya también en rXY, aunque de modo indirecto.
1.2.2.2: El tamaño, la representatividad t la variabilidad de la muestra en el test y en el criterio Para la estimación del coeficiente de validez es importante que la muestra donde se obtiene sea representativa de la población y de tamaño suficiente. el coeficiente de validez de un test respecto a un criterio es tanto más elevado cuanto mayor es la varianza de la muestra en ambos.
Ejemplo: un test de aptitud para la venta tendrá un coeficiente de validez mayor en una muestra de la población general (donde habrá heterogeneidad respecto a la aptitud por ser vendedor) que en una muestra de vendedores experimentados (seguramente obtendrían todos puntuaciones elevadas, y por tanto sería un grupo más homogéneo).
Psicometria Laura Casado Ejemplo 2: Reducción del coeficiente de validez a consecuencia de la reducción en la variabilidad de la muestra  Tomamos como ejemplo los datos obtenidos por simulación de la muestra de 1.000 estudiantes, en la que se intentaba predecir el promedio de las calificaciones obtenidas en el primer curso del grado de Psicología (Y ) a partir de las puntuaciones en un hipotético test de admisión al centro (X ). En la Tabla podemos observar las consecuencias que una reducción en la variabilidad de la muestra tendría para el coeficiente de validez. Si para calcular el coeficiente de validez dispusiésemos solamente de las puntuaciones en el criterio de los estudiantes que superaron el examen de admisión, que en nuestro ejemplo serían quienes obtuviesen 30 o más puntos en el test, el valor del coeficiente de validez sólo llegaría a 0,43. Al aplicar un punto de corte en el test, aprobar el examen, no sólo se reduce la variabilidad en el test, ya que también se reduce la variabilidad en el criterio; si la correlación entre test y criterio es elevada también se excluirán sujetos que tendrían puntuaciones bajas en Y.
La variable sobre la que se realiza la selección, en nuestro ejemplo el test, se denomina directa o explícitamente selectiva, y la variable cuya variabilidad se ve reducida indirectamente, en nuestro ejemplo el criterio, se denomina incidental o indirectamente selectiva.
En la medida que el poder predictivo de un test respecto a un criterio depende de rXY, habrá que considerar la variabilidad del grupo donde se ha obtenido. En ocasiones, por ejemplo en contextos de selección, es inevitable calcular el coeficiente de validez en una muestra de variabilidad reducida, ya que sólo de los admitidos podrá conocerse su rendimiento en el criterio Y. Nos encontramos entonces con un problema de restricción del rango de variación, puesto que nuestro interés era conocer el coeficiente de validez para el grupo completo de aspirantes que se presenta al proceso de selección.
Hay fórmulas que permiten corregir por restricción de rango en función de la información disponible (p. ej.: que no se conozcan las puntuaciones en el test para el grupo no seleccionado, que esto ocurra en el criterio o que se haya hecho la selección por una tercera variable).
Ejemplo: Cálculo del coeficiente de validez tras aplicar la corrección por restricción de rango, siendo el test la variable explícitamente selectiva Un test X se ha utilizado como prueba de selección para un determinado puesto de trabajo. La varianza de las puntuaciones obtenidas en el test en el grupo completo de aspirantes fue 12 y en Psicometria Laura Casado el grupo de admitidos fue 6. En este último grupo su correlación con el criterio fue 0,72 y la varianza de las puntuaciones en el criterio 7. ¿Cuál estimamos que sería el coeficiente de validez del test en el grupo completo de solicitantes? Sustituyendo en la expresión [5.27]: Que es superior al que se obtuvo en el grupo de admitidos (0,72).
Capítulo 14: Otras estrategias de validación 1. Validez diagnostica de las puntuaciones Existen situaciones de evaluación clínica o educativa donde uno de los objetivos de la medición es obtener información para decidir si una persona pertenece o no a un determinado grupo clínico. En todos estos casos, una prueba crucial para la validez de las puntuaciones de los tests es comprobar en qué grado asignan puntuaciones distintas a personas pertenecientes al grupo diagnóstico y a las que no pertenecen a tal grupo o que tienen otro tipo de trastornos. Esta capacidad de clasificación es la validez diagnóstica, y puede considerarse como un caso especial de evidencias referidas al criterio. Los procedimientos a aplicar son distintos cuando se quiere estudiar la validez diagnóstica a partir de un único test o de varios.
1.1: Caso 1: Validez diagnóstica de las puntuaciones en un único test Aplicamos a dos muestras el inventario de Depresión de Beck, cuyas puntuaciones oscilan entre 0 y 63. ¿En qué grado sirve este inventario para diferenciar al grupo depresivo del no depresivo? Un modo de obtener respuesta a esta pregunta sería establecer un determinado punto de corte a partir del cual se diagnostica a una persona como depresiva si lo supera. La información resultante puede disponerse en una tabla 2×2.
El criterio de clasificación a partir de las puntuaciones del inventario de Beck será tanto más válido cuantos más sujetos se clasifiquen en las casillas de la diagonal principal, es decir, cuantos más resultados correctos se produzcan. Suele ser usual informar de la validez diagnóstica a partir de dos indicadores, que son la sensibilidad (S) y la especificidad (E). La sensibilidad es la proporción de clasificados como depresivos del total de diagnosticados como depresivos. La especificidad (E) es la proporción de clasificados como no depresivos del total de diagnosticados como no depresivos. La sensibilidad será máxima (S=1) cuando no se produzcan errores. La especificidad será máxima (E=1) cuando no se produzcan falsas alarmas.
Otro punto de corte daría lugar a una tabla distinta y diferentes valores de S y E. Si, por ejemplo, establecemos un punto de corte inferior (es decir, somos más proclives a clasificar a alguien como depresivo), cabe pensar que aumentaría S (pues habría menos errores), pero se reduciría E (se darían más falsas alarmas). Por el contrario, si el punto de corte fuera superior al del ejemplo, disminuiría S pero aumentaría E. Las denominadas curvas ROC (Receiver Operating Psicometria Laura Casado Characteristic) muestran los valores de E y S (en realidad, los valores 1 – E y S) asociados a los diferentes puntos de corte que podemos establecer a partir de las puntuaciones en el test, y por tanto facilitan la selección del más apropiado para los objetivos diagnósticos que interese optimizar. Cuando la curva se aproxima al vértice superior izquierdo del cuadrado estamos ante valores óptimos de E y S y un test con alto poder discriminativo. Si, en el peor de los casos, el instrumento con el que se hace la clasificación discrimina pésimamente y la clasificación fuera aleatoria, los puntos (1 – E, S) de los distintos puntos de corte coincidirían con la diagonal principal del cuadrado, indicando que la proporción de clasificados como depresivos es igual cuando la persona realmente lo es que cuando no lo es. El área del cuadrado que queda por debajo de la curva ROC es una medida global de la validez diagnóstica del test.
No es tan claro decidir el punto de corte más adecuado, y elegir uno u otro dependerá del tipo de decisiones erróneas que se quieran minimizar.
1.2: Caso 2: Validez diagnóstica de las puntuaciones en varios tests Hay diversas técnicas estadísticas multivariadas, y las más utilizadas son la regresión logística y el análisis discriminante. Ambas pueden aplicarse al caso de dos o más grupos.
El análisis de regresión logística permite estimar la importancia de cada uno de los K predictores en la diferenciación de los grupos, así como realizar pronósticos que servirán para clasificar a los sujetos en uno de ellos. En el caso de dos grupos, codificados como 0 y 1, la ecuación de regresión relaciona la puntuación de cada persona en los K predictores con la probabilidad de que pertenezca al grupo codificado como 1.
El análisis discriminante permite obtener la combinación lineal de las variables independientes cuantitativas (por ejemplo, las puntuaciones en varios tests) en la que los dos grupos tienen medias más diferentes.
La regresión logística y el análisis discriminante resuelven problemas parecidos. La regresión logística es una técnica más flexible y carece de supuestos sobre la distribución de las variables predictoras. No necesitan distribuirse normalmente, tener la misma varianza en los distintos grupos ni relacionarse de manera lineal con la variable dependiente. Además, las variables predictoras pueden ser continuas, discretas o dicotómicas.
El análisis discriminante requiere los supuestos anteriores. Cuando se cumplen los supuestos vistos, ambas técnicas dan resultados similares; pueden resultar algo mejores con el análisis discriminante. Sin embargo, se ha encontrado en un estudio de simulación que laventaja desaparece cuando la muestra consta de 50 o más casos.
...

Tags:
Comprar Previsualizar