PRÁCTICA 11.1 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 6
Fecha de subida 20/04/2016
Descargas 4
Subido por

Vista previa del texto

Bioestadística 2º Medicina UPF-UAB 26/11/2015 PRÁCTICA 11.1: Análisis de componentes principales (PCA).
Objetivos de la práctica - Analizar una serie de datos usando PCA en SIMCA.
- Familiarizarse con la técnica y la interpretación de los resultados.
INTRODUCCIÓN Datos Como ejemplo del uso de los métodos de proyección se ha coleccionado una serie de datos relativos al consumo de diferentes productos alimenticios en 16 países europeos.
Los objetos en este estudio son países y las variables son datos relativos al consumo de alimentos.
El archivo de trabajo se encuentra en el Aula Global (Tema 11, FOODS3.XLS).
PROTOCOLO Protocolo Realiza la práctica siguiendo las instrucciones y contesta a las preguntas en el cuestionario 11.1.
1. Copia el archivo FOODS3.XLS a una carpeta local y ejecuta la aplicación SIMCA-P (icono “Simca-P 10” en una carpeta de la ventana “aplicaciones distribuidas Novel”).
2. Selecciona el comando File>>>New. Aparecerá un cuadro de diálogo. Selecciona el data set (FOODS3.XLS), que has copiado hace un momento. Aparecerá un nuevo cuadro de diálogo preguntando por el Worksheet de Excel que se desea importar. Pulsa de nuevo OK.
3. El procedimiento de importación mostrará dos pantallas más, en la primera se muestran las variables que son reconocidas por el programa. Examina los datos, observarás que hay datos de consumo de diversos alimentos (Café_molido, Café_instantáneo, Té, Sacarina, Galletas, etc...) sin buscar ser exhaustivo. Pulsa Siguiente. Examina el mapa de “valores perdidos” (missing values) y pulsa Finalizar.
Bioestadística 2º Medicina UPF-UAB 26/11/2015 4. SIMCA escala automáticamente los datos mediante centrado y escalado a varianza unidad. De este modo, la escala en la que se muevan los valores en X no influye los resultados del análisis. Esta es una opción interesante cuando la escala de los datos no es informativa, aunque en muchas otras circunstancias, la escala en sí es informativa y debe eliminarse este autoescalado por omisión.
5. Comenzaremos pues por hacer una PCA de los datos para entenderlos mejor.
Selecciona el comando Analysis>>>Two first components, para obtener un modelo PCA con dos PC. Fíjate en el cuadro de diálogo denominado Model M1. Bajo la columna R2X aparece la cantidad de varianza X explicada por el modelo. Como era de esperar, las variables originales estaban muy correlacionadas y los dos componentes explican un 51% de la varianza total de la matriz X original.
Se observa que el componente principal 1 explica el 30% de la varianza total de la matriz X original, mientras que el componente principal 1 y 2 explican el 50%, por lo tanto el componente principal 2 explica solamente el 20%.
Bioestadística 2º Medicina UPF-UAB 26/11/2015 6. Ahora veremos los objetos en el nuevo espacio de PC. Para ello seleccione el comando Analysis>>Scores>>>Scatter plot. En este diálogo selecciona la pestaña Label Types y marca la opción Use identifier, seleccionando como identificadores Obs ID (ONAM), es decir los nombres de los objetos. Pulsa Aceptar para aceptar los valores por defecto (gráfico de dispersión con T1 en el eje horizontal y T2 en el eje vertical). Recuerda que en este gráfico, cada punto representa a un país.
Score (t)= agrupa los países según la dieta. No obstante no podemos saber por qué se agrupan de esta manera ni que alimentos contribuyen a esta distribución. Lo que si podemos deducir qué países tienen una dieta similar según su proximidad (Ej.: Portugal, Austria, Italia y España).
Podemos reconocer ciertas agrupaciones en los países respecto a su dieta. Observamos que los países situados más a la derecha, por ejemplo; España, Austria, Portugal e Italia, se diferencian de los países situados más a la izquierda, por ejemplo; Alemania, Holanda, básicamente por el tipo de dieta que llevan a cabo. Al mismo tiempo los países situados más arriba, por ejemplo; Suecia o Finlandia, se diferencian de los países situados más abajo, como son Francia o Irlanda por el mismo motivo, tipo de dieta.
Bioestadística 2º Medicina UPF-UAB 26/11/2015 7. Otra información que podemos obtener es cómo las variables originales contribuyen a los PC y, por tanto, en qué medidas contribuyen a discriminar los grupos de países que aparece en los scores. Esto lo obtendremos en el plot de loadings. Selecciona el comando Analysis>>>Loadings>>>Scatter plot. Recuerda que en este gráfico, cada punto representa el consumo de un cierto tipo de alimento. Si no ves el nombre completo, selecciona de nuevo la pestaña Label Types y en la opción Length, introduce 20, en lugar de 10.
Loadings (p)! importancia de cada variable en cada eje. Los países que estaban más a la izquierda son los que en su dieta mayormente incorporan ajo y aceite de oliva. En el gráfico observamos que los alimentos con un valor de loading más extremos respecto el eje X tiene mayor influencia en componente principal 1. Podemos deducir además que los alimentos con un Bioestadística 2º Medicina UPF-UAB 26/11/2015 valor de loading más extremos respecto el eje de las y tienen mayor influencia en el componente principal 2. Los alimentos que tienen mayor influencia en el CP1 son el ajo y la fruta. Sin embargo, los alimentos que tienen mayor influencia en el CP2 son los arándanos y el café instantáneo. Ahora, además de agrupar países por dietas, podemos determinar que esta agrupación es así porque vemos que Portugal, Austria, España, Bélgica, Francia e Italia consumen bastante ajo y aceite de oliva mientras que el resto de países consumen en gran medida el resto de alimentos.
8. La misma información puede también verse en un gráfico de barras. Selecciona Analysis>>>Loadings>>>Column Plot. Aparecerá un diálogo preguntando por la componente a representa. Pulsa aceptar para seleccionar el primer componente (p1). Fíjate en el gráfico y compáralo con el scatterplot que obtuviste anteriormente. Las líneas que aparecen en la parte superior de cada barra representan el IC 95% de los valores representados.
        Bioestadística 2º Medicina UPF-UAB 26/11/2015 En este gráfico representa la contribución de cada alimento respecto el componente principal 1.
Lo que observamos es que los alimentos con un valor de loading más extremo tanto en negativo como en positivo tienen mayor influencia en el componente principal uno.
Observamos que el ajo y la fruta son aquellos alimentos cuya contribución a dicho componente es mayor.
Al mismo tiempo observamos que en algunos casos los intervalos de confianza engloban el 0 con respecto a la componente principal 1 y por tanto no son estadísticamente significativos. Esto quiere decir que el valor poblacional podría encontrarse a un nivel de confianza del 95%, tanto en valores positivos de PC1 como en valores negativos.
  CUESTIONARIO 1. Observa el gráfico de scores ¿puedes reconocer algún tipo de agrupación en los países? ¿qué diferencia los países situados a derecha e izquierda? ¿y a los países de arriba y de abajo? En el gráfico de Scores si podemos reconocer ciertas agrupaciones en los países respecto a su dieta. Observamos que los países situados más a la izquierda, por ejemplo; España, Austria, Portugal e Italia, se diferencian de los países situados más a la derecha, por ejemplo; Alemania, Holanda, básicamente por el tipo de dieta que llevan a cabo. Al mismo tiempo los países situados más arriba, por ejemplo; Suecia o Finlandia, se diferencian de los países situados más abajo, como son Francia o Irlanda por el mismo motivo, tipo de dieta.
No obstante a partir de este gráfico, no podemos saber por qué se agrupan de esta manera ni que alimentos contribuyen a esta distribución. Lo que si podemos deducir es qué países tienen una dieta similar según su proximidad.
2. ¿Qué alimentos tienen mayores valores absolutos de P1 y P2 en el gráfico de "loadings"?. ¿Qué alimentos caracterizan los países que ocupan posiciones extremas (derecha, izquierda, arriba y abajo) en el gráfico de scores? Los alimentos que tienen mayores valores absolutos de P1 son el ajo y la fruta mientras que los alimentos que tienen un mayor valor absoluto de P2 son los arándanos y el café instantáneo.
Por otro lado los alimentos que caracterizan a los países que ocupan posiciones extremas en el gráfico de scores son los mismos que los anteriores. El alimento que caracteriza a los países situados más a la izquierda es el ajo mientras que el alimento que caracteriza a los países situados más a la derecha es la fruta. Por otro lado, los arándanos caracterizan a los países que ocupan posiciones más arriba mientras que el café instantáneo los países situados más abajo.
En resumen, los alimentos que caracterizan los países que ocupan posiciones más extremas son aquellos con mayor contribución en el componente principal 1 o 2 y por tanto mayor valor absoluto de P1 y P2.
...