TEMA 11 (2015)

Apunte Español
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 8
Fecha de subida 20/04/2016
Descargas 1
Subido por

Vista previa del texto

2n Medicina UPF- UAB BIOESTADÍSTICA TEMA 11: Análisis multivariante ESTADÍSTICA UNIVARIANTE, BIVARIANTE Y MULTIVARIANTE ¿Qué diferencia hay entre estadística univariante, bivariante y multivariante? Cuando obtenemos datos de los individuos, no solamente coleccionamos una sola información, sino que coleccionarnos varias (Ej.: información sobre un paciente; sano, enfermo, hombre, mujer, etc.). Por este motivo normalmente las tablas de datos contienen más de una variable: La Estadística: - Univariante ! estudio de las variables una a una ! estadística descriptiva - Bivariante ! estudio de la asociación entre parejas de variables ! estadística inferencial - Multivariante ! estudio de las relaciones entre todas las variables de la tabla ¿Qué necesidad hay de usar la estadística multivariante? Hay varias razones por las que es necesario estudiar múltiples variables a la vez: " En estudios observacionales, normalmente operan simultáneamente múltiples efectos sobre los sujetos Ej.: Queremos ver la relación entre los hábitos alimentarios y la aparición de leucemia. No obstante hay otras variables aparte de los hábitos alimentarios que operan simultáneamente en la aparición de la enfermedad (genética, edad, etc.). Es necesario tenerlas en cuenta.
" En estudios experimentales, puede no ser posible (o no conveniente) controlar las variables una a una Ej.: le damos un medicamento a un animal y controlamos si se cura o si no se cura. Podemos controlar los factores que pueden influir en la curación y determinar que lo único que pueda causar una variación sea el medicamento. Pero a veces es interesante variar los factores.
" Varios factores pueden tener efectos sinérgicos 2n Medicina UPF- UAB Para ilustrar la idea de la importancia de las pruebas multivariantes ponemos un ejemplo: “Paradoja de Meehl” (J. Consulting Psychol. 1950;14:165). Imaginemos que queremos distinguir entre individuos esquizofrénicos y normales mediante un cuestionario de preguntas Si seguimos una aproximación univariante, obtenemos el siguiente resultado: Se observa que tanto en la pregunta 1 como en la 2 el 50% decía que si a la pregunta y el 50% de enfermos decía que no.
Por tanto, deduciríamos que ninguna de las preguntas nos permite distinguir a sanos de enfermos.
Si seguimos una aproximación multivariante, obtenemos el siguiente resultado: Si nos fijamos en la pregunta 1 y 2, las respuestas de las personas sanas son iguales en ambas preguntas.
(todos contestaban si o no). Si nos fijamos en las respuestas de las personas enfermas el 50% respondían que si a una pregunta y que no a la otra.
Observamos que si miramos las preguntas conjuntamente en vez de una a una, podemos discriminar entre sanos y enfermos.
Paradoja ! La información no está en el número de veces que los pacientes contestan SI o NO a las preguntas, es decir, en las respuestas individuales a cada pregunta, sino en la comparación del resultado de las preguntadas.
Los pacientes sanos dan contestaciones iguales a ambas preguntas y los enfermos dan contestaciones distintas NOTA: ¡Necesitamos analizar ambas variables (métodos multivariante) a la vez para entenderlo! 2n Medicina UPF- UAB Existen muchos métodos estadísticos multivariantes: variables dependientes de tipo cuantitativo. Para las variables cualitativas dicotómicas únicamente usamos regresión logística multivariante.
Según el objetivo de la técnica Según usen o no la inferencia estadística - Reducir la dimensionalidad - Técnicas Descriptivas - Obtener modelos de regresión - Técnicas Inferenciales - Clasificar los individuos en diferentes categorías MÉTODOS ESTADÍSTICOS MULTIVARIANTES # Reducción de la dimensionalidad – PCA ! NOTA: PCA : análisis de componentes principales Ej.: Imaginemos que tenemos unos animales de experimentación en los que medimos edad, peso y longitud Si representamos en tres ejes cada animal corresponde a un Si representamos las tres variables por parejas, podemos observar una correlación: - A mayor edad mayor peso - A mayor longitud mayor peso 2n Medicina UPF- UAB La posición relativa de los objetos puede describirse usando un nuevo sistema de coordenadas que solo use dos dimensiones. Si hacemos este ajuste estaremos dando una distribución aproximada de los puntos.
Esta transformación se denomina proyección y permite reducir la dimensionalidad La única diferencia es que en vez de tener 3 variables tendremos 2 llamadas PC1 y PC2 que nos permiten resumir la información de las variables originales.
Tras la proyección, los animales describen con dos nuevas variables denominadas Componentes Principales (Principal Components o PC) Cuando capturamos la información al hacer la proyección tenemos que orientar los ejes de manera que la captura de la información sea el máximo de la variación entre los puntos.
Buscaremos el eje donde los puntos estén más separados entre otros. Luego buscaremos un eje perpendicular al anterior que también nos de una imagen que capture la máxima información. Esto en estadística se hace mediante la suma de cuadrados (distancia de los puntos respecto al centro del eje sea la máxima posible, es decir que la suma de cuadrados sea la máxima).
Mediante el truco de la proyección podemos coger una matriz donde tenemos individuos donde hemos medido muchas cosas y representarlos en unas nuevas variables que capturan la mayor parte de la información.
Una vez hemos captado, la misma idea o concepto puede aplicarse para hacer reducciones de la dimensionalidad mucho más elevadas. ¿Cuánto podemos reducir la dimensionalidad de nuestra matriz? 2n Medicina UPF- UAB NOTA: Para explicar la distancia entre dos puntos solamente necesitamos un solo eje. Una dimensión seria suficiente. Si tenemos 3 objetos para describir exactamente las distancias entre los objetos necesitamos un plano.
Si tenemos n objetos y k variables, necesitamos n-1 componentes principales de objetos para explicar el 100% de las variables. Cada componente principal explica una parte de la información. Normalmente los primeros explican mucho pudiendo llegar hasta al 70%.
NOTA: Hoy en día se pueden generar de forma masiva datos, por eso ha ganado importancia la aplicación de estos métodos de proyección para simplificar el tratamiento de estos datos.
Los métodos de proyección descomponen la matriz original (X) como el producto de dos matrices: - Matriz T= matriz de scores ! nos describirá los objetos con menos variables - Matriz de P’= matriz loadings ! describe la relación entre las variables originales y los nuevos componentes.
- E ! parte de la matriz Z que no podemos explicar.
2n Medicina UPF- UAB Ambas matrices (T y P‘) tienen interes y pueden representarse gráficamente: Scores Plot ! Representa los objetos en el nuevo espacio de PC.
PC1 y PC2 son las dos variables que representan los puntos en el nuevo espacio.
Loading Plot ! Representa la contribución de cada una de las variables originales a los nuevos PC. Como se relacionan con los PC.
Hay varios métodos de análisis multivariante que usan la proyección: Los métodos de proyección se pueden utilizar para varias cosas: - Análisis de componentes principales o Principal Component Analysis (PCA) ! Técnica fundamentalmente descriptiva que se utiliza para cuando tenemos una matriz con muchas variables reducir la dimensionalidad y poder visualizarla en un espacio más pequeño. Esto permitirá clasificar los objetos o diagnosticarlos.
- Análisis de mínimos cuadrados parciales o Partial Least Squares (PLS) ! En análisis de regresión en vez de utilizar las variables originales utilizamos los componentes principales y es lo que se usa en el Partial Least Squares.
2n Medicina UPF- UAB Ej.: En el siguiente ejemplo se utiliza PCA para estudiar la relación que existe entre tres nuevos fármacos antipsicóticos y el conjunto de fármacos antipsicóticos usados actualmente Cada fármaco se caracteriza mediante los valores de afinidad por distintos receptores implicados en los efectos farmacológicos y/o secundarios Es una matriz que tiene 16 variables. No se puede representar gráficamente ya que necesitaríamos de 16 dimensiones. Por este motivo se ha realizado una PCA para proyectarla en 2 dimensiones (pasa de 16 a 2): En el plot de scores se ve dónde se localizan los nuevos compuestos: Este gráfico es como un mapa donde la cercanía expresa la similaridad de los fármacos con respecto a las variables estudiadas Observamos que SLC313, SLV310 y SLV314 están cerca.
Por este motivo podemos deducir que se parecen mucho y tienen un perfil de unión al receptor casi idéntico.
2n Medicina UPF- UAB En el plot de loadings se ve la contribución de cada una de las afinidades de unión para definir tipos de fármacos antipsicóticos Se superpone con el anterior de manera que nos informa de que los compuestos que están en la derecha se unen mucho a los compuestos que están a la derecha en el plot scores ya que tiene una gran afinidad por los receptores.
También se puede hacer con respecto a la parte superior e inferior del mapa.
Ej.: 16 tumores pulmonares de diferente tipos. Cada muestra es una línea en la matriz. Cada línea se les hizo 12 secuencias de transcripción. Rojo= sanos, Azul= enfermos. Mediante la PCA de la matriz veríamos la expresión para cada uno de estos tejidos. Según la expresión de los genes podemos saber que tipo de tejido es permitiendo discriminarlos ...