Práctica 2 Bioinformática (2016)

Pràctica Español
Universidad Universidad de Barcelona (UB)
Grado Ingeniería Biomédica - 3º curso
Asignatura Biotecnología y Bioinformática
Año del apunte 2016
Páginas 6
Fecha de subida 27/04/2016
Descargas 0
Subido por

Vista previa del texto

Práctica 2 - Classification lab for Mass Spectrometry data In this section we will use mass spectrometry data. The Prostate2000Raw data contains 327 samples from three groups: •patients with prostate cancer •patients with benign prostatic •hyperplasia and normal controls.
install.packages(c("ChemometricsWithR", "MASS")) # installed on Lab 1 install.packages(c("e1071", "sfsmisc", "class")) Esto carga los paquetes que utilizaremos.
Data(Prostate2000Raw,package ="ChemometricsWithRData") 1. Preprocesamiento prostate <-rowsum(t(Prostate2000Raw$intensity),group =rep(1:327,each =2),reorder =FALSE)/2prostate.type <Prostate2000Raw$type[seq(from =1,to =654,by =2)]dim(prostate) As you may see the dimensionality of the raw data is pretty high. The usual procedure to reduce this type of data consist of finding common peaks and integrating their area (aside from smoothing, binning, peak alignment, normalization and other signal processing steps to enhance signal quality). However, here to simplify we will follow a brute force strategy (not optimal but easy). We will consider every single point in the spectra as a distinctive feature. This brute force strategy is sometimes used in bioinformatics, but generally do not provide the best results.
Now we will divide the dataset in two equal subsets for training and test.
Train/test division Parte de hard problem: está definiendo un subconjunto de muestras training y el resto serán las test con todos los datos. En el easy problem, estaremos definiendo un conjunto solo con las pca y las muestras control.
*KNN: Cuando se disponen en una gráfica un tipo de muestras y una no sabe cuál es, si determinamos K = 5, determinará las 5 muestras más cercanas para deducir el tipo de la muestra desconocida.
El umbral de decisión es el punto del espacio donde pasamos a otra zona de muestras características.
Si escogemos un k muy pequeño, cabe la posibilidad que se confunda su posición y sea determinado en un grupo al que en realidad no pertenece.
MATRIZ DE CONFUSIÓN Cuando hacemos el KNN, R nos podrá crear una matriz de confusión. Viendo el código, vemos que lo que estará haciendo será comprara el resultado real de lo que sería el conjunto del training con las set. Por lo que pueden detectarse los TN, FN, TP, FP.
Feature Extraction by Principal Component Analysis Principal component analysis es un tipo de reducción de dimensionalidad, basado en la máxima variancia –aunque a veces la máxima variancia no implica la máxima variabilidad-.
La idea es que, una vez hecho el KNN, estamos en un espacio de 10503 dimensiones – dimensiones resultado del preprocesado-. La idea es que si solo hubiese una dimensión, estarían muchísimo más cerca. Es decir, cuantas menos dimensiones, más cercanos estarán. Si hay demasiadas, las distancias entre puntos serán enormes.
Hay que hacer un cambio de base, pues cada eigenvector está definiendo una base.
D = S·L + E Donde D: datos (muestras x características) L: loadings (será la matriz de cambio de base) S: Score (muestras en la nueva base) A veces es interesante centrar y escalar las variables. Es decir, que la mediana sea 0 y que la desviación estándar sea 1.
Que la mediana sea 0 implica centrar las 3 muestras sobre el mismo eje centrado, por lo que podrá apreciarse cuándo una muestra difiere de las demás.
En el segundo caso, sirve para dar igual importancia a los picos grandes que a los picos pequeños, pues se están sometiendo a la misma variación estándar. El problema es que se podría confundir una muestra con señal fuerte con el ruido.
Cada medida tiene varios datos, por lo que tiene varias dimensiones. Puede definirse una recta cuya distancia respecto al origen se representa en función de cuán lejos está de cada punto. Es un cambio de base. La PC1 es la distancia sobre el eje1 y la PC2 sobre eje2.
Estamos mostrando todas las combinaciones posibles de cada PC, -a veces están representadas en el eje y otras en el x, dependiendo de la posición-. Por ejemplo: columna 2 fila 1 tiene en el eje y a PC1 y a PC2 en eje x.
Como vemos, no cumplen una distribución Gaussiana porque lo que vemos es que una zona con muestras está más alejada de la zona densa, no es que estén todas las formas distribuidas por zonas y a medida que se acercan a un punto, aumenta la densidad.
Para la primera componente (negra) tienen mucho peso en los puntos donde hay picos. Así se pude saber cuáles tienen qué tipo de covariancia: normal, covariancia negativa (los picos van en sentidos opuestos)… Linear Discriminant Classifiers Asume que las clases tienen una distribución normal. Busca la dirección de máxima separabilidad. Intenta, en lugar de buscar la dirección que maximiza la variabilidad, mira cuál es el centro de cada grupo de muestras y, con estos, traza una dirección tal que una los centros. Por lo que, la dirección definida por los centros definirá una dirección distinta a la marcada por la PCA, sino otra –con menos variabilidad- pero con las medias lo más separadas posibles –se separan mejor los grupos-. Pero, además, que las dispersiones de las clases son pequeñas. Criterio de Fisher: en función de la suma de las medias y de las dispersiones. Cuanto mayores sean las medias y menores las dispersiones, mejor. Se escogerá la mejor relación para obtener el eje. El LDA está sumiendo una distribución Gaussiana, por lo que, si vemos claramente que no sigue este tipo de distribución, habremos de aplicar un knn.
k-NN after dimensionality reduction Consiste en aplicar un KNN en el espacio PCA. Se puede mejorar la determinación del parámetro k comparando varios valores de k para una tasa de error. Está haciendo un KNN tras aplicar PCA.
...