TEMA 1. RELACIÓ ENTRE VARIABLES (1ra part) (2017)

Apunte Catalán
Universidad Universidad de Barcelona (UB)
Grado Ciencias y Tecnología de los Alimentos - 4º curso
Asignatura Salut Pública i Epidemiologia Nutricional
Profesor C.
Año del apunte 2017
Páginas 10
Fecha de subida 13/11/2017
Descargas 0
Subido por

Vista previa del texto

SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ TEMA 1. RELACIÓ ENTRE VARIABLES (1ra part) Per a què serveix l’estadística? Per comparar. Tenim la descriptiva i inferència. La estadística que és de comparar és la inferència.
Quina diferència hi ha entre un conjunt de dades abans de descriure i després de descriure-les? Hem passat de dades a informació. Quan descrivim una base de dades, estem passant de dades a informació perquè les dades són independents les unes de les altres. Per exemple, jo tinc 1.000 individus. Això són dades independents entre elles.
En la inferència, per un costat tenim l’estimació de paràmetres i per un altre costat, el contrast d’hipòtesi.
- Estimació de paràmetres: Què és un paràmetre? Teníem poblacions (infinit) i mostres (n). On col·loquem els paràmetres? En les poblacions. Quan caracteritzem una variable. En la mostra tindrem estimacions dels paràmetres.
L’estadística em dóna la probabilitat d’equivocar-se.
Descriptiva univariant Descriure la distribució d’una variable: - Quantitativa; els valors són números.
- Qualitativa; no són números, són valors de qualitat (home, dona, desnodrit...) Descriptiva bivariant Descriure la distribució conjunta de dues variables: - Ambdues quantitatives - Ambdues qualitatives - Una de cada Propòsit: existeix relació (probabilística) entre elles? Si edat i sexe hi ha relació.
Relació probabilística Si tinc informació d’una variable, si sé que un senyor és molt alt, probablement pensaré que pesa més que un que sigui baix. Canvio les probabilitats de la següent variable.
Símptomes de patologies; quan miro un pacient i veig que té convulsions, puc pensar que té una patologia i conforme va tenint símptomes, va canviant la probabilitat de que tingui una patologia o una altra.
- Si la probabilitat de que una de les variables adopti certs valors és igual per tot valor de l’altra: Independents - Si la probabilitat de que una de les variables adopti certs valors NO és igual per tot valor de l’altra: Relacionades Relació entre variables quantitatives Com el pes i l’alçada, la pressió arterial i l’edat...
- Començar amb un gràfic per veure les dades SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL - ARUIZPEREZ Després, calcular mesures de relació (r de Pearson) No és prudent saltar-se el primer pas Diagrama de dispersió - Scatterplot Imaginem que la línia del diagrama fos una línia recta, per un valor de cintura hi hauria un valor de tòrax. Tota la informació del tòrax m’ho dóna la cintura.
En la relació bíceps-canell, és una relació pitjor que l’anterior.
Després tenim edat i pes; el rang de pes és constant en totes les edats. En aquest cas no hi ha relació. L’edat i l’alçada, seria un cas d’una relació molt dèbil. La pendent en teoria és cap avall però no es veu clarament.
SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ Detecció d’atípies/inconsistències La relació entre la cuixa i el turmell. Els del nivell de 34 al turmell, són estranys perquè tenen nivells baixos de cuixa i de turmell; seran pacients malalts. Aquestes dades extremes són perillosos a l’hora de dur a terme un estudi perquè sense aquests casos, potser seria una línia més recta i constant però aquests casos els aixafen més. Així que, potser, el millor seria eliminar-los.
SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ Heterocedasticitat A part de mirar si hi ha relació lineal o si hi ha outlayer, és mirar si la línia de punts és paral·lela de punts. Això s’anomena heterocedasticitat. Nosaltres el què volem és homo, però si no hi ha, com en aquest cas que no és constant, tindríem hetero. Aquí, per a valors més baixos és millor i per a valors més alts, pitjor. Aleshores, podríem fraccionar la línia (el diagrama) en diferents models per a que no es desviï tant, per a que sigui més constant.
Hem de tenir en compte, que els “estranys” no podem fer res, els tenim perquè estem fent un estudi poblacional, no individual.
Moltes variables Una matriu de dispersions amb totes les variables que podem comparar.
SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ Una vegada que hem decidit que la nostra població és lineal, hem d’establir la correlació.
Aquesta correlació es diu coeficient correlació de Pearson. Aquest coeficient no calcula qualsevol correlació, sinó només la lineal.
Correlació - Coeficient de correlació de Pearson Mesura de relació lineal No mesura qualsevol tipus de relació! Possibles situacions - Independència Relació o Lineal o No lineal ▪ Monòtona; si constantment creix o constantment decreix.
▪ No monòtona SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ r de Pearson - Valor entre -1 i +1 - Si independència, aleshores r=0 Si dues variables són independents, aleshores r=0. Però si dues variables tenen r=0, no ha de perquè ser independents.
- El contrari no és necessàriament cert: r=0 no implica necessàriament independència - Si relació lineal perfecta, aleshores o R=1 si la relació és positiva. Quan sé el valor de x, sabré el valor de y. És una relació perfecta.
o R=-1 si la relació és negativa. Quan sé el valor de x, puc suposar el valor de y però no el sé segur.
Relació lineal perfecta Quan una variable explica l’altra.
Les r pròximes a 1, seran els núvols de dispersió més estretes i les més pròximes a 0, més amples.
r de Pearson - Valors entre 0 i 1 (o entre 0 i -1) indiquen cert grau de relació lineal positiva (o negativa) Quant més pròxim a 1 sigui el valor absolut de r, major intensitat de la relació lineal SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL - ARUIZPEREZ Quant més pròxim a cero, menor és la intesitat de la relació Com i per què mesura la relació lineal? Si haguéssim d’inventar una mesura de la relació lineal. Com podria fer-se? Quadrants definits per les mitjes de X i les Y Per què la r de Pearson explica la relació de dues variables? Imaginem que tenim dues variables; una a X i una a Y. Veiem que la gràfica és perfectament lineal.
Quan estic treballant en una dimensió, mirem la mitja i la variable de les dues variables.
Calcularé les mitges per a tenir una idea de la magnitud, al voltant de la mitja se situen totes les magnituds. Un cop calculada se situarà en el gràfic, la mitja de les dues variables i aquí tindríem el vector de mitges.
En realitat, estem estudiant les regressions lineals i la r de Pearson perquè la major part de variables que estudiem són variables normals (campanes de Gauss), la regressió serà sempre una linealitat. Si les dues variables tenen campana de gauss, tenim una linealitat.
El què tinc més allunyat del vector de mitges, serien els marginals.
Estudio la covariança, que és la correlació entre les dues variables; la variança és la distancia de cada valor a la mitja i l’elevem al quadrat. En aquest cas no elevem al quadrat.
Si les dues variables són independents, la co-variança serà = 0 i si no són independents, la co-variança serà diferent a 0.
SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ Com es calcula la co-variança? En el primer quadrant, el negatiu, quan calculo la diferencia dels valors de X amb la mitja, tots hem donaran negatius. El valor de Y també em quedaria negatiu. La seva multiplicació em donarà resultat positiu.
En el segon quadrant, en el positiu, em donaran positives les diferències i el producte.
Quan sumi els valors dels dos quadrats, em donarà positiu.
En canvi, en el quadrant de dalt de l’esquerra i de baix a la dreta, seran negatius. Si la dispersió es troba en els quadrants de sota a l’esquerra i dalt a la dreta, el resultat serà SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ positius. Si es reparteixen pels restants, seran negatius. Si es reparteixen per igual per tots els quadrants, serà = 0.
La co-variança com a mesura de relació lineal Si treballéssim bé amb les co-variances, podríem treballar amb elles i obviar la correlació de Pearson.
No treballem bé amb co-variances perquè les unitats del resultat són complexes, és a dir, el resultat d’una co-variança seria per exemple; cm/kg o anys/kg. Són unitats complexes.
Co-variança - Promig dels productes (X-mx)(Y-my) Dimensió: unitats de X*unitats de Y Per aconseguir una mesura adimensional: Com a resultat, va aparèixer la r donant així valor adimensional. Eliminaríem així les unitats complexes. La correlació de r de Pearson és molt semblant a això.
Per entendre la correlació, hem de entendre la co-variança però no farem ni cas.
R de Pearson seria molt semblant a r de Spearmen. Quan tinc dues variables normals, mesuro correlació de r de Pearson. Si tinc dues variables no normals, mesuro la correlació de r de Spearmen.
La relació lineal utilitzaré r de Pearson però si no és lineal, la de Spearmen.
SALUT PÚBLICA I EPIDEMIOLOGIA NUTRICIONAL ARUIZPEREZ ...

Tags:
Comprar Previsualizar