Tema 3. Estadística descriptiva (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 9
Fecha de subida 03/02/2015
Descargas 14
Subido por

Vista previa del texto

Tema 3. Estadística descriptiva L’estadística descriptiva permet analitzar les observacions i mesures realitzades sobre una mostra i extreure informació sobre la mateixa.
1. VARIABLES S’anomenen variables a les diferents característiques que s’analitzen en un estudi. Poden classificar-se en quantitatives i qualitatives.
Les variables quantitatives són aquelles amb les que es pot operar aritmèticament i es classifiquen en discretes, si els números fraccionaris són conceptualment impossibles (número de fills, nombre d’úlceres...), o continues, on si són possibles els números fraccionaris (dies d’hospitalització, alçada, pes).
Les variables qualitatives són aquelles amb les què no es pot operar aritmèticament i es divideixen en nominals i ordinals. Les nominals són aquelles que descriuen una característica i amb les que únicament es pot comparar una igualtat o desigualtat (sexe, color ulls, sa-malalt...). Les ordinals s’utilitzen per ordenar els elements, però no poden utilitzar-se per realitzar operacions aritmètiques (bo-regular-dolent).
L’estadística descriptiva es classifica en univariant, bivariant o multivariant en funció del número de variables amb què es treballi. Alhora, es podrà classificar en funció de si aquestes variables són qualitatives o quantitatives.
2. ESTADÍSTICA DESCRIPTIVA UNIVARIANT Quan s’analitza una variable d’una població i es crea una llista amb els resultats ens trobem amb què és complicat entendre aquestes dades i poder treure’n conclusions. Per aquest motiu s’utilitzen diferents eines que permeten tractar les dades i extreure’n informació. Entre elles tenim la distribució de freqüències, els paràmetres estadístics i les gràfiques.
Distribució de freqüències La distribució de freqüències consisteix en comptar els individus pels quals una variable té un cert valor o un valor dins d’un rang. Les taules de freqüències seran diferents en funció del tipus de variable amb què es treballi.
Si la variable és qualitativa o quantitativa discreta cada fila representa un possible valor de la variable. Per exemple seria el cas d’un estudi de les causes d’ingrés en un hospital.
Si, en canvi, la variable és quantitativa es defineixen uns intervals que agrupen les dades en un determinat nombre de categories. És l’exemple del nivell de colesterol. En aquest tipus de taules pot extreure’s també la freqüència acumulada (en el cas del colesterol, quants individus tenen un valor X o inferior). Per interpretar aquestes taules sovint és més útil representar els valors en forma de valor percentual.
colesterol en mg/100 ml 80-119 120-159 160-199 200-239 240-279 280-319 320-360 360-399 Freqüència acumulada 13 163 605 904 1019 1053 1062 1067 Freqüència 13 150 442 299 115 34 9 5 Freqüència (%) 1.2 14.1 41.4 28.0 10.8 3.2 0.8 0.5 Freqüència acumulada (%) 1.2 15.3 56.7 84.7 95.5 98.7 99.5 100.0 Les dades obtingudes d’un estudi de distribució de freqüència poden utilitzar-se directament o poden representacions gràfiques. Per a variables qualitatives o quantitatives discretes s’utilitzen els diagrames de barres o diagrames de sectors i per les variables quantitatives continues s’utilitzen els histogrames.
És important no confondre els diagrames de barres amb els histogrames. En els diagrames de barres les freqüències es representen amb l’altura de les barres, mentre que en els histogrames les freqüències es representen amb l’àrea, donat que els rangs no tenen perquè ser sempre els mateixos. En els diagrames de sectors l’angle de cada sector serà proporcional a la freqüència relativa que representa.
Interval edat Morts Amplitud Morts/any 0 1-5 6-10 11-20 21-40 41-60 61-70 >70 1 4 3 6 5 14 14 19 1 5 5 10 20 20 10 29 1 0.8 0.6 0.6 0.25 0.7 1.4 0.66 En un histograma l’altura s’obté dividit la freqüència per l’amplada de cada interval, ja que no tots els intervals inclouen el mateix rang.
Paràmetres estadístics Els paràmetres estadístics o estadístics s’utilitzen per caracteritzar algunes propietats de les variables. Resumeixen en un únic valor certes característiques importants d’un conjunt de dades i només poden calcular-se per variables quantitatives amb una única excepció: les modes.
En funció de quines siguin les característiques de la mostra a estudiar existeixen estadístics de tendència central, dispersió i posició.
Entre els estadístics de tendència central trobem la mitjana, la mediana i la moda.
• La mitjana (media) és l’estadístic central més conegut i es calcula sumant tots els valors i dividint pel número total de dades.
̅= • ∑ ¡ La mediana s’obté ordenant els n valors d’una mostra de menor a major i buscant el valor central. Es calcula de manera diferent en funció de si la mostra està formada per un número parell o imparell d’individus.
n imparell • +1 2 n parell 2 2 +1 Les modes són els valors més repetits per una variable més repetits en una mostra. Pot ser un únic valor o pot ser que hi hagi varis valors que es repeteixen les mateixes vegades. Pot calcular-se per variables qualitatives, però no s’ha de calcular mai per variables quantitatives continues.
La mitjana i la mediana són útils com estadístics de tendència central. La mitjana dóna una millor idea de la tendència central de les dades, però és més sensible a la presència d’individus amb valors particulars. En el cas a continuació, que el valor de l’individu D canviï de 6 a 12 tindrà un impacte sobre la mitjana però no afectarà la mediana.
La mediana, doncs, s’utilitzarà quan hi hagi valors anòmals a la nostra mostra (valors extremadament alts o baixos).
Els valors estadístics de posició situen punts de referència en una escala ordenada de valors, indicant que a ambdós costats existeix una certa proporció d’individus.
• • • La mediana separa les nostres dades en dues meitats, cada una amb el 50% dels individus.
Observem que la mediana serveix com a paràmetre estadístic de tendència central i de posició.
De la mateixa manera, podem definir quartils que divideixen la mostra en quatre. Hi ha tres quartils, Q1, Q2 i Q3. Q1 tindrà el 25% dels individus per sota i el 75% per sobre, i serà el cas invers per Q3. El segon quartil, Q2, coincideix amb la mediana.
Poden definir-se també decils i percentils que divideixen l’escala en 10 o 100 parts respectivament.
Els paràmetres estadístics de dispersió permeten descriure si les dades són molt similars entre elles o si són molt diferents.
• • • El rang, amplitud o recorregut és la distància que hi ha entre els valors més extrems d’una sèrie de dades. És poc útil donat que un únic valor molt extrem pot influir molt.
La distància interquartílica consisteix en mesurar la distància existent entre el primer i el tercer quartil (Q1 i Q3). És la distància que conté el 50% central dels punts i per tant és menys sensible a la presència de valors extrems.
La variància es podria definir com el promig de les distàncies al quadrat dividides entre el número d’observacions menys una. S’acumulen les diferències entre la mitjana i cada una de les observacions, elevant-les al quadrat per poder-se acumular sense que es compensin.
= • ̅− −1 La desviació estàndard o típica és el paràmetre estadístic de dispersió més utilitzat i és l’arrel quadrada de la variància. A l’extreure l’arrel quadrada es soluciona el problema de les unitats.
= • ∑ ∑ = ̅− −1 La desviació mitjana s’utilitza per poder acumular les diferències dels valors respecte la mitjana sense que es cancel·lin. En aquest cas, en lloc d’elevar-les al quadrat, s’utilitzen els seus valors absoluts. És una alternativa a la desviació típica però quasi no s’utilitza.
= ∑ | − ̅| • El coeficient de variació és la desviació típica expressada com un percentatge de la mitjana.
S’utilitza per a normalitzar la dispersió, doncs tots els estadístics anteriors depenen de l’escala de les dades originals.
= 100 · ̅ Un mètode molt interessant de representar els paràmetres estadístics és utilitzar-los per construir una gràfica que resumeixi tant la tendència central com la dispersió. Un dels més freqüents és el diagrama de caixa o box-plot.
També pot representar-se verticalment, amb el valor mínim a baix i al valor màxim a dalt.
Si hi ha valors anòmals es posen punts passats els valors mínims i/o màxims establerts.
3. ESTADÍSTICA DESCRIPTIVA BIVARIABLE O BIVARIANT L’estadística descriptiva bivariable es classifica en funció del tipus de variables que s’estudien, i en base a això s’utilitzaran diferents eines. L’objectiu serà sempre descriure la relació que existeix entre ambdues variables.
Qualitativa – Qualitativa Taules de contingència Estadístics d’associació (Q, RR, OR) Qualitativa – Quantitativa Estadística descriptiva de subgrups Quantitativa – Quantitativa Diagrames de dispersió Descripció de l’associació lineal (Cov, r) Variables qualitatives Una manera de representar l’associació entre dues variables qualitatives és calcular la freqüència de cada possible combinació de factors: Les taules de contingència poden tenir una mida fxc, on f i c representen el número de valors possibles per la primera i la segona variable.
La simple observació de les freqüències que apareixen a la taula informa de la potencial associació entre les variables. Per exemple, es pot afirmar que hi ha més malalts entre els fumadors.
Les taules de contingència poden representar-se també utilitzant diagrames de barres associats o apilats que expressen diferències en proporcions, és a dir, expressen la diferent proporció de malalts que hi ha en funció de si fumen o no.
En aquest cas la gràfica es pot interpretar fàcilment ja que hi ha 200 individus que fumen i 200 que no fumen. En cas que els individus en cada grup sigui diferent la gràfica es fa en forma d’histograma, és a dir, que el nombre d’individus vingui determinat per l’àrea de la barra.
Per quantificar l’intensitat d’associació entre dues variables qualitatives s’utilitzen paràmetres estadístics. Els més utilitzats són Q de Yule, risc relatiu i raó d’apostes. Els dos últims són molt utilitzats en epidemiologia.
La Q de Yule s’utilitza per determinar si hi ha associació entre el factor i la malaltia. Si existeix relació entre el factor i la malaltia les caselles A i D tindran valors alts mentre que B i C tindran valors baixos.
El valor de la Q de Yule s’utilitza multiplicant els factors a favor (AD) i en contra (BC) i integrant-los en la fórmula següent: = − + Els valors oscil·len entre -1 (relació negativa perfecta) i 1 (relació positiva perfecta) i tenen el valor de 0 en cas d’independència.
El risc relatiu expressa la relació que existeix entre la tassa d’incidència d’una malaltia entre els exposats i els no exposats a un cert factor de risc; és a dir, quantes vegades és més freqüent emmalaltir si s’està exposat a un cert factor.
Es calcula com la relació entre: - Individus malalts i exposats (A) dividit entre els exposats (A+C) - Individus malalts no exposats (B) dividit entre els no exposats (B+D) El risc relatiu pren valors entre 0 i infinit. MAI tindrà un valor negatiu.
- RR = 1 indica que el risc és igual entre els exposats i els no exposats, per tant el factor no es rellevant.
- RR > 1 indica que els exposats tenen més risc de patir la malaltia, és un factor de risc.
- RR < 1 indica que els exposats tenen menys risc de patir la malaltia, és un factor de protecció.
La raó d’apostes (razón de apuestas, odds ratio) expressa quantes vegades és major la relació de malalts/sants entre els exposats a un cert factor amb respecte als no exposats.
Es calcula com la relació entre: - Individus malalts i exposats (A) dividit entre els sans exposats (C) - Individus malalts no exposats (B) dividit entre els sans no exposats (D) La interpretació es fa com en el cas del risc relatiu. OR prendrà valors entre 0 i infinit.
- RR = 1 indica que el risc és igual entre els exposats i els no exposats, per tant el factor no es rellevant.
- RR > 1 indica que els exposats tenen més risc de patir la malaltia, és un factor de risc.
- RR < 1 indica que els exposats tenen menys risc de patir la malaltia, és un factor de protecció.
Risc relatiu i odds ratio són dos paràmetres descriptius molt similars i quan la incidència no és molt alta són numèricament relatius.
El risc relatiu (RR = 17,5) indica que la tassa d’incidència de diarrees entre els que van menjar pastís és molt més elevada que entre els que no la van menjar.
El odds ratio (OR = 50) compara la relació malalts/sans en els dos grups i indica que la malaltia és molt majoritària entre els que van menjar pastís.
És important recordar que RR i OR són dos paràmetres descriptius que expressen la intensitat de la relació d’una mostra però que no demostren res en la població.
Variables qualitativa – quantitativa Les variables qualitatives permeten classificar els individus en dos subgrups dins d’una mostra. Si es mesura una variable quantitativa i existeix associació amb la primera variable, es manifestarà com diferències entre els diferents subgrups.
En aquests casos es construeixen gràfics en què es representa la tendència central i la dispersió de la variable quantitativa per cada un dels subgrups definits per la variable qualitativa.
Poden utilitzar-se gràfics de caixes o gràfics en què es representa la mitja al centre i una amplada de dues vegades la desviació típica.
Variables quantitatives Quan es mesuren dues variables quantitatives en una mostra pot interessar estudiar la seva associació. Si aquesta existeix, els canvis en una variable s’acompanyaran sistemàticament de canvis en l’altra variable.
No hi ha relació aparent Relació lineal Relació no-lineal Es diu que dues variables estan associades quan varien conjuntament o co-varien.
La intensitat de l’associació lineal pot quantificar-se utilitzant estadístics com la covariància i el coeficient de correlació de Pearson. Aquests índexs no seran útils si la relació entre les dues variables no és lineal (parabòlica, etc).
La fórmula de la covariància és molt similar a la variància, però els quadrats que s’acumulen s’obtenen multiplicant les contribucions de les dues variables implicades.
= ∑ ̅− −1 !"#$ = ∑ = ∑ ̅− ̅− · −1 ̅− · %& − % −1 A major valor absolut de la covariància major és l’associació entre les dues variables, però el principal problema d’aquest estadístic és que no té una escala amb límits precisos.
El coeficient de correlació de Pearson (r) normalitza la covariància proporcionant un indicador que oscil·la entre -1 i +1.
'= - r = 0 No hi ha correlació - r = 1 Correlació positiva perfecta - r = -1 Correlació negativa perfecta !"#$ # · $ ...