Estadística Descriptiva II - VARIABLES QUANTITATIVES (2016)

Apunte Catalán
Universidad Universidad de Barcelona (UB)
Grado Enfermería - 1º curso
Asignatura Bioestadística
Año del apunte 2016
Páginas 10
Fecha de subida 20/04/2016
Descargas 29
Subido por

Vista previa del texto

INSTRUMENTS - BIOESTADÍSTICA @emargaritboada ESTADÍSTICA DESCRIPTIVA (II) VARIABLES QUANTITATIVES CREACIÓ DE TAULA DE FREQÜÈNCIES VARIABLE QUANTITATIVA DISCRETA Els valors que pren la variable són nombres enters  p.ex. el nombre de germans només poden ser 1, 2, 3... = nombres enters. En aquest cas és útil fer la taula de freqüències perquè els nombres no són molt grans. La MODA seria 1 germà (freqüència absoluta = 39 individus). Sempre que tinguem una taula de freqüències podem calcular la moda. El 91,8% dels individus tenen 2 germans com a molt.
EXEMPLE 1 1 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada VARIABLE QUANTITATIVA CONTÍNUA Els valors que pren la variable són INFINITS. Cal dividir la variable en una sèrie de intervals (categoritzar). En una contínua no cal fer una taula de freqüències (dades del l’exemple 2, colesterol HDL) ja que no hi ha cap valor igual per tant la taula tindria moltes files i columnes. El que es pot fer és agrupar aquests valors en intervals i d’aquesta manera podem comptar quants individus tenen un nivell x de colesterol HDL entre 2 valors. El que fem és resumir les dades. Realitzar aquests intervals se’n diu categoritzar la variable perquè els convertim en ordinals i és més eficient.
TAULA DE FREQÜÈNCIES – VARIABLES QUANTITATIVES (RESUM) Freqüència Absoluta (ni) Freqüència Relativa (fi) Percentatge (pi) Freqüència Absoluta Acumulada (NI) Freqüència Relativa Acumulada (Fi) Percentatge Acumulat (Pi) ESTADÍSTICS PER VARIABLES QUANTITATIVES ESTADÍSTICS  fórmules que donen valors (els podem calcular apart de fer les taules).
TENDÈNCIA CENTRAL  mitjana, mediana i moda.
POSICIÓ  percentils (com es posiciona el conjunt de dades).
2 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada DISPERSIÓ  Amplitud, variància, desviació típica, coeficient de variació, rang interquartílic. Informen de com de dispersos són sobre els valors dels individus (si són molt semblants o molt diferents). Informa de com de representativa és la mitjana.
TENDÈNCIA CENTRAL Descriuen el “centre” de la variable.
MITJANA  promig aritmètic de les observacions o valors de la variable. És molt sensible a valors extrems de la variable, sobretot quan tenim poques dades perquè poden aportar una idea errònia de la mitjana.
EXEMPLE  (donat que és variable discreta podem calcular la mitjana de les dues maneres): VARIABLE Nº GERMANS VARIABLE COLESTEROL MEDIANA  és aquell valor de la variable que divideix el conjunt de valors ordenat en dues parts de forma que cadascuna té la mateixa proporció igual d’individus per sobre i per sota d’aquest valor (tot això en quantitativa contínua).
CÀLCUL: Tenim N observacions, X1...XN, aleshores: 1. Les observacions s’ordenen de menor a major, X(1)...X(N) 2. Es calcula la posició de la mediana .
 Si N és imparell, la mediana és la observació X  Si N és parell, es fa la mitjana entre les observacions X iX 3 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada La mediana és menys sensible que la mitjana a valors extrems (l’únic que canvia és la posició, que va saltant). També és menys sensible a poques dades respecte la mitjana.
EXEMPLE DADES COLESTEROL: ESTADÍSTICS DE POSICIÓ PERCENTILS K  és el valor de la variable que deixa per sota d’ell el k per 100 de les dades. Ordenem les dades quan deixem el percentatge.
EXEMPLE  P15: k=15, per tant és el valor de la variable que deixa el 15% dels individus per sota seu i el 85% per sobre.
Els més utilitzats són el percentil 50 (mediana), els quartils (percentils 25, 50 i 75), i els quintils (percentils 20, 40, 60, 80).
QUARTILS  punts de tall que divideixen la col·lecció de dades ordenades en grups de 4 grups d’igual mida (això no implica que siguin equidistants). Diu com es posiciona la variable perquè la distància entre Q1 i Q2 és diferent que la distància entre Q2 i Q3.
ESTADÍSTICS DE DISPERSIÓ Ens informen de la variabilitat de les observacions (com de diferent són les dades), és a dir, si els individus són molt semblants o diferents.
DADA 1  poca dispersió (molt semblants).
DADA 2  no hi ha molta diferència entre quartils.
DADA 3  molta diferència = molta dispersió.
4 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada AMPLITUD O RANG  és la diferència entre l’observació més gran (màxim) i la més petita (mínim). És el més simple i indica el recorregut (des d’on va). És una mesura molt sensible a valors extrems.
EXEMPLE COLESTEROL: Amplitud = Max –Min = 1.695 – 0.790 = 0.950 VARIÀNCIA  mesura la dispersió de les dades al voltant de la mitjana. Calcula la distància entre la mitjana i cada dada = distància promig en la mitjana.
CÀLCUL 1. Es calculen les diferències de cada observació respecte a la mitjana. Xi - µ 2. S’eleven aquestes diferències al quadrat i es sumen  3. La suma es divideix entre el nombre d’individus.
i=1...N DESVIACIÓ TÍPICA O ESTÀNDARD  arrel quadrada de la variància. Les unitats de mesura són les mateixes que la variable original.
EXEMPLE COLESTEROL: COEFICIENT DE DISPERSIÓ O VARIACIÓ  s’utilitza per comparar la variabilitat de variables amb diferents unitats de mesura o variables amb diferents mitjanes. No té unitats de mesures, és adimensional.
També s’anomena variabilitat relativa, perquè és relativa a la mitjana.
5 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada EXEMPLE COLESTEROL I Nº DE GERMANS RANG INTERQUARTÍLIC  recorregut entre quartils. És la diferència entre el tercer i primer quartils. Es menys sensible als valors extrems perquè els percentils no canviarien gaire si afegíssim alguna dada extrema.
EXEMPLE COLESTEROL Rang Interquartílic= 1.3175 – 1.01 = 0.3175 REPRESENTACIÓ GRÀFICA DISCRETA  diagrama de barres CONTÍNUA  histograma (molt sensible a l’amplada dels intervals) i box plot (diagrama de caixes).
*DISCRETA amb molts valors  box plot GRÀFICS PER VARIABLES QUANTITATIVES CONTÍNUES HISTOGRAMA  mostra la concentració de dades al llarg de diferents intervals. Aquests intervals es col·loquen en l’eix de les X.
L’àrea de cada rectangle ha de ser proporcional a la freqüència de les observacions del interval. Per tant alçada de cada rectangle és igual a  *CAS: si tots els intervals tenen la mateixa amplitud, no és necessari calcular l’alçada. En aquesta situació l’alçada és la freqüència.
6 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada EXEMPLE COLESTEROL ------ INTERPRETACIÓ DE L’HISTOGRAMA En funció d’on es concentren la majoria de les dades poden tenir una diferent distibució de les dades: SIMÈTRICA  mateix nombre de dades tant per sobre com per sota de la mitjana.
BOX-PLOT O DIAGRAMA DE CAIXES basat en la mediana, els quartils i els valors extrems. És un dels millor de cara a l’eficiència de resum. Es basa en 5 descriptius: mediana, quartil 25, quartil 75, mínim i màxim. Pot ser vertical o horitzontal.
CAIXA: - La part inferior de la caixa correspon al P25.
La part superior de la caixa correspon al P75.
La mediana es marca en una línia. Els límits de la caixa són els dos quartils (25 i 75). Els màxims i mínims mostren el recorregut. Tot això surt en el gràfic, per això es diu que és un mètode bastant eficient.
7 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada La caixa representa l’amplitud interquartílica i conté el 50% dels valors centrals.
Definició de valors extrems: - Valors que són més grans que el valor P75+1,5*RI (rang interquartílic).
Valors que són més petits que el valor P25-1,5*RI.
BIGOTIS 1. Si NO hi ha valors extrems: línies fins el valor màxim i el mínim de la variable (NO OUTLIERS).
2. Si SÍ hi ha valors extrems: les línies fins el darrer valor que no és extrem. Els valors extrems s’indiquen amb uns asteriscs (AMB OUTLIERS).
INTERPRETACIÓ DEL BOX-PLOT 1. Com més llarga la caixa i els bigotis més dispersa és la distribució de les dades.
2. Les distàncies entre els 3 estadístics de la caixa pot variar, no obstant recordar que la proporció de dades entre elles és la mateixa.
8 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada 3. La línia que representa la mediana i els límits de la caixa ens informen de la simetria.
 Mediana centre caixa, distribució simètrica (bigotis mateixa longitud).
 Mediana pròxima al Q1 distribució asimètrica positiva (bigoti superior major longitud inferior).
 Mediana pròxima al Q3 distribució asimètrica negativa (bigoti inferior major longitud superior).
DIAGRAMES DE BARRES PER VARIABLES DISCRETES - Deixem espais per denotar els valors impossibles.
HISTOGRAMES PER VARIABLES CONTÍNUES - L’àrea de cada rectangle indica la quantitat (percentatge o freqüència) d’individus del interval.
9 INSTRUMENTS - BIOESTADÍSTICA @emargaritboada RESUM: ESTADÍSTICA DESCRIPTIVA VARIABLES QUANTITATIVES 10 ...