Tema 8. Contrast d'hipòtesi per variables qualitatives (2015)

Apunte Catalán
Universidad Universidad Pompeu Fabra (UPF)
Grado Medicina - 2º curso
Asignatura Bioestadística
Año del apunte 2015
Páginas 7
Fecha de subida 03/02/2015
Descargas 9
Subido por

Vista previa del texto

Tema 8. Contrast d’hipòtesi per variables qualitatives Les variables qualitatives descriuen propietats no quantificables. Poden prendre un cert nombre de valors o atributs que permeten agrupar els individus en categories, però aquests valors no permeten operacions algebraiques.
Una de les preguntes més freqüents en bioestadística és saber si existeix associació o relació entre dues variables qualitatives, com per exemple entre l’hàbit de fumar i el càncer. Les freqüències de cada combinació de valors de dues variables qualitatives es mostra mitjançant taules de contingència. Aquestes taules permeten comparar la freqüència amb què apareix una característica en les diferents categories d’individus.
Tot i indicar sempre el mateix, la pregunta per estudiar aquesta relació pot formular-se de vàries formes: a) La característica B+ apareix amb igual freqüència en les categories A+ i A-? b) La variable A està associada amb la variable B? c) La proporció de subjectes amb B+ és igual en la categoria A+ que A-? Les hipòtesis per buscar la resposta a aquesta pregunta es poden plantejar en termes d’associació o independència entre les dues variables: • H0 No existeix associació (o bé existeix independència) entre la variable A i la variable B • Ha Existeix associació (o bé no existeix independència) entre la variable A i la variable B 1. TAULES DE CONTINGÈNCIA Una taula equilibrada es dóna quan no hi ha cap relació entre les dues variables. En alguns casos és molt senzill calcular els valors de freqüència, però existeix també una fórmula per calcular-los.
= · Les proves de contrast d’hipòtesi serveixen per calcular la probabilitat (p) d’obtenir un resultats tant desequilibrats com els observats o encara més extrems només per atzar.
Si p és molt baixa es descarta la hipòtesi nul·la H0 i s’assumeix que existeix relació entre les variables. Aquesta prova només té sentit si s’observa una diferència entre les freqüències esperades i les freqüències observades.
Les proves de contrast d’hipòtesi més utilitzades són el mètode exacte de Fisher i la prova de khiquadrat. El mètode exacte de Fisher és el més recomanable però és difícil de calcular manualment.
És per aquesta raó històrica que la prova de khi-quadrat segueix sent popular, encara que amb els ordinadors actuals no hi ha justificació per preferir-la.
2. MÈTODE EXACTE DE FISHER El mètode exacte de Fisher utilitza una distribució qualitativa de probabilitat anomenada distribució hipergeomètrica per calcular la probabilitat d’obtenir per atzar una taula tan desequilibrada o més que l’observada i es calcula com: = 1! 2! 1! 2! 1 · ! ! ! ! ! Exemple Es vol comprovar si hi ha associació entre l’úlcera d’estómac i la presència d’Helicobacter pylori. En una mostra de 24 pacients s’observa: = 10! 14! 12! 12! 1 · 24! 2! 8! 10! 4! = 10! 14! 12! 12! 1 · 24! 1! 9! 11! 3! = 10! 14! 12! 12! 1 · 24! 0! 0! 12! 2! Uns resultats més desequilibrats serien: Per calcular la probabilitat d’obtenir taules com l’observada o més desequilibrades es sumen les seves probabilitats individuals.
P = P1 + P2 + P3 = 0,0018 La probabilitat d’obtenir aquest resultat experimental només de l’atzar és molt baixa (P < 0,05), per tant es pot descartar H0 i concloure que existeix una associació estadísticament significativa entre les dues variables a un nivell de confiança del 95%. Una probabilitat superior a 0,05 no ens permetria refusar la hipòtesi nul·la.
Contrast unilateral o bilateral En funció del plantejament de la hipòtesi pot aplicar-se un contrast unilateral o bilateral. En una prova unilateral el desequilibri pot donar-se només en una direcció, en aquest cas Ha indicaria que la incidència d’úlcera és més alta quan existeix H pylori. En una prova bilateral el desequilibri pot produir-se en ambdues direccions i Ha indica que la incidència de l’úlcera és diferent quan existeix H pylori.
Programes informàtics Habitualment el mètode de Fisher s’obté de manera automàtica amb programes informàtics. SPSS aporta dos valors diferents de Fisher: un per distribució unilateral i un per la distribució bilateral. En R s’utilitza el comandament fisher.test() i cal indicar si es tracta d’una prova unilateral (OR>1 o OR<1) o si és una prova bilateral.
3. PROVA DE KHI-QUADRAT La prova d’independència de khi-quadrat (χ2) és un mètode aproximat basat en un principi completament diferent.
En primer lloc es calcula una taula equilibradora ideal i s’acumulen les diferències entre les freqüències esperades (Eij) i les observades (nij) segons la fórmula següent.
! χ = − # !$ ! El valor de p s’obté dividint la probabilitat que correspon al valor de χ2 calculat o a valors més grans de χ2 en una distribució de probabilitat khi-quadrat amb un grau de llibertat (taula 2x2).
Exemple Càlcul de les freqüències esperades: 425 · 200 = 170 500 425 · 300 = = 255 500 75 · 200 = = 30 500 75 · 300 = = 45 500 = χ = ! − # !$ ! = ', )* El valor de p que s’obté amb aquesta χ2 és p = 0.041. Donat que 0.041 < 0.05 es pot descartar H0 i concloure que existeix una associació estadísticament significativa entre la presència d’h. pylori i l’aparició d’una úlcera.
En cas d’utilitzar taules es miraria el valor crític per un risc de 0.05 i un grau de llibertat, que seria 3.84. 4.18 és major que 3.84, per tant pot descartar-se la hipòtesi nul·la.
Correcció de continuïtat o de Yates La prova de khi-quadrat utilitza una distribució continua de probabilitats per aproximar una distribució discreta de probabilitats, per això és un mètode aproximat.
Per tenir en compte l’ús d’aquesta distribució continua per aproximar una discreta s’ha proposat una modificació coneguda com correcció de continuïtat o de Yates. L’efecte d’aquesta correcció és més aparent en mostres petites que en mostres grans i tendeix a la sobrecorrecció.
La sobrecorrecció implica que si amb la prova de khi-quadrat s’ha obtingut un valor de p baix que podria fer que H0 es refusés quan aquesta és certa, després d’aplicar la correcció s’obté un valor de p massa alt que pot fer que s’accepti H0 quan aquesta és falsa.
En R s’aplica el comandament chisq.test() i per defecte el programa aplicarà la correcció de continuïtat sempre que sigui possible. Quan la taula conté valors de freqüències molt petites el propi programa R adverteix que els valors de p poden ser erronis.
4. VARIABLES QUALITATIVES AMB MÉS DE DOS VALORS En les taules de contingència fxc el nombre de files i de columnes es corresponen amb el nombre de valors que prenen les variables. En taules majors de 2x2 es pot aplicar la prova del khi-quadrat però no pot aplicar-se el mètode de Fisher ni la correcció de continuïtat a la prova de khi-quadrat.
La prova de khi-quadat s’aplica exactament igual que per una taula 2x2: 1. Càlcul de les freqüències esperades 2. Suma dels quadrats de les freqüències relatives 3. Contrast amb una distribució khi-quadrat En una taula 2x2 s’utilitza una distribució d’un grau de llibertat, però això no serà així per taules majors. El grau de llibertat s’obté com el producte de (f-1) i (c-1).
- Taula 2x2: (2-1)(2-1) = 1 - Taula 3x2: (3-1)(2-1) = 2 - Taula 3x3: (3-1)(3-1) = 4 = .
.
.
χ+ , -+ , - = ! − # !$ ! Exemple S’administra un placebo i cinc fàrmacs a una sèrie de pacients. Els resultats es classifiquen segons si els pacients milloren o segueixen igual.
H0: No existeix associació entre l’administració de fàrmacs i la millora dels pacients.
Ha: Existeix associació entre l’administració de fàrmacs i la millora dels pacients.
El resultat del càlcul de l’estadígraf de khi-quadrat dona 14,78, que és significatiu a un nivell de confiança del 95% i per tant la hipòtesi nul·la es pot refusar.
Ara bé, els fàrmacs mostren un efecte significatiu? Per respondre aquesta pregunta es divideix la taula de contingència en taules mes petites per contrastar la hipòtesi d’associació per cada fàrmac.
En cada una d’aquestes taules es realitzen proves de contrast d’hipòtesi individuals, buscant si el percentatge de millora és significativament diferent entre cada un dels fàrmacs i el placebo.
La descomposició de la taula en sub-taules augmenta el risc d’obtenir associacions significatives només per atzar, per això cal corregir el nivell de significació segons la fórmula de Brunden.
/0 = / 2+ − 1- Seguint el mateix exemple, s’observa que els fàrmacs B i E mostren un percentatge de millora significativament diferent del placebo, mentre que el resultat per C està just al límit i és dubtós.
5. RESUM: QUIN MÈTODE ÉS PREFERIBLE UTILITZAR? Per decidir quin mètode és preferible en un cas determinat s’utilitzen les regles següents: 1. Si és una taula fxc major de 2x2 només es pot utilitzar khi-quadrat 2. Si és de 2x2 i es disposa d’un programa adequat sempre s’utilitza Fisher 3. Només es pot utilitzar khi-quadrat en una taula 2x2 si no es pot utilitzar Fisher.
Cal tenir en compte també que: - Khi-quadrat proporciona contrast bilateral i Fisher pot donar contrast unilateral o bilateral - La correcció de continuïtat només es pot aplicar per taules 2x2 - Els resultats de la prova de khi-quadrat no són fiables en taules petites (N<20 o quan N<40 i algun valor esperat és menor de 5).
6. DADES APARELLADES Quan s’avalua l’efecte d’un tractament comparant dos mostres independents les diferències que s’observen poden tenir com a origen les diferències entre individus (interindividualitats) o les diferències degudes al tractament.
Una estratègia per solucionar el problema és utilitzar mostres grans que garanteixin que els efectes deguts a diferències interindividuals seran similars en ambdós grups.
Una altra estratègia és recollir dades sobre els mateixos individus o individus molt similars.
Aquesta estratègia es denomina dades aparellades i pot aplicar-se de diferents maneres.
• Aplicar tractaments A i B sobre els mateixos individus deixant un interval de temps (wash-out) per evitar interferències o simultàniament en parts diferents del cos.
• Aplicar tractaments A i B a dos membres d’una parella de germans bessons univitel·lins.
• Aplicar tractaments sobre parelles d’individus seleccionats de manera que tinguin igual nivell socio-econòmic, situació familiar, estat de salut, edat... En aquest cas són dades pseudoaparellades.
Les proves amb dades aparellades tenen una major potència estadística. Les dades aparellades han de ser analitzades mitjançant proves de contrast específiques i no poden utilitzar-se les proves que s’empren per mostres independents. En el cas de variables qualitatives s’utilitza la prova de McNemar.
Exemple Es vol comprovar l’efectivitat d’un fàrmac A per fer créixer el cabell. Es seleccionen 100 voluntaris i en 50 d’ells s’aplica el producte A i el placebo passat un mes, i en els 50 restants es fa el mateix en l’ordre invers. En ambdós casos s’avalua l’efecte com positiu (+) o no evident (0) sobre el mateix pacient.
Només aquells individus en què la resposta sigui diferent en els dos casos seran interessants per l’estudi. Es descartaran tots aquells canvis en què no hi hagi hagut canvi.
S’obtenen els següents resultats: Si el producte no és efectiu la freqüència de casos en què el producte ha sigut eficaç i el placebo no (+,0) ha de ser similar a la de casos en què el placebo ha estat eficaç i el producte no (0,+). Si, per contra, el producte és efectiu la freqüència de (+,0) i (0,+) serà diferent.
La prova de McNemar calcula un estadígraf utilitzant només les freqüències dels extrems de la taula. Com a distribució de contrast s’utilitza khi-quadrat amb un grau de llibertat.
1 = + − +13 − 11= = 0,166 + 13 + 11 El valor de p que correspon a 0,166 és 0,68, molt major de 0,05 i per tant H0 no es pot descartar.
Si s’utilitzen taules el valor crític per un nivell de confiança del 95% és 3,84, per tant s’observa que la hipòtesi nul·la no pot descartar-se i per tant l’estudi no prova que l’efecte del producte A sigui significativament diferent a l’efecte del placebo.
...