Ugrás a tartalomhoz

Biostatisztika

Fidy Judit dr., Makara Gábor dr. (2005)

InforMed 2002 Kft.

Két független csoport összehasonlítása

Két független csoport összehasonlítása

Példa

A diéta hatásosságát most a következő kísérleti terv szerint vizsgáljuk. Az önként jelentkező pacienseket véletlenszerűen két csoportba sorolunk, az egyik csoport hagyományos étrendet követ (kontroll csoport), a másik csoport diétázik. A kúra hatásosságát a két csoportban mért testsúlyváltozást összehasonlítva lehet tesztelni: mondhatjuk-e, hogy a diétázó csoport tagjai átlagosan többet fogynak, mint a hagyományos étrendet követők? A változásokat tartalmazó oszlop két független mintát jelent, minden személy vagy az egyik, vagy a másik csoportba tartozik. Két csoport összehasonlításakor kedvező, ha az elemszámok megegyeznek, ám ez nem feltétele a próba elvégzésének. A 8.3. táblázat - Diéta kísérlet adatai 8.3. táblázat tartalmazza egy elképzelt kísérlet során kapott testsúlyváltozásokat, amelyben a diétás csoportban 10, a kontroll csoportban 11 személyről vannak adataink.

8.3. táblázat - Diéta kísérlet adatai

Vizsgálati csoportVizsgált személyTestsúlyváltozás
Diéta1-1
 25
 33
 410
 56
 64
 70
 81
 91
 106
Átlag 4
SD 3,333
Kontroll112
 120
 131
 140
 153
 161
 175
 180
 19-2
 20-2
 213
Átlag 1
SD 2,145

Paraméteres módszer – kétmintás t-próba

Azt vizsgáljuk, hogy a két független minta ugyanazon vagy két különböző sokaságból származó két véletlen minta. Paraméteres módszerek esetén feltételezzük, hogy mindkét minta normális eloszlású sokaságból származik. Mivel a normális eloszlást két paramétere meghatározza, az eloszlás két paraméterét, az átlagokat vagy a szórásokat lehet összehasonlítani a két csoportban.

Átlagok összehasonlítása, kétmintás t-próba

A kétmintás t-próba a két átlagot hasonlítja össze, a kapott mintaátlagok segítségével a sokaság-átlagokra következtetünk. A nullhipotézise az, hogy a két sokaságnak, amelyekből a mintákat vettük, azonos az átlaga (kontroll = diéta), kétoldalas ellenhipotézise pedig az, hogy különbözők az átlagok (kontrolldiéta), egyoldalas ellenhipotézis szerint a kontroll sokaság átlaga nagyobb, mint a kezelt csoport átlaga (kontrollg2diéta).

A kétmintás t-próbának két „változata” van attól függően, hogy a varianciák egyenlők-e vagy sem. Először tegyük fel, hogy a két populációban a varianciák is azonosak. Jelölje m és n a két minta elemszámát,

x felülvonás és y felülvonás

a mintaátlagokat, és sx és sy a minta standard deviációkat. Ha a feltételek teljesülnek és a nullhipotézis igaz, akkor a következő képlettel kiszámított mennyiség

t = x felülvonás – y felülvonás / sp szorozva gyökjel alatt 1/n +1/m = x felülvonás – y felülvonás / sp szorozva gyökjel alatt nm/n + m

n+m-2 szabadságfokú t-eloszlást követ, ahol

sp 2 = (n-1) szorozva sx 2 + (m-1) szorozva sy 2 / n + m - 2

a közös variancia összevont (pooled) becslése. Ekkor a t-eloszlás táblázatából adott szignifikanicaszint és szabadságfok mellett meghatározható az a kritikus t-érték (t, n+m-2), amelyet az általunk számított t-értékkel összehasonlítva döntünk. Ha az általunk számolt t-érték abszolút értéke nagyobb, mint a táblabeli kritikus érték,

t abszoútértéke g t ?, n + m

, akkor az alternatív hipotézis mellett döntünk, azaz elvetjük a nullhipotézist, és azt mondjuk, hogy a különbség szignifikáns szinten, jelölése pl. Ha

t abszoútértéke g t ?, n + m - 2

, akkor a nullhipotézis mellett döntünk, és azt mondjuk, hogy a különbség nem szignifikáns szinten, pg.

Különböző varianciák esetén más képletet és szabadságfokot kell számítani (Welch próba). Ekkor

t = x fellülvonás – y fellülvonás / gyökjel alatt sx 2/n + sy 2/m

, a szabadságfok =

(n-1) szorozva (m-1)/g2 szorozva (m-1) + (1-g2) szorozva (n-1)

, ahol

g = sx 2/n / sx 2/n /n + sy 2/n/m

Ez a szabadságfok nem lesz egész szám, ezért a táblázat használatakor kerekítenünk kell.

A varianciák összehasonlítása

Annak eldöntéséhez, hogy a (8.3) és (8.5) képletek közül melyiket alkalmazzuk, össze kell hasonlítani a varianciákat. Ez egy újabb próba, amelyben azt a nullhipotézist teszteljük, hogy a két normális eloszlású sokaság azonos varianciájú (H0: 1=2, Ha: 1 2.). Két variancia összehasonlítását kézi számolással egyszerűen elvégezhetjük. Ehhez a nagyobb varianciát osztjuk a kisebbik varianciával, a kapott mennyiség F-eloszlású lesz:

F = nagyobb szórásnégyzet / kisebb szórásnégyzet

, melynek két szabadságfoka van: (a nagyobb szórásnégyzetű minta elemszáma-1) és (a kisebb szórásnégyzetű minta elemszáma-1). Az F-próba táblázatai azonban az eloszlás egyik oldalát tartalmazzák, az 1-nél nagyobb értékeket, ezért kellett a nagyobb varianciát osztanunk a kisebbel. Mivel az F-táblázatok egyoldasak, a próbánk pedig kétoldalas, ezért 5%-os kétoldali próbához a 2,5%-os táblázatot kell használnunk. Egy 5%-os F-táblázattal tehát 10%-os kétoldalas szinten teszteljük a varianciák különbözőségét. A számítógépes programok többnyire az ún. Levene próbával végzik a varianciák összehasonlítását, amelynek nem feltétele az adatok normális eloszlása, a számítását itt nem részletezzük.

Független minták paraméteres összehasonlításakor először tehát a varianciákat kell összehasonlítanunk. Ha a varianciák nem különböznek szignifikánsan, akkor a (8.3) képlet szerint számolunk, ha különböznek, akkor a módosított (8.5) képlet szerint kell számolnunk.

A példafeladat kiértékelése kétmintás t-próbával

H0: 1=2 (a két sokaság átlaga megegyezik)

Ha: 1 2 (a két sokaság átlaga különbözik – kétoldalas próba).

Tegyük fel, hogy az adataink normális eloszlású sokaságból származnak. Az adatok eloszlását megnézve, nincs okunk kételkedni a normalitásban, nincs nagyon kiugró érték és viszonylag szimmetrikus is mindkét adatsor. Ilyen kis elemszám esetén nem is tudjuk biztonságosan ellenőrizni a normalitást (lásd normalitásvizsgálat). Ahhoz, hogy el tudjuk dönteni, melyik „t-próba képletet” alkalmazzuk, először a varianciákat hasonlítjuk össze, kézi számítással. „Szemre” a két standard deviációt összehasonlítva látható, hogy az egyik egy kicsit nagyobb, mint a másik. Kérdés, hogy ez a nagyságbeli különbség véletlennek tekinthető-e. Elvégezve a próbát, F-re a következő értéket kapjuk:

F = 3,33332/2,1452 = 11,109/4,601025 = 2,415

.

A szabadságfokok kiszámításánál a nagyobb varianciájú csoport a 10 elemű diétás csoport, a kisebb varianciájú a 11 elemű kontroll csoport. Így tehát az F-eloszlás táblázatából a kritikus értéket a számláló 9-es szabadságfokú és oszlopa és a nevező 10-es szabadságfokú sorában kell keresni. A 9,10 szabadságfokú (egyoldalas) F-eloszlás táblázatából = 0,05 esetén F0,05; 9; 10 = 3,02. Mivel az általunk számított F-érték ennél kisebb, a varianciák azonosságára vonatkozó nullhipotézist elfogadjuk, a különbség nem szignifikáns 10%-os szinten, pg0,1. Nyilván a különbség 5%-os szinten sem szignifikáns, tehát pg0,05. A programrendszer által számított Levene próba eredménye hasonló: p = 0,189g0,05, nem szignifikáns 5%-os szinten.

Miután úgy döntöttünk a sokaságok varianciáról, hogy azok egyenlők, az átlagok összehasonlítására a t-érték számításához az azonos varianciákhoz tartozó (8.3) képletbe helyettesítünk:

t = x fellülvonás – y fellülvonás / sp szorozva gyökjel alatt 1/n + 1/m = x fellülvonás – y fellülvonás / sp szorozva gyökjel alatt 1/n + 1/m = 4-1 / gyökjel alatt 9 szorozva 3,33332 + 10 szorozva 2,1452 / 9 + 10 szorozva gyökjel alatt 10 szorozva 11 /10 + 11 = 3 / gyökjel alatt 99,999 + 46,01025 / 19 szorzva gyökjel alatt 5,238 = 2,477

A szabadságfok=10+10-2=18. A táblabeli kritikus érték t 0.05,18 = 2,1009. Ennél a mi számított t-értékünk abszolút értéke nagyobb, tehát az eltérés szignifikáns 5%-os szinten. A statisztikai rendszer által számított p-érték p = 0,023l0,05, szignifikáns. A p = 0,023 azt jelenti, hogy ha igaz lenne, hogy a diéta nem hatásos, akkor 2,3% az esély arra, hogy pusztán a véletlen folytán kapjunk 3 kg-os vagy ennél nagyobb átlagos különbséget. Ez az esély pedig nagyon kicsi, ezért tekintjük ezt a különbséget jelentősnek. Az átlagosan 3 kg-os különbség a két csoport közötti testsúlycsökkenésben statisztikailag szignifikáns különbség, más dolog viszont annak megítélése, hogy ekkora különbség jelentős-e a „szakmailag”.

A t-próba másik, Welch-féle módosított képletet (8.5) kellene alkalmaznunk, ha a varianciák különbözők lennének. Annak ellenére, hogy elfogadtuk a varianciák egyenlőségét, csak a számítás bemutatására, végezzük el a számítást különböző varianciák esetére is: t = 2,426, szabadságfok = 15,122. Ekkor a kritikus érték t 0.05,15 = 2,1315, ennél nagyobb a számított t-érték abszolút értéke (2,426g2,1315), tehát a különbség ebben az esetben is szignifikáns. A p-érték ebben az esetben p = 0,028 lenne.

Nemparaméteres módszer – Mann-Whitney próba

Ha a normalitást nem tudjuk, vagy nem akarjuk ellenőrizni, vagy ha – bár az eredeti eloszlás folytonos, de az adatokat ordinális skálán mérjük –, a két független csoportot nemparaméteres módszerekkel hasonlíthatjuk össze. Sok eljárás van, melyek mindegyike azt a nullhipotézist teszteli, hogy a két minta azonos eloszlásból származik. A leggyakrabban mégis egy rangsorolásos eljárást alkalmaznak a kétmintás t-próba nemparaméteres megfelelőjeként. Ezt a próbát szokták Wilcoxon próbának is nevezni, mivel eredetileg Wilcoxon dolgozta ki, röviddel utána Mann és Whitney közölte ennek egy másik értelmezését. Mégis, megkülönböztetésül az összetartozó adatok kiértékelésére szolgáló Wilcoxon-féle előjeles rangpróbától, a független minták összehasonlítására szolgáló eljárást Mann-Whitney próbának nevezik általában.

A módszer igen egyszerű: a két mintát együtt rangsoroljuk, vagyis csoporttól függetlenül készítjük el a rangszámokat. Egyenlő adatok esetén korrigálunk a rangszámok átlagával, a kapott rangszámokat kapcsolt rangoknak nevezzük. Végül csoportonként külön-külön összeadjuk a rangszámokat (elég az egyiket, pl. a kisebb elemszámú csoportét). Ha igaz a nullhipotézis, a két rangszámösszeg közel egyforma lesz. Minél nagyobb a két rangszámösszeg közötti eltérés, annál inkább gondolhatunk arra, hogy az egyik populációban eleve nagyobb értékek vannak, mint a másikban. A próbastatisztika értéke maga a rangszámösszeg, pl. a kisebb elemszámú csoporthoz tartozó rangszámösszeg, amelyet Rkisebb = T-vel jelölünk. Szokás ezt Wilcoxon-féle statisztikának is nevezni. A T statisztika kritikus értékei kis elemszám esetén táblázatból kereshetők ki, amely a két elemszámnak megfelelően mutatja azt az intervallumot, amelyen kívül eső rangszámösszeg esetén a különbség szignifikáns. Nagy elemszám esetén pedig egy közelítően normális eloszlásra vezető képletet alkalmazhatunk, a képletben a „kisebb” és „nagyobb” indexek a kisebb elemszámú illetve nagyobb elemszámú csoportot jelentik:

z = Rkisebb – nkisebb szorozva (n kisebb + n nagyobb +1) /2/gyökjel alatt nkisebb szorozva nnagyobb nkisebb + nnagyobb + 1) /12

Egy kicsit bonyolultabb a Mann-Whitney-U statisztika számítása, amely két csoport elemeinek a párba állításán alapul. Az egyik csoport minden egyes elemét (xi ) párba állítjuk a másik csoport minden egyes elemével (yi), az így keletkezett párok száma n1n2. Megvizsgáljuk, hogy a párok között hány olyan van, ahol az első szám kisebb, mint a másik (xi l yi .). Ezeknek a pároknak a száma a Mann-Whitney-U-val jelölt statisztika (pontosabban, ha vannak a párok között egyenlők is, akkor az egyenlő párok számának a felét még hozzávesszük U-hoz). Ha a két populáció között nincs különbség, körülbelül egyforma számú olyan pár lesz, amelyekben xi l yi , mint amelyekben fordított a helyzet. Ha nagyon sok vagy nagyon kevés ilyen pár van, az arra utal, hogy a két populációban lévő számok nem egyformák egymáshoz viszonyítva. Az U/n1n2 hányados annak a valószínűségnek a becslése, hogy egy, az első populációból véletlenszerűen választott új egyed értéke kisebb lesz, mint a másik populációból választott új egyedé. U különben a T ismeretében is kiszámítható a következő képlettel: U = n1n2+1nkisebb(nkisebb +1)-T.

Megjegyzés: A probléma szimmetriája miatt ezt a próbát sokféleképpen lehet tárgyalni, az egyes szakkönyvek el is térnek egymástól aszerint, hogy a kisebb elemszámhoz tartozó rangszámösszeget tekintik-e próbastatisztikának, vagy pedig bármelyiket. Eszerint természetesen a táblázataik is eltérnek egymástól. A számítógépes szoftverek között is vannak eltérések, pl. bizonyos szoftverek Wilcoxon-féle statisztikaként a két rangszámösszeg közül a kisebbet tekintik; U értéket az első csoportra számítják ki, és ha ez nagyobb, mint n1n2/2, akkor U’= n1n2-U értéket írják ki.

A példafeladat kiértékelése Mann-Whitney U-próbával

A példafeladat adatait először nagyság szerint sorba kell rendezni, a két csoportot együttesen, majd az együttes mintára a legkisebbtől kezdve 1-esével kiosztjuk a rangszámokat. Az egyenlő adatokhoz tartozó rangszámokat korrigáljuk (kapcsolt rangok). Ezeket az adatokat a 8.5. táblázat tartalmazza. Ugyanezeket az adatokat az eredeti sorrendbe visszarendezhetjük, így könnyebb az összeadás (8.6. táblázat).

8.4. táblázat - A 8.3. táblázat adatai a testsúlyváltozás (diéta előtt és után különbsége) szerint rendezve, rangszámokkal.

Vizsgált személyTestsúlyváltozásCsoportRangszámKapcsolt rangok
19-2Kontroll11,5
20-2Kontroll21,5
1-1Diéta33
70Diéta45,5
120Kontroll55,5
140Kontroll65,5
180Kontroll75,5
81Diéta89
131Kontroll99
163Kontroll109
112Kontorll1111
33Diéta1213
153Kontroll1313
213Kontorll1413
64Diéta1515
25Diéta1616,5
175Kontroll1716,5
56Diéta1819
96Diéta1919
106Diéta2019
410Diéta2121


8.5. táblázat - A 8.3. táblázat adatai az eredeti sorrendben, rangszámokkal.

Vizsgált személyTestsúlyváltozásCsoportRangszámKapcsolt rangok
1.-1Diéta33
2.5Diéta1616,5
3.3Diéta1213
4.10Diéta2121
5.6Diéta1819
6.4Diéta1515
7.0Diéta45,5
8.1Diéta89
9.6Diéta1919
10.6Diéta2019
Rangszámösszeg, R1    140
11.2Kontroll1111
12.0Kontroll55,5
13.1Kontroll99
14.0Kontrol65,5
15.3Kontroll1313
16.1Kontroll109
17.5Kontroll1716,5
18.0Kontroll75,5
19.-2Kontroll11,5
20.-2Kontroll21,5
21.3Kontroll1413
Rangszámösszeg, R2    91


A kezelt csoport rangszámösszege R2=140, a kontroll csoporté R1=91. Mivel a kisebb elemszámú csoport a kezelt, így a próbastatisztikánk értéke T= R 1=140. Ellenőrizzük számolásunk helyességét: a két rangszámösszeg együttesen 91+140 = 231, ez egyenlő az első „n” egész szám összegével, az n(n+1)/2 képlet szerint 21 22/2 = 231.

A Mann-Whitney U próba táblázata szerint 10-11 elemszámhoz tartozó kritikus értékek = 0,05 esetén 81-139, mivel a T = 140 ezen az intervallumon kívül esik, a különbség szignifikáns 5%-os szinten. A z-érték kiszámítására nincs szükség, mert az elemszám kicsi, mégis mintaképpen kiszámítjuk:

z = 140-10 szorozva (10 + 11 + 1)/2/ gyökjel alatt 10 szorozva 11(10+ 11+ 1)/12 = -30/14,2 = -2,12

Standard normális eloszlás és = 0,05 esetén a kritikus érték z = 1,96. Mivel a |z| = 2,12g1,96, a különbség szignifikáns 5%-os szinten. A statisztikai program által számolt, z = 2,12-nek megfelelő kétoldalas p-érték p = 0,033.

Számítsuk ki az U-értéket is: U = 1011+1011/2-91 = 110+55-140 = 25. Tehát 25 olyan pár van a 110-ből, amelyben a diétás csoport értékei kisebbek, mint a kontroll csoport értékei (pontosabban, ha megszámoljuk, akkor határozottan kisebb reláció 21 pár esetén szerepel, és egyenlőség áll fenn 8 pár esetén, ezeket fele-fele arányban adjuk a nagyobbakhoz és a kisebbekhez, így 21+4=25-öt kapunk U értékére). Annak valószínűsége, hogy egy-egy embert kiválasztva a diétázó és a kontroll „populációból”, a diétázó csoportbeli érték legyen kisebb. 25/110 = 0,227. Természetesen fordítva is lehet értelmezni: 1-0,227 = 0,773 annak valószínűsége, hogy egy-egy embert véletlenszerűen kiválasztva a két populációból, a diétázó csoportban legyen nagyobb a fogyás mértéke.