Ugrás a tartalomhoz

Bevezetés a szociológiába

Andorka Rudolf (2006)

Osiris Kiadó

MINTAVÉTEL

MINTAVÉTEL

A legtöbb esetben nincs arra lehetőség, hogy a vizsgált személyek teljes körét, a teljes sokaságot (populációt) kérdőívvel megkérdezzük. Nyilvánvaló ez, ha az egész országra, a teljes népességre vonatkozó adatokat akarunk gyűjteni, például a társadalom egészének jövedelmi viszonyairól akarunk képet kapni. Sem a vizsgálatra rendelkezésre álló pénz, sem a feldolgozó (egyebek között számítógépes) kapacitás nem tenné lehetővé, hogy minden család megelőző évi összes jövedelméről adatokat gyűjtsünk. De még az egy-egy településre vagy munkahelyre vagy egy kisebb embercsoportra (például az egyetem hallgatóira) vonatkozó adatfelvétel esetében sem lehet általában mindenkit megkérdezni. Erre azonban nincs is szükség, mert a statisztikai mintavétel elmélete szerint megfelelően kiválasztott minta esetén elég a teljes sokaságnak egy kis részét megkérdezni ahhoz, hogy meglehetősen pontos adatokat kapjunk a teljes sokaságról, pontosabban, hogy a minta alapján kapott eredményeket viszonylag kis hibahatárral kiterjeszthessük, általánosíthassuk az egész sokaságra.

A megfelelő mintavétel azt jelenti, hogy a vizsgálni kívánt sokaság minden tagjának egyenlő esélye kell hogy legyen arra, hogy a mintába kerüljön, vagyis hogy véletlenszerűen kell kiválasztani a mintába kerülő és megkérdezett személyeket, családokat, lakásokat stb. Az ilyen módon választott mintát nevezzük reprezentatív mintának.

Az ideális véletlenszerű mintavétel céljából úgy járnánk el helyesen, hogy a vizsgálni kívánt sokaság minden tagjának nevét felírnánk egy lottógolyóra, és azután egy lottókerékkel sorsolnánk ki annyi golyót, ahány személyt a mintába kívánunk választani. A gyakorlatban természetesen ez így megoldhatatlan, de ennek analógiájára járunk el.

Ez mindenekelőtt azt jelenti, hogy a vizsgált sokaságról elvben teljes névsorral, listával kell rendelkeznünk. Ha egy üzem dolgozóit akarjuk vizsgálni, akkor rendelkeznünk kell a listájukkal. Ha a vizsgált sokaság kicsi, akkor ez nem okoz különösebb problémát. Ha azonban országos reprezentatív vizsgálatot végzünk, akkor az ország összes lakosát tartalmazó lista biztosítása nem egyszerű feladat.

Viszonylag egyszerű a helyzet a népszámlálások után, mert ekkor teljes listák készülnek. Ezért sok esetben a népszámlálások listáiból kiindulva, a népszámlálások után végeznek reprezentatív lakossági adatfelvételeket. Ha létezik népesség-nyilvántartás, annak alapján is lehet mintát választani. Ez a minta azonban torzított is lehet, ha a népesség-nyilvántartás nem pontos vagy nem naprakész. Előfordulhat például, hogy a lakóhelyét gyakran változtató népesség nyilvántartása nem pontos (nem szerepel a tényleges lakóhelyének népesség-nyilvántartásában), így szükségszerűen kimarad a mintából, és ha ez a sokat vándorló csoport más összetételű, mint az átlagnépesség (ami nagyon valószínű, például szegényebb lehet az átlagnál), akkor a kapott eredmények nem reprezentatívak.

Más lakossági listák alapján is szoktak mintát választani, például választói névjegyzékek vagy telefonkönyv alapján. Ez utóbbi azonban nagyon szemléletes példát mutatott évtizedekkel ezelőtt Amerikában arra, hogy milyen tévedéshez vezethet az, ha a vizsgálni kívánt népesség egy része kimarad a listából és ezzel a mintából. A telefonkönyvből kiválasztott (telefonos interjús) minta alapján vizsgálták ugyanis az elnökválasztási szándékokat, és ennek alapján becsülték előre a várható választási eredményt. Mivel azonban a telefonkönyvből egyesek – kevesen ugyan, de éppen a legszegényebb rétegbe tartozók – hiányoztak, és ezek nagyrészt a demokrata elnökjelöltre szavaztak, az előrejelzés a telefonkönyvből vett minta alapján tévesen a köztársasági párti elnökjelölt győzelmét jósolta.

Előfordulnak olyan társadalmi jelenségek is, amelyeket nem vagy csak nagyon nehezen lehet lakossági listákból választott mintákon vizsgálni. Ilyenek egyrészt a nagyon ritka jelenségek (például a prostitúció), másrészt az úgynevezett „rejtett populációk” (például a kábítószer-fogyasztók). Ilyen esetekben a mintát lehet például a kérdéses populációval kapcsolatba kerülő (például kábítószer-fogyasztókat gondozó) intézmény listái alapján választani, vagy a „hólabda”-módszerrel megkeresni a vizsgálandó személyeket (például megkérdezni, hogy a vizsgált kábítószer-fogyasztó kiket ismer, akik szintén fogyasztanak kábítószert). Lehet a vizsgálatot megfigyeléssel (például egy galeri megfigyelésével) is kezdeni. Minden ilyen kiválasztásnál nagyon gondosan kell eljárni, hogy a megkérdezetteket semmilyen hátrány ne érje azért, mert belekerültek a szociológiai vizsgálat mintájába.

A mintavételi arány és a minta nagysága alapján pontosan meg lehet határozni, hogy a véletlen mintavétel alapján kapott különböző adatok – átlag, százalékos arány stb. – milyen hibahatárok között tekinthetők pontosnak. Erre vonatkozó képleteket és táblázatokat a szociológiai módszertankönyvekben találunk. Elsősorban azt kell tudnunk, hogy főleg a minta nagysága befolyásolja a pontosságot, a mintavételi aránynak sokkal kisebb a szerepe. Ezért igen nagy sokaságból (például Magyarország lakosságából) viszonylag igen kis – pár ezer egységből álló – minta alapján is meglehetősen biztosan következtethetünk. Ha azonban a mintát sok kisebb részre akarjuk bontani (például ha megyénként vagy társadalmi rétegenként akarunk adatokat közölni és elemezni), akkor a szükséges minta nagysága nő. Nagyon durva „hüvelykujj”-szabályként azt mondhatjuk, hogy minden, a minta alapján megkülönböztetett vizsgált kategóriában legalább 100 megfigyelt személynek, családnak kell lennie. Ha például egy egyetem hallgatóit vizsgáljuk, de azon belül az egyes évfolyamokat is össze akarjuk hasonlítani, akkor évfolyamonként legalább 100 hallgatónak kell a mintában lennie.

A megbízhatóság nagyságrendjeinek szemléltetésére idézzük a következő adatokat: Ha egy 1000 főből álló minta (vagy mintarész) százalékos megoszlásait elemezzük, akkor egy kapott 30 százalékos arány azt jelenti, hogy a teljes sokaságon belüli tényleges arány 95 százalékos valószínűséggel ± 4 százalékon belül van, vagyis a tényleges arány 26 és 34 százalék közt helyezkedik el. Ha azonban a minta (vagy mintarész) csak 100 főből áll, akkor a 30 százalék megbízhatósági intervalluma 95 százalékos szinten ± 10 százalék, tehát a tényleges arány 20 és 40 százalék között helyezkedik el. Világos, hogy az utóbbi esetben sokkal óvatosabban kell eljárnunk a következtetések levonásánál.

Minden kérdőíves adatfelvételnél előfordul, hogy a mintába került személyek, családok egy kisebb részét nem sikerül megtalálni, és egy másik kis részük esetleg megtagadja a kérdések megválaszolását. Az adatszolgáltatás megtagadására mindenkinek joga van, a népszámlálások kivételével semmilyen adatszolgáltatás sem kötelező. Mindkétfajta adathiány erősen torzíthatja az eredményeket. Ugyanis mind azok, akiket nem sikerül megtalálni, mind az adatszolgáltatást megtagadók többnyire nagymértékben eltérnek az átlagnépességtől, „különös emberek”. Azok, akiket nem sikerül megtalálni, legtöbbször a legszegényebbek közé tartoznak, a „megtagadók” pedig az ellenkezésre való hajlandóságuk miatt nem tekinthetőek átlagosoknak, a tapasztalat szerint vagy a legszegényebbek, vagy a legjobb módúak közül kerülnek ki. Ezért alapszabályként azt lehet megfogalmazni, hogy az adatfelvétel eredményeinek közlésekor fel kell tüntetni a különböző okok miatt „nem sikerült” megkérdezések számát.