Ugrás a tartalomhoz

Az érvelés mestersége

Margitay Tihamér (2014)

Typotex Kiadó

11.3. A minta reprezentativitása és az induktív általánosítás hibái

11.3. A minta reprezentativitása és az induktív általánosítás hibái

Az induktív általánosításban a megvizsgált minta alapján következtetünk az alapsokaságra. Ha a minta a vizsgált tulajdonság szempontjából képviseli az alapsokaságot, ha a mintában a vizsgált tulajdonság megoszlása tükrözi a tulajdonság megoszlását az alapsokaságban, akkor azt mondjuk, hogy a minta reprezentatív. Nem szükséges, hogy a minta minden tekintetben hasonlítson az alapsokaságra; a hasonlóság csak a vizsgált tulajdonság megoszlása tekintetében fontos. A reprezentativitás azt jelenti, hogy a minta tulajdonsága a vizsgált szempontból megegyezik az alapsokaság tulajdonságával, vagy másképpen: a mintában a vizsgált tulajdonság megoszlása ugyanaz, mint az alapsokaságban. A minta elfogult, (torzított)[a] ha nem reprezentatív.

[a] A magyar statisztikai irodalomban torzított mintáról szokás beszélni. Azért használom ebben az összefüggésben az „elfogult minta” kifejezést, mert érvelési szempontból a minta torzítása a konklúzióval kapcsolatos elfogultságot jelent a következtetésben, ami egyben utal az érvelési hiba jellegére.

Ez utóbbi megfogalmazás éppen azt jelenti, hogy

Kedvező esetminta Kedvező esetalapsokaság

──────────

=

──────────

Összes esetminta Összes esetalapsokaság

Ha a minta reprezentatív, akkor a minta alapján történő induktív általánosítás nyilvánvalóan erős. A minta reprezentativitása biztosítja, hogy a mintán végzett megfigyelés általánosítható az alapsokaságra.

Mikor tekinthető hát reprezentatívnak a minta, vagy legalábbis mely tényezők javítják, és melyek rontják a minta reprezentativitását, és ezzel az induktív általánosítás erősségét?

Három tényezőt szokás megkülönböztetni: a minta véletlenszerűségét, a minta nagyságát, és esetleges pszichológiai tényezőket.

Az első szempont az, hogy a mintát véletlenszerűen választottuk-e ki? Véletlenszerű mintáról akkor beszélhetünk, ha az alapsokaság minden elemének egyforma esélye van a mintába kerülésre.[89] A léghőmérséklet mérésekor a véletlenszerűséget jól biztosította a levegő áramlása, melynek következtében – különösen, ha szél is van – nem valószínű, hogy a szóban forgó kis távolságokon belül jelentős hőmérsékletkülönbség alakulna ki. A véletlenszerűség komolyabb problémát jelent, ha diszkrét egységekből álló sokaságot vizsgálunk. Tegyük fel, hogy a minőségellenőr azt vizsgálja, hogy a szalagon elkészült izzók bizonyos minőségi paraméterei megfelelők-e, és ehhez minden századik darabot ellenőrzi. Ha az ellenőrizendő darabokat úgy választja ki, hogy a szalagról minden századik izzót veszi le, akkor nem lesz véletlenszerű a minta, amennyiben az izzók nem véletlenszerűen követik egymást a szalagon. Az ellenőr nem reprezentatív mintát és hibás adatot kap, ha például a gyártásban olyan hiba van, amely minden páratlan számú darabot érinti, és a páros számúakat nem befolyásolja. (Például egy adagoló működésének a hibája következtében.) Ekkor a vizsgált mintában nem jelentkezik a hiba, míg az alapsokaság minden második darabjában igen. Biztonságosabban jár el, ha véletlenszerűen választja ki a vizsgálandó darabokat. Például minden egyes izzó elkészültekor feldob egy hatoldalú kockát, és levesz egy izzót vizsgálatra minden tizenhatodik olyan esetben, amikor hatost dobott.

Még nehezebb reprezentatív mintát kiválasztani, ha emberek populációját vizsgáljuk. Ha a Magyarországon egy főre jutó átlagos megtakarítást akarjuk közvélemény-kutatás segítségével megtudni, akkor nem elegendő egy bank bejáratánál a megkérdezésre kiválasztott személyek véletlenszerűségét biztosítani. Hiszen a bankba járó emberek – legyenek bár alkalmazottak vagy ügyfelek – valószínűleg nagyobb átlagos megtakarítással rendelkeznek, mint a lakosság egésze. Hiszen akinek nincs megtakarítása, nem is jár bankba. A banknál véletlenszerűen kiválasztott minta is elfogult lesz.

A minta elfogultságához kapcsolódik egy híres, mára tankönyvi mintapéldává érett eset.[90] A Literary Digest nagyszabású közvélemény-kutatásokat végzett az amerikai elnökválasztások előtt. 1936-ban tízmillió próbaszavazólapot küldtek szét postai úton, telefonkönyvekből és gépkocsi-nyilvántartásokból véletlenszerűen kiválasztott személyeknek. A kétmilliónál több visszaérkezett válasz a republikánus Alf Landon jelentős, 57:43 arányú győzelmét jósolta, majd a választásokon F.D. Roosevelt 61 %-os elsöprő győzelmet aratott. Mi volt a tévedés oka? Az egyik tényező a 20 % körüli válaszolási hajlandóságban keresendő, mely az előrejelzés bizonytalanságát jelentősen megnövelte volna akkor is, ha a minta egyébként reprezentatív lett volna. Ám nem volt az. A másik tényező, mely az eredményt befolyásolta, a minta kiválasztásának módja volt. A telefon-előfizetők és a gépkocsi-tulajdonosok az átlagosnál tehetősebbek voltak akkor az USA-ban, a tehetősebbek között viszont arányában több a republikánus szavazó, mint a népesség egészében. Tehát a minta elfogult volt, Landon szavazói nagyobb eséllyel kerültek a megkérdezettek közé, mint Roosevelt szavazói.

Természetesen a minta nagysága is befolyásolja a reprezentativitást. Például, ha egy urnában piros és fehér golyók vannak, akkor nem lehet reprezentatív egy egyelemű minta. Ilyen minta alapján biztosan nem lehet az urnában lévő piros és fehér golyók arányára általánosítani. Azt mondhatjuk, hogy véletlenszerű minta esetén a minta reprezentativitása a minta nagyságával javul. A Literary Digest példája azonban azt mutatja, hogy önmagában a minta nagysága semmit nem mond! A minta elemszámának növekedése csak akkor javítja a reprezentativitást, ha a minta véletlenszerű.

A véletlenszerű mintavételi eljárással kiválasztott minta szinte sohasem mutatja a vizsgált tulajdonságnak pontosan azt az eloszlását, mint az alapsokaság. Ha egy teljesen véletlenszerűen kiválasztott mintában leszámoljuk egy tulajdonság felbukkanásának arányát, az általában nem egyezik meg pontosan a tulajdonságnak az alapsokaságban található arányával. A vélet- lenszerű kiválasztási eljárás a minta és az alapsokaság méretének függvényében becsülhető véletlenszerű hibát ad. Adott alapsokaság és minta esetén valószínűségi becslés adható arra, hogy véletlenszerű kiválasztás esetén mekkora a hiba.[91] A véletlenszerű kiválasztásból adódó véletlenszerű mintavételi hibát a következőképpen adhatjuk meg:

A vallásosak aránya az összes bölcsészhallgató között a minta alapján 95 % valószínűséggel 16 % ± 5 % pontossággal. Vagyis 95 % a valószínűsége annak, hogy a vallásosok aránya az alapsokaságban a 16 % körüli ± 5 %-os sávba esik.

A 95 %-os valószínűséget megbízhatósági szintnek, a ± 5 %-os sávot pedig konfidencia-intervallumnak, néha egyszerűen és pongyolán hibának (hibahatárnak) nevezzük. Az adatoknak ez az eltérése a mintában az alapsokasághoz képest pusztán a „véletlen játéka”, magából a véletlenszerű mintavételi eljárásból következik, abból, hogy nem az egész alapsokaságot, hanem annak csak egy véletlenszerű ingadozásokkal kiválasztott részét vizsgáltuk meg. Ha tízszer feldobunk egy szabályos érmét, akkor ritkán kapunk öt fejet és öt írást. Pedig a fej aránya nagyon sok dobás esetén (ha a dobások száma tart a végtelenhez) 50 %. Ezt a tíz feldobásból álló minta azonban csak ritkán tükrözi pontosan. A mintavételi hiba tehát pusztán a véletlenszerű kiválasztás miatti ingadozásból adódik, és semmi köze a mintavételi eljárás során elkövetett torzító hatású eljárási, megfigyelési, adatkezelési, számítási stb. hibákhoz; ezek hozzáadódnak a véletlenszerű mintavételi hibákhoz. A mintával kapcsolatos hibák két típusát érdemes tehát gondosan megkülönböztetni: a mintavételnek a véletlen „játékából” adódó véletlenszerű hibáját és a mintavételi eljárás szisztematikus torzító hatásából adódó hibát.

Adott alapsokaság esetén a minta nagyságának növelésével csökken annak a sávnak a mérete, amelybe a tulajdonságnak az alapsokaságban való megoszlása 95 % valószínűséggel esik. (Vagy nő a valószínűsége, hogy az alapsokaságban a vizsgált paraméter értéke az adott hibahatárok közé esik.) Az összefüggés azonban nem lineáris. Számtalan tényezőtől függ (például a változók számától, a populáció homogenitásától, a válaszmegtagadók arányától stb.), és csak bonyolult elméleti megfontolások és tapasztalati adatok birtokában lehet a várható hibát adott alapsokaság és mintaméret esetében megbecsülni.

Ez jól látszik abból, hogy Magyarországon 1200 fős mintán végzett felmérés alapján szokták a választások eredményét becsülni ± 5 %-os pontossággal, míg az USA-ban 29-szor nagyobb népességre az elnökválasztás eredményének a ± 4 %os pontosságú becsléséhez 2400 fős mintát szoktak használni. (A megbízhatósági szint mindkét esetben 95 %.)

A minta tehát önmagában nem tekinthető nagynak vagy kicsinek, elegendőnek vagy kevésnek. A minta nagyságát csak a pontosság ismeretében és az elvárt pontossághoz viszonyítva lehet értékelni.

A minta alapján az alapsokaságra tett induktív általánosítás nem értékelhető a megbízhatósági szint és a konfidencia-intervallum ismeretének hiányában!

Tegyük fel, hogy a kérdőíves mintában a fogorvosok 80 %-a egy bizonyos fogkrémet ajánlott. Tegyük fel, hogy a minta teljesen reprezentatív, amit egy ilyen típusú tulajdonság esetében (milyen fogkrémet ajánl a fogorvos) egyébként nehéz értelmezni. Még e jóindulatú – és valószínűtlen – feltevés mellett sem vihető át egyszerűen az adat az alapsokaságra. Nem mondhatjuk, hogy ezek szerint tehát minden tíz (magyar) fogorvos közül nyolc ezt ajánlja. Hiszen nem tudjuk, hogy a mintában kapott érték, valamint a minta és az alapsokság méretének, továbbá a válaszadási hajlandóság stb. függvényében az adat úgy értendő, hogy a fogorvosok 80 %-a az adott fogkrémet ajánlja ±12 %-os pontossággal 68 %-os megbízhatósági szint mellett. (És ekkor, mondjuk, 95 %-os megbízhatósági szint mellett a hibahatár már ±24 %-os.)

Vagy a mintavétel nagysága és egyéb tényezők miatt a hibahatár 68 %-os megbízhatósági szint mellett ±30 %-os. (És ekkor, mondjuk, 95 %-os megbízhatósági szint mellett a hibahatár már ±60 %-os lenne.) Vagyis 32 % valószínűséggel az orvosoknak kevesebb, mint fele, ajánlja az adott fogkrémet!

A mintavételi hiba pontos jellemzése nagyon lényeges az üzenet szempontjából, mely arról akar meggyőzni, hogy a szakemberek ezt a fogkrémet ajánlják, ezért nekem is érdemes ezt használnom.

Mégis gyakran, sőt általában hiányzik az adatok értelmezéséhez nélkülözhetetlen hibahatár és megbízhatósági szint megadása. Pedig ezek a paraméterek alapvetően módosíthatják az induktív általánosítás erősségét, a belőle kapott statisztikai adatok jelentését, valamint az azokat használó következtetés erősségét!

Az egyszerű véletlenszerű mintavétel matematikai statisztikai jellegű problémái voltak azok, amelyeket eddig a véletlenszerűen kiválasztott mintával kapcsolatban tárgyaltunk. Még ezeknél is alapvetőbb probléma azonban, hogy gyakorlati és gyakran elvi okokból egyszerű véletlen mintavétellel nem lehet a minta véletlenszerűségét biztosítani. A minta véletlenszerűsége azt jelenti, hogy az alapsokaság minden elemének egyenlő esélye van arra, hogy a mintába kerüljön. Ezt a legritkább esetben lehet egyszerű véletlen kiválasztással biztosítani.

Hogyan lehetne olyan méréssorozatot végezni, hogy az Univerzum összes elektronjának azonos esélye legyen arra, hogy a fizikus őt méri meg? Valójában az elektronok közül csak nagyon kevésnek van esélye, hogy a mintába bekerüljön. Az Univerzum összes elektronja, amelyre általánosítani kívánunk, még elvileg sem hozzáférhető!

Az ornitológusok néhány egyed megfigyelése alapján következtetnek a madárfaj egészének jellemzőire. Nyilvánvalóan csak a közelükben lévő egyedeket tudják megfigyelni, és ha az ornitológusok véletlenszerű mozgása a Földön nem biztosított, akkor az egyedeknek sincs egyforma esélyük a mintába kerülésre. (A véletlenszerű mozgás az élőhelyeken csak akkor elegendő, ha biztos, hogy nincsenek egyedek azon kívül. Ez pedig már önmagában is nagyon erős induktív általánosítás.)

Gyakorlatilag nem lehet olyan mintavételezést végrehajtani, amely minden embernek, vagy akárcsak minden magyar embernek egyforma esélyt biztosít a mintába kerüléshez. Az emberek nem mennek át egy kapun, ahol valamilyen véletlenszám-generátor (például kockafeldobás) segítségével ki lehet közülük válogatni egy véletlenszerű mintát, mint az izzólámpák ellenőrzé- se esetén. Valószínűleg még elvi akadályok is felmerülnek a közvetlen vélet- lenszerű kiválasztással. Az emberek nem kényszeríthetők vizsgálatokban való részvételre. Az eljárás annyira elhúzódna, hogy az adatok időbeli változásától nem lehetne eltekinteni. Más időmetszethez tartozó adatot mérnénk a mintavételi eljárás elején és mást a végén.

A minta véletlenszerűsége az alapsokaságban történő egyszerű véletlen válogatással tehát ebben a szigorú értelemben általában nem biztosítható. Az ebből adódó eltéréseket más megoldásokkal szokták csökkenteni[92], ami általában szintén nagy szakmai háttértudást és gyakorlati tapasztalatot igényel.

Összegezve: a minta reprezentativitásával és méretével kapcsolatban három fontos tanulság adódik: a minta nagysága nem jelent automatikusan garanciát a reprezentativitásra, a szükséges mintaméret nem becsülhető egyszerűen, továbbá a mintavételi hiba ismerete nélkül (hibahatár, megbízhatósági szint) a statisztikai adat általában nem értelmezhető, és az adatot tartalmazó premissza általában nem értékelhető az érvelés szempontjából.

Pszichológiai tényezők két oldalról befolyásolhatják a minta reprezentativitását. Ha emberekről szeretnénk megtudni valamit, akkor a vizsgálati személyekre a vizsgálati módszerek és eszközök – például a kérdőív – gyakorolhat olyan hatást, amely megakadályozza, hogy a vizsgálati személyek reprezentatív viselkedést produkáljanak. Lehet azonban másik irányú hatás is, ekkor az adatgyűjtést a vizsgálatot végző személy esetleges pszichológiai tényezői befolyásolják. Ezeket a hibák kapcsán tárgyaljuk meg.

A minta reprezentativitásának megítéléséhez nélkülözhetetlen a háttértudás szerepe. Nem lehet általános mintavételi elveket felállítani, és csupán ezek alapján egy minta reprezentativitását, s ezen keresztül az induktív általánosítás erősségét megállapítani. Egy induktív általánosítás erősségének értékeléséhez nem csak statisztikai tudásra és gyakorlatra van szükség, sőt talán még csak nem is elsősorban arra.

Megnézünk egy orosz nyelvű napilapot és egy könyvet, cirill betűket találunk bennük, és ennek alapján általánosítunk az összes orosz nyelvű dokumentumra, tudniillik, hogy az orosz nyelvű dokumentumokat cirill betűkkel írják.

Ez nagyon erős induktív általánosítás, melyben a konklúzió természetesen általánosítás, és nem univerzális állítás. Megengedjük, hogy orosz nyelvű dokumentumokban néha, ritkán, nem jellemzően más karakterek is előfordulnak.

Az induktív általánosítás erejét nyilván nem a minta nagysága vagy véletlen- szerűsége biztosítja. Olyannyira nem, hogy ha valaki arra kíváncsi, milyen betűkkel írják le az orosz nyelvet, akkor egyáltalán nem véletlenszerűen válogat az orosz nyelvű dokumentumok között, hanem megnéz egy szótárat vagy egy nyelvkönyvet.

A könyv és az újság reprezentatív mintát ad az orosz nyelv lejegyzésére használt betűkészletet illetően, ha tudjuk, hogy a napilapokban és a könyvekben a nyelv legáltalánosabban használt lejegyzési módját szokták alkalmazni, és egy nyelv általánosan használt betűkészlete általában nem sok változatosságot mutat. Időnként előfordul ugyan, hogy a standard betűkészletet kiegészítik speciális – például logikai – jelekkel, különleges esetekben átvesznek más ábécével leírt szavakat, de általában egy nyelv egy standard karakterkészletet használ.

Mi több, egyetlen szótár is reprezentatív mintát jelent, ha tudjuk, hogy a szótárat azért készítik, hogy megjelenítse – reprezentálja – az általános nyelvhasználatot. Vagyis a megfelelő háttértudás birtokában egy vagy két dokumentum alapján dokumentumok milliárdjaira vonatkozóan nagyon erős általánosítást tehetünk.

Látunk hat különböző funkciójú holland autót, mindnek sárga a rendszáma, és ebből általánosítunk, hogy a holland kocsiknak sárga rendszámuk van. Ez az általánosítás is erősnek tekinthető, mivel tudjuk, hogy a rendszámok színét valószínűleg rendeletek vagy törvények meglehetősen egységesen szabályozzák, ez valószínűleg a megfigyelt kocsikra is vonatkozik, és ennek további következményeként nem kell jelentős különbségekre számítani.

A példákban a minta reprezentativitását és az egyediről az általánosra tör- ténő induktív általánosítások erejét nem a minta véletlenszerűsége és nagysága biztosította, hanem a meglévő háttértudás.

Háttértudás nélkül, mint arról korábban már volt szó, semmilyen induktív (azaz nem deduktív) következtetés erőssége nem ítélhető meg. (Ezzel szemben a tartalmi kérdésekre vonatkozó háttértudásnak semmi szerepe egy deduktív érvelés érvényességének megállapításában – csak a logikát kell tudni.) Nincs ez másként a véletlenszerű mintákkal dolgozó, például kérdőíves felmérések esetében sem.

Korábbi példánkban azért nem tekintettük korábban reprezentatívnak a bank előtt véletlenszerűen kikérdezett emberektől kapott információt a magyar lakosság megtakarítási szokásaira nézve, mert tudjuk, hogy a szegény emberek viszonylag ritkábban járnak bankba, mint a gazdagok. Ez a háttértudás teszi lehetővé, hogy egy fajta elfogult mintavételi eljárást elkerüljünk.

A vizsgált témára vonatkozó háttértudásra van szükség minden megfigyeléshez, méréshez és statisztikai adatgyűjtéshez, továbbá háttértudásra van szükség ahhoz is, hogy véletlenszerű, vagy közel véletlenszerű mintát lehessen kiválasztani.

A háttértudás teszi lehetővé azt is, hogy tudjuk, mikor tekintsük az induktív általánosítás konklúzióját univerzális állításnak és mikor csak általánosításnak.

Láttunk három tevét, és mindnek patája volt, tehát a teve patás állat. Ebben a következtetésben azért tekintjük a konklúziót univerzális állításnak, mert tudjuk, hogy a faj egészére jellemző tulajdonság, hogy az állat patás. Tudjuk, hogy ez a tulajdonság fajon belül nem változik, ezért megkockáztatjuk az univerzális konklúziót.

A cirill betűkre vonatkozó példában viszont olyan háttértudással rendelkezünk, amely miatt csak általánosításnak tekintjük a konklúziót.

Fentiekből kitűnik, hogy a minta alapján az alapsokaságra vonatkozóan tett induktív általánosítások erőssége általában csak az adatgyűjtés részleteinek ismeretében, a szükséges elméleti ismeretek és gyakorlati tapasztalatok birtokában értékelhető. Ebből az adódik, hogy nagyon szkeptikusnak kell lenniük a statisztikai adatokkal szemben, és csak részletesen bemutatott felmérésre támaszkodó és megbízható forrás által szolgáltatott adatokban ésszerű megbízni.

11.3.1. A minta elfogultsága

Tekintsük át, milyen hibák merülnek fel az induktív általánosítással kapcsolatban!

A minta elfogult, ha a vizsgált tulajdonság megoszlása a mintában nem ugyanaz, mint az alapsokaságban. Ennek három oka lehet: (1) a mintavételi eljárás elfogult, (2) a minta elégtelen, (3) túl messzire megy az általánosítás.

A mintavételi eljárás elfogult, ha az elemek nem egyforma valószínűséggel kerülnek az alapsokaságból a mintába. Erre láttunk példát az 1936-os elnökválasztást megelőző közvélemény-kutatás kapcsán. Minél összetettebb belső szerkezetű az alapsokaság a vizsgált tulajdonságra nézve, annál körültekintőbben kell tervezni a mintavételi eljárást, hogy a minta reprezentativitását biztosítsuk. Itt számtalan tényező játszhat szerepet, melyeket csak jelentős előzetes tudás alapján lehet figyelembe venni, és amelyek független feltevésként kerülnek a vizsgálatba, például az, hogy a megtakarítással nem rendelkezők a banknál nem érhetők el.

Pszichológiai hatásokból adódhat egy további fontos, a mintavételi eljárást torzító tényező, mely különösen a kérdőíves adatgyűjtés során veszélyes. Például, ha a válaszadóknak érdeke fűződik valamely válaszhoz, akkor torzításra számíthatunk.

Siófokon felmérést készítettek annak bizonyítására, hogy ha az M7-es autópálya ingyenes lenne, az tehermentesítené a város útjait, mert akkor többen használnák elkerülő útként. Várható, hogy akik szerették volna annak a szakasznak az ingyenessé tételét, azok a kikérdezéses vizsgálat során készségesebben válaszoltak, és a válaszadók torzított gyakoriságokra emlékeztek. Nem hazugságról van szó! Pusztán arról, hogy aki bosszankodik, hogy a fi- zető autópálya miatt keresztül kell menni a városon, az valószínűleg jobban emlékszik azokra az esetekre, amikor elkerülhette volna a várost, mint az, aki nem érdekelt.

Ehhez nincs szükség rossz kiválasztási eljárásra sem, elegendő, ha a válaszadók tudják, miért készül a felmérés, és – akár öntudatlanul is –, ehhez igazítják a válaszaikat.

Pszichológia befolyást gyakorolhat a válaszadóra a kérdés megfogalmazása is:

1. Támogatja-e ön a magánfegyverviselés betiltását, hogy ezzel csökkentsük az erőszakos bűncselekmények számát?

2. Támogatja-e ön a magánfegyverviselés engedélyezését, hogy ezzel lehetőséget adjunk a becsületes embereknek is az önvédelemre? (Lásd később a komplex kérdéseket!)

A fenti kérdések nyilvánvalóan jelentősen befolyásolják a minta viselkedését. Az első kérdés szerint többen fogják támogatni a betiltást, mint a második kérdés szerint.

Hasonlóan, személyes kikérdezés esetén a kérdezőbiztos és a válaszadó kölcsönhatása befolyással lehet az eredményre:

A „Hány könyvet olvasott az elmúlt hónapban?” kérdésre más válasz valószínűsíthető ugyanattól a válaszadó férfitől, ha azt egy értelmiségi külsejű, csinos lány teszi fel, olyan, aki vélhetőleg szeret olvasni, mint ha egy sportpályán egy „izomagyú” fiú.

Az ilyen kölcsönhatások jórészt abból adódnak, hogy szeretünk kedvében járni a kérdezőnek, vagy nem szeretnénk szembenézni az igaz válasz következményeivel (például nem akarunk szégyenben maradni).

Ismerni kell a mintavételi eljárást (és a statisztika tudományát), hogy el lehessen dönteni, fennáll-e az elfogult mintavételi eljárásból adódó hiba veszélye. Ha nincs ilyen információ, akkor csak megbízható forrásból fogadjunk el statisztikai adatokat!

A minta elégtelen mérete egyrészt azt jelenti, hogy a mintában tapasztalt megoszlás alapján csak nagyon nagy hibahatáron belül lehet az alapsokaságban az adott tulajdonság megoszlására vonatkozó becslést adni – mint arról a fentiekben már szó esett. Másrészt az elégtelen minta alapján megfelelő körülmények között szinte bármilyen eredmény produkálható! Ha a vizsgált tulajdonság a véletlen mintavétel következtében elég nagy ingadozást mutat, akkor nem kell csalni, befolyásolni a mintavételt vagy kozmetikázni az adatokat, mindössze arra van szükség, hogy egy korrekt véletlenszerű mintavétellel kapott mintán a tulajdonság megoszlását csak addig számoljuk össze, amíg a nekünk kedvező eredményt kapjuk, a minta további részét pedig ne értékeljük ki. Ha a vizsgált paraméter elég nagy ingadozást mutat, akkor előbb-utóbb előáll a kívánt eredmény, és mást nem kell tenni, mint ekkor megállni a minta kiértékelésében.

Az érmével az esetek 75 %-ában kaptunk írást, az érme tehát cinkelt.

Az adat látszólag jól alátámasztja a konklúziót. Egy ilyen adatot azonban nagyon egyszerű előállítani. Szabályos (nem cinkelt) érmével nekem az első négy dobás közül három írás volt, és itt meg is álltam. Ennek ismeretében viszont az érvelés nagyon gyenge.

Lehetséges hazugság nélkül is ilyen adatokat előállítani, mindössze a megbízhatósági szintet és a hibahatárt kell elhallgatni. Ez viszont nem tűnik fel, hiszen ezeket a paramétereket általában úgysem közlik. Különös figyelmet kell tehát fordítani a megbízhatósági szintre és a konfidencia-intervallumra, hogy az elégtelen mintából adódó hibát felismerjük.

A minta gyakran azért nem alapozza meg az általánosítást, mert túl messzire megyünk az általánosításban, mintegy rosszul választjuk meg azt a populációt, amelyre a minta alapján még általánosíthatunk.

Hajlamosak vagyunk feltételezni, hogy a magyar középosztályt valamilyen szempontból tényleg reprezentáló mintán kapott adatok érvényesek az emberekre, azaz az összes emberre csoport hovatartozástól, kultúrától, kortól stb. függetlenül.

Csak férfiakon végzett felmérés alapján átalánosítunk a felnőttekre, és eltekintünk attól, hogy a vizsgált paraméter szempontjából különbségek lehetnek nők és férfiak között.

Nem vesszük tudomásul annak korlátait, hogy a mintát egy speciális populációból választottuk, mert meggondolatlanul azt hisszük, hogy az azonos egy sokkal nagyobb sokasággal, vagy legalábbis tökéletesen reprezentálja azt a sokkal nagyobb sokaságot. A mintának a túláltalánosításból adódó elfogultsága nyilván csak akkor állapítható meg, ha világos, hogy pontosan milyen mintát milyen sokaságra általánosítunk.

11.3.2. Anekdotikus adatokra épülő általánosítások

Mi, emberek olyan pszichológiai megismerési mechanizmusokkal rendelkezünk, amelyek bizonyos jellegzetes helyzetekben szintén jelentősen torzíthatják az általánosításainkat. Vannak olyan úgynevezett heurisztikáink, azaz olyan ökölszabály jellegű problémamegoldási eljárásaink, amelyek kevés erőfeszítéssel, rutinszerűen alkalmazhatók, és a hétköznapi élet sok problémájára gyakran adnak közelítőleg helyes megoldást. A heurisztikák megspórolják számunkra a szisztematikus és átfogó feldolgozást, ezért bizonyos körülmények között hibás eredményre vezetnek. Az adatok feldolgozása és a belőlük levont általánosítás szempontjából különösen figyelemreméltó az egyik ilyen heurisztika.

A hozzáférhetőségi heurisztika szerint hajlamosak vagyunk események gyakoriságát és valószínűségét aszerint megítélni, hogy milyen könnyen jut eszünkbe az eseménnyel kapcsolatos példa vagy korábbi tapasztalatunk. Vagyis események gyakoriságát és valószínűségét aszerint ítéljük meg, hogy milyen könnyen férünk hozzá az emlékezetünkben az eseménnyel kapcsolatos tapasztalatainkhoz – innen az elnevezés. Ha van személyes példánk, akkor a heurisztika működésének következtében – ha egyéb körülmények azonosak – nagyobb valószínűséget tulajdonítunk az esemény bekövetkezésének, mint ha nincs. Pedig a tőlünk független események gyakoriságát vagy bekövetkezésének valószínűségét nyilvánvalóan nem befolyásolja, hogy történetesen hallottunk már róla, láttunk már ilyet, vagy nem. Ez a mechanizmus gyakran vezet megalapozatlan, elsietett általánosításhoz.

Nem veszek Citroënt. Megbízhatatlanok. Két barátomnak is volt C3-asa, és mind a kettővel előfordult, hogy még 40 ezer kilométert sem futott, és útközben lerobbant.

Egy típus megbízhatóságát nyilvánvalóan nem lehet két eset alapján megítélni. A minta túlságosan kicsi. Ráadásul meglehetősen egyoldalúak azok az információk is, amelyek ezzel a két kocsival kapcsolatban rendelkezésre állnak. Hiszen nem tudjuk, mi volt a baj, mennyi szerepe volt ebben a két gazdának, mennyit futottak a kocsik baj nélkül stb… Az anekdotikus adatokkal – nevezzük így az ilyen személyes, esetleges mintáinkat! – tehát nem csak az a baj, hogy a minta nem reprezentatív, hanem az is, hogy a mintáról gyűjtött információ nem szisztematikus és átfogó. A személyes tapasztalat mégis sokkal nagyobb súlyt ad a példáknak, mint amennyit alapos mérlegelés után érdemelnének.

Az autóvásárlással kapcsolatos példában szereplő érvelés nagyon gyenge, mégis vásárlási döntéseink tekintélyes részét ilyen és ehhez hasonló okoskodás alapján hozzuk meg!

Híres példája a hozzáférhetőségi heurisztika működésének az a vizsgálat, amely kimutatta, hogy a halálozási okok között a gyilkosságot sokkal gyakoribbnak tartják az emberek, mint például az öngyilkosságot, vagy sok más természetes halálokot, holott az utóbbiak sokkal gyakoribbak. A kutatók azzal magyarázzák, hogy gyilkosságokról naponta értesülünk a sajtóból, és emiatt az ilyen esetekre bőségesen van könnyen hozzáférhető példánk, ami torzítja a gyakoriság megítélését. Ebben a példában nem az a probléma, hogy kevés eset alapján általánosítunk, hanem inkább az, hogy milyen esetek, és milyen megfigyelések alapján általánosítunk.

Hangsúlyozni kell, hogy az anekdotikus adatokon alapuló általánosításokkal nem csak – és néha nem is elsősorban – az a probléma, hogy a minta túl kicsi, hogy túl kevés esetből általánosítunk. Pusztán az esetszám növelésével még nem jutunk megbízhatóbb adatokhoz. A minta nem reprezentatív, és nem csak azért, mert kevés esetet ismerünk, hanem azért sem reprezentatív, mert nem ügyelünk a minta elemeinek véletlenszerű kiválasztására – sőt általában még csak eszünkbe sem jut ez a szempont –, továbbá nem rendszeres és valamilyen szempontra irányuló, a zavaró tényezőket kizáró vizsgálatot végzünk a mintán, hanem esetleges benyomásokat gyűjtünk róla, melyeket akkor sem lehetne általánosítani az alapsokaságra, ha a minta elegendően nagy lenne, és az elemeket véletlenszerűen választanánk ki.

Másik rokon mechanizmus az emlék élénkségének torzító hatása. Ha élénken emlékszünk egy adatra, akkor az megbízhatóbbnak tűnik számunkra, és nagyobb befolyást gyakorol döntéseinkre, mint ha kevésbé élénk az adat a memóriánkban. Vagyis hajlamosak vagyunk attól függően megbízhatónak tekinteni egy adatot, hogy milyen világosan emlékszünk rá. Holott az adat megbízhatósága nyilvánvalóan nem ettől függ. Ennek következtében a harsány vagy pszichológiailag nagyon meggyőzően előadott adatokat hajlamosak vagyunk később megbízhatóbbnak tekinteni, mint amilyenek valójában, még akkor is, ha kétségeink voltak megbízhatóságukat illetően akkor, amikor kaptuk őket. Ennek a mechanizmusnak a segítségével a bulvárlap címlapon szereplő adata később felülbírálhatja a gondos tudományos elemzésben szereplő adatokat.

A viták során tehát nagyon kritikusan kell kezelni az anekdotikus adatokat és az ilyenekre alapuló általánosításokat, legyenek azok a partneréi vagy a saját anekdotikus adataink!

Néhány további példa, amikor e két mechanizmus együtt vagy közülük valamelyik gyenge érvelést eredményez.

Dr. Kovács nagyon jó orvos, ő gyógyította meg a bátyámat is.

– Milyen a Szabó prof, szigorú?

– Nagyon kemény, a Ferit is kivágta múltkor.

– Ezt próbálja meg szomszéd! Nagyon jó gyógyszer, nekem is ez segített!



[89] A véletlenszerű minta a valószínűségi minta egyik fajtája. A valószínűségi minta esetében az alapsokaság minden eleme ismert (nem nulla) valószínűséggel kerülhet a mintába, de az egyes elemeknek nem feltétlenül ugyanakkora az esélye a mintába kerülésre, mint a véletlenszerű minta esetében. A következőkben tárgyalt mintavételi problémák általában a valószínűségi mintákra is fennállnak. Az egyszerűség kedvéért azonban csak a véletlenszerű mintákat tárgyaljuk.

[90] Babbie (1999) 200-201. o.

[91] Hasonlóan becsülhető a hiba tetszőleges valószínűségi mintavétel esetén is.

[92] A többlépcsős csoportos, a rétegzett, valamint az egyéb mintavételi eljárásokról lásd például Babbie (1999), vagy Éltető és mtsi (1982) munkáját!