Ugrás a tartalomhoz

Bevezetés a szociológiába

Andorka Rudolf (2006)

Osiris Kiadó

KÉT- ÉS TÖBBVÁLTOZÓS ELEMZÉSI MÓDSZEREK

KÉT- ÉS TÖBBVÁLTOZÓS ELEMZÉSI MÓDSZEREK

Ezek a módszerek arra szolgálnak, hogy két vagy több változó összefüggését vizsgáljuk. Nominális változók esetén a chi-négyzet módszert szokás használni. Ennek az a lényege, hogy a két nominális változó kombinációját kimutató táblázatban először meghatározzuk, hogy milyenek lennének az esetszámok a táblázat celláiban, ha a két nominális változóval mért jelenség között semmi összefüggés sem lenne, majd kiszámítjuk a különbségeket a ténylegesen megfigyelt esetszámok és a két változó függetlensége esetén várható esetszámok között. Minél nagyobb a különbségek összege, annál erősebb a két változó közötti kapcsolat. Intervallum- és ordinális szinten mért változók esetén lehetőség van számos egyéb két- és többváltozós matematikai-statisztikai módszer felhasználására is az elemzésben. (Meg kell jegyezni, hogy számos ilyen módszernek kidolgozták olyan változatát, amelyet nominális szintű változók esetében is lehet használni.)

Varianciaanalízist alkalmazhatunk akkor, ha az egyik változónk nominális, a másik pedig intervallum- vagy aránymérő szintű változó. A varianciaanalízis segítségével azt állapíthatjuk meg, hogy az utóbbi változó szóródásából mennyit magyaráz meg a nominális változó. Például azt mérhetjük, hogy a társadalmi réteghez tartozás mekkora részt magyaráz meg a jövedelmek szóródásából.

Kétváltozós Pearson-féle korreláció- és regresszióelemzést alkalmazhatunk, ha mindkét változónk intervallum- vagy aránymérő szintű. A korrelációs együttható kifejezi, hogy milyen erős a két változó közötti kapcsolat, a regressziós egyenlet pedig azt fejezi ki, hogy az egyik változó milyen mértékben függ a másik változó értékétől. Fontos hangsúlyozni, hogy a korrelációs és regressziós kapcsolatot nem szabad minden további nélkül ok-okozati kapcsolatként értelmezni, mert ez egyszerűen csak azt fejezi ki, hogy a két változó értékei hogyan „járnak együtt”. Együttjárásuk magyarázata az ok-okozati kapcsolaton kívül más is lehet, például az, hogy a háttérben álló valódi ok mindkettőt befolyásolja.

A közelmúltban rohamléptekkel fejlődött a matematikai statisztika, és az egyre nagyobb, gyorsabb és olcsóbb elektronikus számítógépek lehetővé tették a szociológusok számára az egyre bonyolultabb számításokat igénylő sokváltozós matematikai-statisztikai módszerek felhasználását az elemzésben. Ezeket a módszereket nem szükséges itt teljeskörűen felsorolni, sem részletesen leírni. Csupán azokat említem, amelyeket az utolsó években a magyar szociológiai kutatásokban szélesebb körben felhasználtak, továbbá jelzem, hogy milyen típusú problémák elemzésére lehet őket felhasználni.

A kétváltozós varianciaanalízisnek többváltozós alakja segítségével azt vizsgálhatjuk, hogy több nominális változó (például a társadalmiréteg-helyzet és a lakóhely) hány százalékot magyaráz meg az intervallum- vagy aránymérő skálán mért változó (például a jövedelem) szóródásából.

Hasonlóan van a korreláció- és regressziószámításnak is többváltozós formája. Ebben azt vizsgálhatjuk, hogy több független változó együttesen milyen erősen és hogyan határozza meg a függő változó értékét. A többszörös korrelációs együttható az összes független változónak a függő változóra gyakorolt együttes hatását fejezi ki. Négyzetét szokás a függő változó szóródásából a független változók együttes hatása által megmagyarázott résznek tekinteni. A többszörös korrelációs együttható ilyen értelmezésének megengedhetőségét több szociológus kétségbe vonja. A speciális korrelációs együtthatók kifejezik, hogy – a többi független változó értékének változatlansága esetén – milyen erős a kiválasztott független és függő változó értéke közötti kapcsolat. A többváltozós regressziós egyenlet pedig azt fejezi ki, hogy a független változók együttesen és egyenként hogyan hatnak a függő változóra. Meg kell jegyezni, hogy a szociológiai vizsgálatokban többnyire viszonylag alacsony korrelációs együtthatókat kapunk, ez azonban több szociológus szerint nem jelenti azt, hogy a kérdéses változók között lényegtelenül gyenge a kapcsolat. Például többváltozós korrelációs és regressziós elemzéssel vizsgálhatjuk, hogy egyes területi egységek – például megyék vagy települések – átlagos gyermekszáma hogyan függ a népesség iskolai végzettségétől; a nem mezőgazdasági népességnek, a szellemi foglalkozásúaknak; továbbá a városi népességnek az arányától; az átlagos jövedelmi szinttől; a vallási összetételtől stb.

A többváltozós korreláció- és regressziószámítás továbbfejlesztett változata az útelemzés. Az útelemzést többek között a mobilitás vizsgálatában használjuk fel. Ebben az esetben a különböző változók között ok-okozati kapcsolatokat tételezünk fel (a függő változó legalább időben követi a független változókat), és több regressziós egyenletet becsülünk meg, az eredményeket pedig egy útmodellben mutatjuk be.

A LISREL-módszer az útelemzés továbbfejlesztett változatának tekinthető, abban az értelemben, hogy az egyes változókat nem mérjük közvetlenül, hanem faktoranalízis útján állítjuk elő, több változóból. Például a társadalmi származást nem egyszerűen az apa társadalmi-foglalkozási helyzetével mérjük, hanem az apa foglalkozásából, iskolai végzettségéből, jövedelmi helyzetéből, vagyonából szerkesztett faktor dimenziójában mért faktorpontszámmal.

Faktoranalízist olyan kutatási helyzetekben szokás alkalmazni, amikor nagyszámú megfigyelési egységről nagyszámú (de a megfigyelési egységeknél lényegesen kevesebb) változónk van, és az utóbbi változókat össze kívánjuk vonni két-három-négy „alapvető” változóba, faktorba. Ezáltal mintegy „feltérképezzük” a rendelkezésünkre álló adattömeget. Például minden magyar településről sok adatunk van: a népesség életkori, foglalkozási, iskolai végzettségi összetételéről, a lakások minőségéről, a település kereskedelmi ellátottságáról, a kulturális infrastruktúráról, a település külső képéről, városiasodottságáról (kemény burkolatú utcák, emeletes házak, utcavilágítás stb.). Ezeknek alapján próbáljuk a települések fejlettségét meghatározni. A faktoranalízis a változókat kisebb számú faktorban vonja össze, majd kiszámítja a faktorsúlyokat. Ezek megadják a háttérben lévő faktorok és az egyes változók közötti kapcsolat erősségét (a korrelációs együtthatóhoz hasonlóan). Ennek alapján a kutató dönti el, hogy az egyes faktorok mit „jelképeznek”, például az egyik faktor a település „gazdasági fejlettségét”, a másik a „városias jelleget” stb. Továbbá kiszámítja a módszer minden megfigyelési egység, példánkban minden település faktorpontszámát az egyes faktorok dimenziójában. Ennek alapján lehet a települések fejlettségét az egyes dimenziókban mérni.

A klaszteranalízist olyan kutatási helyzetben lehet használni, amikor nagyszámú megfigyelési egységről több változó áll rendelkezésre, és a nagyszámú megfigyelési egységet kisebb számú típusba akarjuk összevonni. Ha a változók száma igen nagy, akkor először faktoranalízist lehet végezni, és a faktorpontszámokra támaszkodva lehet a megfigyelési egységeket tipizálni, klaszterekbe besorolni. Például az 1981-1982. évi rétegződésvizsgálatban nagyszámú adat állt rendelkezésre a megkérdezett személyek anyagi helyzetéről, lakásáról, lakóhelyéről, életmódjáról stb. A Társadalomtudományi Intézet kutatói klaszteranalízis segítségével sorolták be 10-12 klaszterbe a vizsgált személyeket. A kutató dönti el, hogy a megfigyelési egységeket hány klaszterbe kívánja összevonni. A klasztereket a szociológusnak kell elneveznie és értelmeznie. Például Kolosi Tamás azt a klasztert, melynek tagjai minden figyelembe vett dimenzió mentén kedvező helyzetet mutattak, kivéve a lakóhelyi dimenziót, „falusias felső státuscsoportoknak” nevezte el.

Az a tény, hogy faktoranalízis esetén a kutatónak kell értelmeznie a faktorokat, és hasonlóan klaszteranalízis esetén a klasztereket, szemlélteti, hogy mennyire lényeges a szociológus elméleti tudása és valóságismerete a számítógépes programok által adott eredmények elemzéséhez.

A többdimenziós skálázást olyan kutatási helyzetben lehet alkalmazni, amikor kisebb számú megfigyelési egységről több változó értéke áll rendelkezésre, és valamilyen hierarchikus sorrendet akarunk létrehozni közöttük, továbbá a közöttük lévő távolságokat akarjuk mérni. A többdimenziós skálázás a dimenziók számának megfelelő dimenziószámú koordináta-rendszerben helyezi el a megfigyelési egységeket. A dimenziókat a kutatónak kell értelmeznie. Kolosi Tamás például a fent említett rétegződési adatfelvétel alapján klaszteranalízissel kialakított 12 státuscsoportot, s a hét életkörülmény dimenziójában kapott átlagos indexpontszám alapján többdimenziós skálázással rendezte hierarchikus sorrendbe. Az első dimenzióban az „elit” státuscsoport messze a többi fölött, a „deprivált” pedig messze alattuk helyezkedett el.

A loglineáris elemzés akkor használható, ha három-négy nominális változó alapján készített kereszttáblázatokat akarunk összehasonlítani. Például több ország társadalmi mobilitási táblázatait hasonlítottuk össze a módszerrel. Ebben az esetben a három nominális változó a következő:

1. az apa társadalmi helyzete,

2. a fia társadalmi helyzete,

3. az ország.

Arra a kérdésre kerestük a választ, hogy kiszűrve annak hatását, hogy az apák és a fiúk társadalmi rétegek közötti megoszlása országonként különbözik, vajon van-e különbség az egyes országok között abban, hogy az apa társadalmi helyzete mennyire erősen befolyásolja a fiáét. A loglineáris elemzés számítógépes programja kiszámítja, hogy az egyes országok mobilitási táblázatainak celláiban szereplő esetszámok eltéréseiből mekkora részt magyaráz meg az, hogy

1. eltérő az apák társadalmi összetétele,

2. eltérő a fiúk társadalmi összetétele,

3. eltérő az apa és a fiú helyzete közötti kapcsolat, vagyis a társadalmi helyzet átörökítése.

Mindezek és a további új sokváltozós módszerek rohamos gyorsasággal hódítanak tért a szociológiai elemzés hétköznapjaiban. Ezáltal igen nagy mértékben megnőnek a szociológus elemzési lehetőségei. Hangsúlyozni kell azonban, hogy ezek a módszerek nem mentesítik a szociológust az elméleti tudás és a valóságismeret elmélyítésének követelménye alól, sőt minél nagyobb matematikai-statisztikai apparátust használ fel, annál inkább szükséges számára az elmélet- és a valóságismeret, hogy a vizsgálni kívánt problémát jól fogalmazza meg, továbbá a megfelelő adatokat „vigye be” a számítógépbe, és a számítógépes módszer által adott eredményeket jól értelmezze.

Az utolsó 20-25 évben egyes szociológusok erősen bírálni kezdték a survey-módszert és az azok elemzésénél használt matematikai-statisztikai módszereket. A bírálat főképpen azt hangsúlyozza, hogy ezekkel a módszerekkel csak a jelenségek felszínét ismerhetjük meg, viszont nem érthetjük meg azok lényegét, mélyebb okait, változási irányait, továbbá azt, hogy a társadalmi jelenségek mit jelentenek az egyes emberek számára, azaz hogyan élik meg ezeket a társadalmi jelenségeket. Ezek a szociológusok a survey- módszer helyett inkább a megfigyelést, a mélyinterjút, az élettörténetet javasolják felhasználni, a matematikai-statisztikai módszerek helyett pedig inkább a „puhább” megértő módszereket. Azt mondhatjuk, hogy ezek az adatfelvételi és elemzési módszerek igen hasznosan egészíthetik ki, gazdagíthatják a survey-módszerrel és a matematikai-statisztikai elemzéssel kapott eredményeket, nem hiszem azonban, hogy a survey-t és az egzakt vagy „kemény” matematikai-statisztikai elemzést fölöslegessé teszik, mert nagyobb számú személyről, megfigyelési egységről csak az utóbbiak segítségével tudunk információkat szerezni, és csak ilyen módon tudunk nagyobb számú változó közötti összefüggéseket elemezni.