Ugrás a tartalomhoz

Társadalomstatisztika

Németh Renáta, Simon Dávid

ELTE

Esetek amikor a korreláció és a lineáris regresszió nem használható

Esetek amikor a korreláció és a lineáris regresszió nem használható

Mikor nem használhatóak a fenti eljárások?

  • ha nem lineáris a kapcsolat (korábban is láttunk hasonlót)

    Ezen az ábrán a függő változó jól látható módon összefügg a független változóval, azonban a lineáris regresszió eredményei a függetlenséghez hasonlóak. Ennek az a magyarázata, hogy az összefüggés nem lináris (jelen esetben négyzetes). Ilyenkor a legegyszerűbb eljárás, ha a független változót két vagy több olyan tartományra bontjuk, amely esetén az összefüggés már jó közelítéssel lineáris.

    A fenti példa esetén meghatározhatunk két tartományt a független változón 0-50 és 50-100. Ebben az esetben már értékelhető eredményt kapunk a lineáris regressziós eljárással.

  • ha extrém esetek vannak a mintában

    A fenti példában 10 megfigyelésünk függetlenséget mutat (a függő változó értéke 10 esetben azonos a független változó különböző értékei mellett), egy esetünk pedig „kilóg” a trendből, mind a független, mind a függő változón extrém értéket vesz fel. A lineáris regresszió eredménye erős összefüggést mutat, miközben az eseteink 90%-nál semmilyen összefüggés nincs.

    Ilyenkor a kiugró (néhány) esetet el kell hagyjuk (érdemes megvizsgálni ezeknek az eseteknek az egyéb tulajdonságait, – egyéb kérdésekre adott válaszait –  hogy rájöjjünk, miért nem illeszkednek a trendhez). Ezután már reális eredményt kapunk a regressziós eljárás alapján. Vigyázat! Nem szabad az esetek jelentős részét elhagyni (erre nincs konkrét szabály, de 10%-nál több esetet ne hagyjunk el), mert fennáll a veszélye annak, hogy az előzetes feltételezéseinket mesterségesen megerősítő elemzést készítünk.

Jó tanács: ha magas mérési szintű változókkal dolgozunk, mindig készítsünk pontdiagramot, amely alapján kialakíthatunk egy elsődleges benyomást az adatokról.

Nagyon fontos!

A lineáris regresszió elvégzésének (itt nem részletezett okok miatt) vannak matematikai-statisztikai feltételei. Ezekről részletesebben a statisztika tankönyvekben lehet olvasni, annyit azonban itt is megemlítünk, hogy a függő változónak normális eloszlást kell követnie, és a függő változó szórása nem függhet össze a független változóval (azaz a függő változó szórása a független változó kisebb és nagyon értékei esetén azonos kell legyen). Ezeket a feltételeket mindig ellenőrizni kell!

Mindezt lefordítva regressziós elemzés olvasására: ha egy regressziós elemzés készül, nézzük meg, hogy ellenőrizték-e a matematikai feltételeket, vizsgálták-e az összefüggés linearitását, kezelték-e a kiugró eseteket.

Nézzük a regresszió feltételeit a kor és a jövedelem kapcsolatánál:

Az ábrán azt láthatjuk, hogy

  • A felrajzolt illesztett görbe alapján az összefüggés nem lineáris

  • A jövedelmek szórása közepes életkorig nő, majd csökken

  • Vannak a trendtől jelentősen eltérő, kiugró esetek is

  • Itt nem látszik, de a jövedelem ráadásul nem is normális eloszlású

Úgy járhatnánk el helyesen, ha a jövedelem eloszlását normalizálnánk (erről később), az életkort több részre bontanánk és korcsoportonként vizsgálnánk meg az összefüggést (ezzel az eltérő szórást is kezelnénk).

További megjegyzés a regresszióhoz:

  • Figyeljünk a mértékegységre, a regresszió eredményei függnek ettől

  • Több változó is használható független változóként (lásd többváltozós elemzések a statisztika tankönyvekben)