Ugrás a tartalomhoz

Társadalomstatisztika

Németh Renáta, Simon Dávid

ELTE

Doboz ábra (box-plot)

Doboz ábra (box-plot)

A terjedelem, az interkvartilis terjedelem, a medián, a legkisebb és a legnagyobb érték ábrázolására szolgáló grafikus eszköz. Az interkvartilis terjedelmet egy dobozzal szemlélteti, ebben van behúzva a medián, a legnagyobb és legkisebb értékek pedig egy-egy talppal vannak ábrázolva. A doboz elhelyezkedése a teljes talphoz viszonyítva, illetve a medián helyzete a dobozon belül információt ad az eloszlásról.

Kep102

Interpretálja az alábbi ábrákat!

Dobozábra a centrális tendencia különbségének kimutatására

Kep103

Dobozábra a szóródás különbségének kimutatására

Kep104

Dobozábra a szimmetriától való eltérés kimutatására

Kep105

Dobozábra a szélső értékek kimutatására

Kep106

Megjegyzés:

A box-plotnak több verziója létezik. Pl. az SPSS-ben implementált változat a mediánt, az interkvartilis terjedelmet ábrázolja, de a terjedelmet nem, ehelyett megad bizonyos feltételeknek megfelelő kiugró értékeket (outliers, extremes).

A variancia és a szórás

Ezek a mutatók is csak magas mérési szintű változók esetén használhatók. A fenti három mutatóval szemben ezek számolásakor az eloszlás összes értékét figyelembe vesszük, vagyis ezek a teljes változékonyságot, nem csak a „szélsők” közötti távolságot mérik. A variancia és a szórás a legelterjedtebb szóródás-mutatók, minden szoftver, még a zsebszámológépek többsége is képes megadni az értéküket.

Azt mérik, hogy átlagosan mennyire térnek el az eloszlás értékei az átlagtól. Tehát az átlagot használjuk centrális tendencia mutatóként, mert az is az eloszlás összes értékére érzékeny. (Hátránya, miszerint érzékeny egy-egy kiugró értékre, azáltal lényegében kiküszöbölődik, hogy átlagos eltérést számolunk. Nagyon ferde eloszlás esetén

mégsem ajánlott, erről lásd a Hogyan válasszuk meg a megfelelő szóródás-mutatót? c. fejezetet) A mutatók 0 értéke mellett nincsen szóródása a változónak (azaz minden értéke azonos). A mutatóknak csak pozitív értéke lehet; nagyobb érték nagyobb szóródást jelez.

A variancia és a szórás egymásból számolhatók. Míg a variancia az átlagtól vett négyzetes eltérések átlagát adja, addig a szórás ennek négyzetgyökét:

Variancia:

Kep107

ahol Y a változót jelöli, n a mintanagyság, az átlag.

Szórás:

Kep109

Miért a négyzetes eltéréssel definiáljuk az átlagtól vett eltérést?

  • Ha egyszerűen csak az eltérést vennénk , akkor a negatív ill. pozitív előjelű különbségek kioltanák egymást. Pl. a következő egyszerű eloszlás esetén, ahol a mintanagyság három: {1,2,3}, az eltérések összege

    lenne, így a variancia is 0 lenne, pedig van szóródása az értékeknek!

  • Vehetnénk az eltérések abszolút értékének összegét is, az ugyanúgy csak pozitív értékeket ad, mint a négyzetre emelés. Az abszolút értékkel azonban matematikailag nehezebb bánni, ezért alkalmazzuk a négyzetre emelést. Egy másik lényeges különbség a két művelet között az, hogy a négyzetre emelés a nagy abszolút eltéréseket még nagyobbá teszi, vagyis a nagy eltéréseket jobban bünteti, mint az abszolút eltérés. Pl. a következő 3 elemű minta esetén {1, 3, 8}, az abszolút eltérések összege

  • míg a négyzetes eltérések összege

Példa a kiszámításukra

Vegyük az előbbi egyszerű példát, az {1, 3, 8} mintát. A variancia (9+1+16)/3 = 26/3 = 8,7, a szórás ennek gyöke, kb. 2,95.

Kérdés:

Azt mondtuk, hogy a variancia 0 értéke mellett nincsen szóródása a változónak (azaz minden értéke azonos). Melyik szóródási mutatóra igaz még ez a fentiek közül?

A szórás

A variancia egyik problémája az, hogy négyzetes eltéréssel definiált, így nem a változó eredeti skáláján van kifejezve. Pl. az ISSP 2006-os felmérésében az egyéni havi nettó jövedelmek átlaga 134.244 Ft körül van, míg varianciája 26.5 milliárd, ami nehezen interpretálható érték. Ezért gyakran inkább négyzetgyökét, a szórást használjuk. Ebben a példánkban a szórás 162.817-nek adódik Azt mondhatjuk, hogy a 134 ezres jövedelemátlagtól való (bizonyos értelemben vett) tipikus eltérés 163 ezer forint. Vagyis a jövedelmek nagymértékben szóródnak, hiszen maga a szórás értéke nagyobb az átlagnál.

Igazán a szórás interpretálására két csoport vagy időpont összevetése esetén van lehetőség:

Példa

Első fordulós részvételi arány megyék szerint, 1990-ben ill. 2002-ben (forrás: KSH, Társadalmi helyzetkép, 2002).

Megye                                 1990                2002

Budapest                            71,2                  77,5

Pest                                    63,3                  70,6

Fejér                                  64,5                  69,6

Komárom-Esztergom        64,5                  71,0

Veszprém                          70,9                  72,6

Gy-M-S                             76,4                  73,9

Vas                                    76,8                  74,2

Zala                                   69,3                  70,7

Baranya                            65,9                  71,8

Somogy                            62,5                  68,0

Tolna                                64,0                  68,5

B-A-Z                               61,0                  68,0

Heves                               65,3                  70,1

Nógrád                              62,6                  69,3

H-B                                   56,3                  66,0

J-N-Sz                              59,0                  66,7

Sz-Sz-B                            53,8                  65,8

Bács-Kiskun                    60,7                  65,0

Békés                               54,6                  66,9

Csongrád                          63,4                  67,3

Összesen                           65,8                  70,5

Számítsuk ki a megyei választási részvételi arányok szórását 1990-re, illetve 2002-re!

A képlet:

Első lépés: az átlag kiszámítása. Használhatjuk-e az országos részvételi arányt (65,8 ill. 70,5) átlagként?

Nem. Az az érték nem egyezik meg a tényleges átlaggal. A tényleges átlag 1990-re:

Ugyanez az átlag 2002-re

Behelyettesítve a képletbe, 1990-re a szórás

Míg a szórás 2002-re:

Interpretálja az átlagok és a szórások különbségét!

2002-re mintegy 5%-kal nőtt az átlagos megyénkénti részvételi arány 1990-hez képest. A 2002-re számolt szórás csaknem fele az 1990-esnek, ami azt jelzi, hogy 2002-ben jóval homogénebb volt a megyénkénti részvételi arány.

Megjegyzés

Némely tankönyvben, így a Frakfort-Nachmias könyvben is a fenti mutatók nevezőjében n-1 szerepel n helyett. Megegyezés kérdése, hogy ki melyik definíciót használja. Mi a továbbiakban az utóbbi változatot használjuk majd.

Hogyan válasszuk meg a megfelelő szóródás-mutatót?

A fentiekben öt különböző szóródási mutatót tárgyaltunk: a KVI-t, a terjedelmet, az interkvartilis terjedelmet, a varianciát és a szórást. Mikor melyiket válasszuk?

Néhány szempont:

  • magas mérési szintű változó esetén, ha az eloszlás nagyon ferde, az átlag nem reprezentálja megfelelően a centrális tendenciát, így (az átlagot felhasználó) variancia vagy a szórás megadása félrevezető lehet,

  • ordinális mérési szintű változó esetén a KVI használata információvesztést eredményez, hiszen nem vesz tudomást a kategóriák rendezéséről,

  • ordinális mérési szintű változó esetén az interkvartilis terjedelem használata megkérdőjelezhető, hiszen a két kvartilis távolságát, azaz két érték különbségét adja, pedig a különbségképzés ordinális mérési szint mellett nem alkalmazható.

  • A kompromisszum az, hogy az interkvartilis terjedelmet mint a rendezett értékek középső 50%-át tartalmazó sávot interpretáljuk, és óvatosan használjuk csak két ordinális változó szóródásának összevetésére (csak akkor, ha azok hasonló dolgokat mérnek hasonlóan kódolva, pl. véleménykérdések azonos számú, azonosan címkézett válaszkategóriával)

Megjegyzés: ezek tisztán matematikai szempontok, amiket az alkalmazási tradíció nem feltétlenül követ. Pl. a jövedelemszórás elterjedt mutató, pedig a jövedelmek általában ferde eloszlást mutatnak.

Kep121