Ugrás a tartalomhoz

Statisztika online - oktatási portál

Vág András

Typotex

4.7. A szóródás mérőszámai

4.7. A szóródás mérőszámai

Bármely középérték csak egy tulajdonságot jellemez igazán pontosan: az eloszlásgörbének a vízszintes engelyen elfoglalt helyét, s ezt a helyet az eloszlás közepével adja meg.

14. ábra. Egybeeső átlagú minták

Ettől, persze, a minta eloszlása még nagyon sokféle lehet. A 14. ábrán egybeeső átlagú (s mivel szimmetrikusak, Mo-ú és Me-ú) mintákat ábrázoltunk. Minden „ugyanakkora”, mégis különböznek egymástól. Ennek az az oka, hogy az egyes mintákban az adatok szétszórtsága különböző mértékű (csakúgy, mint iskolai példánkban).

4.7.1. A terjedelem (range)

Ez a legkönnyebben meghatározható szóródási mérőszám: a legnagyobb és legkisebb mintaelem különbsége adja meg. Az 1. táblázatban szereplő minta terjedelme: 80 (megint csak ne feledkezzünk meg a kg-ról!) A terjedelem meglehetősen ritkán használt jellemző: gyakran előfordulhat, hogy mindössze egy mintaelem hozzáadásával, vagy elvételével alapvetően megváltozik.

4.7.2. Az interkvartilis félterjedelem

Ez a kvartilisek segítségével határozható meg az alábbi formában:

IF = K 3 - K 1 2

vagyis a két szélső kvartilis közti távolságot osztjuk kettővel. Ezzel az értékkel tulajdonképpen a mintának a „medián körüli szóródását” adjuk meg; s ez a jellemző nem csak két adatot vesz figyelembe, hanem az adatok felét. Olyan esetekben használatos, mikor a középértéket a mediánnal határoztuk meg, vagy más mérőszámot nem tudunk megadni.

4.7.3. Az átlagos eltérés

Ha minden elemet figyelembe szeretnénk venni, akkor olyan helyen érdemes kereskedni, mint az átlag, hiszen az minden mintaelemre vonatkozó középérték. Próbálkozzunk a ( x i - x ) = 0 képlettel? Sajnos, erre a célra nem lesz alkalmas. Mivel az átlagtól való - különböző előjelű - eltérések kiegyenlítik egymást, alkalmazhatunk egy kézenfekvő trükköt: vegyük az x i - x abszolútértéket! Így, mivel az összeg minden tagja pozitív lesz, nem kell kiegyenlítődéstől tartanunk. Csakhogy ilymódon összegezve az eltéréseket, még igen kicsiny eltéréseknél is, ha a mintánk nagyszámú, nagy összeget kapunk, ami nem igazán jól jellemezné a szóródást. Ha azonban az összeget elosztjuk a minta elemszámával, akkor már egészen más lesz a helyzet: az ilymódon "fajlagosított", egy adatra eső eltérés értéke már valódi jellemző lesz. Ez az átlagos eltérés (AE):

AE = | x i - x | n

Az abszolútérték-függvény szabályszerűségei miatt mégsem ez a legcélszerűbb szóródási mérőszám. Elsősorban azért, mert későbbi vizsgálati fázisban (tehát akkor, amikor már nem a leíró statisztika fogalomkörébe tartozó, hanem matematikai statisztikai jellemzőkkel dolgozunk) nem igazán tudunk vele mit kezdeni.

4.7.4. A variancia és a szórás

Másképpen is elérhetjük az átlagtól való eltérések pozitív mivoltát: ha ezeket négyzetre emeljük, megszabadulunk a nem igazán kényelmes abszolútérték-képzéstől. Az átlagtól való eltérések négyzetének átlaga a variancia, s az ebből vont négyzetgyök után kapjuk a szórást. (Ne felejtsük el, hogy adatainknak – pl. fizikai – tartalma van. A kg2-nek viszont – ha alappéldánkra gondolunk – nincs. Ezért kell gyököt vonni.)

Nézzük ezt képlet-formában! A variancia (más néven szórásnégyzet):

s 2 = ( x i - x ) 2 n - 1

a szórás pedig:

s = ( x i - x ) 2 n - 1

Előző oldalon tett ígéretünktől eltértünk: ott azt mondtuk, hogy a négyzetes eltérések átlagát számítjuk ki a varianciánál, s ehhez n-nel, a mintaelemszámmal kellett volna osztanunk. Ehelyett az osztó n - 1 volt.

4.7.5. A szabadságfok

A variancia nevezőjében levő n - 1 értéket szabadságfoknak nevezzük. A matematikai statisztikában nagyon sokszor fog szerepelni ez a fogalom, épp ezért - habár elméletileg még nem vagyunk kellően megalapozottak - mindenképpen körül kell írnunk.

Az osztást az n - 1 értékkel végezzük el (az n helyett), mintha valójában csak ennyi négyzetes eltérést kellene átlagolnunk. Az összegünk hiába n tagú - formálisan -, hiszen ha n - 1 tagot ismerünk, ezekből az „utolsót”, az „ n -ediket” ki tudjuk számítani.

Ami annyit tesz, hogy az „utolsó”, „ n -edik” tagot nem választhatjuk meg szabadon: a „szabadság foka” csak n - 1 lehet. Az ( x i - x ) 2 kifejezésben lévő x ugyanis egy összefüggést jelent a tagok között. Ha az x-et jelentő kifejezésbe behelyettesítjük az n - 1 szabadon megválasztott tagot, az n-edik már ebből meghatározható. E gondolatmenet helyességéből mit sem von le, hogy az a bizonyos „összefüggés” nem az x, hanem valójában a ( x i - x ) = 0 , már többször említett - „átlagdefiniáló” - összeg.

A szabadságfok az egymástól függetlenül választható tagok (mintaelemek) számával egyenlő. Nyilván, ezek nem lehetnek függetlenek akkor, ha érvényesül köztük egy, vagy több összefüggés. Ilyenkor az összefüggés(ek) számát le kell vonni a mintaelemszámból: a különbség értéke lesz a szabadságfok.

Azért kellett ennyire részletesen foglalkoznunk ezzel az elvi kérdéssel, mert - ahogy az Olvasó is tapasztalhatja - az egyes statisztikai szakirodalmakban nem egységes sem a megnevezés, sem pedig a képlethasználat.

4.7.6. A négyzetes összeg

A variancia nevezőjével már eleget foglalkoztunk; fordítsunk most egy kis figyelmet a számlálójára is. Ezt - a latin „kvadratikus” kifejezésből kiindulva - Q-nak jelöljük, és négyzetes összegnek nevezzük: Q = ( x i - x ) 2

Ezzel a jelöléssel a variancia és a szórás:

s 2 = Q n - 1 ; illetve s = Q n - 1

Hogy a szórás „jóságát” belássuk, az alábbiakban igazolni fogjuk azt, hogy a ( x i - a ) 2 -típusú kifejezések közül a variancia számlálójában levő kifejezés értéke a legkisebb. Ehhez csak a már megismert azonosságokat felhasználva (feltesszük, hogy az átlag nem egyenlő a-val).

4.7.7. A relatív szórás (variációs együttható)

Az eddigiekben ragaszkodtunk hozzá, hogy a statisztikai jellemzőket mindig az eredeti minta dimenziójában adjuk meg. Mivel azonban a szórás az adatok átlag körüli szóródását adja meg, lehetőség van arra is, hogy a szórás nagyságát az átlagéhoz viszonyítsuk (célszerűen áttérve a %-os skálára). Ezzel két legyet is ütünk egy csapásra: nem kell foglalkoznunk a dimenzionálás „finomságával”, hiszen a szórás és az átlag azonos dimenziójú. Második fontos előny: egészen különböző paraméterű minták (eloszlások) is összehasonlíthatóvá válnak ilymódon.

A variációs együttható (V) kiszámításának formulája:

V = s x 100 [ % ] .