Ugrás a tartalomhoz

Statisztika online - oktatási portál

Vág András

Typotex

4.5. A középérték mérőszámai

4.5. A középérték mérőszámai

Most már túlestünk a legszükségesebb - eloszlásokkal kapcsolatos, tulajdonképpeni valószínűségszámítási - elemi ismereteken, de az az igazság, hogy a gyakorisági eloszlás, ha jóval kevesebb adat figyelembevételét is követeli meg a mintánál, meglehetősen nehezen jellemezhető. Jó lenne az adatokat - lehetőleg - minél tömörebben jellemezni. Ilyenkor gondoljunk mindig az eloszlás ábrájára! (Általában is igaz, hogy - mivel az emberek nagyrésze vizuális típusú - az ábrák könnyítik a megértést. Egyszerűbb görbéről, grafikonról beszélni, mint az „osztályok” és az „egyes osztályokba kerülés gyakorisága” - tulajdonképpen teljesen elvont - fogalmairól…)

Ha magunk elé képzelünk egy eloszlásgörbét, akkor ezekután világos, hogy a legjobb jellemzés az elhelyezkedéssel kapcsolatos. Keressük meg azt a lehetőséget, amely ezt a legjobban jellemzi!

4.5.1. A medián

Ez az elnevezés (latinul) önmagában is közepet jelent. Úgy határozzuk meg, hogy a vízszintes tengelyen megkeressük azt a pontot, amelytől jobbra is és balra is ugyanannyi adat van. Ezzel már meg is kaptuk a mediánt (persze, ez nem lesz mindig egyszerű)…

Hogy egyszerűbb legyen a dolgunk, emlékeztetünk arra: a gyakorisági görbe (vonal-)grafikonjánál (is) az a helyzet, hogy a görbe alatti terület jellemzi az egyes osztályközökbe tartozó adatok számát - ebből az következik, hogy a medián ezt a - görbe alatti - területet felezi meg. Számszerű meghatározása - példának véve az 1. táblázatot - úgy történik, hogy megnézzük: mintaelemeink száma páros, vagy páratlan-e.

Ezután vesszük a minta-adatokat és - valamilyen módszerrel (én pl. a dBase3+ segítségével csináltam) - növekvő sorba rendezzük. Ez a minta az ún. „rendezett minta”. Ennek a statisztikában fontos szerepe van. Mi itt azonban csak a kényelmi szempontot vesszük figyelembe, s ezért elszámolunk 100-ig. Tételezzük föl, hogy az elemszám páratlan, s 201-gyel egyenlő. Ekkor a 101-edik elem értéke lesz a medián, amelyet szokás Me-vel is jelölni.

Itt van jelentősége annak, hogy mintánk páros, vagy páratlan számú elemet tartalmaz. Most a páros esetet vizsgáljuk:

Megnézzük, hogy a „felényi” elem - a századik - értéke mennyi (75). Ezután vesszük a soronkövetkező elemet, és azt is megnézzük (az is 75). Mivel az »osztópont«-nál nem volt értékváltás, megállapíthatjuk, hogy az említett minta mediánjának értéke: 75 (természetesen: kilogramm, hiszen a vízszintes tengelyt vettük vizsgálat alá).

Megvizsgáljuk azt az esetet is, amikor az osztópontban értékváltozás következik be: tételezzük föl, hogy a 200 elemű - rendezett - minta 100. eleme 75 (kg); a 101. eleme pedig 76 (kg). ilyen esetben az osztópont (itt, a mediánnál, nyilvánvalóan: „felezőpont”) közvetlen közelében levő két mintaelem értékének számtani középértékét vesszük: (75+76):2 = 75,5 (kg) ekkor a medián.

Trükkösebb a helyzet csoportosított adatok esetén. (Vö. a 2. táblázattal.) Összeadjuk a gyakoriságokat az egyes osztályokban, s a 72-est is beszámítva (VIGYÁZAT! Az osztály minden adatát az osztályközéppel azonosítjuk!) csak 92-ig jutunk el. A Me tehát valahol a következő osztályban kell, hogy elhelyezkedjen. Ha ezt a (77-es osztályközepű, 27 elemet tartalmazó) osztályt elképzeljük, akkor a 2. grafikonnál említett »Másképp.. «-felfogást alkalmazzuk.

Eszerint a 74,5-től a 79,5-ig tartó osztályt 27 - egyenlő - kis szakaszra osztjuk fel (mindegyik kis szakasz egy mintaelemnek felel meg). Keressük a 8. és 9. szakasz között a határpontot, ez lesz a Me. Belátható, hogy ha az osztályt arányosan osztjuk föl (8-19 arányban), akkor megkapjuk a mediánt. A jólismert aránypárt alkalmazzuk:

x : 5 = 8 : 27 ; ebből

x = 5 · 8 : 27 = 1,48 . Ezt a számot adjuk hozzá a valódi osztályhatárhoz, 74,5-höz, hiszen még ennyi „távolság” kell az osztályból a mediánig. Me = 74,5 + 1,48 = 75,98 (természetesen, itt is kg). Vegyük észre, hogy ez nem volt más, mint a matematikából már - a függvénytábla-kezeléskor - jólismert (lineáris) interpoláció. Az arányos osztás gondolatmenete a statisztikában is gyakran előkerül. Az így meghatározott medián alig tér el a Mo-tól (77). Ez olyankor van így, ha az eloszlás szimmetrikus. Abban az esetben, ha az eloszlás ferde, a Me elvándorol a csúcstól a ferdeség irányába. Megjegyezzük, hogy a rendezett, teljes minta modusa 75 (kg). Látható, hogy a teljes - rendezett - és a csoportosított minták középérték-mérőszámai valóban különböznek egymástól. De hisz ezt is ígértük. Nyilvánvalóan, a teljes mintával számolt Mo és Me a „pontosabb”; azaz jobban jellemzi az eloszlást.

4.5.2. A kvantilisek

„Kvantálni” annyit jelent, mint részekre osztani. A Me kiterjesztéseként szokás értelmezni ezeket, a decilis tíz, a centilis száz - egyenlő - részre osztja fel mintánkat (mint ahogy a medián két részre). A statisztikai gyakorlatban a kvantilisek közül egyet szokás használni, ezek az ún. kvartilisek - jelük: K -, amelyek négy részre osztják a mintát. A K1 kvartilis a minta egynegyedét választja el a többi háromnegyedtől; a K2 kvartilis a kétnegyedét azaz: felét (s így K 2 = Me ) a másiktól; a harmadik kvartilis (K3 ) a háromnegyedét - gyakorlatilag az ennél nagyobb adatok teszik ki a minta egynegyedét. Mivel csak egy hang/betű különbség van a két elnevezés között, érdemes vigyázni, össze ne keverjük őket. (A kvartilisek kiszámítását nem részletezzük; a gondolatmenetek teljesen analógok a Me meghatározásánál írottakkal.)

4.5.3. A mintaközép, vagy átlag (average)

Ez egy kedves, régi ismerős, „lánykori nevén”: két szám átlaga, ill. két szám számtani közepe. Most kiterjesztjük az átlag fogalmát, de ehhez néhány jelölésbeli konvenciót (megegyezést) kell figyelembe vennünk. Az adatokat az x, y, z, stb. betűk valamelyikével jelöljük, és egymástól való megkülönböztetésük céljából - a vektorokhoz és a mátrixokhoz hasonlóan - indexszel látjuk el. (Általában az x-et szeretjük; megszoktuk.)

Az 1. táblázatbeli mintánk ilyenformán az alábbi formájú lesz: x 1 , x 2 , , x n ; az utolsó adat indexe - szokásosan - n. Ez tulajdonképpen a minta elemszáma. (Ha a minta nagyságról beszélünk, akkor erre gondolunk, nem pedig arra, hogy milyen nagyságúak az adatok.) Általában egy mintaelemről beszélve, nem szoktunk számokat írni az indexhelyekre, hanem az i, j, k, l betűk valamelyikét - szokásosan az i-t - használjuk, s az ilyen indexet futó indexnek is szokták nevezni. Az átlag, más néven számtani közép úgy nyerhető, hogy az adatok összegét elosztjuk azok számával. Definíciónk alapján ki is tudjuk számolni, x („x felülvonás”-sal jelölve):

x = x 1 + x 2 + + x n n

Tessék csak elképzelni, milyen kéjes érzés lehet ezt a képletet az 1. táblázat 200 elemére behelyettesíteni… Éppen ezért a hosszú, unalmas és hibalehetőségekkel terhelt megoldás helyett egy új szimbólumot alkalmazunk:

x 1 + x 2 + + x n = i = 1 n x i

ahol a Σ az összegzés jele (a görög nagy szigma-betű); és függetlenül a jel görög eredetétől, latin szóval szummának nevezzük. Jelentése az, hogy nem valamelyik, hanem mindegyik mintaelemet összeadandóként vesszük.

A matematikai szempontból precíz jelölés az első szumma-jel - itt feltüntettük az összegzés „határait” -, de, ha külön nem írunk a szummajelre semmit, szokásosan n-szeres összeadást értelmezünk. Az összeadási műveletre vonatkozó szabályokat a Σ-val is megfogalmazhatjuk (a egy tetszőleges konstans):

A a = n a összefüggést érdemes megjegyezni, sokszor előfordul.

Egy másik összefüggés egy állandó szorzótényező kiemelése:

2 x i = 2 x i

Természetesen, a csoportosított mintánál nem ez a helyzet. Amennyiben az osztályközepeket az u 1 , u 2 , , u n ; a hozzájuk tartozó gyakoriságokat az f 1 , f 2 , , f n jelekkel jelöljük, az átlag az alábbi - meglehetősen csúf - képlettel számítható:

x = i = 1 n u i f i i = 1 n f i