Ugrás a tartalomhoz

Statisztika online - oktatási portál

Vág András

Typotex

4. fejezet - 4. Statisztikai alapfogalmak

4. fejezet - 4. Statisztikai alapfogalmak

A »statisztika« szó latin eredetű, a „status”-ból származik, amelyet állapotnak és államnak is fordíthatunk; arra utal, hogy a statisztika tárgya mindig valamilyen állapot leírására szolgál. Az ebbe a körbe tartozó adatok - természetesen - kielégítik az informatika általános adatfogalmát, annál azonban kicsit szűkebbek. Ilyen értelemben azt mondjuk, hogy a statisztika által használt adatfogalom mindig valamilyen - a való világra vonatkozó - kísérlet, megfigyelés, vizsgálat eredményeként adódik, s a legtöbbször számként jelenik meg, méghozzá nem is egy számként - hanem több adatként. Ahogy matematikai statisztikai tankönyvek gyakran fogalmaznak: a statisztika a véletlen tömegjelenségekkel, ezek törvényeivel foglalkozik. Az adatok mindig rögzítettek. (Ez számítástechnikai alapkövetelmény is.)

Térjünk vissza egy kicsit erre a bizonyos „való világra vonatkozó vizsgálat”-ra! Mert fontos. Ugyanis a vizsgálat jellege szerint fogjuk megkülönböztetni a statisztika adatainak két nagy fajtáját: a mérhető és a megállapítható adatokat.

A mérhető adat.  Amennyiben adatunk úgy keletkezik, hogy valamilyen mérés „terméke”, akkor beszélhetünk mérhető adatról.

A mérés - általánosítva - tehát nem más, mint egy hozzárendelés, ami a való világ egy bizonyos objektum a (ill. annak része), és egy szám között áll fenn. Ilyen értelemben használtuk - eddig is - pl. a mértékegységeket, mint amilyen a »nyolc rőf«, vagy a »két icce«. Ami a manapság használt méréseket, mérési eljárásokat illeti, az esetek legnagyobb többségében valamilyen fizikai skálán történnek. (Pl.: hosszúság, tömeg, idő, áramerősség, stb.) A precíz megfogalmazáshoz szükségünk is lenne bizonyos skálaelméleti ismeretekre is, ezek megtárgyalásától azonban eltekintünk. Ami korántsem azt jelenti, hogy ezek ne lennének fontosak; csupán amiatt mellőzzük megtárgyalásukat, mert nincs elég helyünk rá. A „mérés” fogalmát általánosíthatjuk: a mérhető adatok tehát egy olyan skálán helyezkednek el, amelyet hasonlónak tekinthetünk valamilyen mérőműszer skálájához. Bizonyos, számlálással nyerhető adatok is ide tartozhatnak: ez a módszer elég gyakori. Gondoljunk pl. arra, hogy valakinek mennyi valamije (gyermeke, könyve, pénze, stb.) van: ez valamilyen számot eredményez ugyan, de a leszámlálást mégsem nevezhetjük mérésnek… (Megeshet azonban, hogy a leszámlálást visszavezetjük mérésre - mert például a „hány mákszem fér egy ember markába?”-kérdésre meglehetősen bonyodalmas és szaporátlan lenne leszámlálással megadni a választ… Ilyenkor - ha tudjuk egy mákszem tömegét - tömegméréssel és egy osztással meg tudjuk válaszolni a kérdést. Azért tudtuk a mérést használni ehhez, mert a mákszemek lehetséges száma - a „marokbőségtől” függően - rendkívül különböző lehet; valamint a szemek száma igen nagy. Mérési adatként tehát akkor kezelhetőek a számlálási adatok, ha ez a két feltétel teljesül rájuk.)

A megállapítható adat.  Ilyenkor az adatokat úgy nyerjük, hogy a mérés szerepét egy megállapítás veszi át. Pl. abban a mondatban, hogy „a kalcium vegyértéke kettő”, nem a »kettő«-n van a hangsúly, hanem azon, hogy ez az elem a kétvegyértékű kategóriába esik. Még egyértelműbb ez akkor, ha a kategória megadásában nem is szerepel számérték. Ilyen adat pl. egy kérdéses személy neme; ez csak szóban („férfi”, vagy „nő”), ill. a biológiai szimbólumok felhasználásával adható meg. Ide tartoznak az „igen-nem”-mel megválaszolható kérdések is. Pl.: a „volt-e már valaha náthája?”-kérdésre két válasz lehetséges: vagy „igen”, vagy „nem”. Amennyiben az adatok között hierarchiát értelmezünk, akkor belátható, hogy ezek az adatok alacsonyabbrendűek, mint a mérési adatok. Ennek oka egyszerű: nyilvánvaló, hogy számokkal sokkal egyszerűbb számolni, mint megállapításokkal (kategóriákkal). Ráadásul a mérhető adatok mindig átalakíthatóak megállapíthatókká, viszont azonban ez nem áll fenn.

Az átalakításhoz csak ilyen típusú „megállapításokat” kell tennünk: 3 alatt; 3 és 5 között; 5 fölött, stb. A mért érték így bekerül valamilyen kategóriába. A két adatfajta szemléltetésére nézzünk meg egy speciális esetet: az iskolai osztályzatok dolgát. Ezek az osztályzatok - formailag mindenképpen - mérési adatok. Az egyes tanulók ismeretszintjét, készségeit az 1 és az 5 számok közötti skálán lemérik. (Nem véletlenül ilyen kevésszámú lehetséges érték van; természetesen lehetne ennél jóval finomabb - pl. az egyetemi felvételihez hasonló finomságú - különbséget is tenni az egyes tudásszintek között.) Azonban az ilyen adatok semmiképpen nem mondhatók többnek megállapíthatóaknál. Az a »pedagógiai skála« ugyanis, amelyen a mérés történt, teljesen ismeretlen tulajdonságú; szubjektív, ezért mindig más és más lehet. Legfeljebb annyit fogadhatunk el (márpedig, ha számolni is akarunk velük, akkor muszáj lesz), hogy a tanár előre meghatározott kategóriákat - jeles, jó, közepes, elégséges, elégtelen - rendel hozzá az egyes diákok teljesítményéhez. Tehát osztályokba (kategóriákba) sorolta őket. mint ezt a tevékenység megnevezése - osztályozás - mutatja is. Az „alacsonyabbrendű” kifejezés nehogy megtévesszen bennünket: alapvetően helytelen lenne a mérés „magasabbrendűségéről” beszélni akkor, ha a »férfi - nő« kérdés egyszerű megállapítással, pontosan eldönthető. Sőt, még fölényben is lehet a mért adatokkal szemben, hiszen minden mérési eljárás - függetlenül a mérőeszköz korszerűségétől - tartalmaz ún. módszeres hibát, s ez - nyilván - torzítja adataink valóságtükrözését. (Mindez - természetesen - korántsem vonatkozik olyan esetekre - mint az osztályozás-példa mutatta is -, amikor a kategóriákba sorolás önkényesen, szubjektív módon megy végbe.)

Adatcsoport, minta és populáció. Akár mérés, akár statisztikai feldolgozás szempontjából tekintjük az adatot, jegyezzünk meg egy mondást: Egy adat nem adat. A statisztika csak adatok kal tud valamit is kezdeni. De milyenek is legyenek ezek az adatok? Azon kívül hogy több adat kell, árnyaljuk még azzal is, hogy ugyanarra vonatkozóan legyen több. Ezt nem úgy értjük, hogy - ha pl. emberek adatait tekintjük - ne lenne elég csak az életkor megadása; hanem a családi állapota, a testsúlya, a magassága, stb. is szükséges.

Nem erről van szó, hanem arról, hogy ha pl. a testsúly az adat, akkor nem elég egyetlen ember testsúlyának ismerete. Az „ugyanarra vonatkozóan” itt azt jelenti, hogy több „testsúly”-adatunk kell legyen - mégpedig ugyanabban a mértékegységben (pl. kg-ban) megadva. Egy-egy adat tehát más-más emberhez tartozik. De egy más módszerrel is megközelíthetjük mindezt: mérjük le egy ember súlyát különböző (mondjuk: egyhónapos) időpontokban. Belátható, hogy ekkor is „több” adatunk lett. Ezek az adatok is alkalmasak statisztikai vizsgálatokra (idősoroknak hívják őket); elemi szinten azonban nem fogunk foglalkozni velük.

Az előbb - kétféleképpen - leszármaztatott adatokat adatcsoportoknak nevezzük, az „adatok” szinonímájaként; a matematikai statisztika azonban minta néven azonosítja őket. (A továbbiakban mi is ezt tesszük.) A minta tehát nem más, mint a konkrét vizsgálatba bevont (annak eredményeként kapott) adatok köre. A vizsgálatot azonban nem önmagáért végezzük: az esetek legnagyobb többségében következtetni akarunk egy nagyobb halmaz hasonló tulajdonságaira, amely „nagyobb” halmaznak a minta csupán részhalmaza.

Ezt a „nagyobb” halmazt mintasokaságnak, vagy más néven: populáció nak nevezi a matematikai statisztika. A leíró statisztika a mintát csak önmagában tekinti, nem törődik azzal, hogy mi van mögötte. A matematikai statisztika ezzel szemben a mintát csupán eszköznek tekinti a populáció megismerésére.

4.1. A gyakorisági eloszlás

4.1.1. Előrendezés: osztályba sorolás

A mérési adatok a vizsgálat során nem valamilyen szempont szerinti rendezettségben követik egymást. Ahhoz azonban, hogy viszonylag nagyszámú adatot át tudjunk tekinteni, érdemes őket csoportosítani. Ennek lényege: adataink értékkészletét résztartományokra osztjuk, majd megszámoljuk, hogy egy ilyen részbe (osztályba, vagy csoportba) hány adat esik. Ezt a számot hívjuk az osztályhoz tartozó gyakoriságnak. Az osztályok, a hozzájuk tartozó gyakoriságokkal együtt alkotják a minta gyakorisági eloszlását. Mutassuk be ezt egy példán:

1. táblázat - Testsúly, mérési adatok [kg-ban]

85

91

70

69

80

60

73

90

55

63

89

70

83

72

65

75

97

112

85

78

83

76

101

85

95

73

53

55

85

55

65

69

82

70

75

77

75

90

73

72

90

49

77

55

80

51

55

60

75

63

102

55

78

63

90

81

69

82

113

69

85

105

65

66

102

75

55

85

80

52

72

71

100

70

83

83

93

63

77

63

97

63

82

59

96

60

69

80

93

67

82

116

88

75

95

55

69

67

72

73

93

64

85

70

85

73

115

105

85

62

60

55

63

52

85

63

82

90

66

73

80

76

65

62

78

80

42

75

82

58

73

59

80

77

108

65

77

65

86

82

70

85

79

69

73

43

92

110

104

73

107

85

67

71

79

83

91

80

44

90

59

65

75

72

69

88

65

61

104

72

82

75

90

76

62

81

72

70

80

75

101

123

67

101

61

65

87

80

75

90

53

77

63

75

65

75

52

70

85

82


A testsúly (pontosabban: testtömeg) adatait a mérés eredeti sorrendjében, egymás alá írtuk; így rögzíteni könnyebb, mintha egymás mellé kezdtük volna az írást. Sok adatnál célszerű vízszintesen is részekre tagolni az adathalmazt - vonalakkal, vagy üres sorokkal. (Itt csupán azért nem tagoltam - ötösével - a sorokat, mert akkor nem fért volna ki a táblázat egy oldalra. Így viszont sokkal nehezebb felfogni, olvasni...) Mint megállapítható, a táblázat 200 mérés eredményét tartalmazza. Ezt úgy mondjuk, hogy a minta elemszáma 200. A gyakoriságok kigyűjtése legcélszerűbben „strigulázással” történhet. Ilyenkor egy papírra írjuk az egyes osztályokat, majd sorra vesszük az adatokat, és oda húzunk egy függőleges vonalat („strigulát”, azaz: |-t), ahol az adat „passzol” a megadott osztály-intervallumhoz. Saját munkánkat egyszerűsítjük akkor, ha az ötödik strigulával áthúzzuk a másik négyet. (Így ötösével sokkal könnyebb leszámolni a gyakoriságértékeket a végén). Nézzük ezt táblázatban, és aztán ábrázolva:

2. táblázat - Testsúly adatok osztályozása

osztályhatárok

valódi osztályhatárok

közepek

gyakoriságok

35-39

34,5-39,5

37

0

40-44

39,5-44,5

42

3

45-49

44,5-49,5

47

1

50-54

49,5-54,5

52

6

55-59

54,5-59,5

57

13

60-64

59,5-64,5

62

19

65-69

64,5-69,5

67

24

70-74

69,5-74,5

72

26

75-79

74,5-79,5

77

27

80-84

79,5-84,5

82

26

85-89

84,5-89,5

87

18

90-94

89,5-94,5

92

14

95-99

94,5-99,5

97

5

100-104

99,5-104,5

102

8

105-109

104,5-109,5

107

4

110-114

109,5-114,5

112

3

115-119

114,5-119,5

117

2

120-124

119,5-124,5

122

1

125-129

124,5-129,5

127

0


Nyilvánvaló, hogy a „valódi” osztályhatár a - matematikai értelemben vett - kerekítést is beszámítja, használata tehát ezért indokolt.

Ábrázolva pedig a következőket láthatjuk:

1. grafikon. Testsúlyeloszlás oszlopdiagramon

Az y tengelyre a gyakoriságokat (természetes számok, 1-től akármeddig), az x tengelyre pedig a kategória-skálát vesszük fel. A grafikon típusa: úgynevezett oszlopdiagram. Itt téglalapok mutatják az egyes intervallumokat, s - mivel egyenlő hosszúra választottuk ezeket az intervallumokat - a gyakoriságokat az egyes téglalapok magassága (s ezen keresztül a téglalap területe) reprezentálja: ezzel a területtel jellemezzük az egyes osztályokhoz tartozó - abszolút - gyakoriságokat. Itt jegyezzük meg azt, hogy - elsősorban az SI-mértékegységgel való összekeverhetőség miatt - a magyar nyelvben helyesen egy „m”-mel kell írni ezeket az idegen szavakat: nomogram, diagram, hologram, stb. (Más - pl. német - nyelvben két „m”-mel írják, de magyarul ez helytelen!) A »-gram« görög származású kifejezés, szóösszetételekben (írásos, vagy más, alkalmas módon történő) rögzítettséget jelent. Több esetben nem ez az igazán célszerű, szemléletes és áttekinthető ábrázolásmód. A matematikában megszokott (függvény-)ábrázolás során nem téglalapokkal, hanem egyetlen - jobbára nem egyenes - vonallal ábrázoljuk az adott függvényt. Ezt itt is megtehetjük. Az ilyen ábrázolásmód neve: vonaldiagram. A szép kinézés okáért érdemes felvennünk a grafikon két szélére egyegy olyan osztályt is, amelyhez tartozó gyakoriság 0 - ide tehát nem kerül adat, s a grafikon nem úgy fest, mintha „derült égből elkezdődne”.

Az ábrázolás:

2. grafikon. Testsúlyeloszlás vonaldiagramon

Visszatérve - még egy pillanatra - a 2. táblázathoz, érdemes néhány szót ejteni arról, hogy minek is szerepelnek ott az „osztályközepek”? Nem felesleges kiszámolni ezeket, mert tulajdonképpen arra szolgálnak, hogy képviseljék az osztályukba tartozó összes adatot. (A továbbiakban ezeket az adatokat ilyenkor azonosítjuk az osztályközepükkel.) Másképpis fel lehet fogni: az adatok az osztálynál mind különbözőek - még ha ez nem is áll fönn -, és egyenlő közökben úgy helyezkednek el, hogy az osztály egész szélességét kitöltsék.

Az osztályok felvételéről csak annyit: elsősorban az adatok száma határozza meg. Esetünkben, a 200 adatnál indokolt fölvenni 15-20 osztályt is; 50 adatnál pl. már 10 osztály is több lenne a kelleténél (ennél jóval kevesebb mintaelem esetén ne is kísérletezzünk a csoportosítással - kevés adatot könnyebb áttekinteni).

Célszerű az osztályhatárokat úgy megállapítani, hogy „kerek” számok legyenek, pl. itt 40-44, 45-49, stb. Az ilyen osztályhatár-kijelölés azért jobb, mintha 41-45 és 46-50 (stb.) határokkal dolgozunk, mert ilyenkor az első számjegy osztályon belül is megváltozik; igen nehéz „ránézésre” is kistrigulázni ilyenkor a „kétes” adatokat. (Különösen akkor áll ez, ha az osztályszélesség 10-es.)

Hogy mindenki számára világos legyen az osztálybasorolás/csoportosítás fontossága, érdemes lesz ideiktatni a teljes, rendezetlen minta grafikonját (ezt is oszlopdiagramon; igaz, hogy ilyen esetben az x-tengelynek semmi funkciója nincs, csak alapként szolgál). Az oszlopdiagram „oszlopai” meg szinte vonallá zsugorodtak.

Az eredmények bemutatása, vizuális megjelenítés

Itt értekezzünk kicsit arról, hogy milyen módon ábrázoljuk adatainkat. Ha pl. egy szövegszerkesztővel dolgozunk, mint amilyen a WORD FOR WINDOWS (2.0C) - magyar nyelvű - változata, abban alapszolgáltatás a GRAPH nevű grafikonrajzoló. (Ez a tankönyv, és a benne levő ábrák/grafikonok is a WinWord említett verziójával készült/ek.) A GRAPH-ban 7-féle kétdimenziós és 5-féle háromdimenziós diagram lehetősége van meg: ezek közül már két - kétdimenziós - grafikonfajtát megismertünk. A továbbiak során még néhány fontosabb ábrázolásmódot lesz alkalmunk szemügyre venni - példánk marad az eddigi. Célunk nem a szoftver ismertetése, hanem a gyakrabban használt diagramfajták kritikai bemutatása lesz. Az x-y koordinátarendszerben - matematikából - megszokott ábrázolásmód az úgynevezett pont-ábra (pontdiagram). Akkor alkalmazzuk, ha kicsi a minta elemszáma, és egy mérhető - egy megállapítható adatból álló mintát akarunk ábrázolni.

Ilyen lehet pl. 10 a 3. táblázat.

3. táblázat - Általános iskolás tanulók távolugrás-eredménye [méter]

1.

(fiú)

2,4

2.

(fiú)

3,9

3.

(lány)

3,4

4.

(lány)

1,9

5.

(fiú)

3,3

6.

(lány)

3,4

7.

(fiú)

2,0

8.

(fiú)

4,4

9.

(lány)

1,8

10.

(fiú)

1,5


A pontok egymás fölötti elhelyezésének (valamint annak, hogy nem ugyanolyan szimbólummal - pl. x-szel - jelöltük őket) semmi jelentősége sincs. Nagy elemszámnál zsúfolt, áttekinthetetlen lesz, s megtévesztő lehet a pontoknak egy sáv menti elhelyezkedése is. (Ilyen esetekben inkább az oszlopdiagram ajánlható.)

Egy másik - nagyon szemléletes - ábrázolási mód, főleg a %-os megoszlásokra az ún. kördiagram. A kategóriák egy kört osztanak föl - a gyakorisággal arányosan - különböző területű körcikkekre (3D-ábrázolásban „tortá”-nak is szokás hívni az ilyenfajta diagramokat).

Azért csak a tortadiagramot mutatjuk be, mert a kördiagram túl nagy helyet foglalna el. A gyakoriságok - elvben - feltüntethetőek lennének, de még ekkora nagyságban is zavaróan egymásra íródnak, ezért mellőztük.

4.1.2. Relatív gyakoriság

Több diagramunkon is látható volt a „relatív gyakoriság” megnevezés. Ebben az esetben a (függőleges) tengelyen nem az adott osztályba sorolt adatok számát, hanem a minta összelemszámához viszonyított (%-os) értékét adjuk meg. Ha a mi - rendezett - mintánknál 10 mintaelem esik egy osztályba: ez abszolút gyakoriság; de a 200-hoz képest ez csak 5%-os relatív gyakoriságnak felel meg.

Ezt az értéket mindig ki tudjuk számítani a minta összelemszámának ismeretében: a gyakoriságok 100-szorosát osztjuk az elemszámmal. (Itt a példában történetesen 200-zal.)