11.3.8. Webbányászat

A látogatók szokásainak minél alaposabb megismerése állandó kihívás. Az online kommunikációs csatornákat használó látogatók magatartását a hagyományos eszközökkel nem, vagy nagyon nehezen lehet megismerni. Azonban ez a felhasználói réteg nagyon sok nyomot hagy maga után, a kiszolgáló számítógépeken rögzített adatok kincset érnek, melyek „felszínre hozhatók" a webbányászati eszközökkel. A látogatók igényeit kielégítő, individualizált szolgáltatás csak abban az esetben valósítható meg, ha az online szokásaikat, magatartásukat elemezzük a weboldalakon található linkeken át bejárt útvonalak alapján.

A webbányászat az adatbányászat része. A webhasználat-bányászattal tanulmányozhatjuk a látogatók szokásait, magatartásmintáit. A webhasználat-bányászat nevezhető webnapló bányászatnak is, hiszen ma még többnyire a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. Jelen dolgozat vizsgálatait a webhasználat-bányászat eszköztárát alkalmazva végeztük el.

Az azonosíthatatlan felhasználók online tevékenységét a látogatásuk alkalmával rögzítjük, az adatgyűjtés az adott fogyasztóról a látogatás befejezéskor zárul le. Ez azt jelenti, hogy a legközelebbi látogatás alkalmával ő már más fogyasztónak számít. Ha a látogatók száma nagy, akkor a marketingmenedzsment honlappal kapcsolatos döntéseihez a vizsgálatok elégséges bemenetet jelentenek, hiszen minden elemzés az online látogatók teljes populációjára alapul.

A vizsgálatokat néhány említésre méltó tény nehezíti (Han, Kamber, 2004):

- a web túlságosan bőséges tárolt adathalmaza,

- a weboldal strukturálatlansága, bonyolultsága,

- a weboldal dinamikusan változásai,

- a felhasználók azonosítási anomáliái stb.

A webbányászat feladatköre a vizsgálat tárgya szerint három területet fog át:

- webtartalom-bányászat (web content mining),

- webstruktúra-bányászat (web structure mining) és

- webhasználat-bányászat (web usage mining).

A webhasználat-bányászat használatával a látogatók szokásainak, magatartásmintáinak tanulmányozása válik lehetővé. A webhasználat-bányászat nevezhető webnapló bányászatnak is, hiszen a webkiszolgálók által rögzített webnapló-bejegyzéseken alapul. A webnapló-bejegyzések (weblog fájl) vizsgálata során a weblapok hozzáférési mintáit lehet feltárni, így a látogatók számára az interneten keresztül nyújtott szolgáltatások minősége javítható, akár a webet kiszolgáló számítógépek (webszerverek) teljesítménye is növelhető. Egy adott webnapló-bejegyzés mezői eltérőek lehetnek, de mindegyik webszerver tárolja a következőket:

- a kérés kiindulási helyének IP címét,

- a kérés pontos idejét,

- a kért URL címet,

- és ezen kívül még néhány adatot.

A webnapló-bejegyzéseknél gyakorta a túlságosan is sok adat jelenti a nehézséget. A rögzített adatokból, ‑ amelyek leginkább technikai jellegűek ‑ kell megtalálni a relevánsakat. A felhasználók hozzáférési mintáinak ilyen osztott információs környezetben történő kigyűjtését nevezik hozzáférési útvonalminta bányászatnak is.

A webbányászat eszköze egy adatbányász szoftverre épül. A két piacvezető adatbányász programcsomag rendelkezik webbányász kiegészítéssel is. A kutatásoknál használt IBM-SPSS Modeler esetén ezt nevezik WebMining CAT modulnak.

A webbányászati technikák alkalmasak a felhasználók alaposabb megismerésére. Természetesen az eddig elvégzett vizsgálatok, webstatisztikák, a látogatásokról, kattintásokról szóló összesítések szükségesek, azonban az online vásárlók, látogatók igényeit individuálisan kielégítő szolgáltatás csak abban az esetben valósítható meg, ha felhasználók szokásait, magatartását elemezzük, például a weboldalakon található linkeken át bejárt útvonalak alapján. A vizsgálatok előnye, hogy a teljes populáción történik, azaz nincs vizsgált minta. A rendszertervezés tökéletesítése során elérhető pl. az erősen korreláló objektumokhoz történő hatékonyabb hozzáférés, de a fogyasztók individualizált, online kiszolgálása is tökéletesedhet pl. egy hírszolgáltató website-nál.

Webbányászat: az üzleti szféra Internet-alapú szegmensében kidolgozott igen erőteljes speciális adatbányászati megközelítés, az adatbányászat alkalmazása a webhelyek forgalom-elemzésének speciális területére.

A módszer a webhelyek üzemeltetőjének a szerverén képződő, a forgalomra jellemző naplófájlok (az ún. logfájlok) kifinomult elemzésére épül és az adott webhelyek hatékonyságának a fokozását tűzi célul.

A különböző típusú naplófájlok (ún. weblog-ok) elvben a felhasználók tevékenységére vonatkozó igen gazdag információ-források. Itt a probléma a szokásosnak éppen a fordítottja: itt nem kevés, hanem túlságosan is sok információ áll rendelkezésünkre. A naplófájlok mérete ugyanis az üzleti szférában - a látogatók számától és elemzett időszak hosszától függően - gyakran a több száz MB vagy a GB nagyságrendjébe esik. Ezt a nagy mennyiségű - és nagy mértékben pusztán technikai jellegű - információt kell célszerű módon megszűrni, átalakítani, feldolgozni úgy, hogy a kezdeti technikai információból a felhasználó viselkedését és motivációját megalapozottan jellemző információkat nyerjünk.

Az interakció professzionális vizsgálata lehetővé teszi a tananyag tényleges használati módjainak az azonosítását, amiből megalapozottan következtetni lehet a tananyag hatékonyságára, illetve a hatékonyság konkrét akadályaira.

A web-bányászati technikák ezért a tananyag fejlesztésének a folyamatában - mintegy az ipari gyártásközi minőségellenőrzés analógiájára - az egzakt közbenső „mérések" lehetőségét nyújtják: a fejlesztés minden „mintavételezés" után attól függő irányokat vehet, hogy a tanulók a megelőző lépésben hogyan fogadták a tananyag számukra rendelkezésre bocsátott verzióját. A menet közben azonosított szakmai, didaktikai, használhatósági, szoftver-ergonómiai (leggyakrabban a navigációval vagy az információmegjelenítéssel kapcsolatos) stb. problémákra ilyen módon gyors áttervezési, javítási javaslat adható és az így kialakított verzió egy újabb ciklusban tesztelhető.

Ez a megközelítés annyiban radikálisan más a korábbiakhoz képest, hogy itt a tanulók és a tananyag vonatkozásában nem egyfajta mintavételezésről van szó, hanem valamennyi tanuló valamennyi interakcióját elemezhetjük a teljes tananyagban a billentyűleütések és egér-kattintások szintjének megfelelő finomságú felbontásban. Az elemzés tehát nem a célpopulációból vett többé-kevésbé reprezentatív mintákra épül, hanem a célpopulációra nézve teljes körű.

A sikeres web-bányászati elemzés feltétele, hogy a különböző modellekkel nyert eredményeket az elemző képes legyen a felhasználói szintű élményekkel, illetve tapasztalatokkal összekapcsolni. Ez azt jelenti, hogy csak az lehet valóban sikeres, aki mind a web-bányászati elveket és eszközöket, mind az elemzett konkrét anyagot, mind pedig a felhasználókat eléggé mélyen ismeri.