Ugrás a tartalomhoz

Könyvtári információkeresés

Ungváry Rudolf, Vajda Erik

Typotex

A web keresőeszközei és keresőszolgáltatásai

A web keresőeszközei és keresőszolgáltatásai

A keresőszolgáltatások fajtái

A HTML-dokumentumokhoz való gyors hozzáférést egyrészt az ún. kliensoldali böngészők, másrészt a szerveroldali keresőszolgáltatások biztosítják. A böngészők (browser, például Internet Explorer, Netscape) a felhasználó gépén működnek (ezeket azon „futtatják”), a keresőszolgáltatások pedig a szolgáltatók szervergépein. A böngészők ún. ügyfélalkalmazások, melyek lehetővé teszik a felhasználó számára, hogy HTML-dokumentumokat nézzen meg a weben, más hálózaton vagy a saját számítógépén, kövesse közöttük a csatolókkal megvalósított hipertextes kapcsolatokat, és állományokat küldjön. A böngészőkkel tehát nem magát a keresést végzik.

A keresőszolgáltatások egy része globális, azaz — legalábbis elvileg — a teljes web a gyűjtőkörük. Másik részük nemzeti (egy állam doménneveire korlátozott), regionális (például az angol nyelvterület doménneveire korlátozott), vagy meghatározott nyelvre korlátozza gyűjtőkörét. Egy részük egyetemes, azaz mindenfajta és mindenféle tartalmú HTML-dokumentum a „gyűjtőkörükbe” tartozik, másik részük csak speciális tartalmú vagy speciális típusú HTML dokumentumokat gyűjt.

Egyes szolgáltatások a gyorsaságukkal, mások a keresési eszközök gazdagságával, megint mások az adatbázisuk nagyságával tűnnek ki. Vannak a relevancia szempontjából megbízhatóbbak és kevésbé megbízhatóak. A weben rendszeresen megjelennek személyes kezdeményezésből készített elemzések, melyekben az egyes szolgáltatásokat minősítik.

A keresőszolgáltatásoknak két típusa alakult ki: az indexelő szolgáltatások és az internetkatalógusok. Az előbbieken belül különleges változatot képviselnek a gyűjtő- és a metakeresők (többszörösen indexelő szolgáltatások). A gyűjtőkeresőkben a keresőszolgáltatások választékát kínálják föl, egy szolgáltatást kiválasztva elvégezhető a keresés. A metakeresőkben egyszerre több keresőszolgáltatás is kijelölhető, és a rendszer mindegyik keresőszolgáltatás adatbázisában elvégzi a keresést, feltüntetve a találatoknál, hogy melyik szolgáltatás adatbázisában sikerült megtalálni a rekordot. (Az indexelő szolgáltatások és az internetkatalógusok magyarázatát a következő két fejezet tartalmazza.)

Az 5. táblázatban néhány ismertebb szolgáltatás látható.

5.1. táblázat - Néhány ismertebb keresőszolgáltatás főbb jellemzői

 szolgáltatásföldrajzi területnyelvszakterület 
AltaVizslaindexelő és katalógusmagyaregynyelvűáltalánoshttp://vizsla.origo.hu/katalogus
AvatarSearch — Search Engine of the Occult Internet!katalógusregionálisegynyelvűezoterikahttp://www.avatarsearch.com/
EuroDocs: Primary Historical Documentskatalógusregionálisegynyelvűeurópai történelemhttp://www.lib.byu.edu/~rdh/eurodocs
Googleindexelőglobálistöbbnyelvű (magyar is)általánoshttp://www.google.com/
Heurékametakeresőmagyaregynyelvűegyetemeshttp://www.heureka.hu
HuDirkatalógusmagyaregynyelvűáltalánoshttp://www.hudir.hu
MetaGermetakeresőglobálisegynyelvűáltalánoshttp://meta.rrzn.uni-hannover.de
Northern Lightindexelő és automatikusan osztályozóglobálisegynyelvűáltalánoshttp://www.northernlight.com
PsychCrawlerindexelőregionálisegynyelvűpszichológiahttp:/www.psychcrawler.com
Yahoo!katalógusglobálistöbbnyelvűáltalánoshttp://www.yahoo.com

Ahhoz, hogy a rendelkezésre álló keresőszolgáltatásokat gyorsan át lehessen tekinteni és kiválasztani, a professzionális könyvtári információkeresőnek (közöttük a könyvtári referensz-szolgálat tagjainak is) célszerű ismernie egyrészt

  • a könyvtári tárgyú portálokat (például Könyvtárkapu, Könyvtárlap, Könyvtár Portál), ahonnan a fontosabb szolgáltatásokat a csatolókon keresztül elérheti; nem utolsósorban pedig

  • azokat a jelentősebb linkgyűjteményeket, melyek a különféle keresőszolgáltatások választékát tartalmazzák (többek között tematikusan is rendezve).

Nagyon sok szakterületi keresőszolgálat létezik, és minél speciálisabb egy internetes keresőszolgáltatás, általában annál megbízhatóbbak a segítségével nyerhető találatok. A korszerű referensz-szolgálat számára követelmény, hogy ezeknek a szolgáltatásoknak az alapján tájékoztatni tudjon, illetve az olvasóknak a használatukat javasolja.

Vannak olyan honlapok, melyek arra szakosodtak, hogy meghatározott témákban felkínálják a fontosabb weblapokat. A weblapok, szolgáltatások nevei egyben csatolók (ugrópontok, linkek), rájuk kattintva elérhető a weblap. Az ilyen linkgyűjtemények — mint a weblapok általában — a hagyományos dokumentumoknál sokkal jobban ki vannak téve a változásoknak, avulásnak. Ami ma létezik, holnap már nincs. A professzionális keresőnek tehát folyamatosan „jelen kell lennie” az ún. „kibertérben”, hogy tisztában lehessen az aktuálisan használható keresési segédeszközökkel. Néhány jelenleg létező linkgyűjtemény (a választék ennél lényegesen nagyobb):

Végül, de nem utolsó sorban, a felkészült keresőnek ismernie kell az olyan fontosabb honlapokat és portálokat, melyekben információk találhatók a közigazgatásról, a közintézményekről stb. Például:

Indexelőszolgáltatások („keresőgépek”)

A indexelőszolgáltatások azon alapulnak, hogy az ún. „keresőgépek” (valójában keresőprogramok) rendszeresen pásztázzák (végig-„szörfölik”) a hálózatot a dokumentumok csatolóin (linkjein) keresztül, megállapítják a HTML-dokumentum legfontosabb — és egyáltalán: megállapítható — adatait, és a dokumentum szövege alapján a tartalmi ismérveit (az indexkifejezéseket). Többségük nem a teljes szöveget nézi át az indexelés érdekében, hanem csak a dokumentum elején meghatározott számú (például 20–30) sort, és egy részük figyelembe veszi a címfejben szereplő metaadatokat is — ha léteznek. A szolgáltatások általában arra törekszenek, hogy a teljesség legyen nagy, ezért pontosságról eleve nincsen szó (lásd a „8. Az információkeresés értékelése” c. fejezetet). Általában relevancia-ellenőrzést is végeznek, és a találatokat ennek sorrendjében jelenítik meg. (A relevancia általuk meghatározott mértéke többnyire attól függ, hogy milyen gyakran fordul elő egy szó a szövegben, előfordul-e együttesen a címben, a címfejben és a szövegben is, csatolóként ugrópontként kijelölték-e a szót a szövegen belül stb.)

A HTML-dokumentumok azonosító adataiból álló HTML-rekordokat adatbázisba gyűjtik, a rekordok az indexkifejezések alapján kereshetők. A HTML-rekordok az indexelt dokumentumok leírásait tartalmazzák. A 20. ábrán ilyen rekord megjelenítése látható találatként.

20. ábra - A Heuréka indexelőszolgáltatás megjelenített HTML-rekordja. Keresés a „Cégnyilvántartás” keresőszóval. A legfelső sor baloldalán a relevancia mértéke [81%], utána a cím, alatta a dokumentum szövegének kezdete (ahogy a cím alatt a szöveg kezdődik), alatta a dokumentum azonosítója, utána a hossza és utolsó frissítésének dátuma látható. Webhelye: http://www.heureka.hu

A Heuréka indexelőszolgáltatás megjelenített HTML-rekordja. Keresés a „Cégnyilvántartás” keresőszóval. A legfelső sor baloldalán a relevancia mértéke [81%], utána a cím, alatta a dokumentum szövegének kezdete (ahogy a cím alatt a szöveg kezdődik), alatta a dokumentum azonosítója, utána a hossza és utolsó frissítésének dátuma látható. Webhelye:

Az alkalmazható keresési stratégiák a keresőrendszertől függenek és meglehetősen változatosak. Az adatbázisokban alkalmazható paranccsal vezérelt kereséshez képes (egyelőre) valamivel szegényesebb a választék, de ez a helyzet változóban van: a keresőszolgáltatók már ma is számos olyan keresési lehetőséget biztosítanak, melyekre a hagyományos, paranccsal vezérelt kereséskor nincs lehetőség.

Néhány keresőszolgáltatásban (AltaVizsla, Northern Light) automatikus osztályozás támogatja a keresőt abban, hogy a kérdésének megfelelő találatok mellett még a hasonló találatok is megjelenjenek. Más rendszerekben a találat azonosítójához (az URL-hez) hasonló azonosítójú rekordokat kínálnak föl automatikusan. Ezeket a lehetőségeket sokszor a „powered search” („megerősített”, „megtámogatott” keresés) kifejezéssel jelzik.

Alapértelmezésben a keresőrendszereket a legtájékozatlanabb felhasználó számára alakították ki. Ha több keresőszót adunk meg szóközzel elválasztva, a rendszer automatikusan ÉS–kapcsolatnak értelmezi.

Minden rendszerben található részletes tájékoztatás a keresési lehetőségekről, ezekhez általában több beviteli mezőből álló keresőfelületeket kínálnak. Mivel az indexelt HTML-dokumentumok állománya teljesen ellenőrizetlen, az egyszerű kereséskor rendkívül nagy a felesleges találatok száma, a zaj. Mindenképpen érdemes kihasználni a részletes (összetett, „haladó”) keresési lehetőségeket (advanced search, powered search). A 21. ábrán egy indexelő szolgáltatás részletes keresést biztosító felülete látható.

21. ábra - A Google felülettel vezérelt keresési űrlapja. A jobb felső sarokban a Keresési tippek, lent jobbra pedig a További információ tájékoztatnak a részletes keresési lehetőségekről. „Szülők és gyermekek iskolán kívüli kapcsolatai” volt a kérdés, kizárva a szexoldalakat, a PDF (hordozható formában kódolt) dokumentumokat és a három hónapnál régebbi weblapokat. Az „Összes ilyen szóval” mezőben az „és előtti + jel azt jelenti, hogy a kereső ne tiltott szóként kezelje az „és” szót. A Google webhelye: http://www.google.com/advanced_search?hl=hu

A Google felülettel vezérelt keresési űrlapja. A jobb felső sarokban a Keresési tippek, lent jobbra pedig a További információ tájékoztatnak a részletes keresési lehetőségekről. „Szülők és gyermekek iskolán kívüli kapcsolatai” volt a kérdés, kizárva a szexoldalakat, a PDF (hordozható formában kódolt) dokumentumokat és a három hónapnál régebbi weblapokat. Az „Összes ilyen szóval” mezőben az „és előtti + jel azt jelenti, hogy a kereső ne tiltott szóként kezelje az „és” szót. A Google webhelye:

Internetkatalógusok („directory”-k)

Az internetkatalógusok (directories, browsing services) hierarchikus osztályozási rendszert alkalmazó keresőszolgáltatások. Adatbázisaik többnyire intellektuálisan feldolgozott HTML-dokumentumok rekordjait tartalmazzák, valamint kapcsolatokat más adatbázisokhoz. Az osztályozást és a tartalmi kivonatok megfogalmazását szerkesztőségben végzik, de a weblapok fenntartói maguk is kérhetik weblapjaik fölvételét a katalógusba, s ilyenkor ők határozhatják meg a weblap besorolását és ők szövegezhetik meg a rövid tartalmi kivonatot.

A katalógusokban az osztályok alapján — „lapozgatva” — végezhető böngészés, de lehetőség van arra is, hogy a keresőszó megadásával, célzott kereséssel érjünk el a kívánt osztályig. A 22. ábrán egy internetkatalógus kezdőlapja látható.

22. ábra - A Yahoo! internetkatalógus portálja. A képmező közepétől lefelé balra a hierarchikus osztályozási rendszer legfelső szintjének osztályai láthatók betűrendben. Fönt négy sorban más adatbázisokhoz (keresőkhöz) lehet hozzáférni. Jobbra látható a hírhasáb. Legfelül a „search” mezőben adható meg a keresőszó, melynek alapján a rendszer a megfelelő speciális osztályt jeleníti majd meg, ha a „search” parancsot megadják. A képen nem látható alsó sorokban a különféle nyelvű Yahoo! változatok és egész sor speciális adatbázis (keresőszolgáltatás) ugrópontjai található. Webhelye: http://www.yahoo.com

A Yahoo! internetkatalógus portálja. A képmező közepétől lefelé balra a hierarchikus osztályozási rendszer legfelső szintjének osztályai láthatók betűrendben. Fönt négy sorban más adatbázisokhoz (keresőkhöz) lehet hozzáférni. Jobbra látható a hírhasáb. Legfelül a „search” mezőben adható meg a keresőszó, melynek alapján a rendszer a megfelelő speciális osztályt jeleníti majd meg, ha a „search” parancsot megadják. A képen nem látható alsó sorokban a különféle nyelvű Yahoo! változatok és egész sor speciális adatbázis (keresőszolgáltatás) ugrópontjai található. Webhelye:

Léteznek olyan katalógusok is, melyek indexelőszolgáltatásként is működnek (ilyen például a AltaVizsla). A keresőszót megadva egyrészt megjelennek az indexelőszolgáltatás segítségével nyert találatok, másrészt a rendszer fölkínálja a releváns osztályokat is. Ritkán tezaurusz is kiegészíti az osztályozási rendszert (példa ugyancsak az AltaVizsla). A tezaurusz lexikai egységeit az AltaVizslában összekapcsolták a katalógus osztályaival is; bármelyik deszkriptort megadva ugyancsak lejátszódik a keresés az indexelőszolgáltatás segítségével, ugyanakkor azoknak az osztályoknak a találatai is megjeleníthetők, melyekre a deszkriptor mint mutatószó utal.

Az internetkatalógusok adatbázisai lényegesen kisebbek, mint az indexelőszolgáltatásokéi, de a keresés az intellektuális feldolgozás, a gondos osztályozás jóvoltából sokkal kisebb zajjal jár. A megjelenített tételek jobban tájékoztatnak a dokumentum tartalmáról, mert a tételekhez a feldolgozók vagy a beküldők (akiknek érdekében áll, hogy a katalógusba bekerüljön a weblapjuk) szövegezik meg a tartalmi kivonatot. Ahhoz képest, hogy egy indexelőszolgáltatásban mi mindent kell ismerni a pontos részletes kereséshez, az internetkatalógusokban sokkal egyszerűbb az eljárás, noha kevesebb a találat.

A szakterületekre specializálódott keresőszolgáltatások többsége internetkatalógus. Egy részüket neves kutatóintézetek gondozzák, más részük kereskedelmi szolgáltatás. Mindkét esetben jó minőségű találatokra lehet számítani. Az osztályozási rendszerek között nemcsak az általánosan elterjedt, természetes nyelven alapuló hierarchikus osztályozási rendszerek fordulhatnak elő, hanem az ETO (az Egyesült Államokban pedig a Dewey-féle TO) is.

A „láthatatlan web”

A HTML-dokumentumokra is érvényes, hogy az elektronikus információforrások nem helyettesítik a nyomtatott forrásokat, hanem kiegészítik. Nem igaz, hogy az interneten minden információ megtalálható. A weblapok látványosak, információik könnyen emészthetőek, de mögöttük csak ritkán van mélyreható tartalom. Válogatás nélkül kerülnek az internetre, az indexelőszolgáltatások keresőprogramjai csak formális relevancia-ellenőrzést végezhetnek, az internetkatalógusokban pedig legfeljebb a weblapok töredékét sikerül intellektuálisan feldolgozni.

Nem csak az a probléma az internettel, hogy a célzott kereséskor is rendkívül nagy a zaj, hanem az is, hogy az indexelőszolgáltatások keresőprogramjai sem képesek elérni minden dokumentumot. A sokféle ok közül néhány fontosabb:

  • a keresőprogramok nem mindegyike szörföl végig minden tartományt (doménnevet); az alkalmazott „begyűjtési stratégia” (gathering, harvesting) és forrásfelkutatás (resource discovery) függvénye, hogy milyen szervereket talál meg a program, és azon belül milyen dokumentumok indexelését részesíti előnyben;

  • szolgáltatásonként változik, hogy mi számít indexelendő egységnek a program számára; van, amelyik minden elért dokumentumot számításba vesz, de csak a töredékét indexeli, megint mások csak a teljes szövegükben indexelt dokumentumokat veszik figyelembe stb.;

  • az „először átfogóan” indexelő stratégiát alkalmazó rendszerek kevésbé részletesen, de sok dokumentumot indexelnek, az „először mélyen” indexelő stratégia eredménye pedig a részletesen indexelt, de kevés dokumentum lesz;

  • az aktualizálás (frissítés) gyakorisága a hetenkénti frissítéstől a félévenkénti, sőt évenkénti frissítésig terjedhet; minél nagyobb a szolgáltatás, annál kisebb frissítési gyakoriságra számíthatunk (az ún. halott tételek száma egyes nagy rendszerben 20–30% is lehet);

  • az interneten jelentős számban találhatók nem HTML-formátumú — hanem például PDF-formátumú — dokumentumok, melyek indexelésére nem minden szolgáltatás képes (jóllehet a Google például lehetővé teszi akár a Word-formátumú dokumentumok keresését is), holott épen a PDF-formátumú dokumentumok között találhatók a legértékesebb tanulmányok és egyéb szöveges dokumentumok;

  • számos weblap elejének szövege (melyet az indexelő programok átnéznek) alkalmatlan arra, hogy automatikus indexeléssel a tartalmát megfelelően reprezentálja.

Mindezek következtében az internetnek létezik egy láthatatlan része (invisible web). Egyes szerzők szerint az Internet több mint 80%-át a globális indexelőszolgáltatások keresőprogramjai nem érik el. Sherman és Price szerint[33] ide tartoznak a nyilvános online katalógusok (the „opaque” web), a személyi honlapok (the private web), az amatőrök által az interneten elhelyezett dokumentumok (the proprietary web) és végül a „valódi” láthatatlan honlapok (the truly invisible web). Az utóbbiak közé tartoznak a PDF, a Word stb. formátumú dokumentumok.

Noha mindebben van némi túlzás annak érdekében, hogy a web problémáival foglalkozó dokumentumok keresletét növeljék, tény, hogy számos esetben nem hagyatkozhatunk pusztán az indexelőszolgáltatásokra és internetkatalógusokra.

A legegyszerűbb esetek közé tartozik, amikor valóban különleges (például PDF-, WORD-)formátumú dokumentumokra kellene ráakadnunk. A keresőszolgáltatások tulajdonságainak mélyebb ismeretében ezen a problémán adott esetben segíteni lehet.

A könyvtárak nyilvános online katalógusai a könyvtárak honlapjainak ismeretében többnyire elérhetők, illetve tájékozódni lehet arról, hogy hogyan lehet távoli hozzáféréssel másképpen belépni a katalógusokba, ha az interneten keresztül ez nem lehetséges.

Olykor az is segít, ha — szokatlan módon — megpróbáljuk kitalálni a weblap azonosítóját, az URL-t. Ha például a „szemnek láthatatlan jelenségekről” akarunk tájékozódni, az is lehetséges, hogy ez már mást is érdekelt, és létezik a www.láthatatlan.hu vagy a www.rejtett.hu stb. azonosítójú weblap. Vannak keresők (például a MetaGer, lásd az 5. táblázatot), melyben gyorsan megállapítható, létezik-e egyáltalán a keresett URL. A Google vagy az AltaVizsla segítségével pedig kereshetünk hasonló azonosítójú weblapokat.

Vannak azonban nehezebb esetek. Például olyankor, ha nem csak nagyon speciális kérdésben akarunk tájékozódni, de ráadásul nagyon új vagy nagyon különleges problémáról van szó, melynek sokféle nyelvi megfogalmazása lehet. Ehhez hasonló, de még „súlyosabb” a helyzet, ha nem is tudjuk pontosan, mit akarunk keresni. Ez utóbbi eset előfordulása nagyon is valószínű, és egyáltalán nem az ostobasággal, hanem az alkotómunka természetével függ össze.

Amikor még megoldatlan tudományos kérdésekről van szó, vagy arról, hogy eredményeket kell összegezni, értékelni, nem lehet mindig előre pontosan megmondani, mire is akarunk vagy mire kell kilyukadni. Ez csak sejthető. A megoldás pontos megfogalmazására ugyanis éppen a problémamegoldás során lehet csak rájönni. Ezért a megoldást előre nem is lehet pontosan keresni.

Ilyenkor inkább a kissé határozatlan, inkább az ösztönök, az intuíció által vezérelt bóklászás, többek között a hagyományos dokumentumokban való lapozgatás és a weblapok közötti kíváncsi ide-oda keresgélés segít. Ez utóbbit a csatolók segítségével végezzük. A szövegben elhelyezett ugrópontokra kattintva más dokumentumokat keresünk föl, és azt várjuk, hogy ezek az „ugrások”, mint valamiféle asszociációk önkéntelenül is rávezessenek arra, amit valójában keresünk. A szörfölésnek ezt a módját nevezik innovatív keresésnek, találóbb angol kifejezéssel „serendipitous searching” a neve. „Szirének hangjára figyelő keresés...” Mindez már átvezet a művészet világába, mely nélkül azonban nem létezne se tudomány, se szakismeret.



[33] Chris Sherman and Gary Price: The Invisible Web. Uncovering Information Sources Search Engines Can't See. — Los Angeles: Independent Publishers Group, 2001. 300 p. — (CyberAge Books) ISBN 0-910965-51-X