Ugrás a tartalomhoz

A magyar nyelv

Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)

Akadémiai Kiadó Zrt.

A magyar nyelvtechnológia eredményei a lexikográfiában

A magyar nyelvtechnológia eredményei a lexikográfiában

A Magyar Nyelv Történeti Nagyszótára

A számítógépes lexikográfiát a Magyar Nyelv Történeti Nagyszótára, illetve közkedvelt rövid nevén az Akadémiai Nagyszótár munkálatai alapozták meg hazánkban. Az anyaggyűjtés, azaz a szótári cédulák kézírásos készítése korábban mintegy hetven éven át folyt, melynek eredményeképpen az 1970-es évekre 4,5–5 millióra becsült szótári cédula gyűlt össze, A Magyar Tudományos Akadémia 1984-ben határozatban döntött a nagyszótári munkálatok folytatásáról, és egyben azt is kimondta, hogy a szótár munkálatait számítógép segítségével, az írásbeliség kezdetétől napjainkig ívelő számítógépes szöveges adatbázis, azaz számítógépes korpusz alapján kell végezni (Pajzs 1990). Ez a döntés nemcsak a számítógépes lexikográfia intézményes megerősödéséhez vezetett, hanem egyben megszületett hazánkban a korpusznyelvészet is (ld. a „A magyar nyelvtechnológia eredményei a korpusznyelvészetben”. pontot).

A szócikkek bonyolult szerkezetét valahogy a számítógép számára is értelmezhetővé tenni nem kis feladat. Az igazi nyelvtechnológiai kihívás a számítógépes lexikográfiában tehát az, hogy ne csak a szótár szövegét, hanem annak mögöttes szerkezetét is rögzítsük. Hagyományosan a tipográfia jegyeivel, illetve rövidítésekkel, zárójelekkel és egyéb hasonló fogásokkal élnek a lexikográfusok a szerkezet jelzésére. Megállapíthatjuk azonban, hogy a tipográfiai jegyek nem elégségesek és nem mindig állnak egyértelmű megfelelésben valamely szerkezeti elemmel. Értelmezésük gyakran kontextusfüggő, ami önmagában még nem feltétlenül baj a számítógépes lexikográfia számára, kivéve, ha csak emberi intelligenciával elvégezhető feladatot jelent.

A hagyományos szótárak sok és sokrétű emberi tudást igényelnek használóiktól (anyanyelvi ismereteket, hétköznapi világismeretet, valamint szótárkezelői ismereteket), nyelvezetük elszakad a természetes nyelvtől és egy nagyon bonyolult hierarchikus szerkezetet próbálnak lineáris módon megjeleníteni. Az esetleges és ad hoc tipográfiai fogások helyett a probléma szakszerű megoldását a szövegbe ültetett kódok jelentik, amelyek explicit módon rögzítik a szöveg strukturális és logikai szerkezetét. Erre szolgál az SGML (Structural Generalized Markup Language), melynek egyszerűsített és ma már korszerűbbnek tekintett változata, az XML (Extensible Markup Language) rohamos mértékben terjedt el az utóbbi időben a számítógépes alkalmazások széles körében. Az Akadémiai Nagyszótár munkálatai ezzel a technológiával készülnek a „A Történeti Korpusz”. alatt bemutatott korpusz felhasználásával.

Az Értelmező Kéziszótár

Az Értelmező Kéziszótár új változata kapcsán felmerült az igény, hogy az már korszerű, formanyelven kódőlt elektronikus változatban szülessen meg. Az ezzel kapcsolatos elméleti és módszertani munkát a CONCEDE (CONsortium for Central European Dictionary Encoding) projektum keretében végezte el a Nyelvtudományi Intézet Korpusznyelvészeti osztálya. A projektum célja az volt, hogy a résztvevő hat kelet-európai nyelv (cseh, magyar, szlovén, román, bolgár, észt) lexikográfiai sajátosságait figyelembe véve kidolgozzon egy egységes notációt és technológiát e nyelvek korszerű elektronikus szótárai számára. A kidolgozott szótárkódolási technológia az ÉrtSz. 2500 szócikkén meg is valósult, melynek eredményeként létrejött mintegy 8000, a concede.dtd-nek megfelelően szabványosan kódőlt szócikk (Váradi–Oravecz 1999).

A szótár feldolgozását 2003-ban folytatta az INLEX (Intelligens elektronikus szótár és lexikai adatbázis) projektum, amely a teljes ÉKSz lexikai adatbázissá alakítását tűzte ki célul. A feldolgozás során számos igen munkaigényes feladatot kellett elvégezni annak érdekében, hogy az emberi olvasásra és megértésre készült szócikkekből nyelvtechnológiai felhasználásra alkalmas lexikai adatbázis alakuljon ki. Az ebben tárolt információ hatékony visszakereshetőségét és további feldolgozhatóságát az adatok jól strukturált és explicit, a kidolgozott szabványoknak megfelelő kódolása biztosítja. Ez kiválóan szolgálja az adatbázis későbbi nyelvtechnológiai célú használhatóságát, melyhez azonban ki kellett dolgozni azt az absztrakt lekérdező felületet a hozzá tartozó nyelvvel és eszközökkel, amely a tárolt információt hozzáférhetővé teszi. Ennek egyik konkrét megvalósítása annak az interneten közzétett, emberi felhasználásra szánt keresőfelületnek a megalkotása, amely biztosítja az adatbázis tartalmának hálózaton való böngészését és több szempontú lekérdezését (http://corpus.nytud.hu/inlex/). A projektum eredményeként először jött létre magyar nyelven korszerű, jelentős méretű elektronikus szótár, olyan lexikai adatbázis, mely hatékonyan használható nyelvtechnológiai alkalmazásokban, a hálózati kereshetőség biztosításával értékes segédeszközként jelenhet meg az oktatásban, valamint a nagyközönség igényeit is képes kiszolgálni.

A Magyar Ragozási Szótár

További példa a nyelvtechnológia alkalmazására a számítógépes lexikográfiában a Magyar Ragozási Szótár adatbázis alakra konvertálása. Elekfi László munkája (Elekfi 1994) eredetileg az Értelmező Kéziszótár számára készült ragozási útmutatóból lett egy önálló, az ÉrtSz. teljes szócikkállományát feldolgozó szótár. A rendkívül gondos, aprólékos munka a legrészletesebb, legjobban kifejtett tárgyalása a magyar ragozási rendszernek. Bármennyire is explicit és körülhatárolt a mű, mégis könyv alakjában közzétett változata csak emberi tudás segítségével értelmezhető. Nyilvánvaló, hogy a szótár nem tartalmazhatja az összes lehetséges toldalékolt szóalak tételes felsorolását, hiszen a magyar morfológia gazdagsága egyszerűen kezelhetetlen méretű könyvet eredményezne. Ehelyett paradigmatáblákba foglalva adja meg a szavak ragozását. Még a paradigmatáblák is hierarchikus rendszert alkotnak, és általában egy-egy szó teljes ragozását két lépcsőben kapjuk meg.

Ahhoz, hogy a Ragozási szótár gazdag tartalmát számítógép számára nemcsak olvasható, de értelmezhető alakra hozzuk, a szótárban rejlő implicit információt explicit alakra kell hoznunk. Ennek első lépéseként minden egyes paradigmatáblát elő kellett állítani, azaz öröklött jegyeit az adott paradigma egyéni jegyeivel együtt legenerálni a tőalakváltozatok pontos feltüntetésével. További feladat volt a toldalékkombinációk előállítása, melyre a szótár eredetileg nem tér ki. Ez lényegesen megnövelte az egyes paradigmatáblák méretét: egy eredetileg 36 tételből álló melléknévi paradigma a toldalékkombinációk kifejtése után 2027 alakot tartalmaz. Végül a morfológiai adatbázissá alakítás megkívánta azt is, hogy a szótár eredeti célját meghaladva a képzőket is bevonjuk az alakváltozatokba.

Az adatbázisra épülve elkészült egy webes magyar alaktani szemléltetőeszköz. A felhasználó lekérheti egy tetszőleges szótő toldalékolási sorát, és egy toldalékolt alakra kattintva megkaphatja annak a szónak a továbbtoldalékolt alakjait. A program megjeleníti, hogy a lekérdezett szótő mely toldalékolási típusba tartozik, és mely szótövek tartoznak még ugyanoda (http://corpus.nytud.hu/e-szokincs).

Vonzatszótár

A Nyelvtudományi Intézet Korpusznyelvészeti Osztályán a morfológiai adatbázis elkészítését követően 2001 nyarán elindult egy olyan munka, amely a lexikográfia és a szintaxis határmezsgyéjén húzódik. Célja egy olyan vonzatszótár adatbázisának létrehozása, amely minden olyan nyelvi információt tartalmaz, amely szükséges lehet a magyar nyelv szintaktikai elemzéséhez, és az egyedi lexikai elemekhez kapcsolódik, azaz nem szóosztályokon működő szintaktikai szabály. Szintaktikai elemzés alatt természetesen számítógéppel végzett elemzést értünk, ami az adatbázisba foglalt nyelvi információk minden eddiginél explicitebb kifejtését kívánja meg. Az adatbázis szóanyagát a Magyar Nemzeti Szövegtár (lásd a „A Magyar Nemzeti Szövegtár”. pontban) leggyakoribb 20 ezer szava alkotja. Központi részét az igék adatbázisa alkotja, amely több mint háromezer igei lemmából áll. Az igei adatbázis jelenti az első kísérletet arra, hogy létrehozzuk az igék vonzatkeretét. Az alany és tárgy mellett vonzat1 és vonzat2 néven két további vonzatot kódolunk. A vonzatokat felszíni esetvégződésük szerint, a tematikus szerep megjelölése nélkül tartjuk számon. Az eset mellett az adatbázis tartalmaz megszorító szabályokat is, melyek a mondat főbb összetevőinek (alany, tárgy) jegyeire hivatkoznak (pl. élő alany, absztrakt tárgy stb.) A vonzatkeret mellett feltüntettük a fomondat és az ige komplemenseként szereplő tagmondat közötti koreferenciális viszonyokat is. A főnevek szemantikai kódolásakor a szokásos +élő, +absztrakt, +human stb. mellett olyan jegyeket is alkalmaztunk, mint a +testrész, +mérték, +időegység, +időjárás.

Magyar ontológiai adatbázis

Több intézmény kutatói úgy ítélték meg, hogy a bemutatott szemantikai jegyek kódolását a jövőben szerencsés volna egységes formában végezni. E célból indult 2004 végén a MEO (Magyar Egységes Ontológia) létrehozását megcélzó kutatási projekt az NKFP támogatásával. Napjaink egyik legfontosabb nyelvtechnológiai célja, hogy a szavakat és jelentésüket egy egységes, nyelvi és világismeretet tartalmazó fogalmi rendszerben helyezzük el. Az egyik legszélesebb körben használt ilyen fogalmi rendszer egyébként a Princeton Egyetemen készített WordNet adatbázis (Miller et al. 2000), amely több mint százezer nyelvi egység között definiál fogalmi viszonyokat. A vállalkozás annyira sikeresnek bizonyult, hogy több európai nyelvre is adaptálták az EuroWordNet projektum keretében. Magyarországon a MorphoLogic által kidolgozott technológia (Prószéky–Miháltz 2002) alapján különböző K+F projektek egyfajta melléktermékeként évekig készült egy program-rendszer, mely a WordNet főnévi részét próbálta meg a lehető legkevesebb kézi beavatkozással magyarra átültetni. Az eljárás mögött az a hipotézis áll, hogy a WordNet-rendszerben kódőlt relációk többé-kevésbé nyelvfüggetlenek, ezért tehát, ha a rendszer csomópontjain álló lexikai elemekhez találunk magyar megfelelőt, a köztük lévő fogalmi kapcsolat az angol WordNetből egyszerűen átörökíthető. A teljes HuWordNet (magyar WordNet) létrehozására irányuló kutatás 2005 eleje óta folyik a MorphoLogic, az MTA Nyelvtudományi Intézete és a SZTE Informatikai Tanszékcsoportja közreműködésével.

A MorphoLogic elektronikusszótár-koncepciója

A lexikográfiai kutatás feladatai nem váltak sem egyszerűbbé, sem bonyolultabbá a számítógépes szótárak megjelentével. A hatás más irányban jelentkezik: a gépi szótárak új problémákat hoznak, ugyanakkor pedig a korábban ki nem dolgozott elvek meghonosodását ígérik. Az új eszközök segítségével a mindenkori szótárhasználó munkája lesz, lehet könnyebb. Ehhez viszont a lexikográfiát művelők figyelmét rá kell irányítanunk az elektronikus szótárak kínálta rengeteg, eddig még nagyrészt kihasználatlan számítógépes nyelvészeti lehetőségre. Az „igazi" elektronikus szótárak nem pusztán a papírszótárakéhoz hasonló funkciót látnak el, hanem élnek a számítógép adta, azaz a nyomtatott szótárak által nem megvalósítható lehetőségekkel. Az első osztályba tartozó szótárprogramok – egy lexikográfiától távoli világ analógiájával – a 20. század elején megjelenő gépjárművek egy „ló nélküli lovas kocsira” emlékeztetnek, míg a második kategóriába sorolt és általunk „igazi”-nak nevezett elektronikus szótárak az új elektronikus lexikográfia termékei – a fenti analógiával: a légellenállás és egyéb felhasználói szempontok figyelembevételével tervezett autók világának megfelelői. A tárgyalandó kérdések egy része is szükségszerűen új, hiszen a szótárak célnyelvi lekérdezhetősége, a gépi szóalaktani elemzés aktív jelenléte vagy az eredeti szövegkörnyezetnek a szótár-használatra való közvetlen hatása megvalósíthatatlan és elképzelhetetlen a hagyományos szótárak esetében. Legfontosabb állításunk ebből következik: ezek a kérdések – bár jellegüknél fogva első látásra technikaiaknak látszanak – komoly hatással vannak a lexikográfiai munkára, ezért a szótártan művelőinek is mielőbb meg kell ismerkedniük az itt felmerülő problémákkal és ezek első megoldásaival.

A szótárak szerkezetének értelemszerűen meg kell változnia, ha az elektronikus szótárnak olyan funkciókat is el kell látnia, melyekre hagyományosan nem volt szükség. Ilyen például a több szavas szerkezetek címszavak alá sorolásának kérdése, az utaló szócikk szerepének kiváltása az internetes területről jól ismert hiperhivatkozások segítségével, de legfőképp ilyen a szócikk dinamikus megjelenését biztosító újfajta szócikk-strukturálás. Vegyünk csak egyetlen példát: a hagyományos szótárakban az önálló szócikk a lehetőségekhez képest a címszóra vonatkozó valamennyi tudnivalót magában foglalja, ezzel szemben az utaló szócikk nem nyújt érdemi tájékoztatást a címszóról, hanem csak azt közli, hogy a tüzetes felvilágosítást hol, melyik önálló szócikkben kell keresni. A számítógépes programok azonban a kért szó azonosításakor azonnal képesek egyetlen lépésben az utalási helyre ugrani, így a számítógépes nyelvfeldolgozó eszközök szótáraiban nincs szükség utaló szócikkre. A számítógépes szótárak különböző bemenő kérdésre is adhatnak egyféle választ, azaz mutathatják egyazon szócikk tartalmát. Például, ha a tejfel szó csak a szótárban önálló szócikként szereplő tejföl-re való utalásként szerepelne a szótárban, akkor mindössze arra van szükség, hogy a tejföl címszó a tejfel bemenet esetén is azonnal elérhető legyen.

A számítógépes morfológia szerepének hangsúlyozásánál rendkívül fontos, hogy felhívjuk a figyelmet arra a kevéssé ismert tényre, hogy egy komolyan megszerkesztett szótárban a szótári alapalakban álló címszórészletek száma összemérhető a nem szótári alapalakban állókéval. Ennek oka a szótári szócikkekben előforduló nagyszámú kifejezés és a kifejezésekben előforduló toldalékolt formák viszonylag nagy száma. A morfológia működtetése ezért is rendkívül fontos: a kifejezések minden szavának kulcsszónak kell lennie, bármilyen alakban fordulnak is elő. Ugyanakkor, ha csak alapalakban írnánk be őket a keresőablakba, a toldalékolt alakot tartalmazó kifejezések nem adnának találatot, pl. a zavar szó keresésekor a zavarba hoz kifejezés morfológiai komponens nélkül nem adna találatot. A többtagú kifejezések egyetlen címszó alá sorolása egyébként nem is egyértelmű, illetve a felhasználó és a lexikográfus nem mindig gondolkozik egyformán, hiszen a felhasználók egy jelentős része a szótár készítőjénél kevesebb nyelvi ismerettel rendelkezik. A papírszótárakban viszont az egyes kifejezések az érthető terjedelmi korlátok miatt csak egyetlen helyen – az ún. kulcsszó mint címszó alatt – találhatók meg. Például a tiszta vizet önt a pohárba kifejezés vagy a víz, vagy az önt, vagy a pohár alatt található, de semmiképpen sem mind a három helyen. Ezért az említett három szócikk valamelyike a papírszótárakban abban az értelemben sosem teljes, hogy a vele alkotott kifejezések, idiómák mind fel lennének sorolva. Egy számítógépes rendszer – a megfelelő strukturális szervezettség esetén – képes felsorolni mindazokat a helyeket, ahol keresett szavunk – mi több: keresett szavunk valamely toldalékolt alakja – előfordul, így a nyelvet még csak töredékesen ismerők számára is pontos segítséget képes nyújtani.

A hagyományos papírszótárak esetében az a tény, hogy melyik a forrásnyelv és melyik a célnyelv, az egyik legfontosabb ismérv. Ezzel szemben a szótárt alkotó két nyelv szerepe teljességgel más az „igazi” gépi szótárak esetében. Az ők az újféle szótárszervezésben keresendő: a hagyományos címszó–szócikktest aszimmetrikus párt a címszó–jelentés, címszó–kiejtés, címszó–szófaj, azaz általánosságban a címszó–X típusú párok n-ese váltja fel. E megoldás által szimmetria kerül a papíron aszimmetrikusnak látszó szócikkleírásba. A gyors keresést szolgáló számítógépes indexelés tehát nem pusztán a címszavak, hanem maguknak a címszó–X pároknak a gyors megtalálását szolgálja. Az eredmény megdöbbentő: bármely szó ugyanolyan sebességgel és pontossággal található meg egy szócikkben, ha a célnyelvi oldalon szerepel, mint ha a forrásnyelvi oldalon keresnénk. Ezáltal lehetővé válik például egy magyar szó összes előfordulásának azonnali megtalálása egy angol–magyar szótár „jobb oldalán”. Eredményül megkapjuk mindazokat az angol szócikkeket, melyekben valamely szócikkbeli angol szónak vagy kifejezésnek ekvivalenseként megjelenik az adott magyar szó. Például a magyar szót magyar oldali jelentésként tartalmazó angol nyelvi címszók (horse, knight, pommel horse) meg tudják mutatni a magyar nyelvi jelentések közötti esetleges jelentésbeli viszonyokat is. Természetesen ezek egy megszokott magyar–angol szótárból tökéletesen hiányoznak. A hagyományos szótárakban ugyanis a szomszédságában az alfabetikus környezet segítségével idekerülő lóbál vagy lobbanás szavak szerepelnek, de a knight címszó által tartalmazott és a lovag és a huszár szemantikus rokonságát is kimutató viszony soha. A különféle találatok tehát az eredeti magyar szó angol nyelvi megfelelőin túl az egyes angol szavak magyar megfelelői egymás szinonimáit is adják, pl. a sakkbéli a hivatalosabb huszár szinonimája, sőt még a lovag is a valódi huszár valamiféle jelentéstani rokona. Nyugodtan kijelenthetjük, hogy a fentiekhez hasonló, szemantikus, esetleg etimológiai vagy stilisztikai csoportokat a nyelvtechnológiai eszközöket nem használó szótárakban nem találunk.