Ugrás a tartalomhoz

A magyar nyelv

Kiefer Ferenc, Bakró-Nagy Marianne, Bartha Csilla, Bánréti Zoltán, Borbély Anna, Cser András, Dömötör Adrienne, É. Kiss Katalin, Gerstner Károly, Gósy Mária, Gyuris Beáta, Haader Lea, Hattyár Helga, Holló Dorottya, Horváth László, Kassai Ilona, Kenesei István, Kiefer Ferenc, Kiss Jenő, Kontra Miklós, Korompay Klára, Kurtán Zsuzsa, Laczkó Krisztina, Nádasdy Ádám, Németh T. Enikő, Olaszy Gábor, Pléh Csaba, Prószéky Gábor, Sándor Klára, Sipőcz Katalin, Siptár Péter, Szabó Mária Helga, Tolcsvai Nagy Gábor, Váradi Tamás (2006)

Akadémiai Kiadó Zrt.

A magyar számítógépes morfoszintaxis és alkalmazásai

A magyar számítógépes morfoszintaxis és alkalmazásai

A magyar nyelvre kidolgozott morfológiai és szintaktikai elemző és generáló programok történetét részletesen tárgyalja a magyar számítógépes nyelvészet első és hosszú ideig egyetlen összefoglalása (Prószéky 1989). A jelen áttekintés csak a kézzelfogható eredményt hozó kutatásokat és a konkrét eredményeket létrehozó fejlesztési projektumokat tárgyalja.

Számítógépes morfológiai és szintaktikai rendszerek

A MorphoLogic legelső eredménye a magyar nyelvhez 1991-ben elkészített Humor (High-speed Unification Morphology) morfológiai elemző program és a hozzá tartozó leíró formanyelv volt (Prószéky–Kis 1999). A magyar nyelvi morfológiai adatbázis lefedi az Értelmező Kéziszótár szóanyagát, sőt mintegy ötvenezer alapszóval gazdagítja is. A produktív toldalékolási és összetételi szabályok miatt ez a programrendszer több mint kétmilliárd helyes magyar szóalak elemzésére képes – ugyanakkora helyigénnyel és ugyanolyan sebességgel, mint a néhány százezres adatbázisú nyelvekhez készített elemzőprogramok. A Humor rendszerhez kifejlesztett formanyelv – a magyar szóalaktan relatív bonyolultsága miatt – más nyelvekre is könnyen és eredményesen alkalmazható, így a magyaron kívül a lengyel, a cseh, a román, az angol, a német, a francia és a spanyol nyelv viszonylag átfogó leírása is megtörtént (Prószéky–Kis 1999). A Humor alkalmazásait, a szótő-visszaállító (lemmatizáló) és nyelvhelyesség-ellenőrző modulokat számos hazai és nemzetközi cég vásárolta meg, nemcsak a magyar nyelv támogatásához. Az MTA Nyelvtudományi Intézet vezetésével zetésével egy NKFP-pályázat eredményeként az elmúlt években a MorphoLogic leíró formalizmusával több kicsiny uráli nyelv (komi, nganaszan stb.) morfológiájának leírása valósult meg (Novák 2004, Prószéky–Novák 2005). Hunmorph néven egy, az interneten hozzáférhető magyar éa angol nyelvű morfológiai elemző is elkészült a BME SzóSzablya projektuma keretében (http://www.szoszablya.hu)

2000 és 2002 között a MorphoLogic – IKTA-támogatással – olyan, általános nyelvi felismerés-támogató módszert megcélzó kutatást is folytatott, mely képes a folytonos bemenetet szegmentálni, kezeli az időben (beszédhang-hossz, karakterszélesség) és minőségben alulspecifikált információt és a nyelvi modulok párhuzamos kezeléséről is gondoskodik. A Recognition Assistant rendszer prototípusa elkészült (Prószéky–Naszódi–Kis 2002), és megkezdődött az összeépítése egy kézírás-felismerő rendszerrel is (Karacs–Prószéky–Roska 2003).

A MorphoLogic mondattani elemző programjának, a HumorESK rendszernek (Prószéky 1996) a segítségével lehetségessé vált több új, mondatszintű megoldást kívánó alkalmazás megvalósítása. Ezek egyike a rövidhírek elemzése: a MorphoLogic, az MTA Nyelvtudományi Intézet és a SZTE Informatikai Tanszékcsoportja közös, NewsPro nevű kutatási projektjének eredménye egy olyan elemző, amely egymondatos hírekből képes információt kivonatolni (Prószéky 2003). A program gazdasági híreket kategorizál: körülbelül 360 ún. „hírkeretet” különböztet meg. A hírkeretet érdemes úgy elképzelni, mint egy olyan szabályt, amelynek vannak kötelező és opcionális részei. Ilyen hírkeret például a részvényárfolyam emelkedése. Egy ilyen hírben például kötelező megadni, hogy milyen részvény árfolyama emelkedett, de opcionális például az, hogy mennyivel és melyik tőzsdén. A fejlesztés nagy bravúrja az ún. névkifejezések felismerése: ilyenek például a dátumok, vagy pl. az intézménynevek, amelynek teljes listáját lehetetlen lenne felsorolni, és a programnak mégis rá kell jönnie, hogy itt egybefüggő nyelvi egységről, névkifejezésről van szó. A program ugyan nem képes teljes biztonsággal besorolni a híreket, mégis kiváló információbányászati eszköz: ha statisztikai és információmegjelenítési eszközökkel felvértezzük, egy keresőkérdésre – például arra, hogy „milyen cégeket vásárolt meg az X biztosító az utóbbi 5 évben?”, vagy „hogyan változott Y részesedése a Z cégben?” – képes gyors választ adni az elemzések alapján.

A szintaktikai modul egy olyan mondatszintű elemzést igénylő NKFP-kutatás alapjául is szolgált, mint a pszichológiai szövegek elemzésére irányuló projekt a Pécsi Egyetem Pszichológiai Tanszéke és a MorphoLogic együttműködésében. Az elkészült LinTag rendszer magyar nyelvű pszichológiai narratívumok nyelvi előelemzését végzi. A program részleges, felszíni mondatelemzés útján kísérli meg a pszichológiai kutatás szempontjából releváns nyelvi markerek felismerését. A program szervesen illeszkedik a projektben részt vevő pszichológus kutatók által használt számítógépes környezetbe (László 2005).

Az ezredforduló első éveiben elkészült egy másik mondatelemző rendszer is: a Moose (Prószéky–Tihanyi–Ugray 2004). Ennek segítségével további olyan új alkalmazási területeken sikerült mondattani megoldásokat ajánlani, ahol nemcsak az elemzés, hanem az azonnali eredménygenerálás is fontos. Ilyenek a MorphoLogic ITM, azaz intelligens fordítómemóriára irányuló – az IKTA által is támogatott – kutatásai (részszerkezetek azonosítása, szótári találatok egyértelműsítése stb.) és a MetaMorpho gépi fordító rendszer (lásd a „A magyar nyelvtechnológia eredményei a gépi fordításban”. pontot).

Helyesek: helyesírás- és nyelvhelyesség-ellenőrzés, elválasztás, szinonimák

A számítógépes nyelvészeti alkalmazások jelentőségét ma már hazánkban is az adja, hogy a számítógép alapvetően és elsősorban a kinyomtatandó vagy felolvasandó – és egyre inkább elektronikus formában felhasznált – dokumentumok előállításának eszközévé vált. A számítógépes írástámogatás a helyes és választékos írást segítő, illetve a szöveg tördelését és elválasztását végző eszközök által végzett nyelvi tevékenység. A dokumentumok létrehozásában a szerzői eszközök, vagyis az igényes szövegek létrehozását támogató nyelvhelyesség-ellenőrző és elválasztó programok, valamint a számítógépes szinonimaszótárak a legnépszerűbb nyelvi segédeszközök. A MorphoLogic kutatógárdája által kifejlesztett és szinte minden magyarországi szövegszerkesztő és kiadványkészítő alkalmazásba beépített Helyesek nyelvhelyességi rendszer (Prószéky 1995) különböző tagjai immár több mint egy évtizede szolgálják azokat, akik magyar szövegeket írnak számítógéppel. A helyesírás-ellenőrzőnek keresztelt első szoftvermodulok (a kilencvenes évek elejének NyelvÉsz, illetve később Lektor névre átkeresztelt programja és az említett nyelvhelyesség-ellenőrző család első tagja, a Helyes-e?) még csak szóellenőrzők voltak.

A szavak értelmezését a programok formai alapon végzik, ezért a formális morfológiának teljes egészében a program rendelkezésére kell állnia (Prószéky 2000b). Ugyanakkor – éppen a hatékony leírás következtében – hibaforrás lehet például azoknak a szavaknak a csoportja, melyek betű szerint tökéletesen helyesek, de a beszélő szándéka szerint helytelen helyesírásúak volnának. Például a magyar főnevek esetében tökéletesen működő -i képzőt mindig követheti -t tárgyrag: kert, kerti, kertit vagy fal, fali, falit stb. Ha a főnév a viszonylag ritkán használt tan szó, a tan, tani, tanit sorozatnak az előzőekhez hasonlóan jónak kellene lennie. A legutolsó szó viszont sokkal valószínubb, hogy a tanít ige helytelenül, rövid i-vel írt alakja, mintsem a tárgyragos, i-képzős alak. Szisztematikus változtatásra nincs mód, hiszen a ház szó esetében csak a rövid i-sházit, míg pl. az alak esetében mind a névszói alakit (pl. alaki foglalkozást), mind az igei alakít helyes. A számítógépes szóalaktani program számára tehát a magyar szavaknak egy olyan jellegű és részletességű osztályozása szükséges, melyre korábban nem volt még szükség (Prószéky 2000b).

Az igazi helyesírás – szemben a korai helyesírási programok szószintű tudásával – nem áll meg a szóhatáron. Néhány kritikus nyelvi jelenség helyes kezelése arról szól, hogy egybe- vagy különírandó-e valami, kell-e vesszű stb. Ezt a feladatot támogatja a szintén a MorphoLogic által megvalósított mondatszintű nyelvhelyesség-ellenőrző program, a Helyesebb (Naszódi 1997). A szószintű helyesírás-ellenőrzőnek „csőlátása” van, hiszen mindig csak azt az egy szót látja, amit odaadott neki a hívó program; fogalma sincs az előző és a következő szavakról. Ezzel szemben, ha valaki mondatszinten ellenőriz, akkor több mindent lát, kombinálni tudja a mondat szavainak nyelvi tulajdonságait, és ezáltal bonyolultabb jelenségeket, egy-beírást –különírást, vesszőhibákat is képes kezelni. Eddig a szószintű helyesírás-ellenőrzők csak akkor adtak tanácsot egybe- és különírásról, ha helytelenül egybeírtunk valamit; a különírást ugyanis – csőlátó természetükből adódóan – mindig elfogadták, lévén a szavak legnagyobb része (a gyógy-, al- és a hasonló előtagokat leszámítva) önállóan helyes. Ezért mindig érdemes kipróbálni a kritikus szavak egybeírását, mert az egybeírási hibát lehet szószinten kezelni. Viszont ha külön írták, akkor már csak a nyelvhelyesség-ellenőrző segíthet. Ha valaki tehát nem ismeri a mondatellenőrzőt, vagy olyan alkalmazást használ, melyben nem érhető el ez a szolgáltatás, résen kell lennie: miután a helyesírás-ellenőrzőnek nevezett szóellenőrző nem alkot véleményt, a döntés a felhasználóra marad. Ha azonban ezzel valaki nincs tisztában, elfogadja, hogy ez esetekben a gép nem jelez hibát, azaz esetleges igénytelenségből hibás helyesírási szokások alakulhatnak ki. Ahhoz viszont, hogy egy mondatszintű helyesírás-ellenőrző jól működjön, olyan formális nyelvtanra van szükség, melyben a helytelen szerkezetek jellemzői állnak a középpontban, nem pedig a magyar nyelvre teljességében még mindig nem kidolgozott helyes szerkezeteké. Ezt a fejlesztést végezte el a MorphoLogic a Helyesebb rendszer kidolgozásakor (Prószéky 2001). A kifejlesztett módszer az ún. részleges szintaktikus leírással adja meg az egyes hibajelenségek formális szabályait. A mondatszintű helyesírás-ellenőrző jelenleg körülbelül négyezer szabályt tartalmaz, de újabb jelenségek leírásával a korábbi szabályok módosítása nélkül is bővíthető.

A magyar elválasztást nem lehet az elválasztási szabályok puszta gépi kezelésével megoldani. A Helyesel elválasztó rendszer (Prószéky–Kis 1999), amely megjelenése után hamarosan összeépült a Helyes-e? helyesírás-ellenőrzővel, a szótagolás tökéletes megoldásához a Humor morfológiai elemző programot használja. Ennek a feladata ebben az esetben az egyes szóalakokat felépítő morfémák határainak megtalálása. A kérdéses szóalak morfológiai elemzése segítségével megállapítható, hogy az elválasztás szempontjából összetett szó-e, és ha igen, melyek azok a morfémahatárok, amelyek felülbírálják az egyszerű szótagolással kapott elválasztási pozíciókat.

A választékos fogalmazás támogatására a MorphoLogic kidolgozott egy toldalékoló szinonimaszótárt, a Helyette rendszert (Prószéky–Kis 1999). Ez három, nyelvi szempontból fontos funkciót valósít meg: felismerni a forrás-szóalak szótári tövét, megkeresi a forrásszó jelentésköreit, és az azokhoz tartozó szinonimákat; majd visszaírja a szövegbe a kiválasztott szinonima megfelelő alakját. A Helyette megjelenésekor gyakorlatilag az első és egy ideig az egyetlen olyan programrendszer volt a világon (Prószéky–Tihanyi 1993), ami ezen a módon működött.

A Helyesek magyar nyelvhelyesség-ellenőrző programcsomag 1993 óta beépült az összes magyarországi irodai rendszerbe, sőt ugyanez a magyar technológia a román nyelv leírására alkalmazva 1996-tól elérhető az összes romániai irodai termékében is. Fontos nyelvpolitikai eredmény, hogy a MorphoLogic teljes magyar nyelvhelyességi csomagja 2000 óta megtalálható a legelterjedtebb irodai programrendszer szlovák nyelvű változatában is.

Kereséstámogatás

A szövegekben való keresés szerepe az utóbbi időben az internet előretörése miatt jelentősen megnőtt. A mai keresőprogramok egyszerűen egy rövidebb betűsorozatot próbálnak megkeresni egy nagyon hosszúban, méghozzá minden intelligencia nélkül, a keresett szövegnek csak azokat az előfordulásait jelezve, melyek pontosan, betűhíven megegyeznek a keresendő betűsorozattal. Ennek a problémának a kiküszöbölésére fejlesztette ki a MorphoLogic a magyarra és más nyelvekre a HelyesLem lemmatizáló rendszert (Prószéky 1996), melyet többek közt a Microsoft soft által több nyelv keresőmoduljába beépített MorphoStem kereséstámogató rendszer is használ (Prószéky 2001).