Ugrás a tartalomhoz

Optika és látórendszerek

Sánta Imre (2012)

EDUTUS Főiskola

A gépi látás eszközei

A gépi látás eszközei

Legáltalánosabban a gépi látás a gép által a környezetéről vagy a működése által érintett objektumokról készített kép rögzítését és számítógépes elemzését jelenti. Az elemzés célja, hogy a gép a készített képből az általa végzett működésben hasznosítható információt nyerjen ki. A kép rögzítése fényképezőgéppel, kamerával vagy egyéb speciális szenzorral történhet, a képállomány memóriában való tárolása után a gépi látás érdemi része a digitális képfeldolgozás témakörébe tartozik.

Az angol nyelvben a „kép” fogalomra két szó van: míg a „picture” inkább a valamit vagy valakit ábrázoló festményt, rajzot, fotót vagy éppen mozifilmet jelent, addig az „image” a képalkotás eredményeként kapott hatást jelenti. A digitálisan feldolgozandó képet angolul image-nek nevezik, a tudományterület angol elnevezése: digital image processing, azaz digitális képfeldolgozás.

A képfeldolgozás az 1970-es években kezdett fontos kutatási, fejlesztési területté válni, amikor megjelentek azok a számítógépek, amelyek már a képek kezeléséhez szükséges memóriával és számítási teljesítménnyel rendelkeztek. A robotika fejlődése ugyancsak felgyorsította a gépi látás területén folyó kutatásokat.

A képfeldolgozás minden olyan műveletet magában foglal, melyet a képpel végzünk, pl. a kép kinyerését, a színek memóriában történő leképezését, a kép javítását, a kép tömörítését, a kép osztályozását, a kép felismerését stb.

A digitális képek kezelésében három szintet különböztethetünk meg:

  • digitális képfeldolgozás (digital image processing): a digitális kép létrehozásával foglalkozó szakterület,

  • digitális képelemzés (digital image analysis): itt a már létrehozott digitális és „előkezelt”(szűrt, javított) képen olyan algoritmusok futnak le, amelyek matematikai értelemben kezelhető információt eredményeznek, pl. azonosítható pontok, vektorok kinyerése képekből (pl. élkeresés vektorizálással vagy egy munkadarab ellenőrzendő méreteinek listája),

  • digitális képértés (digital image understanding): itt olyan algoritmusokat használunk, amelyek révén absztrakt információ állítható elő. Jó példa erre az éldetektálással nyert útszélekből összeállított úthálózat, amely takart részeken is értelmezett, topológiailag korrekt hálózat.

A gépi látás és annak elemei egyre nagyobb teret nyernek mindennapi világunkban. Az ipari alkalmazások széles köre, a robotvezérléstől, a minőségellenőrzésig, az orvosi alkalmazások: CT, MRI, endoszkópos műtéti és vizsgálati technikák, a csillagászat, a fizika, a meteorológia, a hadászati alkalmazások, a közlekedés szervezése, a távérzékelés, a fotó- és filmtechnika – és hosszan lehetne még sorolni az alkalmazási területeket – alkalmazza a gépi látás eszközeit.

Képkinyerés

A képkinyerés a képfeldolgozás első lépése. A kép forrása lehet minden olyan eszköz, amely képalkotásra alkalmas, pl. fényképezőgép, videokamera, szkenner, diaszkenner, digitális rajztábla, ill. speciális képforrások, pl. Computer Tomograph - CT. A képek alapesetben RGB színtérben adódnak.

A piros (Red, R), zöld (Green, G) és kék (Blue, B) rétegek tartalma egymástól függetlenül kezelhető, megjeleníthető. Az RGB színtér mellett a képfeldolgozásban gyakran alkalmazott a szürkeskála is. Ez hasonló ahhoz, mint amikor a színes képet fekete-fehér lézernyomtatón nyomtatjuk ki a szürke árnyalataival. A szürkeskála képek nemnegatív egész értékekkel azonosítják a pixel szürke árnyalatát, pl. 0–255 intervallumban. Egy szürkeskálás képből egyszerűen készíthetünk bináris képet, mely egy megadott szürkeskála érték alatti árnyalatokat 0, a többit 1 értékkel jelöl. Természetesen ez a képinformáció nagyfokú csökkentését jelenti.

A mesterséges intelligencia képfelismerési folyamatának legfontosabb matematikai eszköze a képtranszformáció. Ennek során a képet olyan adatformára kell hozni, amely a kép jellemzőit átalakítja, és a további műveletek elvégzésére alkalmassá teszi. Ezek az átalakítások rendszerint megfordíthatók, és a transzformált adathalmazból inverz transzformációval az eredeti tartalom visszaállítható. A képmódosító, képjellemző, azonosító számításokat, beavatkozásokat az első transzformálással kapott frekvenciatartományban adódó adatokon végezzük, majd az így kapott „képet” visszatranszformáljuk a képtartományba. Pl. az eredeti kép éleinek simításához a frekvenciatartománybeli magas frekvenciákat ki kell szűrni. Élek kiemeléséhez pont fordítva, az alacsony frekvenciákat kell kiejteni egy felül áteresztő frekvenciaszűrő alkalmazásával, majd inverz Fourier-transzformálással. A Fourier-transzformáció a matematikában egy jól megalapozott technika, mely hasznos a jeleknek a frekvencia-összetevőikkel történő leírásához. Egy kép esetében a frekvencia-összetevők értelmezhetők mind a képmagasság, mind a szélesség irányában. Pl. bármely hirtelen változás a szürkeskála-értékekben magas frekvenciájú összetevőként értelmezhető. Egyenletes emelkedések vagy konstans értékek a szürkeskála-értékekben alacsony frekvenciájú összetevőkre utalnak. A számítás módszerét illetően a diszkrét Fourier-transzformációnak egy variációja, a gyors Fourier-transzformáció (Fast Fourier Transformation, FFT) használatos. A hullámtranszformáció (Wavelet Transformation) a Fourier-transzformációhoz hasonló dolgot csinál, de a nézet ablakot nagyról kicsire változtatja, skálázza. A skálázásos felbontás a frekvenciakomponensek jobb elkülönítését eredményezi a Fourier-transzformációhoz képest. A Fourier-transzformáció egyszerű szinusz- és koszinuszfüggvényeivel szemben a hullámtranszformáció anyahullámoknak nevezett speciális alapfüggvényeket használ. A különféle alkalmazások különféle anyahullámokat használnak, elsősorban a képzaj eltávolításra és a tömörítő programokban. Az alakfelismerés tipikus feladatához, az élek kapcsolódásának megállapításához az ún. Hough-transzformációt alkalmazzák, mely eléggé számításigényes.[34]

Képjavítás

A képjavítás feladata a kép vizuális, illetve a további feldolgozás szempontjából lényeges tulajdonságainak javítása. A vizuális tulajdonságok javítása elsősorban a képek megjelenítésénél hasznos, de a további feldolgozást nem feltétlenül segíti. Ezzel szemben a további feldolgozás szempontjából lényeges tulajdonságok nem feltétlenül hordoznak vizuális információt. A terület eljárásainak tipikus képviselői a kontraszt javítása vagy az élek élesítése.

Képanalízis

A képanalízis célja, hogy a képeken található objektumok jellegzetes tulajdonságait meghatározza, majd ezekből következtessen a képen található objektumok minőségi vagy mennyiségi jellemzőire. Ezekből a jellemzőkből azután lehetségessé válik a képen látható objektumok értelmezése, a kép információtartalmának elemzése. A képanalízis teszi lehetővé például a műholdak által készített képek értelmezését, segítve a meteorológia, a térképészet munkáját, vagy éppen a röntgenfelvételek diagnosztikai vizsgálatát.

A képanalízis módszerei tehát a képek objektumainak jellegzetes tulajdonságait szeretnék meghatározni, mint amilyenek az élek, az objektumok határai, a közöttük látható összefüggések. A kép részekre bontása után megállapíthatjuk az egyes objektumok jellemzőit, a képelemek közötti összefüggések elemzésével pedig kép információtartalmát nyerhetjük ki. A képanalízis jellemző feladatai a lényegkiemelés, a szegmentálás és osztályozás.

Élek detektálása

Az élek detektálása alapvető feladat, hiszen az élek jellemzik az objektumok határait. Hasznosak lehetnek például az objektumok szegmentálásánál, de a felismerést és az értelmezést is segíthetik. Az élek úgy képzelhetőek el, mint a fényességi értékek hirtelen változásai. Egy folytonos képet tekintve élet akkor találunk, ha a kép egy adott pontbeli iránymenti deriváltja lokális maximumot vesz fel, vagyis az élek detektálására használhatjuk a gradienst. Az első derivált mellett használható a második derivált is, amely előjelet vált ott, ahol az első derivált maximumot vesz fel, így a második derivált nullaátmeneteit elemezve is detektálhatjuk az éleket.[35]

4.3.3.1. ábra

Az élek detektálásához hasonlóan kereshetünk egyeneseket a képen.

Arcfelismerés

Az arcfelismerés egy adott arcképnek a beazonosítását jelenti egy arcképadatbázis arcai közül. Az arcfelismerésben a vizuális információfeldolgozó rendszerek egyike, a „mi-rendszer” játszik szerepet. Noha a tárgyak felismerését is ez a rendszer vezérli, az arc- és tárgyfelismerés mégsem azonos folyamat. Az arcfelismerési képesség azért is fontos, mert többnyire arcuk alapján azonosítjuk az embereket.

Arcfelismerő rendszerekAlapvetően két megoldás ismeretes napjainkban:

  • minta alapú – magát az arcképet vizsgálja, arcrészleteket hasonlít össze,

  • geometriai alapú – az arc elemeit, jellegzetességeit (orr, száj, szem, állcsúcs) keresi meg és ezek méretét, egymáshoz viszonyított helyzetét vizsgálja.

Geometriai tulajdonságokon alapuló módszerekkel sok kutató foglalkozott már. Már 1973-ban Kanade leírt egy automatikus, arcjellemzőket megállapító módszert, ami a jellemző pontok közti távolságok arányaival dolgozott (szemek, száj, orr távolsága). 20 főt tartalmazó adatbázisában 45%-75%-os felismerési arányt tudott elérni. (4.3.4.1. ábra)

4.3.4.1. ábra

Brunelli és Poggio (1993) az orr hosszát, a száj elhelyezkedését stb. használta, és 47 fős adatbázisában 90%-os felismerési arányt mutatott fel, azonban azt is kimutatták, hogy egy egyszerű sablonillesztéses séma 100%-os felismerést adott ugyanazzal az adatbázissal. 1995-ben Cox, Ghosn és Yianilos bemutatott egy több távolságon alapuló technikát, 95%-os aránnyal, 95 tesztképpel és 685 képes (személyenként egy kép) adatbázissal, azonban ebben az esetben a távolságokat minden arcra emberi közreműködéssel határozták meg. Ennek a módszernek a gyenge pontja, hogy nem elég pontos a jellemző pontok automatikus felvétele, a módszer eredményessége pedig nagyban függ ettől.[37]

3D arcfelismerő rendszerek

A 3D rendszerek több kamerával felvett képpel háromdimenziós képet állítanak elő, és ezt vizsgálják. A 2D rendszerekkel ellentétben sokkal biztonságosabb technológia. Kevésbé érzékeny a fényváltozásra, az arc elfordítására. Az arc geometriája sötétben is azonosítható az infravörös megvilágítás miatt. (4.3.5.1. ábra)

4.3.5.1. ábra Forrás: 3D arcfelismerő rendszer

Bruce és Young modellje (1986) az egyik legkiforrottabb arcfelismerési modell. Nyolc összetevőből áll, melyek mindegyike az arcról leolvasható egy-egy információnak felel meg. Egy arc felismerésében nem mindegyik összetevő vesz részt, az ismerős és ismeretlen arcok feldolgozásában más-más komponensek hangsúlyosak.

Az arcfelismerést alapvetően két alapfeladatra oszthatjuk: azonosításra és ellenőrzésre. Az azonosítási feladatban a felismerendő arc ismeretlen, és ismert arcokat tartalmazó adatbázissal vetjük össze. Az ellenőrzési feladatban a rendszer elfogadja vagy elutasítja az állítólagos személyazonosságát az input arcnak. Az arcfelismerés témája napjaink aktívan kutatott, fejlődő területe.

Az arcfelismerési modell összetevői

  • Strukturális kódolás: ez az összetevő olyan reprezentációkat, azaz leírásokat hoz létre, melyek megfeleltethetők David Marr 1982-es komputációs elméletében megfogalmazott reprezentációknak.

  • Arckifejezés-elemzés: az arckifejezés jól tükrözi az egyén érzelmi állapotát.

  • Szájmozgáselemzés: a szájmozgás követése segítheti a beszéd észlelését.

  • Irányított vizuális feldolgozás: specifikus arckifejezésre jellemző információ feldolgozása, például, ha azt akarjuk eldönteni, hogy a tudósok többsége szemüveges-e.

  • Arcfelismerési egységek: az egyén számára ismert arcokról nyújtanak strukturális információt.

  • Személyazonossági csomópontok: a megfigyelt személyről ad információt, például a barátairól vagy a foglalkozásáról.

  • Névgenerálás: a személy nevét jelenti.

  • Kognitív rendszer: szerepe van abban, hogy mely összetevő vesz részt az arcfelismerésben, továbbá olyan előzetes tudásunkat tükrözi, mint például, hogy a színésznők szépek.

A modell meggyőzőbben magyarázza az ismerős arcok felismerésének folyamatát, melyben az összetevők közül a strukturális kódolás, arcfelismerési egységek, személyazonossági csomópontok, valamint a névgenerálás vesz részt. A modell hiányossága, hogy a kognitív rendszer összetevőt nem fejti ki részletesen.

A sablonillesztő módszer a képrészletek közvetlen összehasonlításán alapul, és csak akkor működik jól, ha a tanító és kérdésként szereplő képek megvilágítása, iránya, mérete azonos.

Neurális hálók is használatosak arcfelismerési célokra, de a legtöbb esetben kicsi adatbázissal dolgoznak (általában 20 alatt). Például DeMers és Cottrellnél (1993) a legfőbb 50 tulajdonságot határozták meg, melyet 5 dimenziósra redukáltak autoasszociatív neurális hálók használatával, ezután a felismerést többszintű perceptronnal végezték.

A beágyazott rejtett Markov-modelleket pl. az Intel is használja arcfelismerésre, és az ORL (Olivetti Research Ltd) adatbázisával 98%-os felismerési arányt értek el.

Mint a legtöbb területen, itt is igaz lehet, hogy a hibrid módszerek jobb eredményt érhetnek el, mint az egy algoritmust használók. Steve Lawrence, C. Lee Giles, Ah Chung Tsoi és Andrew D. Back publikációjában a szerzők leírnak egy rendszert, ami hibrid neurális hálós megközelítést alkalmaz. A rendszerükben szerepel egy önszervező térkép (Self Organizing Map, SOM), összehasonlításul használják a Karhunen–Loeve-transzformációt, és használnak egy konvolúciós neurális hálót is.

Az arcfelismerés nem csak hozzáférés ellenőrzésére vagy bűnözők keresésére használható. Fontos eleme a jövő „smart” környezeteinek, felismerve például egy áruházba belépő fontos törzsvásárlót, vagy figyelve óvodában, vagy idősek otthonában az emberek viselkedését. A magunkon viselhető számítógépek korában segíthetnek felismerni az embereket például egy szemüvegbe épített kamera segítségével. Ahogy a kamerák és mikrofonok egyre olcsóbbak, az arcfelismerés technológiája egyre elérhetőbb lesz, úgy vonulhat be ez a technológia mindennapjainkba.[38]