Ugrás a tartalomhoz

A gépi látás és képfeldolgozás párhuzamos modelljei és algoritmusai

Dr. Rövid András, Dr. Vámossy Zoltán, Dr. Sergyán Szabolcs (2014)

Typotex Kiadó

2. fejezet - Képfeldolgozás és gépi látás bevezető

2. fejezet - Képfeldolgozás és gépi látás bevezető

Vámossy Zoltán

A fejezet nagyrészt Steve Seitz és Richard Szeliski [1] prezentációján, valamint Szeliski könyvén [2] alapszik, de az egyes részeknél merítettünk a képfeldolgozás és gépi látás kurzusokban gyakran használt Gonzales-Woods [4] és Trucco-Verri [3] könyvekből.

Terminator 2

Digitális képfeldolgozás és a rokon területek

Bevezető

  • A számítástechnikában korábban az adat numerikus érték volt

  • Később szöveges

  • Ma sok más forma: hang, zene, beszéd, kép, …

  • Ezek az adatok mind jelek

  • A jel tartalmazhat információt, azonban annak értelme (szemantikája) függ a környezettől (kontextustól), amelyben a jelet értelmezni szeretnénk, illetve a feldolgozástól (szubjektumtól), amely az értelmezést végzi:

    Hell - németül fényes, angolul pokol

    Die - németül "a", angolul kocka, de igeként meghalni

    Red - angolul piros, spanyolul "net"

    Tea - angolul tea, spanyolul fáklya

    Chat - angolul csevegés, francia macska

    Hold - magyarul a Hold, angolul tartani

Történeti bevezető – kezdetek

  • A digitális képfeldolgozás története a számítógépek fejlődéséhez igazodott

  • Az első képfeldolgozáshoz elegendő teljesítménnyel rendelkező számítógép: 1960 (űrprogramok kezdetének ideje)

  • 1964: űrből érkező képek fokozása számítógéppel

  • Digitális képfeldolgozás ugyanakkortól az orvoslásban, a Föld megfigyelésében és a csillagászatban

  • Computerized Tomography (CT) az egyik legfontosabb eredménye a képfeldolgozásnak

Mi a digitális kép fogalma?

  • Kép (image): kétdimenziós f(x, y) függvény, ahol az x és y koordináták; f amplitúdó az (x, y) koordinátákban az intenzitás vagy a szürkeségi szint

  • Ha x, y és f diszkrét mennyiségek, akkor a képet digitálisnak mondjuk

  • Mintavételezés és kvantálás eredménye 1D-ben és 2D-ben

Mintavételezés és kvantálás

  • Mintavételezés (rácspontokban): folytonos képből diszkrét mennyiségek

  • Kvantálás (intenzitások reprezentálása): amplitúdó nagyság diszkretizálása

Digitális kép

Digitalizált kép és intenzitás reprezentációja

Mi a képfeldolgozás?

Szűkebb értelmű megközelítés:

  • A képfeldolgozás a jelfeldolgozás része, amely képekkel foglalkozik

  • Célja: a kép minőségének javítása az ember, vagy további számítógépes feldolgozás számára

  • Kép → Képfeldolgozás (képjavítás – image enhancement) → “Jobb” kép

Bővebb értelmű megközelítés:

  • Szegmentálás (részekre bontás), leírók kinyerése

  • Osztályozás, analízálás, megértés

Vázlatos definíciók

Digitális képfeldolgozás (Digital image processing, DIP):

  • digitális képek feldolgozása digitális számítógépekkel;

  • képek fokozása, vagy más manipulálása, az eredmény általában másik kép (és valamilyen jellemzők)

Számítógépes látás, vagy röviden gépi látás (Computer Vision, CV):

  • számítógép használata az emberi látás emulációjára, amely magába foglalja a tanulást, a következtetést és a reagálást (leírás, analízis, megértés)

A mesterséges intelligencia (Artificial Intelligence, AI) több részét használják a CV-ben, mint a DIP-ben

Képekkel foglalkozó más terület a Számítógépes grafika (Computer Graphics):

  • képek készítése modellekből

    Bemenet/Kimenet Kép Leírás
    Kép KépfeldolgozásGépi látás
    Leírás Számítógépes grafikaMesterséges intelligencia

Képfeldolgozás (Image Processing)

  • Képfeldolgozás

  • Képfokozás (Image Enhancement)

  • Kép helyreállítás (Image Restoration) (pl. rosszul fókuszált képek korrekciója)

  • Képre rakódott ismétlődő zaj eltávolítása

Képtömörítés (Image Compression)

  • Tömörítés

  • „Kicsomagolás”

Számítógépes grafika (Computer Graphics)

Geometriai modellezés

A digitális képfeldolgozás szintjei

A képek számítógépes feldolgozását három szintre lehet osztani: alacsony, közép és magas szintű feladatok (low-level, intermedaite-level, high-level)

  • Alacsony szint: mind az input mind az output kép

  • Közép szint: az inputok általában képek, de az outputok a képekből nyert attribútumok (pl. egy objektum azonosítói a képen)

  • Magas szint: a felismert objektumok együttesének érzékelése

A három feldolgozási szint

Alacsony szintű (low-level) feldolgozás

  • Sztenderd eljárások alkalmazása a kép minőségének javítása érdekében – adatvezérelt, jellemzően előfeldolgozás (zajszűrés, élesítés, …)

Középső szintű (intermediate-level) feldolgozás

  • A kép komponenseinek kiemelése (szegmentálás) és azok jellemzése

  • Bizonyos mértékű mesterséges intelligencia szükséges

Magas szintű (high-level) feldolgozás

  • Felismerés és értelmezés (interpretáció)

  • Mesterséges intelligencia módszerek szükségesek

Mi a gépi látás (Computer Vision)?

Olyan elméleti és algoritmikus alapok kifejlesztését jelenti, amelyek segítségével a 3D világról automatikusan nyerhető ki és analizálható hasznos információ - a világ 2D képének egyetlen vagy több példányát felhasználva

Emberi mozgások áttranszformálása avatarokra „motion capture” technikával

Minden kép egy történet

A gépi látás célja, hogy olyan programot írjunk, ami értelmezi a képet

Számítógépes látórendszer általános modellje

A számítógépes látás a következő területekre koncentrál

  • Milyen információt kell kinyerni a vizuális szenzorokból?

  • Hogyan történik a kinyerés?

  • Hogyan kell a kinyert adatot reprezentálni?

  • Hogyan kell az információt használni, annak érdekében, hogy a rendszer a feladatát ellássa?

Számítógépes látáshoz hasonló, rokon fogalmak, elnevezések:

  • Képanalízis (Image Analysis)

  • Jelenet analízis (Scene Analysis)

  • Képmegértés (Image Understanding)

Számítógépes látás

Mintafelismerés (Pattern Recognition)

  • Tradicionális terület (60-as évek óta kutatási terület)

  • 2D képekből származó 2D objektumok felismerésével és osztályozásával foglalkozik

  • Sok klasszikus megközelítés csak szűk területen működik (pl. nem alkalmazható 3D objektumokra)

  • A legtöbb olyan kutatás innen származik, amely kiváltotta a számítógépes látás fejlődését

  • Sok mintafelismerés területén kidolgozott elvet a számítógépes látás esetében is használnak

Mesterséges intelligencia (AI)

  • Intelligens rendszerek tervezésével és az intelligencia tanulmányozásával foglalkozó terület

  • Miután a képek feldolgozásával a jellemzőket kinyertük, a jelenet szimbolikus reprezentációjával analizálhatjuk azt

  • Sok AI technika jelentős szerepet játszik a számítógépes látás területén is

  • A számítógépes látás az AI egyik gyakorlati része

Felhasznált és javasolt irodalom

[1] S. Seitz, R. Szeliski, Computer Vision (CSE 576), University Washington, 2012.

[2] R. Szeliski, Computer Vision: Algorithms and Applications, Springer, ISBN: 978-1-84882-934-3 2011.

[3] E. Trucco, A. Verri, Introductory Techniques for 3-D Computer Vision, Prentice Hall, ISBN: 0-13-261108-2 1998.

[4] R. C. Gonzales, R. E. Woods, Digital Image Processing, Pearson Education, Inc., 3rd ed., ISBN-13: 978-0-13-505267-9 2008.

[5] D. H. Ballard, C. M. Brown, Computer Vision, Prentice Hall, ISBN: 0-13-155316-4 1982.