Kombinált képkeresés offline osztályozás segítségével
Manapság képi tartalmak között keresni nem újszerű dolog. Egy képkereső rendszer feladata, hogy a felhasználó által megadott keresési kulcs szerinti releváns képeket adjon vissza. A relevancia eldöntése viszont nem egyszerű feladat, bizonyos kereső kifejezések esetén pedig kifejezetten nehéz. Éppen ezért a mai napig fejlesztés alatt állnak még a legelterjedtebb képkeresők is (pl. Google, Bing, Flickr).
Azt az esetet, mikor nem állnak rendelkezésre metaadatok a kereséshez, és csupán a képek tartalmi információit használjuk fel, szemantikus képkeresésnek nevezzük. Amennyiben ezt ismeretlen képeken végezzük, szükség van egy tanulóállományra, amely alapján gépi tanulásos módszert alkalmazva elemezhetőek a keresési térbe tartozó, úgynevezett teszt képek. Az elemzésből származó adatok ezután már rendelkezésre állnak a kereséshez.
Dolgozatomban bemutatom azt az általam készített szemantikus képkereső rendszert, amelynek feladata, hogy olyan keresési kulcs alapján keressen, amelyet egyszerre több objektum vagy fogalom kombinálásával kapunk. A keresést megelőző szemantikai elemzéshez a state-of-the-art képfeldolgozási módszereket használom, mint például a Fisher-vektor, vagy a C-SVC osztályozó. Az offline módon rendelkezésre álló szemantikai információkat felhasználva több olyan módszert is implementáltam, amely megvalósítja a kombinált képkeresést.
A dolgozatban a kettő illetve három objektumból összeállított kereső kifejezésekre koncentrálok. Ezek eredményeit kiértékelem és összehasonlítom azokat két ismert internetes képkereső (Bing és a Flickr) eredményeivel. Tanulóállományként ehhez a Pascal VOC, képi klasszifikációs verseny weboldaláról letöltött tanító képeket használom, melyek eredetileg szintén a Flickr-ről lettek összegyűjtve.
szerző
-
Papp Dávid
mérnökinformatikus
nappali
konzulens
-
Dr. Szűcs Gábor
egyetemi docens, Távközlési és Mesterséges Intelligencia Tanszék