Ismeretlen képhalmaz hasonló objektumainak összerendelése automatikus klaszterezéssel

A képfeldolgozás egyik fontos területe a képi tartalmak csoportosítása, más néven klaszterezése. Ennek feladata a képek csoportosítása úgy, hogy a hasonlóak azonos csoportba, míg az eltérőek különböző csoportba kerüljenek. A probléma nehézségét jól szemlélteti, hogy nem létezik olyan algoritmus, amely tetszőleges bemenet esetén megoldaná a feladatot. Éppen ezért a témában intenzív kutatómunka folyik mind a mai napig.

Jelen esetben nem álltak rendelkezésre metaadatok, így kizárólag a képek tartalmi információit használtam fel a klaszterezéshez. A kép tartalmának matematikai reprezentálása egy újabb problémát vet fel, amely a magas dimenziószámnak köszönhető. Célszerű tehát a képeket szegmentálni, hogy csak a lényeges tartalmak reprezentálása legyen szükséges. További nehézséget jelent, hogy a legtöbb klaszterező eljárás bemeneteként meg kell adni a klaszterszámot, tehát előismeret szükséges a képhalmazról.

Dolgozatomban bemutatom azt az általam készített szemantikus képklaszterező rendszert, amely ismeretlen képhalmaz esetén is hatékonyan működik. A képek szegmentálása nem igényel előzetes tanulási folyamatot, valamint a klaszterező algoritmusom automatikusan meghatározza az optimális klaszterszámot. A szegmentált képek szemantikai elemzéséhez state-of-the-art képfeldolgozási módszereket használok, mint például a GMM (Gaussian Mixture Model) alapú Fisher-vektor.

Az elkészített rendszert ismeretlen képeken teszteltem, melynek lépéseit részletesen áttekintem, eredményeit pedig kiértékelem. A teszt képeket az ImageCLEF idén meghirdetett, úgynevezett LifeCLEF versenyének weboldaláról töltöttem le. A versenyfeladat eredetileg a képek osztályozása, viszont a klaszterezés hatékonyságának méréshez az osztálycímkék tökéletesen használhatók.

szerző

Papp Dávid
mérnökinformatikus
nappali

konzulens

Dr. Szűcs Gábor
egyetemi docens, Távközlési és Mesterséges Intelligencia Tanszék

helyezés

I. helyezett

letöltés
2 020 kB