Objektum felismerés YOLO mély tanuló algoritmussal
A GPU-k számítási kapacitásának fejlődésével, a rendelkezésre álló adattömeg növekedésével és a gépi tanulás terén elért kutatási eredmények nyomán különösen népszerűvé vált a mély tanulás (Deep Learning). Ezen jellemzően sokrétegű, mély neurális architektúrák ma már szerves részeit képezik a legkorszerűbb rendszereknek különböző tudományágakban, például a gépi látás és a beszédfelismerés (Speech Recognition) területén.
Az objektumfelismerés (Object Detection) a gépi látáshoz és a képfeldolgozáshoz kapcsolódó technológia, mely egy képen vagy videón található, egy adott osztályba tartozó objektumok helyének meghatározásával foglalkozik. Az eljárás számos területen hasznosítható. Például az arcfelismerés közösségi oldalakon népszerű alkalmazása ennek a metódusnak, de elengedhetetlen része az önvezető autóknak a járművek, táblák, vagy gyalogosok felismerésében is. Mozgóképen való objektumkövetéssel jó közelítést lehet adni az adott tárgy sebességére és meg lehet figyelni a mozgását.
Munkám célja egy tetszőlegesen tanítható rendszer implementálása a Keras keretrendszerben, mely képes egy képen található különböző tárgyak felismerésére és lokalizációjára, egyetlen kiértékelés (un. „one-shot”) alapján.
Dolgozatomban először bemutatom a különböző objektumfelismerési algoritmusokat és a YOLO (You Only Look Once) algoritmus verzióit. Ezután ismertetem a COCO (Common Objects in Context) adatbázisban található képek előkészítési lépéseit és a hozzá tartozó címkéket. Ez az adatbázis kb. 108 ezer képet tartalmaz, melyeken 80 különféle, a mindennapi életben körülöttünk lévő tárgyak találhatóak, pl. emberek, madarak, stop tábla, asztal, autók stb. A dolgozat további részében bemutatom a YOLO legújabb verziójának architektúráját és implementációs lépéseit, illetve az azt tanító algoritmust. Ezt követően a leghatékonyabb tanítás elérése céljából különböző hiperparaméter-beállításokat vizsgálok meg. A tanítás során különféle módszereket alkalmaztam, melyek segítik a felismerés pontosságának növelését és a tanítás gyorsítását. Dolgozatom végén eredményeim objektív módon értékelem ki.
szerző
-
Révy Gábor
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)
konzulens
-
Dr. Gyires-Tóth Bálint
adjunktus, Távközlési és Mesterséges Intelligencia Tanszék