Adversarial támadás elleni védekezés kiterjesztett osztályhalmazzal
A mély tanulási módszerek elterjedése nagy áttörést eredményezett a gépi tanulási problémáknál, többek között a képosztályozás területen is. A korszerű modell architektúrákkal nagyon pontos osztályozó modellek taníthatóak, viszont sok esetben ezek érzékenyek lesznek az ún. Adversarial támadásra. Egy ilyen támadás célja, hogy a modell kimenetét tetszőleges (de nem a helyes) osztályba átvigye és ezzel egyidőben minimális változtatást keverjen csak rá a bemenetre.
Dolgozatomban az ilyen jellegű támadások elleni védekezésnek két módját vizsgálom, a támadás észlelését, illetve a támadás melletti robusztus osztályozást. Erre a feladatra egy ismert módszer a NULL labeling [1]. Ennek a módszernek a jóságát vizsgálom a TDK dolgozatomban, illetve ennek egy saját, továbbfejlesztett változatával is összehasonlítom. A NULL labeling módszer lényege, hogy az N osztályos osztályozási problémánál az osztályokat kiegészíti egy NULL osztállyal, ami azt hivatott jelezni, hogy a bemeneten támadó zaj található. A továbbfejlesztett saját módszer ötlete az, hogy az eredeti N osztályt 2N darab osztályra terjesztjük ki. Így minden eredeti osztályhoz két címke fog tartozni, az egyik az eredeti osztályt reprezentálja támadás nélkül, a másik ugyanezt támadás jelenlétével. A módszerek hatékonyságának értékeléséhez tanítok egy referencia modellt is, ami nem használ semmilyen Adversarial Learning módszert, az összehasonlító tesztelés eredményeivel zárom dolgozatomat.
[1] Hosseini, Hossein, et al. "Blocking transferability of adversarial examples in black-box learning systems." arXiv preprint arXiv:1703.04318 (2017).
szerző
-
Kiss Richárd
Mérnök informatikus szak, mesterképzés
mesterképzés (MA/MSc)
konzulens
-
Dr. Szűcs Gábor
egyetemi docens, Távközlési és Mesterséges Intelligencia Tanszék