Hierarchikus struktúrájú adathalmazok spektrális klaszterezése
A klaszterezés az adatelemzés egyik ismert módszere, ennek több fajtája is van. A választóvonal élessége szerint létezik kemény és puha klaszterezés. A kemény klaszterezés csoportjába azok a módszerek tartoznak, melyeknél egy pont vagy beletartozik egy klaszterbe, vagy nem. Ezzel ellentétben a puha klaszterezésnél minden klaszternek része valamilyen mértékben az adott pont. Ehhez az elem kap egy tagsági súlyt, amelynek az értéke 0 (semmilyen mértékben nem tartozik bele a klaszterbe), valamint 1 (teljes mértékben beletartozik a klaszterbe) közé esik.
A dolgozatomban több olyan – kemény klaszterezéshez tartozó – spektrális klaszterezésen alapuló algoritmust mutatok be, mely nem pontokat, hanem ponthalmazokat rendez csoportokba. Ennek motivációja, hogy a klaszterező algoritmus hierarchikus struktúrájú (azaz ahol a ponthalmazok, még magasabb szinten lévő ponthalmazokba vannak szervezve) adatokon is alkalmazható legyen. Ehhez kidolgoztam egy módszert, így egy általános (generális) megközelítéshez jutottam. Ez a megközelítés gyakorlati szempontból is hasznos. A dolgozatban két különböző adathalmazon mutatom be ezen algoritmusok hasznosságát. Az első adathalmazon albumokat klaszterezek, melyeket az albumban szereplő dalok jellemeznek. A második adathalmazon növényekről készült képeket csoportosítok. Itt a hierarchikus struktúrát úgy kapjuk meg, hogy a pontoknak a növényekről készült képek, míg a csoportoknak a növényi fajok felelnek meg. A kapott klasztereken megvizsgáltam a pontok közötti kapcsolatokat abból a szempontból, hogy mennyire tükrözi az elvárt struktúrát, így lehetővé vált különböző klaszterező algoritmusok összehasonlítása.
szerző
-
Knoll Zsolt
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)
konzulensek
-
Dr. Szűcs Gábor
egyetemi docens, Távközlési és Mesterséges Intelligencia Tanszék -
Dr. Papp Dávid
egyetemi adjunktus, Távközlési és Mesterséges Intelligencia Tanszék