Szövegelemzési módszerek automatizációja
Napjainkban a természetes nyelvű szövegek elemzése a reneszánszát éli. Sokféle területen nélkülözhetetlenek, az ember-gép kommunikációtól kezdve a különböző adatbányászati alkalmazásokon át a szerzőiség-megállapításig. A módszerek igen széleskörűek, tisztán statisztikai, távolságvektorokon alapuló módszerektől kezdve SVM-eken (Support Vector Machine) át egészen klasszikus osztályozási feladatokat megoldó neurális hálózatokig sokféle eszközt felhasználnak. Ezen módszerek közül az én kutatásom a klasszikus, szövegelemekből képzett sokdimenziós koordináták közti távolságokon alapuló módszerre fókuszál.
Az általam vizsgált módszer elsődleges felhasználási területe a szerzőiség-megállapítás, de történtek egyéb feladatok megoldására történő kísérletek is, például a szerző korának vagy nemének megállapítása.
A módszer egyik fontos problémája, hogy bár igen pontosan megállapítható a segítségükkel egy-egy műnek a szerzője, a megfelelő módszer és a megfelelő paraméterezés megtalálása komoly kihívás, főként egy, statisztikai módszerekben és informatikában kevésbé jártas felhasználónak. Ennek a problémának a megoldására tett kísérlet alkotja a dolgozat gerincét. A kiindulási alapot egy már létező elemző, a stylo nevezetű R nyelvű csomag és az arra épülő, Shiny alapú webes kiegészítés jelentette.
Kidolgoztam egy olyan módszert, amely a szövegek előzetes elemzésére
támaszkodva beállítja az elemzési paraméterek kiindulási értékét. Ez a módszer a vizsgált elemek gyakoriságát és a szövegek hosszát veszi elsődlegesen figyelembe, és az alapját ismert jellegzetességek képezik.
A kezdeti paraméterértékek pontosabb beállítása érdekében kialakítottam
egy eljárást, amelynek alapja a lokális keresés. Amennyiben rendelkezünk ismert szerzőjű szövegekkel, egy olyan paraméterezés, amely ezeket helyesen különíti el, valószínűleg helyesen fog ismeretlen szerzőjű szövegeket is elhelyezni ezekhez a már ismert szerzőjű szövegekhez képest. Ennek a paraméterezésnek a megtalálására a szimulált lehűlés lokális kereső algoritmusát használtam.
A kidolgozott módszerek gyakorlati alkalmazásához készítettem egy olyan
webrendszert, amely felhőalapú, és egy vékonykliens csatlakozik hozzá a böngészőn keresztül. Ez nem igényel egyéni telepítést és konfigurálást, könnyen és intuitívan használható. Az eszköz webes felhasználói felülete tartalmaz varázsló és súgót a módszerben kevésbé járatos felhasználók segítésére, és nagyban leegyszerűsíti a használatot. Ezt követően az elemző funkció hatékonyságát összehasonlítottuk több, manuálisan beállított paraméterekkel végzett kísérlet eredményeivel.
szerző
-
Szakács Béla Benedek
Mérnök informatikus szak, alapképzés
alapképzés (BA/BSc)
konzulens
-
Dr. Mészáros Tamás Csaba
docens, Mesterséges Intelligencia és Rendszertervezés Tanszék