Mély neurális hálózat alapú gépi beszédkeltés magyar nyelven
A gépi beszédkeltés kutatásában az elmúlt évtizedben a korábbi elemkiválasztásos (un. unit selection) rendszerekkel szemben beszéd paramétereinek statisztika alapú modellezése előtérbe került. Mára már kiemelkedően népszerűvé váltak a mély neurális hálózatok, számos tudományterületen jelentős előrelépést hoztak a korábbi megoldásokhoz képest. Jelen TDK kutatómunka során a hazai és nemzetközi irodalomra támaszkodva mély neurális hálózat (Deep Neural Network, DNN) alapú gépi beszédkeltő rendszert dolgoztam ki, melynek működését a dolgozat során részletesen bemutatom.
Munkám során a szöveg fonetikus átirata és a beszédparaméterek közötti kapcsolatot DNN modellezi. Ehhez első lépésként a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék Beszédtechnológia és Intelligens Interakciók Laboratóriumának korábbi rendszereiből és hang adatbázisaiból kiindulva a DNN tanításához szükséges tanító adatbázist létrehozó eljárás kidolgozására volt szükség. Ezek után a tanító adatbázist a nemzetközi irodalomra támaszkodva többféle neurális hálózati architektúrán tanítottam. Munkámban elsődlegesen a beszéd alapfrekvencia (f0) és az ún. spekrális paraméterek DNN-ekkel történő modellezését vizsgálom magyar nyelven. A számos lehetséges hiperparaméter-beállítás között az optimálishoz minél közelebb lévő beállítást sztochasztikus elven működő hiperparaméter-optimalizással kerestem. Mind az alaprendszer kidolgozását, mind pedig a hiperparaméter optimalizálást kísérleti mintarendszerben demonstrálom.
Dolgozatomban a gépi beszédkeltő rendszer alapvető komponenseinek működésén és ezek kapcsolódásán kívül nagy hangsúlyt fektettem arra, hogy a jelenlegi beszédkeltő rendszerek gyengeségeit - például a hosszabb szövegek generálásakor jelentkező zavaró monotonitást – minél inkább mérsékeljem. Ennek megvalósítására egy speciális – ún. aggregált (ensemble) architektúrát alkalmaztam a mély neurális hálózatok tervezésekor. A kutatómunka ezen részét konzulenseimmel konferenciacikk formájában a SPECOM 2016 nemzetközi konferencián publikáltuk, melyet előadás formájában is bemutattam angol nyelven.
Jelen dolgozat rávilágít, hogy a DNN-el történő beszédparaméter modellezés – optimálishoz közeli hiperparaméterek használata esetén – érdemleges előrelépést nyújthat a korábbi megoldásokhoz képest.
szerző
-
Kis Kornél
Villamosmérnöki szak, mesterképzés
mesterképzés (MA/MSc)
konzulensek
-
Dr. Gyires-Tóth Bálint
adjunktus, Távközlési és Mesterséges Intelligencia Tanszék -
Dr. Németh Géza
egyetemi docens, Távközlési és Mesterséges Intelligencia Tanszék