Beszédparaméterek elemzése és predikciója mély neurális hálózatokkal
A gépi beszédkeltés kutatásában az elmúlt évtizedben egyre nagyobb jelentőséggel bír a beszéd paramétereinek statisztika alapú modellezése. Az első jelentős eredményeket rejtett Markov modellen (Hidden Markov Model, HMM) alapuló rendszerekkel érték el. Ezen rendszereknek azonban a magas számításigény mellett más gyengeségeik is vannak: például a döntési fák nehezen modellezik a komplex környezetfüggőségeket. Jelen TDK dolgozat a rejtett Markov modellt kiváltva egy alternatív megközelítést valósít meg a beszéd gépi modellezésére a napjainkban nagy népszerűségnek örvendő mély neurális hálózatok (Deep Neural Network, DNN) segítségével.
Munkám során a szöveg fonetikus átirata és a beszédparaméterek közötti kapcsolatot DNN modellezi. Ehhez első lépésként a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék Beszédtechnológia és Intelligens Interakciók Laboratóriumának korábbi rendszereiből és hang adatbázisaiból kiindulva a DNN tanításához szükséges tanító adatbázist létrehozó eljárás kidolgozására volt szükség. Ezek után a tanító adatbázist a nemzetközi irodalomra támaszkodva többféle neurális hálózat architektúrán tanítottam, különböző hiperparaméterekkel. A végső architektúra és hiperparaméter kombináció meghatározásához számos elméleti kérdésre is választ kellett adnom, az adatbázison több – néha a gépi beszédkeltés tématerületén kívül eső – módosítást is végre kellett hajtanom. Dolgozatomban az elméleti háttér áttekintése mellett bemutatom a gyakorlati megvalósítás során használt eszközöket is. Munkámban elsődlegesen a beszéd alapfrekvencia (f0) DNN-ekkel történő modellezését vizsgálom és valósítom meg kísérleti mintarendszerben, továbbá a spektrális paraméterek modellezésének a lehetőségét is elemzem. Eredményeimet összevetem korábbi gépi beszédkeltő rendszerekkel és kiértékelem a mély neurális hálózattal készített modellek pontosságát.
Jelen dolgozat rávilágít, hogy a DNN-el történő beszédparaméter modellezés –optimálishoz közeli hiperparaméterek használata esetén - érdemleges előrelépést nyújtat az eddigi megoldásokhoz képest.
szerző
-
Kis Kornél
Villamosmérnöki szak, mesterképzés
mesterképzés (MA/MSc)
konzulensek
-
Dr. Gyires-Tóth Bálint
adjunktus, Távközlési és Mesterséges Intelligencia Tanszék -
Dr. Németh Géza
egyetemi docens, Távközlési és Mesterséges Intelligencia Tanszék