Skip to content

10. webinárium: Csendes beszédinterfészek & az ember-számítógép interfész (HCI) / gépi tanulás (ML) szempontjai.(2022. ápr. 28.)

A csendes beszédinterfészek (SSI) a beszédtechnológiák forradalmi területe, amelynek lényege, hogy rögzíti az artikulációs mozgást, és a mozgásinformációkból automatikusan beszédet generál, miközben az eredeti alany nem ad ki hangot. Ez az artikulációs-akusztikus leképezésnek (AAM) is nevezett kutatási téma számos területen nagy potenciális hatással bír, és rendkívül hasznos lehet a beszédkárosultak számára (pl. gégemetszés után), valamint olyan helyzetekben, ahol a szabályos beszéd nem lehetséges, de a beszélőtől információt kell továbbítani (pl. rendkívül zajos környezetben; katonai alkalmazásoknál). A hangalapú asszisztensek az utóbbi időben egyre népszerűbbek, de még mindig nem minden otthonban vannak jelen. Ennek egyik oka a magánélet védelmével kapcsolatos aggályok: egyesek nem érzik jól magukat, ha hangosan kell beszélniük, amikor mások is jelen vannak - de egy SSI berendezés megoldást jelenthet erre a problémára.

Az SSI-megoldásoknak két különböző módja van, nevezetesen a "közvetlen szintézis" és a "felismerés és szintézis". Az első esetben a beszédjelet köztes lépés nélkül, közvetlenül az artikulációs adatokból generálják. A második esetben csendes beszédfelismerést (SSR) alkalmaznak a bioszignálon, amely kivonja a személy által beszélt tartalmat (azaz e lépés eredménye szöveg); ezt a lépést követi a szöveg-beszéd (TTS) szintézis. Az SSR+TTS megközelítésben a beszéd prozódiájával (intonáció és időtartam) kapcsolatos minden információ elvész, míg a közvetlen szintézis esetében ez megmaradhat. Ezen kívül a közvetlen szintézis megközelítés kisebb késleltetése lehetővé teheti a társalgási célú használatot, ezért projektünkben ezt a megközelítést követjük.

A fenti célok megvalósítása érdekében multidiszciplináris csapatot alkottunk, amelynek tagjai a beszédszintézis, a felismerés, a mélytanulás és az artikulációs adatgyűjtés szakértő vezető kutatói. Bioszignálként 2D ultrahangos, ajakvideós és mágneses rezonanciás képalkotást alkalmaztunk a beszélőszervek mozgásának leképezésére. Kísérleteinkben standard mélytanulási megközelítéseket (konvolúciós és rekurrens neurális hálózatokat, autoenkodereket) és nagy potenciállal rendelkező újszerű gépi tanulási módszereket (megtévesztő betanítás, neurális vokoderek és keresztbe beszélős kísérleteket) használtunk. Az ML/DL megközelítések tervezésekor nem elég objektív mérőszámokkal (pl. validációs veszteség) tesztelni a rendszert, hanem fontos szem előtt tartani az emberi szempontokat is. Ezért minden egyes mélytanulási kísérlet után az így kapott szintetizált beszédmintákat szubjektív hallgatási teszteken értékeltük potenciális felhasználókkal. Olyan SSI-rendszer, amely képes lenne bármely személy néma artikulációját természetesen hallható beszéddé alakítani, még nem áll rendelkezésre, de jelentős előrelépést értünk el a gyakorlati prototípusok felé.

Nézze meg a LinkedInen: https://www.linkedin.com/video/event/urn:li:ugcPost:6924797758058999808/