Dype Nevronett for Talegjenkjenning
Abstract
I dette arbeidet tester vi ytelsen til et fonemgjenkjenningssystem, basert på skjulte markovmodeller, på den norske taledatabasen NAFTA. De skjulte markovmodellenes aposteriori sannsynligheter blir trent ved hjelp av et dypt kunstig nevronett og resultatene sammenlignes med resultatene fra eksperimenter gjort på en amerikansk-engelsk database kalt TIMIT. Resultatene viser fonemfeilrate i samme størrelsesorden og vi finner de samme svakhetene i begge tilfeller, i.e. par av fonemer som ofte forveksles. Basert på disse resultatene utforsker vi videre akustisk-artikulatorinversjon ved hjelp av et dypt nevronett. Målet er å undersøke om disse kan oppnå tilstrekkelig ytelse for å danne et hybrid-system sammen med en fonemgjenkjenner for å omgå de nevnte svakhetene. Vår implementasjon oppnådde en root mean square error på 1.348mm på mngu0 testdatasettet, hvilket viser at tilstrekkelig ytelse er oppnåelig.