Dype Nevronett for Talegjenkjenning

dc.contributor.advisor	Svendsen, Torbjørn
dc.contributor.author	Lepsøy, Jonathan Halstensen
dc.date.accessioned	2015-12-28T10:05:18Z
dc.date.available	2015-12-28T10:05:18Z
dc.date.created	2015-06-02
dc.date.issued	2015
dc.identifier	ntnudaim:13617
dc.identifier.uri	http://hdl.handle.net/11250/2371492
dc.description.abstract	I dette arbeidet tester vi ytelsen til et fonemgjenkjenningssystem, basert på skjulte markovmodeller, på den norske taledatabasen NAFTA. De skjulte markovmodellenes aposteriori sannsynligheter blir trent ved hjelp av et dypt kunstig nevronett og resultatene sammenlignes med resultatene fra eksperimenter gjort på en amerikansk-engelsk database kalt TIMIT. Resultatene viser fonemfeilrate i samme størrelsesorden og vi finner de samme svakhetene i begge tilfeller, i.e. par av fonemer som ofte forveksles. Basert på disse resultatene utforsker vi videre akustisk-artikulatorinversjon ved hjelp av et dypt nevronett. Målet er å undersøke om disse kan oppnå tilstrekkelig ytelse for å danne et hybrid-system sammen med en fonemgjenkjenner for å omgå de nevnte svakhetene. Vår implementasjon oppnådde en root mean square error på 1.348mm på mngu0 testdatasettet, hvilket viser at tilstrekkelig ytelse er oppnåelig.
dc.language	nob
dc.publisher	NTNU
dc.subject	Elektronikk, Signalbehandling, akustikk og media
dc.title	Dype Nevronett for Talegjenkjenning
dc.type	Master thesis
dc.source.pagenumber	100