Low-resource speech recognition - Exploring methods of improving performance

Moum, August Høyen; Winnerdal, Skjalg

dc.contributor.advisor	Svendsen, Torbjørn Karl
dc.contributor.author	Moum, August Høyen
dc.contributor.author	Winnerdal, Skjalg
dc.date.accessioned	2021-09-15T16:58:22Z
dc.date.available	2021-09-15T16:58:22Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:53184405:45273191
dc.identifier.uri	https://hdl.handle.net/11250/2778116
dc.description	Full text not available
dc.description.abstract	Å lage et nøyaktig talegjenkjenningssystem som generaliserer tilstrekkelig er ingen lett oppgave. Begrensede mengder med transkribert taledata kompliserer dette ytterligere, ettersom systemene krever store mengder treningsdata for å gi tilfredsstillende resultater. Dette prosjektet utforsker forskjellige metoder for å forbedre ytelsen til automatiske talegjenkjenningssystemer for språk med knappe dataressurser, og hjelper samtidig Telenor i deres utvikling av et moderne system som kan transkribere norsk tale. Ved hjelp av en implementering av Deep Speech-arkitekturen og 394 timer tilgjengelige data, ble et talegjenkjenningssystem for det norske språket designet og gjennomført eksperimenter med. I løpet av prosjektet har totalt tre forskjellige metoder for å forbedre systemytelsen blitt utforsket, nemlig transfer learning, arkitekturmodifisering og data augmentation. Transfer learning fra en engelsk modell ga betydelig økning i ytelse, og den modellen med høyest poengsum oppnådde en ordfeilrate på 3,2 %, en 27,3 % relativ forbedring sammenlignet med å ikke bruke transfer learning. Disse resultatene utkonkurrerte to baseline-systemer, en HMM og en TDNN-HMM hybrid. Å teste på data fra en annen kilde ga imidlertid betydelig dårligere systemytelse, hvilket viser dårlig generalisering. Arkitekturmodifisering og data augmentation viste seg å være nesten ineffektiv, sannsynligvis på grunn av dataens homogenitet. Resultatene indikerer at tranfer learning er en verdifull og effektiv metode for å forbedre ytelsen på språk med lite dataressurser. Metoden er likevel ikke en erstatning for varierte data som gjenspeiler domenet systemet er ment å brukes i. Når målet er avansert ytelse bør derfor betydelige mengder ressurser settes i å lage et datasett av høy kvalitet.
dc.description.abstract	Making an accurate speech recognition system that generalises sufficiently is no easy task. Limited resources of transcribed speech data further complicate the matter, as the systems require large amounts of training data to produce satisfactory results. This project explores different methods of improving the performance of automatic speech recognition systems for languages with scarce data resources, and aids Telenor in their development of a state-of-the-art system capable of transcribing Norwegian speech. Using an implementation of the Deep Speech architecture and 394 hours of publicly available data, a speech recognition system for the Norwegian language was designed and conducted experiments with. Through the course of the project, a total of three different methods of improving the system performance have been explored, namely transfer learning, architecture modification and data augmentation. Transfer learning from an English model gave significant increases in performance, with the highest scoring model achieving a word error rate of 3.2 %, a 27.3 % relative improvement compared to not using transfer learning. These results outperformed two baseline systems, an HMM and a TDNN-HMM hybrid. When tested on data from another source, the system performance did however decrease considerably, showing signs of bad generalisation. Architecture modification and data augmentation proved to be almost inefficient, likely due to the homogeneity of the data. The results indicate transfer learning to be a valuable and efficient method of improving performance on low-resource languages. Regardless, the method is not a substitute for varied data reflecting the domain in which the system is intended to be used. Therefore, when the goal is state-of-the-art performance, substantial amounts of resources should be put into creation of a high-quality dataset.
dc.language	eng
dc.publisher	NTNU
dc.title	Low-resource speech recognition - Exploring methods of improving performance
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2288]

Vis enkel innførsel