Vis enkel innførsel

dc.contributor.advisorSalvi, Giampiero
dc.contributor.authorRahim, Felicia
dc.date.accessioned2021-09-15T16:58:42Z
dc.date.available2021-09-15T16:58:42Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:53184405:52622047
dc.identifier.urihttps://hdl.handle.net/11250/2778123
dc.description.abstractDenne masteroppgaven undersøker et talegjenkjenningssystem som trent på en delvis annotert database innenfor fagområdet talegjenkjenning (ASR). Et dypt nevralt nettverk (DNN) klassifiserte tilstander som tilhørte individuelle kontekst-uavhengige fonemer (CI) og kontekstavhengige fonemer (CD). DNN-ene ble brukt i en lærer-student-metode (T/S). Lærermodellen og studentmodellen ble trent på to separate DNN. De akustiske modellene ble trent med MFCC og fMLLR informasjonsvektorer. I denne oppgaven ble nøyaktighetsraten til riktig klassifiserte fonemstilstander, fonem feilrate og forvirringsmatriser evaluert på TIMIT talekorpus. I tillegg ble lærermodellen som er trent på en manuelt annotert database evaluert mot studentmodellen som er trent på automatisk dannede annotasjoner. Resultatene viser at de akustiske modellene oppnår høyst nøyaktighetsrate med fMLLR informasjonsvektorer. Bruk av CI fonemer gir også større nøyaktighet enn det bruk av CD fonemer gjør. Det T/S nettverket som gir høyest ytelse er trent på fMLLR informasjonsvektorer med CI fonemer, og gir en nøyaktighetsrate på 63.64% for riktig klassifiserte fonemstilstander, og en fonem feilrate på 27.47% for studentmodellen. Det nettverket som har værst ytelse var trent på MFCC informasjonsvektorer med CD fonemer, og har en nøyaktighetsrate på 35.02% for riktig klassifiserte fonemstilstander og en fonem feilrate på 39.77% for studentmodellen.
dc.description.abstractThis thesis explores semi-supervised learning for automatic speech recognition (ASR) through a teacher-student (T/S) learning technique. Frame-by-frame classifiers were implemented with deep neural networks (DNNs), using either monophones or triphones as targets. The teacher model and the student model were trained on two separate DNNs. The acoustic models were trained on Mel-frequency cepstral coefficients (MFCC) and feature-space maximum likelihood linear regression (fMLLR) features. In this work, frame-by-frame state accuracy, phoneme error rate (PER), and confusion matrices were evaluated on the TIMIT speech corpus. Additionally, the teacher model trained with hard targets was evaluated against the student model, which was trained on soft targets. The obtained results indicate that the T/S network achieves the highest accuracy when trained on fMLLR features. Using monophones over triphones provided higher accuracy as well. The best performing T/S network trained on fMLLR features and monophone targets, and yielded a relative frame accuracy rate of 63.64% and a PER of 27.42% on the student model. Our experiment's worst-performing T/S network had a frame accuracy rate of 35.02% and a PER of 39.77% on the student model when trained with MFCCs features and triphone targets.
dc.languageeng
dc.publisherNTNU
dc.titleSemi-supervised learning for Automatic Speech Recognition
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel