Semi-supervised learning for Automatic Speech Recognition

Rahim, Felicia

dc.contributor.advisor	Salvi, Giampiero
dc.contributor.author	Rahim, Felicia
dc.date.accessioned	2021-09-15T16:58:42Z
dc.date.available	2021-09-15T16:58:42Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:53184405:52622047
dc.identifier.uri	https://hdl.handle.net/11250/2778123
dc.description.abstract	Denne masteroppgaven undersøker et talegjenkjenningssystem som trent på en delvis annotert database innenfor fagområdet talegjenkjenning (ASR). Et dypt nevralt nettverk (DNN) klassifiserte tilstander som tilhørte individuelle kontekst-uavhengige fonemer (CI) og kontekstavhengige fonemer (CD). DNN-ene ble brukt i en lærer-student-metode (T/S). Lærermodellen og studentmodellen ble trent på to separate DNN. De akustiske modellene ble trent med MFCC og fMLLR informasjonsvektorer. I denne oppgaven ble nøyaktighetsraten til riktig klassifiserte fonemstilstander, fonem feilrate og forvirringsmatriser evaluert på TIMIT talekorpus. I tillegg ble lærermodellen som er trent på en manuelt annotert database evaluert mot studentmodellen som er trent på automatisk dannede annotasjoner. Resultatene viser at de akustiske modellene oppnår høyst nøyaktighetsrate med fMLLR informasjonsvektorer. Bruk av CI fonemer gir også større nøyaktighet enn det bruk av CD fonemer gjør. Det T/S nettverket som gir høyest ytelse er trent på fMLLR informasjonsvektorer med CI fonemer, og gir en nøyaktighetsrate på 63.64% for riktig klassifiserte fonemstilstander, og en fonem feilrate på 27.47% for studentmodellen. Det nettverket som har værst ytelse var trent på MFCC informasjonsvektorer med CD fonemer, og har en nøyaktighetsrate på 35.02% for riktig klassifiserte fonemstilstander og en fonem feilrate på 39.77% for studentmodellen.
dc.description.abstract	This thesis explores semi-supervised learning for automatic speech recognition (ASR) through a teacher-student (T/S) learning technique. Frame-by-frame classifiers were implemented with deep neural networks (DNNs), using either monophones or triphones as targets. The teacher model and the student model were trained on two separate DNNs. The acoustic models were trained on Mel-frequency cepstral coefficients (MFCC) and feature-space maximum likelihood linear regression (fMLLR) features. In this work, frame-by-frame state accuracy, phoneme error rate (PER), and confusion matrices were evaluated on the TIMIT speech corpus. Additionally, the teacher model trained with hard targets was evaluated against the student model, which was trained on soft targets. The obtained results indicate that the T/S network achieves the highest accuracy when trained on fMLLR features. Using monophones over triphones provided higher accuracy as well. The best performing T/S network trained on fMLLR features and monophone targets, and yielded a relative frame accuracy rate of 63.64% and a PER of 27.42% on the student model. Our experiment's worst-performing T/S network had a frame accuracy rate of 35.02% and a PER of 39.77% on the student model when trained with MFCCs features and triphone targets.
dc.language	eng
dc.publisher	NTNU
dc.title	Semi-supervised learning for Automatic Speech Recognition
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:53184405:52622 ...
Størrelse:: 7.901Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2292]

Vis enkel innførsel