Better coding for learning speech representations

Rosberg, Sivert

dc.contributor.advisor	Svendsen, Torbjørn Karl
dc.contributor.author	Rosberg, Sivert
dc.date.accessioned	2022-11-01T18:19:36Z
dc.date.available	2022-11-01T18:19:36Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:104140281:37261599
dc.identifier.uri	https://hdl.handle.net/11250/3029430
dc.description.abstract	I denne oppgaven er muligheten for å bruke Non-autoregressive Predictive Coding (NPC) til å lære talerepresentasjoner undersøkt. NPC er en selv-overvåket dyp-læringsmetode som, i motsetning til andre vanlige selv-overvåkede metoder, ikke er autoregressiv og kan derfor bli trent raskere. Tre ulike NPC-modeller er trent. En engelsk, en norsk og en adapsjonsmodell trent til norsk med den engelske modellen som en basis. Undersøkelser av de lerte representasjonene viser at de er på et subfonemisk nivå og mange ulike vektorer brukes for å representere ulike stadier av et fonem. Ulike talere har noe overlapp i bruke represenasjoner for de samme fonemer, men de er ikke helt ulike. Testing av de lærte representasjonene med en fonemgjenkjenner viser at, i disse eksperimentene, NPC karakteristikkene ikke var i stand til å prestere bedre enn Mel Frequency Cepstral Coefficients (MFCC), hverken den engelske-, den norske- eller adapsjonsmodellen. Adapsjosmodellen klarte å prestere bedre enn den norske modellen og det kan bety at adapsjonstrening kan vere et nyttig hjelpemiddel for talerepresentasjoner i språk med små taledatabaser.
dc.description.abstract	In this thesis, the possibility of using Non-autoregressive Predictive Coding (NPC) for learning speech representations is investigated. NPC is a self-supervised deep learning method that, as opposed to other common self-supervised methods, is not autoregressive, and can therefore be trained faster. Three different NPC models are trained, one English, one Norwegian and one adaptation model trained into Norwegian with the English model as a basis. Examination of the learned representations shows that the representations are on a sub-phonemic level and many different vectors are used to represent different stages of one phoneme. Different speakers have some overlap in the representations used for the same phonemes, but it is not completely equal. Testing the learned representations with a phoneme recognizer shows that in these experiments the NPC features were not able to outperform Mel Frequency Cepstral Coefficients (MFCC), neither the English, the Norwegian, nor the adaptation model. The adaptation model was able to outperform the the Norwegian model and that can mean that adaptation training might be useful for speech representations in languages with small speech databases.
dc.language	eng
dc.publisher	NTNU
dc.title	Better coding for learning speech representations
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:104140281:3726 ...
Størrelse:: 9.109Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2295]

Vis enkel innførsel