Vis enkel innførsel

dc.contributor.advisorSvendsen, Torbjørn Karl
dc.contributor.authorRosberg, Sivert
dc.date.accessioned2022-11-01T18:19:36Z
dc.date.available2022-11-01T18:19:36Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:104140281:37261599
dc.identifier.urihttps://hdl.handle.net/11250/3029430
dc.description.abstractI denne oppgaven er muligheten for å bruke Non-autoregressive Predictive Coding (NPC) til å lære talerepresentasjoner undersøkt. NPC er en selv-overvåket dyp-læringsmetode som, i motsetning til andre vanlige selv-overvåkede metoder, ikke er autoregressiv og kan derfor bli trent raskere. Tre ulike NPC-modeller er trent. En engelsk, en norsk og en adapsjonsmodell trent til norsk med den engelske modellen som en basis. Undersøkelser av de lerte representasjonene viser at de er på et subfonemisk nivå og mange ulike vektorer brukes for å representere ulike stadier av et fonem. Ulike talere har noe overlapp i bruke represenasjoner for de samme fonemer, men de er ikke helt ulike. Testing av de lærte representasjonene med en fonemgjenkjenner viser at, i disse eksperimentene, NPC karakteristikkene ikke var i stand til å prestere bedre enn Mel Frequency Cepstral Coefficients (MFCC), hverken den engelske-, den norske- eller adapsjonsmodellen. Adapsjosmodellen klarte å prestere bedre enn den norske modellen og det kan bety at adapsjonstrening kan vere et nyttig hjelpemiddel for talerepresentasjoner i språk med små taledatabaser.
dc.description.abstractIn this thesis, the possibility of using Non-autoregressive Predictive Coding (NPC) for learning speech representations is investigated. NPC is a self-supervised deep learning method that, as opposed to other common self-supervised methods, is not autoregressive, and can therefore be trained faster. Three different NPC models are trained, one English, one Norwegian and one adaptation model trained into Norwegian with the English model as a basis. Examination of the learned representations shows that the representations are on a sub-phonemic level and many different vectors are used to represent different stages of one phoneme. Different speakers have some overlap in the representations used for the same phonemes, but it is not completely equal. Testing the learned representations with a phoneme recognizer shows that in these experiments the NPC features were not able to outperform Mel Frequency Cepstral Coefficients (MFCC), neither the English, the Norwegian, nor the adaptation model. The adaptation model was able to outperform the the Norwegian model and that can mean that adaptation training might be useful for speech representations in languages with small speech databases.
dc.languageeng
dc.publisherNTNU
dc.titleBetter coding for learning speech representations
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel