Vis enkel innførsel

dc.contributor.advisorSvendsen, Torbjørn Karl
dc.contributor.authorSteinskog, Kristin Ottesen
dc.date.accessioned2021-09-15T17:11:31Z
dc.date.available2021-09-15T17:11:31Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:77039769:36979864
dc.identifier.urihttps://hdl.handle.net/11250/2778187
dc.description.abstractTalegjenkjenning for barn er utfordrende ettersom dagens talegjenkjenningssystem er basert på tale fra voksne. Talegjenkjenning kan hjelpe utviklingen av tale og språk hos barn. Derfor er det viktig å forbedre talegjenkjenningssystemene, slik at de fungerer bedre for barn. Forskjellene i karakteristikken i tale hos barn sammenlignet med voksne er stor. Barn har kortere vokaltrakt, noe som gjør at de har høyere formantfrekvenser enn det voksne har. Dette påvirker ytelsen til talegjenkjenningssystemet. Hensikten med denne oppgaven er å forbedre og implementere et talegjenkjenningssystem for barne-stemme. Dette er gjort ved å adaptere en modell som er trent på voksenstemme, til barnestemme. Det tar sikte på å undersøke metoden "transfer learning", hvor en modell som er trent på tale fra voksne er overført til å passe akustikken til talesignalet til barn. Talegjenkjenningssystemet er implementert ved Mozilla's Deep Speech arkitektur, og er trent og testet på barnestemme fra korpuset CMU Kids. Fire transfer learning eksperiment er utforsket, i tillegg til finjustering av en ferdigtrent modell for voksenstemme. Resultatene viser betydelig nedgang i "word error rate (WER)", der det beste resultatet viser en WER på 27.93% etter finjustering av modellen. Dette er en betydelig forbedring, ned fra WER på 48.01%, som er ytelsen på den ferdigtrente voksenmodellen, testet med barnestemme. Det best oppnådde resultatet fra "transfer learning" modellene har en WER på 36.68%, og indikerer at det er vanskelig å få en lav WER på grunn av manglende data. En WER på 27.93% er fortsatt ganske høyt, men indikerer at det å bruke data fra voksenstemme kan være effektivt i implementeringen av en automatisk talegjenkjenner for barn, der det er mangel på data fra barnestemme.
dc.description.abstractChild speech recognition is a challenging task, and most of the speech recognition systems today are based on speech from adults. Speech recognition technology can help speech and language development of young children. Hence, it is essential to improve speech recognition systems to apply better for children. The differences in the speech characteristics of child speech compared to adult speech are significant. Children have a shorter vocal tract length, which implies that they have higher formant frequencies than adults. These features affect the performance of the speech recognition systems. The purpose of this thesis is to improve and implement an automatic speech recognition (ASR) system for child speech by adapting a model trained on data from adult speech to child speech. It aims to investigate the method of transfer learning, where a model trained on adult speech is transferred to fit the acoustics of the speech signal of children. The speech recognition system is implemented by Mozilla's Deep Speech architecture, and is trained and tested on child speech data from the CMU Kids corpus. Four transfer learning experiments are explored in addition to fine-tuning a pre-trained adult model. The results show a significant decrease in the word error rate (WER), where the best obtained results show a WER of 27.93% after fine-tuning of the model. This is a significant improvement down from a WER of 48.01%, which is the performance of the child speech data tested on the pre-trained adult model. The best achieved result of the transfer learning models has a WER of 36.68%, and indicates that it was difficult to get a low WER due to the lack of data. A WER of 27.93% is still quite high, but indicates that the use of adult data can be effective for training an automatic child speech recognition system, when there are lack of child speech data.
dc.languageeng
dc.publisherNTNU
dc.titleChild Speech Recognition
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel