Deep Acoustic Models for Speech Quality Assessment in Children
Abstract
I Norge har økt innvandring ført til høyere etterspørsel etter norskopplæring, særlig for barn i skolealder som trenger å lære seg norsk raskt for å holde tritt med jevnaldrende.
Denne avhandlingen utforsker bruken av automatisk talegjenkjenning (ASR) ved bruk av Whisper-modellen for å legge til rette for automatisk uttalevurdering (APA) for barns norskopplæring. Det er undersøkt ni Whisper-varianter fra OpenAI og Nasjonalbiblioteket. De er kategorisert etter størrelse: tiny, base og medium, samt delt mellom verbatim og ikke-verbatim. Oppgaven forsøker dermed å identifisere den mest effektive modellen ved hjelp av Character Error Rate (CER) for å kunne predikere hva en menneskelige ekspert ville gitt barnets uttale, på en skala fra 1 til 5.
Til tross for en innledende hypotese som favoriserte verbatim-modeller, motstrider resultatene dette, og den ikke-verbatim, medium modellen fra Nasjonalbiblioteket presterte best, med en accuracy på 38%, en F1-score på 34% og en mean absolute error (MAE) på 1.0. Dette belyser utfordringene ved bruk av dagens Whisper-modeller for barnetale, og foreslår ytterligere finjusteringer eller alternative modeller som kan forbedre APAs effektivitet. Funnene og metodene i denne studien bidrar til å optimalisere ASR-teknologier for bedre å støtte språktilegnelse blant innvandrerbarn i Norge. In Norway, increased immigration has led to higher demand for Norwegian language training,particularly for school-age children who need to learn Norwegian quickly to keep up with theirpeers.
This thesis explores the use of automatic speech recognition (ASR) using the Whisper model to facilitate automatic pronunciation assessment (APA) for children learning Norwegian. Nine Whisper variants are tested, both from OpenAI and the Norwegian National Library (NNL). They are categorised by size: small, base and medium, and divided between verbatim and non-verbatim. The thesis attempts to identify the most effective model using Character Error Rate (CER) to predict what a human expert would give the child's pronunciation on a scale from 1 to 5.
Despite an initial hypothesis favouring verbatim models, the results contradict this. The best-performing model was the non-verbatim NNL-medium model, with an accuracy of 38%, an F1 score of 34% and a mean absolute error (MAE) of 1.0. This thesis highlights the challenges of using the current Whisper models for child speech and suggests further refinements or alternative models that could improve APA's effectiveness. The findings and methods in this study contribute to optimising ASR technologies to better support language acquisition among immigrant children in Norway.