Analyzing Automatic Pronunciation Assessment Performance on Norwegian Child Speech
Abstract
Denne masteroppgaven utforsker uttalevansker blant barn med og uten Norsk som morsmål, og vurderer i denne sammenhengen ytelsen til systemer for automatisk uttalevurdering (engelsk: APA). Et detaljert teoretisk rammeverk om talekarakteristikker og elementer i tradisjonelle og dyp-læringsbaserte systemer for automatisk talegjenkjenning presenteres. En variert metodisk tilnærming benyttes, der lingvistiske, utviklingsmessige og akustiske påvirkninger på uttale analyseres. I tillegg utføres detaljerte analyser av prediksjonsfeil i APA-systemet og nye fleroppgavemodeller trenes til bruk i systemer for datamaskinassistert språklæring (engelsk: CALL).
Teflon-datasettet, som inneholder enkeltord-uttalelser fra både barn med og uten Norsk som morsmål, danner grunnlaget for dette arbeidet. Det brede spekteret av annotasjoner gjør det mulig å analysere både uttalevansker og prediksjonsfeil knyttet til talerens alder, morsmål, kvaliteten på taleopptaket, mål ord og fonemuttale. Hovedfokuset er på hvordan slike variabler påvirker APA-prediksjonsfeil. De observerte resultatene demonstrerer betydelig innflytelse fra språkbakgrunn og miljøfaktorer på uttale og prediksjonsfeil, samt fremhever utfordringene med sparsomme datasett og skjev datarepresentasjon, i tillegg til å anerkjenne begrensningene i APA-systemet i håndtering av forskjellige fonetiske inndata. APA-modellen presterte bedre for talere hvis morsmål deler fonetiske likheter med norsk, og der det var flere andre talere med samme morsmål.
En ny kombinert ASR- og APA-modell ble trent ved å bruke Combined Short-modellen fra Scribe-prosjektet. Forbedringer i flere målinger ble oppnådd, og en spesifikk iterasjon oppnådde resultater på 9.23% WER, 3.12% CER, 59.54% ACC og 41.05% UAR. Denne fremgangen bekrefter muligheten for fortsatt forbedring av APA for fremmedspråklige barn.
Avhandlingen avsluttes med en diskusjon rundt hovedutfordringer og funn, samt presenterer naturlige neste skritt. Det anbefales å utvide datasettet for å få bedre representasjon av hver aldersgruppe og morsmål, noe som ville muliggjøre en mer detaljert analyse av trender innen uttale og prediksjonsfeil uten å bli overskygget av taleravhengig språkkompetanse. Den fortsatte utviklingen av norske datasett og modeller er avgjørende for å utvikle mer robuste ASR- og APA-systemer som effektivt kan støtte språklæring for et bredere spekter av barn i stadig mer flerspråklige miljøer. Ved å forbedre forståelsen av faktorene som påvirker talerens uttale og prediksjonsfeil i APA-systemer, bidrar denne forskningen til utvikling av CALL. This thesis explores pronunciation difficulties among native and Second Language (L2) child speakers of Norwegian and assesses the performance of Automatic Pronunciation Assessment (APA) systems in this context. A detailed theoretical framework on speech characteristics and elements of traditional and deep learning-based Automatic Speech Recognition (ASR) systems are presented. A diverse methodological approach is employed, analyzing linguistic, developmental, and acoustic influences on pronunciation, as well as performing detailed analysis on prediction errors of APA system, and training new multitask models for use in Computer-Assisted Language Learning (CALL) systems.
The Teflon dataset, which contains single-word utterances of both native and non-native child speakers, provides the basis for this work, and the wide range of annotations makes it possible to analyze both pronunciation difficulties and pronunciation errors related to speaker age, first language, speech recording quality, target words, and phoneme pronunciation. The main focus is how such variables affect APA prediction errors. The observed results demonstrate the significant influence of language background and environmental factors on pronunciation and prediction errors, as well as highlight the challenges of scarce datasets and biased data representation, recognizing the limitations of the APA system in handling diverse phonetic inputs. The APA model performed better for speakers whose first languages share phonetic similarities with Norwegian and where there were several other speakers with the same first language background.
A new multitask ASR and APA model was trained using the Combined Short model from the Scribe project. Improvements in several metrics were achieved, and one specific fold got results of 9.23% WER, 3.12% CER, 59.54% ACC and 41.05% UAR. This progress confirms the possibility of continued improvement of APA for foreign language learners.
The thesis concludes with a discussion regarding key challenges and findings and presents natural next steps following these results. Expansion of the dataset is recommended to represent each age group and first language better, allowing for a more detailed analysis of pronunciation and prediction error trends without being overshadowed by speaker-dependent proficiency. The continued development of Norwegian datasets and models is essential for developing more robust ASR and APA systems that can effectively aid language learning for a broader range of child speakers in increasingly multilingual environments. By enhancing comprehension of the factors affecting speaker pronunciation and prediction errors of APA systems, this research contributes to the field of CALL.