A Norwegian Whisper Model for Automatic Speech Recognition

Ås, Alexander Michael

dc.contributor.advisor	Gulla, Jon Atle
dc.contributor.advisor	Kille, Benjamin
dc.contributor.author	Ås, Alexander Michael
dc.date.accessioned	2023-10-24T17:20:38Z
dc.date.available	2023-10-24T17:20:38Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:145904930:90195284
dc.identifier.uri	https://hdl.handle.net/11250/3098538
dc.description.abstract	Talegjenkjenning har hatt betydelig fremgang i de siste årene og er blitt vesentlig flinkere i å transkribere lyd til tekst på forskjellige språk. I dag er teknologien uunnværlig og brukes i ulike smarte enheter, deriblant sosiale roboter. Sosiale roboter er designet til å kommunisere med mennesker på en naturlig og intuitiv måte og brukes blant annet for språklæring, undervisning, og behandling av barn med autisme. Ett eksempel for en sosial robot er den såkalte Furhat roboten fra Furhat Robotics som brukes av det norske forskningssentret for AI-innovasjon (NorwAI) ved NTNU for å teste og demonstrere språkmodeller utviklet ved sentret. Til tross for at roboten er utstyrt med moderne og avansert teknologi er talegjenkjenningsmodellen ikke ideelt. Den sliter blant annet med en rekke norske dialekter, har store vansker med navn og forkortelser og er svært upålitelig når det er mye bakgrunnsstøy. Utover det støtter modellen bare Bokmål og er ikke i stand til å transkribere til Nynorsk. Målet ved denne oppgaven er derfor å undersøke om den nåværende modellen kan erstattes med Whisper. Whisper er en avansert talegjenkjenningsmodell som ble trent på mer enn 680,000 timer med data og støtter 96 forskjellige språk for talegjenkjenning. Den mellomstore Whisper modellen ble finjustert på Bokmål og Nynorsk ved hjelp av Stortingskorpuset og ytelsen ble analysert med hensyn til støyrobusthet, transkribering av navn og talerelaterte egenskaper, som dialekt, alder og kjønn. Dessuten ble modellen sammenlignet med den lille Whisper modellen og Wav2Vec 2.0 som begge ble trent av Nasjonalbiblioteket. Modellene ble sammenlignet og evaluert ved hjelp av ordfeilraten (WER), som måler antall ord som må legges til, slettes og erstattes for at prediksjonen stemmer overens med referansesetningen. Ordfeilraten ble betraktelig redusert både på Bokmål og Nynorsk, og resultatene viser at ytelsen ikke påvirkes av verken kjønn eller alder. I tillegg er ordfeilraten relativt stabil når støynivået er lavt, og det er først når signal-til-støyforholdet er på 10 dB eller mindre at den begynner å stige. Resultatene viser derimot at ytelsen er påvirket av talerens dialekt som fører til at ordfeilraten er litt høyere for noen dialekter mens den er lavere for andre. Videre er ordfeilraten litt større for setninger som inneholder navn eller forkortelser, noe som tyder på at Whisper ikke er unntatt problemet.
dc.description.abstract	In the past few decades, automatic speech recognition (ASR) systems made significant progress, achieving high transcription accuracy across a wide range of languages. Today, ASR systems are indispensable components of various smart devices, particularly social robots. Social robots are designed to interact with humans in a natural and intuitive manner and are used in various ways, including language learning, tutoring, and for therapy of children with autism. An example of a modern social robot is the Furhat robot by Furhat Robotics. It is used at the Norwegian Research Center for AI Innovation (NorwAI) to test and demonstrate language models developed at the center. Still, despite its modern technology, the speech recognition system of the Furhat robot is not ideal as it struggles with a range of Norwegian dialects, is very susceptible to background noise, and has difficulties understanding names. Moreover, while it is capable of transcribing spoken Norwegian to Bokmål, which is one of the two official written languages in Norway, it has no built-in support for the second official written language, that is, Nynorsk. In an effort to combat the issues with the current speech recognition system, this thesis investigates the adaption of Whisper to the Furhat robot. Whisper is a state-of-the-art speech recognition model trained on 680,000 hours of training data and supporting 96 different languages for multilingual speech recognition. The medium-sized Whisper model was fine-tuned on Bokmål and Nynorsk using the Norweigan Parliament Speech Corpus (NPSC) dataset and evaluated on both languages with regard to the overall performance, noise robustness, the transcription of names, as well as speaker-related characteristics, such as dialect, age, and gender. The performance of the fine-tuned model was further compared to other state-of-the-art architectures, including a fine-tuned version of the small Whisper model and Wav2Vec 2.0. The model was compared and evaluated using the word error rate (WER), which is the number of insertions, deletions, and substitutions required for the prediction to match the ground-truth sentence. Fine-tuning the model improved the overall WER considerably in both written languages and model performance was generally not influenced by the age or gender of the speaker. Moreover, even though the WER starts to increase at high levels of noise with a signal-to-noise ratio of 10 dB or less, model performance remains stable at low levels of noise. However, while the overall dialect performance was significantly improved by fine-tuning, some dialects still caused the WER to spike. What is more, the WER increased in many cases if a name or abbreviation was present in the sentence, indicating that the transcription of names remains an issue.
dc.language	eng
dc.publisher	NTNU
dc.title	A Norwegian Whisper Model for Automatic Speech Recognition
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:145904930:9019 ...
Størrelse:: 9.966Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6772]

Vis enkel innførsel