Show simple item record

dc.contributor.advisorOrtiz, Pablo
dc.contributor.advisorRuocco, Massimiliano
dc.contributor.authorBurud, Simen
dc.date.accessioned2021-11-01T18:20:05Z
dc.date.available2021-11-01T18:20:05Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:28078796
dc.identifier.urihttps://hdl.handle.net/11250/2827059
dc.description.abstractAutomatiske talegjenkjenningsystemer transkiberer tale til tekst. Slike systemer har et bredt spekter av praktiske bruksområder, fra dikteringsverktøy som forenkler kommunikasjon for personer med hørsels - eller motoriske funksjonsnedsettelser, til å muliggjøre søk i audiovisuelt innhold. Talegjenkjenning spiller også en viktig rolle som del av større maskinlæringsystemer i kommersielle produkter som digitale personlige assistenter. Mange moderne talegjenkjenningsystemer bygges som (tilnærmet) rent data-drevne ende-til-ende-modeller basert på dyp læring. Disse gir imponerende resultater på mange områder. Resultatene kan ofte sammenlignes med, og er i noen tilfeller enda mer nøyaktige enn, manuelle transkripsjoner gjort av mennesker. Dessverre kommer disse teknikkene ofte til kort i møte med språk og domener der det er lite data å trene på. Til tross for tilnavnet "ende-til-ende," blir de avhengig av både en ekstern språkmodell og et omfattende heuristisk søk (vanligvis beam search) for å oppnå brukbare resultater. I senere tid har forhåndstrente språkmodeller basert på oppmerksomhet, f.eks. BERT (toveis omformerbaserte enkoder-representasjoner), gitt store fremskritt på mange oppgaver innen språkprosessering. Også for norsk språk har Nasjonal\-biblioteket bygget en BERT-modell som gir svært lovende resultater. Det har blitt foreslått en rekke teknikker for å kombinere BERT-lignende språkmodeller med talegjenkjenning, men forskningen så langt har fokusert på språk og domener der store mengder treningseksempler er tilgjengelig. Vi retter nå fokus mot "datafattige" domener, og introduserer en treningstrategi for BERT der vi finjusterer modellen på en svært dataeffektiv måte. Dette skjer ved å trene BERT til å skille mellom gode og dårlige transkripsjoner fra den eksisterende talemodellen. På den måten lærer BERT å skåre forslagslisten fra talemodellen for å identifisere den beste transkripsjonen. I tillegg tester vi teknikker for å tvinge talemodellen til å generere en mer mangfoldig forslagsliste. Bruken av BERT gir betydelig bedre resultater sammenlignet med et allerede robust talegjenkjenningsystem i to spesialiserte og svært forskjellige domener: plenumsmøter i Stortinget og kundeservicesamtaler hos Telenor. Utover at det generelt er nokså magert med norske datasett for talegjenkjenning, er begge disse domenene datafattige i form av lite treningsdata, distinkt språkbruk og utstrakt bruk av dialekt.
dc.description.abstractAutomatic Speech Recognition (ASR) systems transcribe speech to text. They have a wide range of practical applications, from dictation tools making communication much easier for people with hearing and motor impairments to low-cost indexing and search in audiovisual content. As a building block in larger machine learning systems, ASR plays a crucial role in many commercial products, such as digital voice assistants. Many modern ASR systems are implemented as (almost) purely data-driven, end-to-end Deep Learning models. These systems show impressive results in many domains, comparable to or even surpassing human performance. Unfortunately, these techniques often struggle when tasked with transcribing low-resource languages, especially in real-life situations. Despite the term "end-to-end", they end up relying heavily on both an external language model and a large beam search to achieve decent results. Pre-trained attention models such as BERT (Bidirectional Encoder Representations from Transformers) have advanced state-of-the-art across many natural language processing tasks in the past few years. Several ways of integrating BERT-like models in speech recognition systems have been proposed. However, research so far have been limited to high-resource domains. Turning our attention to low-resource domains, we introduce a data-efficient fine-tuning strategy for BERT. BERT learns to effectively use conversational context to rescore beam search results by teaching it to disambiguate good and bad transcripts. We show how this improves performance over a robust baseline system in two distinct, specialized domains: formal parliamentary debates and customer service calls. These domains are low-resource both in terms of language (Norwegian) and speech/linguistic characteristics. We also test how to produce a richer variety of candidate transcripts to cover more possibilities using a diversity bonus.
dc.languageeng
dc.publisherNTNU
dc.titleConversational Language Models for Low-Resource Speech Recognition
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record