Conversational Language Models for Low-Resource Speech Recognition

Burud, Simen

dc.contributor.advisor	Ortiz, Pablo
dc.contributor.advisor	Ruocco, Massimiliano
dc.contributor.author	Burud, Simen
dc.date.accessioned	2021-11-01T18:20:05Z
dc.date.available	2021-11-01T18:20:05Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:28078796
dc.identifier.uri	https://hdl.handle.net/11250/2827059
dc.description.abstract	Automatiske talegjenkjenningsystemer transkiberer tale til tekst. Slike systemer har et bredt spekter av praktiske bruksområder, fra dikteringsverktøy som forenkler kommunikasjon for personer med hørsels - eller motoriske funksjonsnedsettelser, til å muliggjøre søk i audiovisuelt innhold. Talegjenkjenning spiller også en viktig rolle som del av større maskinlæringsystemer i kommersielle produkter som digitale personlige assistenter. Mange moderne talegjenkjenningsystemer bygges som (tilnærmet) rent data-drevne ende-til-ende-modeller basert på dyp læring. Disse gir imponerende resultater på mange områder. Resultatene kan ofte sammenlignes med, og er i noen tilfeller enda mer nøyaktige enn, manuelle transkripsjoner gjort av mennesker. Dessverre kommer disse teknikkene ofte til kort i møte med språk og domener der det er lite data å trene på. Til tross for tilnavnet "ende-til-ende," blir de avhengig av både en ekstern språkmodell og et omfattende heuristisk søk (vanligvis beam search) for å oppnå brukbare resultater. I senere tid har forhåndstrente språkmodeller basert på oppmerksomhet, f.eks. BERT (toveis omformerbaserte enkoder-representasjoner), gitt store fremskritt på mange oppgaver innen språkprosessering. Også for norsk språk har Nasjonal\-biblioteket bygget en BERT-modell som gir svært lovende resultater. Det har blitt foreslått en rekke teknikker for å kombinere BERT-lignende språkmodeller med talegjenkjenning, men forskningen så langt har fokusert på språk og domener der store mengder treningseksempler er tilgjengelig. Vi retter nå fokus mot "datafattige" domener, og introduserer en treningstrategi for BERT der vi finjusterer modellen på en svært dataeffektiv måte. Dette skjer ved å trene BERT til å skille mellom gode og dårlige transkripsjoner fra den eksisterende talemodellen. På den måten lærer BERT å skåre forslagslisten fra talemodellen for å identifisere den beste transkripsjonen. I tillegg tester vi teknikker for å tvinge talemodellen til å generere en mer mangfoldig forslagsliste. Bruken av BERT gir betydelig bedre resultater sammenlignet med et allerede robust talegjenkjenningsystem i to spesialiserte og svært forskjellige domener: plenumsmøter i Stortinget og kundeservicesamtaler hos Telenor. Utover at det generelt er nokså magert med norske datasett for talegjenkjenning, er begge disse domenene datafattige i form av lite treningsdata, distinkt språkbruk og utstrakt bruk av dialekt.
dc.description.abstract	Automatic Speech Recognition (ASR) systems transcribe speech to text. They have a wide range of practical applications, from dictation tools making communication much easier for people with hearing and motor impairments to low-cost indexing and search in audiovisual content. As a building block in larger machine learning systems, ASR plays a crucial role in many commercial products, such as digital voice assistants. Many modern ASR systems are implemented as (almost) purely data-driven, end-to-end Deep Learning models. These systems show impressive results in many domains, comparable to or even surpassing human performance. Unfortunately, these techniques often struggle when tasked with transcribing low-resource languages, especially in real-life situations. Despite the term "end-to-end", they end up relying heavily on both an external language model and a large beam search to achieve decent results. Pre-trained attention models such as BERT (Bidirectional Encoder Representations from Transformers) have advanced state-of-the-art across many natural language processing tasks in the past few years. Several ways of integrating BERT-like models in speech recognition systems have been proposed. However, research so far have been limited to high-resource domains. Turning our attention to low-resource domains, we introduce a data-efficient fine-tuning strategy for BERT. BERT learns to effectively use conversational context to rescore beam search results by teaching it to disambiguate good and bad transcripts. We show how this improves performance over a robust baseline system in two distinct, specialized domains: formal parliamentary debates and customer service calls. These domains are low-resource both in terms of language (Norwegian) and speech/linguistic characteristics. We also test how to produce a richer variety of candidate transcripts to cover more possibilities using a diversity bonus.
dc.language	eng
dc.publisher	NTNU
dc.title	Conversational Language Models for Low-Resource Speech Recognition
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:74730513:28078 ...
Size:: 9.242Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6558]

Show simple item record