Dynamic Beam Search Decoding for Speech Recognition using Confidence Estimation Module

Stensgård, Kristian

dc.contributor.advisor	Salvi, Giampiero
dc.contributor.advisor	Ortiz, Pablo
dc.contributor.author	Stensgård, Kristian
dc.date.accessioned	2022-09-09T17:19:23Z
dc.date.available	2022-09-09T17:19:23Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:104140281:25646882
dc.identifier.uri	https://hdl.handle.net/11250/3016971
dc.description.abstract	Dyp læring med nevrale nettverk har blitt stadig mer populært det siste tiåret og har vist lovende resultater i datasyn og Natural Language Processing (NLP)-oppgaver samt for Automatic Speech Recognition (ASR). Bruksområdene for denne typen teknologi er mange og gjør hverdagen vår enklere, med for eksempel bruk av taleassistenter, tale-til-tekst for meldinger og mer. For hørselshemmede kan denne teknologien ha en større innvirkning på deres liv og deres erfaring med kommunikasjon med andre mennesker. Disse systemene er ofte implementert som rene datadrevne systemer og krever mye data. For å dra nytte av all dataen, skaleres modellene også opp til å ha flere parametere enn før. Økningen i antall parametere fører til økte krav til hardware som bruke ASR systemene. Det er derfor behov for bedre og mer effektive modeller for å gjøre ASR-systemer av høy kvalitet tilgjengelig for alle. ASR-systemer har en tendens til å være for sikker i prediksjonene sine, og det å bruke sannsynlighetsfordelingen som det nevrale nettverket produserer er ikke en pålitelig metode for å kvantifisere usikkerheten til en prediksjon fra ASR system. Dette er et problem for applikasjoner som krever pålitelige og korrekte transkripsjoner, dette kan være for eksempel rettsmøter eller medisinske opptak. Usikkerhets estimatet kan også brukes i stemmeassistenter som vil be brukeren om å gjenta kommandoer hvis usikkerheten for en kommando er høy. Hvis usikkerhets estimatene er pålitelige og nøyaktige, kan disse også brukes til andre oppgaver som bedre unsupervised-training eller effektiv dekoding. Denne oppgaven presenterer noen forskjellige metoder for å estimere konfidensen til et ASR-system. Deretter vil en metode for å produsere en konfidensscore for hvert del ord bli utviklet og brukt til å estimere konfidensen til et ASR-system. En Confidence Estimation Module (CEM) vil bli utviklet til dette formålet. Denne modulen har en AUROC på 0.83 og en AUC PR på 0.66, dette tilsvarer en tilstrekkelig ytelse, men ikke på lik linje med state-of-the-art. Denne Confidence Estimation Modulen vil bli brukt i et dynamisk Beam Search sammen med ASR systemet og en språkmodell. Denne språkmodellen vil også bli utviklet i forbindelse med denne oppgaven. Dynamisk Beam Search er utviklet i håp om at det skal kunne redusere antall feil og være lettere å tune. Den dynamiske varianten av Beam Search viser lovende resultater under tuning for å finne hyperparameteren γ. Ved en full test som sammenligner dynamisk og statisk Beam Search derimot, viser det seg at den dynamiske varianten ikke fører til redusert feilrate. Dette er ikke i tråd med påstanden gjort tidligere som tilsier at den dynamiske varianten med en CEM gir bedre ytelse og er lettere å tune.
dc.description.abstract	Deep Learning has become increasingly popular over the last decade and has demonstrated promising results in computer vision and Natural Language Processing (NLP) tasks as well as for Automatic Speech Recognition (ASR). The use cases for this type of technology range from a convenience in our day-to-day life, with for instance the use of voice assistants, speech-to-text messaging and more. For the hearing impaired, this technology might have a bigger impact on their life and their experience in communication with other people. These systems are often implemented as purely data-driven systems and require a lot of data. In order to take benefit from all that data, models are also scaled up to have more parameters than ever before. Thus there is a need for better and more efficient models in order to make high-quality ASR systems accessible to everyone. ASR systems tend to be overconfident in their predictions and strictly using the output probabilities is not a reliable method to quantify the confidence of the ASR. This is a problem for applications that require reliable and correct transcriptions, such as court hearings or medical recordings. The confidence scores are also used in voice assistants which will ask the user to repeat commands if the confidence for a command is low. If the confidence scores are reliable and accurate, the scores can be used for other use cases which involve better unsupervised training or efficient decoding. This thesis presents a few different methods to estimate the confidence of an ASR system. Then, a method for producing confidence scores for each token will be developed and used to estimate the confidence of an ASR system. This will be done by developing a Confidence Estimation Module, which uses the features from the ASR system input. This module has an AUROC of 0.83 and an AUC PR of 0.66, which translates into a decent confidence estimation module, but is not on par with the state-of-the-art. These confidence scores will later be used to do a dynamic Beam Search with the additional LM also developed in this thesis. The confidence scores from the CEM will be used to weigh the influence of the LM in the Beam Search. This is in an effort to reduce the number of errors in the transcriptions, with the added benefit of being easier to tune. The dynamic Beam Search shows signs of promising results under tuning but fails to outperform the standard static Beam Search, thus failing to meet expectations and not being consistent with the findings during tuning.
dc.language	eng
dc.publisher	NTNU
dc.title	Dynamic Beam Search Decoding for Speech Recognition using Confidence Estimation Module
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:104140281:2564 ...
Størrelse:: 8.114Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2289]

Vis enkel innførsel