Multi-channel speech recognition
Abstract
Telefonsamtaler transkriberes vanligvis uten å ta hensyn til kontekst fra begge talerne, ettersom nåværende systemer for automatisk talegjenkjenning (ASR) kun tar hensyn til kontekst fra én enkel lydkanal. Denne oppgaven utforsker bruken av "cross-attention" for å gjøre det mulig for ASR-modeller å ta hensyn til konteksten fra flere talere som finnes i forskjellige lydkanaler. Vi utvikler en ASR-tilpasning av dGSLM, en generativ modell som ble introdusert for å generere muntlige dialoger. Denne modellen inkorporerer "cross-attention", noe som gjør det mulig for modellen å vurdere kontekstuelt informasjon fra begge talere.
Vi gjennomfører flere eksperimenter ved bruk av telefondatasettet Fisher. Vår beste modell oppnår ordfeilrate/bokstavfeilrate (WER/CER) på 39,8%/22,9% på en usett del av Fisher-settet uten bruk av en språkmodell og med bruk av "greedy search". Finjustering av vektene til den opprinnelige dGSLM gir de beste resultatene og reduserer WER/CER med 8,3%/7,7% sammenlignet med å trene modellen fra bunnen av. I våre eksperimenter finner vi at representasjonene fra dGSLM-modellen trenger finjustering for å kunne brukes til ASR. Ved å trene modeller med og uten "cross-attention"-lag, finner vi også ut at inkorporering av slike lag reduserer relativ WER/CER med 7,8%/4,2%. Telephone conversations are conventionally transcribed without considering the context of both speakers, as current automatic speech recognition (ASR) models are only able to consider the context from a single channel of audio. This thesis explores the use of cross-attention to allow ASR models to consider the context of multiple speakers found in different audio channels. We create an ASR adaption of dGSLM, a generative model introduced for generating spoken dialogues. This model incorporates cross-attention allowing it to consider contextual information from both speakers.
We conduct several experiments using the Fisher telephone dataset. Our best model achieves word error rate/character error rate (WER/CER) of 39.8%/22.9% on a held-out part of the Fisher dataset without the use of an LM and using greedy search. Finetuning the weights of the original dGSLM provides the best results and decreases WER/CER by 8.3%/7.7% compared to training the model from scratch. In our experiments, we find that representations from the dGSLM model need finetuning to be used for ASR. By training models with and without cross-attention layers, we also find that incorporating such layers reduces relative WER/CER by 7.8%/4.2%.