Vis enkel innførsel

dc.contributor.advisorSætre, Rune
dc.contributor.advisorGambäck, Björn
dc.contributor.authorJohannessen, Runar Ask
dc.date.accessioned2021-09-15T16:13:53Z
dc.date.available2021-09-15T16:13:53Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:57320302:25639592
dc.identifier.urihttps://hdl.handle.net/11250/2777838
dc.description.abstractTalerindeksering (“speaker diarization”) brukes til å svare på spørsmålet “hvem snakket når?” ved å dele lydfiler inn i segmenter med tale fra én enkelt person. Dette brukes ofte som tilleggsinformasjon til automatiske transkripsjoner. Slike transkriberingsprosesser forteller som regel bare “hva som ble sagt” uten å si noe om “hvem som sa hva.” Talerindeksering kan tilføye denne informasjonen ved å skille mellom talere. Denne oppgaven ble motivert av Laerdal Medical som ønsker å anvende talegjenkjenning på simulerte nødsamtaler til opplæring av nødpersonell. Personellet blir trent til å takle nødsituasjoner gjennom simulerte anrop hvor en trener later som hen er vitne til en ulykke. Treningsøkter avsluttes med en evaluering hvor en skriftlig transkripsjon er et viktig verktøy. Målet til Laerdal Medical var å undersøke bruken av talerindeksering til å støtte automatisk transkribering og analyse av treningssamtalene. For å kunne skille mellom talere er en avhengig av representasjoner som fanger personlige kjennetegn. Tradisjonelt blir taler-innbakinger (“speaker embeddings”) definert for et lydsegment som gjennomsnittet av mindre delrepresentasjoner. Denne oppgaven utforsket effekten av forskjellige aggregeringsmetoder på talerindekseringssystemer. Spesifikt ble et glidende gjennomsnittsfilter, dimensjonsreduksjon og median testet ved eksperimentelle metoder. Resultatene fra eksperimentene viste at feilraten gikk ned fra 18.79% til 13.72% ved å bruke de alternative aggregeringsmetodene. Disse funnene bidrar til forskningen på virkningen av forskjellige aggregeringsmetoder på taler-innbakinger.
dc.description.abstractSpeaker diarization answers the question of “who spoke when?” by splitting an audio stream into single speaker segments. This information is often used to enrich the content of automatic transcriptions. Such transcriptions generally only contain “what was said” without designating “who said what.” Speaker diarization can add this extra information by distinguishing between speakers. Laerdal Medical is looking to apply speaker recognition technology to simulated calls for training emergency centre operatives. The operatives are trained in a simulated setting, where a trainer pretends to have an emergency and calls the emergency number. The final part of the training process is a post-analysis where the session recording and its transcript are important tools to properly evaluate the training. Laerdal Medical’s goal and the motivation for this Thesis, is to investigate the use of speaker diarization to support automatic transcription and analysis of the simulated calls. To distinguish between speakers, a system is dependent on speaker embeddings that capture speaker specific characteristics. Traditionally, speaker embeddings are defined for an audio segment as the average of smaller frame embeddings. This work investigates the impact of aggregation methods, other than the average, on diarization performance. In particular, a moving average filter, dimensionality reduction, and a median operation were tested using an experimental research approach. The results of the experiments showed that the system’s error rate decreased from 18.79% to 13.72% when using an alternative aggregation method. The results contribute to the little amount of research that has been done on the effects of different speaker embedding aggregation methods.
dc.language
dc.publisherNTNU
dc.titleAggregation of Speaker Embeddings for Speaker Diarization
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel