Synchronisation of Speech and Text for the Norwegian Book Industry
Abstract
En kobling mellom lydbøker og digitale e-bøker vil gjøre flere navigeringsmuligheter mulig, blant annet navigasjon i e-bøker ved tekstsøk og muligheten til sømløs bytting mellom bokformatene hvor tjenesten automatisk husker siste leseposisjon uavhengig av mediet. Det vil dessuten være mulig å tilby løsninger hvor brukeren leser og lytter på en bok samtidig.
Spesialiseringsprosjektet «Automatisk synkronisering av tale og tekst i lydbøker» konkluderte med at tilgjengelige verktøy, som Montral Forced Aligner, kan generere tilstrekkelig nøyaktige koblinger mellom lydbøker og e-bøker for norsk bokmål. Dette fungerer så lenge segmentene som kobles sammen stemmer nøyaktig overens og ikke er for lange. Bøker kan deles inn i passende deler ved å bruke nøyaktige ankerpunkt. Ankerpunktene kan automatisk bestemmes ved å søke etter unike fraser i lydfilen, ved bruk av nøkkelordgjenkjenning.
Nøkkelordgjenkjenning er realisert ved å ekstrahere «i-vector» egenskaper fra lydfilene, som blir brukt til å konstruere «lattice»-strukturer som inneholder de mest sannsynlige ordsekvensene i klippet, på samme måte som ved vanlig talegjenkjenning. Nøkkelfraser er deretter gjenkjent dersom de blir funnet med en tilstrekkelig sannsynlighet blant alternativene. Dekodingsgrafen er konstruert ved å kombinere kunnskap om uttalelse, grammatikk og akustikk ved bokmål. Denne avhandlingen undersøker om en slik strategi er fordelaktig. Strategien er lovende, men resultatene er utydelige siden systemet ikke er satt sammen feilfritt. A link between audiobooks and digital e-books makes numerous navigation options available, including navigation by searching in audiobooks and switching media platforms between audio and text seamlessly without needing to navigate manually. It will in addition enable solutions where audio and text are presented simultaneously.
The specialization project “Automatic Synchronization of Text and Speech in Audiobooks” concluded that available algorithms, such as the Montreal Forced Aligner, can provide good quality time-alignments of Norwegian Bokmål speech and text. This is as long as the speech and text segments are exact matches and within a length limit. This issue can be solved by dividing audiobooks into suitable segments. To automatically find fitting segments and make the entire synchronization process automatic, precise anchor points can be found by searching the audio for unique phrases. This technique is called keyword search.
The keyword search system is realised by extracting i-vector features from the audio, which are used to construct a lattice describing the most probable word sequences, in classical speech recognition fashion. Phrases are then spotted if they appear in the lattice with a probability above a set threshold. The decoding graph is constructed by combining knowledge of pronunciation, grammar, and acoustics of Norwegian Bokmål. This thesis investigates the proposed solution to discover if it is a viable strategy. The strategy is promising, but the results are unclear as the system is not managed to be assembled correctly.