Show simple item record

dc.contributor.advisorSvendsen, Torbjørnnb_NO
dc.contributor.authorBauck, Rasmus Ranenb_NO
dc.date.accessioned2014-12-19T13:45:19Z
dc.date.accessioned2015-12-22T11:43:34Z
dc.date.available2014-12-19T13:45:19Z
dc.date.available2015-12-22T11:43:34Z
dc.date.created2010-09-11nb_NO
dc.date.issued2009nb_NO
dc.identifier350772nb_NO
dc.identifier.urihttp://hdl.handle.net/11250/2369817
dc.description.abstractTalesyntese er en teknologi som søker å omdanne skreven tekst til naturlig tale. Arbeidet i denne masteroppgaven har tatt utgangspunkt i resultatene fra FONEMA-prosjektet, et samarbeid mellom NTNU og Telenor. Dette prosjektet har produsert verktøy og metoder for å kunne utføre høykvalitets norsk talesyntese, men det er ønske om å forbedre ytelsen til disse systemene. Denne masteroppgaven har fokusert på to punkter i den forbindelse: effektivisering av syntesedatabase og forbedring av kvalitet for syntetisert stemme. TTS-systemet som har blitt brukt i denne masteroppgaven utfører talesyntese ved hjelp av teknikken skjøtesyntese. Dette krever en stor syntesedatabase bestående av en stor mengde lydklipp med innlest tale. Systemet henter så ut biter av disse lydklippene og setter de sammen for å syntetisere en vilkårlig setning. Syntesedatabasen som har blitt brukt inneholder opprinnelig 5.363 lydklipp, og i en omfattende analyse av ble det avdekket en klar skjevhet i hvor ofte de forskjellige lydklippene faktisk ble benyttet til syntetisering. På bakgrunn av analyseresultatene har det blitt utviklet to nye syntesedatabaser som kun inneholder 90 % av lydklippene fra den opprinnelige syntesedatabasen, mens de 10 % minst brukte ytringene er tatt vekk. Til tross for reduksjonen, viser objektive og subjektive tester at ytelsen er like god for alle de tre syntesedatabasene. Det er ingen markant forskjell på databasenes difondekning eller hvilke setninger som kan syntetiseres, og den produserte talen er i stor grad av samme kvalitet. Det opprinnelige TTS-systemet produserer i stor grad tale av god kvalitet, men håndterer ikke situasjoner hvor en ytring med difoner som ikke eksisterer i syntesedatabasen forsøkes syntetisert. Resultatet er at ingen deler av en slik ytring lar seg syntetisere. Det har derfor blitt utviklet et sett med substitusjons- og omskrivningsregler for å endre om på den fonemiske transkripsjonen til ytringene dette gjelder. Tanken er å bytte ut et difon med et annet som høres tilnærmet likt ut, men som også er representert i syntesedatabasen. Arbeidet har resultert i at alle setninger lot seg syntetisere under testing av systemet. I tillegg er den produserte talen i stor grad av god eller akseptabel kvalitet.nb_NO
dc.languagenornb_NO
dc.publisherInstitutt for elektronikk og telekommunikasjonnb_NO
dc.subjectntnudaimno_NO
dc.titleHøykvalitets norsk talesyntesenb_NO
dc.title.alternativeHigh Quality Norwegian Speech Synthesisnb_NO
dc.typeMaster thesisnb_NO
dc.source.pagenumber65nb_NO
dc.contributor.departmentNorges teknisk-naturvitenskapelige universitet, Fakultet for informasjonsteknologi, matematikk og elektroteknikk, Institutt for elektronikk og telekommunikasjonnb_NO


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record