Vis enkel innførsel

dc.contributor.advisorSvendsen, Torbjørn
dc.contributor.advisorBirkenes, Øystein
dc.contributor.authorParnemann, Henrik Lødrup
dc.date.accessioned2017-06-14T14:00:50Z
dc.date.available2017-06-14T14:00:50Z
dc.date.created2014-06-14
dc.date.issued2014
dc.identifierntnudaim:12127
dc.identifier.urihttp://hdl.handle.net/11250/2446050
dc.description.abstractI denne rapporten er det undersøkt og utviklet et system for deteksjon av taleaktivitet i et vilkårlig lydsignal. Dette er utvidet med mulighet for å også detektere korte, brå, energirike lyder, såkalte transientlyder. Transientdeteksjon er ønsket brukt i lydnivåutjevnings-system for å kunne redusere uønsket langvarig dempning av tale som umiddelbart etterfølger transientlyder. I denne perioden med stor dempning reduseres talenivået såpass mye at innholdet kan oppleves som uhørlig. Systemet som er implementert er basert på rammevis, glattet, logaritmisk delbånds-energi som deteksjonsegenskap. Deteksjonen gjøres individuelt per delbånd, og avgjøres for rammen basert på et simpelt, vektet flertall. En statistisk energifordelingsmodell ligger til grunn, der signalet deles i to modellkomponenter: støy/ikke-tale og tale. Det antaes at inngangssignalet til en hver tid består av en støykomponent, samt en tidvis talekomponent. Energifordelingen for hver av disse to lydklassene modelleres som normalfordelinger med parametersett gitt av fire parametre for hver av de to modellkomponentene. Dermed kan det beregnes hvor sannsynlig det er at en gitt lydramme hører til disse to fordelingene. Modellparametrene estimeres initielt med forventningsmaksimering, og oppdateres etter hvert som systemet kjøres. Transientdeteksjonsegenskapen som benyttes er basert på sannsynlighetsmålet for klassetilhørighet, der rammen klassifiseres som transientlyd om denne sannsynligheten er tilstrekkelig lav for de to modellkomponentene. Transientdeteksjonsnøyaktigheten har tidligere lidd ved lengre perioder uten talepåtrykk, ettersom modellens talekomponent oppdateres fortløpende med støydata som grunnlag (problemet omtales som driving). For etterfølgende, reell taleaktivitet vil sannsynligheten for klassetilhørighet en periode være lav for begge modellkomponentene, og denne taleaktiviteten vil klassifiseres som transientaktivitet. Det er foreslått noen endringer for deteksjonsalgoritmen. Viktigst av disse er innføringen av oppdateringsstopp for modellparametrene ved fravær av taleaktivitet. Det foreslåes å benytte dobbelt parametersett, der det ene oppdateres som normalt, samt danner grunnlag for oppdateringsbetingelsen, mens talekomponentens middelverdiparameter i det andre parametersettet fryses ved indikasjon på fravær av taleaktivitet. Det er forsøkt flere metoder for å avgjøre når modellen burde fryses og ikke, og det er endt på en metode som benytter et vektet snitt av den empiriske komponentsannsynligheten over alle delbånd. Den foreslåtte deteksjonsalgoritmen er implementert i MATLAB fra bunnen av, med sanntidsvennlige løsninger. Det er gjennomført forskjellige tester av algoritmen med og uten de foreslåtte endringene. Resultatene er sammenlignet med andre deteksjonsalgoritmer, og den utvidede taledetektoren oppnår større deteksjonsnøyaktighet i de fleste tilfeller. Transientdeteksjon skiller seg positivt ut med sterkt forbedrede resultater.
dc.languagenob
dc.publisherNTNU
dc.subjectElektronikk, Signalbehandling, akustikk og media
dc.titleUtvidet taleaktivitetsdeteksjon
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel