Utvidet taleaktivitetsdeteksjon

Parnemann, Henrik Lødrup

dc.contributor.advisor	Svendsen, Torbjørn
dc.contributor.advisor	Birkenes, Øystein
dc.contributor.author	Parnemann, Henrik Lødrup
dc.date.accessioned	2017-06-14T14:00:50Z
dc.date.available	2017-06-14T14:00:50Z
dc.date.created	2014-06-14
dc.date.issued	2014
dc.identifier	ntnudaim:12127
dc.identifier.uri	http://hdl.handle.net/11250/2446050
dc.description.abstract	I denne rapporten er det undersøkt og utviklet et system for deteksjon av taleaktivitet i et vilkårlig lydsignal. Dette er utvidet med mulighet for å også detektere korte, brå, energirike lyder, såkalte transientlyder. Transientdeteksjon er ønsket brukt i lydnivåutjevnings-system for å kunne redusere uønsket langvarig dempning av tale som umiddelbart etterfølger transientlyder. I denne perioden med stor dempning reduseres talenivået såpass mye at innholdet kan oppleves som uhørlig. Systemet som er implementert er basert på rammevis, glattet, logaritmisk delbånds-energi som deteksjonsegenskap. Deteksjonen gjøres individuelt per delbånd, og avgjøres for rammen basert på et simpelt, vektet flertall. En statistisk energifordelingsmodell ligger til grunn, der signalet deles i to modellkomponenter: støy/ikke-tale og tale. Det antaes at inngangssignalet til en hver tid består av en støykomponent, samt en tidvis talekomponent. Energifordelingen for hver av disse to lydklassene modelleres som normalfordelinger med parametersett gitt av fire parametre for hver av de to modellkomponentene. Dermed kan det beregnes hvor sannsynlig det er at en gitt lydramme hører til disse to fordelingene. Modellparametrene estimeres initielt med forventningsmaksimering, og oppdateres etter hvert som systemet kjøres. Transientdeteksjonsegenskapen som benyttes er basert på sannsynlighetsmålet for klassetilhørighet, der rammen klassifiseres som transientlyd om denne sannsynligheten er tilstrekkelig lav for de to modellkomponentene. Transientdeteksjonsnøyaktigheten har tidligere lidd ved lengre perioder uten talepåtrykk, ettersom modellens talekomponent oppdateres fortløpende med støydata som grunnlag (problemet omtales som driving). For etterfølgende, reell taleaktivitet vil sannsynligheten for klassetilhørighet en periode være lav for begge modellkomponentene, og denne taleaktiviteten vil klassifiseres som transientaktivitet. Det er foreslått noen endringer for deteksjonsalgoritmen. Viktigst av disse er innføringen av oppdateringsstopp for modellparametrene ved fravær av taleaktivitet. Det foreslåes å benytte dobbelt parametersett, der det ene oppdateres som normalt, samt danner grunnlag for oppdateringsbetingelsen, mens talekomponentens middelverdiparameter i det andre parametersettet fryses ved indikasjon på fravær av taleaktivitet. Det er forsøkt flere metoder for å avgjøre når modellen burde fryses og ikke, og det er endt på en metode som benytter et vektet snitt av den empiriske komponentsannsynligheten over alle delbånd. Den foreslåtte deteksjonsalgoritmen er implementert i MATLAB fra bunnen av, med sanntidsvennlige løsninger. Det er gjennomført forskjellige tester av algoritmen med og uten de foreslåtte endringene. Resultatene er sammenlignet med andre deteksjonsalgoritmer, og den utvidede taledetektoren oppnår større deteksjonsnøyaktighet i de fleste tilfeller. Transientdeteksjon skiller seg positivt ut med sterkt forbedrede resultater.
dc.language	nob
dc.publisher	NTNU
dc.subject	Elektronikk, Signalbehandling, akustikk og media
dc.title	Utvidet taleaktivitetsdeteksjon
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: 12127_FULLTEXT.pdf
Størrelse:: 5.486Mb
Format:: PDF

Åpne

Filnavn:: 12127_ATTACHMENT.zip
Størrelse:: 7.845Mb
Format:: application/zip

Åpne

Filnavn:: 12127_COVER.pdf
Størrelse:: 1.124Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2288]

Vis enkel innførsel