Vis enkel innførsel

dc.contributor.advisorØverlier, Lasse
dc.contributor.authorStørkersen, Bror-Lauritz
dc.date.accessioned2022-07-19T17:21:32Z
dc.date.available2022-07-19T17:21:32Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:106263136:25702061
dc.identifier.urihttps://hdl.handle.net/11250/3006988
dc.description.abstractHver dag tas det opp tusenvis av timer med lyd i form av lydopptak og video. Denne lyden må noen ganger kommenteres og transkriberes for å hjelpe hørselshemmede, etterforskere eller muliggjøre skriftlige arkiver. Men å kommentere eller søke gjennom lyd har blitt en svært kostbar affære, og krever at profesjonelle transkriberere bruker timer på å lytte til lyd som kan være irrelevant. Tidskravet er spesielt problematisk i en etterforskningsammenheng da tid kan være avgjørende. I denne masteroppgaven presenterer vi en ny måte å automatisk finne lignende miljølyder. Vi presenterer et testdatasett som viser likhet mellom et sett med lyder, samt \textit{Sound2Vec}, et program for å konvertere lyd til kortformede vektorer som raskt kan sammenlignes mot en database. Sound2Vec bruker bildeklassifisereren ResNet og transfer learning for å trekke ut features. Vi utfører eksperimenter for å måle programmets klassifiseringsnøyaktighet og evne til å finne like lyder. Resultatene viser en topp-1-klassifiseringsnøyaktighet på opptil 75\%, en topp-1 likhetsnøyaktighet på 22\% og en topp-5 likhetsnøyaktighet på opptil 55.5\%. Hver lyd kan klassifiseres eller sammenlignes på mindre enn 200 ms.
dc.description.abstractEvery day, thousands of hours of audio are recorded in the form of raw audio recordings and video. Sometimes, this audio has to be annotated and transcribed to help the hearing impaired, investigators, or enable written archives. But annotating or searching through audio has become a very costly affair, requiring professional transcribers to spend hours listening to audio that might prove to be irrelevant. The time requirement is especially problematic in a forensics context as time can be of the essence. In this master thesis we present a novel way to computationally find similar-sounding environmental sounds. We present a test data set that shows similarity between sounds, as well as \textit{Sound2Vec}, a script to convert audio into short-form vectors that can quickly be compared against a database. Sound2Vec uses the image classifier ResNet and transfer learning to extract features. We perform experiments on classification and similarity measuring and show a top-1 classification accuracy of up to 75\%, a top-1 similarity accuracy of 22\%, and a top-5 similarity accuracy of up to 55.5\%. Each sound could be classified or compared in less than 200 ms.
dc.languageeng
dc.publisherNTNU
dc.titleA Feature Extraction Framework for Measuring Auditory Similarity Between Sounds
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel