Vis enkel innførsel

dc.contributor.advisorSvensson, Peter
dc.contributor.authorMoen, Marcus
dc.date.accessioned2022-06-29T17:19:38Z
dc.date.available2022-06-29T17:19:38Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:96436158:36330744
dc.identifier.urihttps://hdl.handle.net/11250/3001602
dc.descriptionFull text not available
dc.description.abstractOvervåkningsystemer blir implementert i flere og flere sammenhenger, både til privat og offentlig bruk. Automatiserte overvåkningsystemer grunner seg i dag for det meste på video kameraer og maskinlæringsteknikker basert på visuell data, som ofte mangler robustheten og påliteligheten som kreves i mange reelle applikasjoner. Et forslag er å i stedet bruke lyd som input for et overvåkningssystem. I denne masteroppgaven vil det bli presentert en metode for å detektere farlige situasjoner i et parkeringshus ved hjelp av lyd. Lydklippene ble analysert ved bruk av Mel Frequency Cepstral Coefficients (MFCC), før dataen ble puttet inn i en maskinlærings-algoritme basert på Support Vector Machines (SVM). Forskjellige konfigurasjoner for både ekstraksjonsmetoden og maskinlæringen ble brukt og sammenlignet i resultatene. En metode ble i tillegg implementert for å behandle lydklipp som stammet fra data som ikke var en del av treningsdataen i maskinlæringsprosessen. I tillegg ble det analysert hvorvidt den høye akustiske etterklangen som finnes de flest parkeringshus vil påvirke resultatene. Resultatene viste at metoden klarte å klassifisere lydklippene med en nøyaktighet på 84.5%, og at etterklang ikke påvirket resultatene negativt. Med metoden som skulle behandle andre typer lydklipp, sank nøyaktigheten ned til ca. 60-70% avhengig av hvilken terskel som var valgt.
dc.description.abstractSurveillance systems are being implemented in more and more contexts, both for private and public use. Automated surveillance systems today are mostly based on video cameras and machine learning techniques based on visual data, which often lack the robustness and reliability required in many real-world applications. One suggestion is to instead use sound as input for a surveillance system. In this master's thesis, a method will be presented for detecting dangerous situations in a parking garage using sound. The sound clips were analyzed using Mel Frequency Cepstral Coefficients (MFCC), before the data was put into a machine learning algorithm based on Support Vector Machines (SVM). Different configurations for both the extraction method and the machine learning were used and compared in the results. A method was also implemented to process audio clips derived from data that were not part of the training data in the machine learning process. In addition, it was analyzed whether the high acoustic reverberation found in most parking garages will affect the results. The results showed that the method was able to classify the sound clips with an accuracy of 84.5%, and that reverberation did not affect the results negatively. With the method that was to process other types of sound clips, the accuracy dropped down to approximately 60-70% depending on which threshold was chosen.
dc.languageeng
dc.publisherNTNU
dc.titleSound event classification for surveillance applications in parking garage
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel