Comparison of Wavelet Transforms and STFTs in Classification of Outdoor Noise
Abstract
Denne masteroppgaven presenterer en sammenligning mellom to tid-frekvens transformasjoner ved å bruke dem i et klassifikasjonsproblem med et konvolusjonalt neuralt nettverk (CNN).De aktuelle transformasjonene er wavelet transformasjonen og den godt kjente og populæreShort-time Fourier transformasjonen (STFT). Datasettet som brukes for å gjøre denne sammenligningen består av elleve forskjellige lyder, eller støy, som vanligvis finnes på byggeplasser. Forå gjennomføre sammenligningen ekstraheres de to-dimensjonale matrisene, kjent som spektrogram og scaleograms, ved å bruke transformasjonene før et CNN blir trent opp med dem. Såblir forskjellige beregninger assosiert med dataklassifikasjon kalkulert med et testsett. Det erdisse beregningene som til slutt sammenlignes. Sammenligning av resultater, basert på forskjellige konfigurasjoner av hver transformasjon vil gi en indikasjon på om en av transformasjonenekan utkonkurrere den andre. Resultatene indikerer at ingen av transformasjonene utkonkurrerer den andre direkte, men at det fortsatt er interessante resultater og forskjeller som kanobserveres ved å se på isolerte beregninger. Begge transformasjonene har flere parametere somkan endres, og resultatene blir på grunn av dette helt avhengig av å velge passende konfigurasjoner for ekstraksjonene. Resultatene indikerer også at begge transformasjonene har godeoppløsningsutbytter mellom tid og frekvens for forskjellige klasser. Valget av korrekt transformasjon kan derfor argumenteres for å være høyst avhengig av hvilket datasett som brukes ogat ingen transformasjon kan sies å være generelt bedre enn den andre. This thesis presents a comparison between two time-frequency transforms by using them in aclassification problem with a convolutional neural network(CNN). The transforms in question are the wavelet transform and the well known and popular Short-time Fourier transform(STFT). The data used to conduct the comparison is a collection of eleven different sounds,or noises, traditionally found on construction sites. To be able to do a comparison, the twodimensional arrays known as spectograms and scaleograms are extracted from the transformsas features before a CNN is trained with them. The resulting metrics, associated with classification problems, are then compared for the different features using a test set of the data. Thiswill indicate if one of the transforms outperform the other, based on different configurationparameters for each transforms. The results indicates that neither of the two transforms canoutperform the other overall, but there is still interesting results and differences found by comparing different classification metrics isolated. Both transforms have several parameters thatcan be tuned, and the results are heavily dependant on choosing the optimal configurationsfor the feature extraction. The results indicate that the two transforms both have a favourableresolution trade-off in time and frequency for different classes. The choice of transform cantherefore be argued to be dependent on the data itself and not the notion that one, in general,is superior to the other.