Artificial Residual Noise in Machine Learning
Abstract
Innen området for digital etterforskning av lyd har det vært en viss skepsis til bruken av maskinlæringsmodeller i forbindelse med fjerning av bakgrunnsstøy. Selv om støydemping ved hjelp av maskinlæring kan gi både effektivitet og hjelpe til med å håndtere mengden data som en etterforsker vil stå overfor, har det ikke blitt tatt i bruk som en standardløsning. En av hovedårsakene til dette er sannsynlig pålitelighet. Når man arbeider innen etterforskning, er viktigheten av å opprettholde integritet og sporbarhet knyttet til de tilgjengelige dataene avgjørende. Hvis disse prinsippene brytes, kan det få hele etterforskningen til å kollapse. Et eksempel på integritetsbrudd er når bruk av maskinlæring som utfører støydemping, tilfører kunstig reststøy.Vi vil derfor undersøke kunstig reststøy med mål om å bedre forstå hvordan det kan oppdages, og mulige implikasjoner for digital etterforskning. Gjennom eksperimentering vil vi replikere kunstig reststøy i forskjellige maskinlæringsmodeller. Effektiviteten til gjeldende målemetoder for lydkvalitet og resultater fra eksperimentene blir analysert og diskutert. Forskjeller mellom typene maskinlæringsalgoritmer som brukes i eksperimentet blir også evaluert for å evaluere hvor mye kunstig reststøy de produserer basert på type lydstøy. Vi presenterer en metode for å avdekke indikatorer for når kunstig reststøy oppstår, og diskuterer viktigheten av å oppdage og håndtere kunstig reststøy for å unngå å krenke integriteten til de aktuelle dataene.Det endelige målet med denne oppgaven er å skape bevissthet og forståelse for kunstig reststøy, og presentere en ny metode for å oppdage det og forklare hva som kan gå galt fra et digitalt etterforskningsperspektiv. Ved å rette søkelyset på dette problemet med gjeldende maskinlæringsmetoder, er hensikten å rette mer oppmerksomhet mot forskning på tilpasningsmetoder for lydetterforskning. In the area of audio forensics there has been some skepticism toward the application of noise suppression by machine learning models. Even if noise suppression using machine learning could add both efficiencies and help out handling the amount of data that an investigator would be facing, it has not been adopted as a go-to solution. One major reason for this is likely reliability. When working within the field of forensics, the importance of maintaining integrity and chain of custody related to the data at hand is essential. If these principles are violated, it can make the entire investigation collapse. An example of integrity violation is through the application of machine learning when performing noise suppression, and manifestation of artificial residual noise.We will therefore investigate artificial residual noise with the goal of better understanding how it can be detected, and possible implications for digital forensics and investigations. Through experimentation we will replicate artificial residual noise in different machine learning models. Efficiency of current audio quality measurement methods and results from the experiments are analysed and discussed. Difference between the types of machine learning algorithms used in the experiment are also evaluated to determine how much artificial residual noise they produce based on type of audio noise. We present a method for detecting indicators for when artificial residual noise occur, and discusses the importance of discovering and mitigating artificial residual noise in order to avoid violating the integrity of the data at hand.The ultimate goal of this thesis is to create awareness and understanding of artificial residual noise, and providing a novel method for detecting it and explaining what can go wrong from a digital forensic perspective. By directing the spotlight on this problem with current machine learning methods, the intention is to draw more attention towards research on adapting methods for audio forensics.