Filtering of digital noise in investigations
Description
Full text not available
Abstract
De siste årene har fagfeltet digital kriminalteknikk stadig møtt utfordringer pågrunn av økende mengder data. Dette er den samme dataen som etterforskeremanuelt må gjennomgå og vurdere for å finne spor som er relevant for videre ana-lyse. Maskinlæring og kunsting intelligens har blitt tatt i bruk på mange områderfor å hjelpe mennesker med klassifisering og vurdering av store datamengder.Samtidig ser det ut til at denne utviklinge lar vente på seg innen digital krminal-teknikk.
I dette prosjektet lager jeg et treningssett med data sikret ved hjelp av krim-inaltekniske metoder. Målet er å trene en maskinlæringsmodell som kan identifis-ere irrelevant digital data i en etterforskning, og samtidig å undersøke om dennetilnærmingen har noe for seg. Dataen blir preprosessert ved at de blir konvertert tilgråskala bilder og så brukt som treningsdata i et konvolusjonelt nevralt nettverk(eng. convolutional neural network).
Jeg viser at prosessen og treningen gir lovende resultater med tanke på hensiktentil prosjektet, og jeg diskuterer forbedringspotensiale og ulike områder som kandanne grunnlag for videre prosjekter. Digital forensics have for some time been facing challenges because of increasingamounts of data that is seized during an investigation. This is the same data thatinvestigators need to manually review while trying to identify relevant data suit-able for further analysis. While machine learning has been implemented in manyareas to aid humans in processing large amounts of data, this implementationseems to be somewhat limited within the field of digital forensics.
In this project I create a dataset from file systems acquired using forensic meth-ods. The aim is to attempt to train a machine learning classifier that can identifyirrelevant data in an investigation, and to see if this approach at all is feasible.I preprocess the data by converting the files into images and the train the datausing a convolutional neural network.
I show that the chosen approach and the experiment itself shows promisingresults with regards to the aim of the project, and I also discuss possible improve-ments and suggestions for further research into this area.