A novel data preprocessing solution for large scale digital forensics investigation on big data
Master thesis
Åpne
Permanent lenke
http://hdl.handle.net/11250/143958Utgivelsesdato
2013Metadata
Vis full innførselSamlinger
Sammendrag
ENGLISH: As the rapid development of high-technology, more and more novel and interesting applications
and systems emerge. For example, people are willing to share their life any time
any where just by accessing their Facebook accounts. In the same time, the popularity of
mobility offices and fault-tolerance working platforms are becoming more and more hot
than ever. For example, Dropbox is an popular cloud storage services among the world in
recently. In addition, Google collaboration platform is one of the most successful business
application for global users to work together in any time, even if they are not in the same
office geologically. It is not difficult to find that more similar examples regarding to this
concern.
However, Nothing is prefect forever. Technology is a double-edged sword, especially
in the information technology field. It pops up a lot of challenges. Consequently, digital
forensics investigators pop up a significant question of how to implement large scale
digital forensics investigation on big data effectively. It is impossible to handle those
cases manually. However, some advanced techniques have been developed by research
communities. For example, machine learning techniques are one of the most suitable
candidate solutions to handle these big data cases. The significant merit for applying
machine learning techniques is not only to introduce an automatic way of working, but
also to process those complicated cases with higher precision than other means. Machine
learning techniques consist of these stages, input gathering, data preprocessing, algorithm
designing & deploying and output evaluation.
The data preprocessing is an inevitable step for achieving better performance from
machine learning techniques. However, research societies pay a lot of effort on advanced
machine learning algorithm development and performance optimization. The crucial step
of data preprocessing seems to be regarded by the same significance. This is the motivation
for us to conduct this piece of work in this field.
In this paper, we are going to address how to facilitate the implementation of largescale
digital forensics investigation on big data set with the help of our data preprocessing
solution. The methodology introduced in this paper is a hybrid solution based
the stochastic theory, Grubbs’ criterion and the machine learning method, K Nearest
Neighbour (KNN) algorithm. The complete technique contains two round of preprocessing
work. While, the performance study on experiment results reflects a considerable
achievement by our solution. NORSK: Med den hurtige utviklingen av høyteknologi, fremtrer flere og flere nye og interessante
programmer og systemer. For eksempel er folk villige til å dele sitt liv når som helst og
hvor som helst gjennom sine Facebook-kontoer. Samtidig øker populariteten av mobile
kontorloesninger og feiltoleranse-arbeidsplattformer. Eksempelvis er Dropbox en nyere
og populær skylagringstjeneste som er i bruk i de fleste land i verden. I tillegg er Google
sin samarbeidsplattform en av de mest suksessfulle forretningsapplikasjonene som gjoer
det mulig for brukere å jobbe sammen når som helst rundt om i verden, uten å måtte være
på samme geologiske lokasjon. Det er ikke vanskelig å finne flere lignende eksempler som
omfatter dette.
Uansett er ingen ting perfekt for alltid. Teknologi er et tveegget sverd, spesielt i feltet
for informasjonsteknologi. Det dukker opp mange utfordringer. Derfor har digitale etterforskere
stilt et betydelig spørsmål om hvordan å effektivt implementere storskala digital
etterforskning av "big data". Det er umulig å behandle de etterforskningssakene manuelt.
Allikevel har noen avanserte teknikker blitt utviklet av forskningssamfunn. For eksempel
er maskinlæringsteknikker en av de beste kanditatløsningene for å håndtere etterforskningssaker
av "big data". Den betydelige fordelen med å anvende maskinlæringsteknikker
er ikke bare at the introduseres en automatisk måte å få ting til å fungere, men også
å kunne behandle de kompliserte etterforskningssakene med høyere presisjon enn andre
metoder. Maskinlæringsteknikker består av disse stadiene, innsamling av inndata,
preprosessering av data, algoritmeutforming & -distribusjon og evaluering av utdata.
Databehandlingen er et uunngåelig steg for å oppnå bedre ytelse fra maskinlæringsteknikker.
Allikevel bruker forskningssamfunn mye krefter på utvikling og ytelsesoptimalisering
av avanserte maskinlæringsteknikker. Det avgjørende stadiet for preprosessering
av data ser ut til å ha vært oversett lenge. Dette er motivasjonen vår for å gjennomføre
dette arbeidet i dette uutforskede feltet.
I denne rapporten vil diskutere om hvordan å legge til rette for implementasjon av
digital etterforskning av "big data" i storskala, ved å bruke vår løsning for preprosessering
av data. Metodologien som blir introdusert i denne rapporten er en hybridløsning
basert på teori om stokastisitet, Grubbs’ kriterium og maskinlæringsmetoden, KNNalgoritmen.
Den fullstendige teknikken inneholder to runder med preprosesseringsarbeid.
Samtidig reflekterer ytelsesanalysen av eksperimentresultater i løsningen vår en
betydelig prestasjon.