A novel data preprocessing solution for large scale digital forensics investigation on big data

Zhang, Heng

Zhang, Heng

Master thesis

Åpne

HZhang.pdf (6.552Mb)

Permanent lenke

http://hdl.handle.net/11250/143958

Utgivelsesdato

2013

Metadata

Vis full innførsel

Samlinger

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2623]

Sammendrag

ENGLISH: As the rapid development of high-technology, more and more novel and interesting applications

and systems emerge. For example, people are willing to share their life any time

any where just by accessing their Facebook accounts. In the same time, the popularity of

mobility offices and fault-tolerance working platforms are becoming more and more hot

than ever. For example, Dropbox is an popular cloud storage services among the world in

recently. In addition, Google collaboration platform is one of the most successful business

application for global users to work together in any time, even if they are not in the same

office geologically. It is not difficult to find that more similar examples regarding to this

concern.

However, Nothing is prefect forever. Technology is a double-edged sword, especially

in the information technology field. It pops up a lot of challenges. Consequently, digital

forensics investigators pop up a significant question of how to implement large scale

digital forensics investigation on big data effectively. It is impossible to handle those

cases manually. However, some advanced techniques have been developed by research

communities. For example, machine learning techniques are one of the most suitable

candidate solutions to handle these big data cases. The significant merit for applying

machine learning techniques is not only to introduce an automatic way of working, but

also to process those complicated cases with higher precision than other means. Machine

learning techniques consist of these stages, input gathering, data preprocessing, algorithm

designing & deploying and output evaluation.

The data preprocessing is an inevitable step for achieving better performance from

machine learning techniques. However, research societies pay a lot of effort on advanced

machine learning algorithm development and performance optimization. The crucial step

of data preprocessing seems to be regarded by the same significance. This is the motivation

for us to conduct this piece of work in this field.

In this paper, we are going to address how to facilitate the implementation of largescale

digital forensics investigation on big data set with the help of our data preprocessing

solution. The methodology introduced in this paper is a hybrid solution based

the stochastic theory, Grubbs’ criterion and the machine learning method, K Nearest

Neighbour (KNN) algorithm. The complete technique contains two round of preprocessing

work. While, the performance study on experiment results reflects a considerable

achievement by our solution.

NORSK: Med den hurtige utviklingen av høyteknologi, fremtrer flere og flere nye og interessante

programmer og systemer. For eksempel er folk villige til å dele sitt liv når som helst og

hvor som helst gjennom sine Facebook-kontoer. Samtidig øker populariteten av mobile

kontorloesninger og feiltoleranse-arbeidsplattformer. Eksempelvis er Dropbox en nyere

og populær skylagringstjeneste som er i bruk i de fleste land i verden. I tillegg er Google

sin samarbeidsplattform en av de mest suksessfulle forretningsapplikasjonene som gjoer

det mulig for brukere å jobbe sammen når som helst rundt om i verden, uten å måtte være

på samme geologiske lokasjon. Det er ikke vanskelig å finne flere lignende eksempler som

omfatter dette.

Uansett er ingen ting perfekt for alltid. Teknologi er et tveegget sverd, spesielt i feltet

for informasjonsteknologi. Det dukker opp mange utfordringer. Derfor har digitale etterforskere

stilt et betydelig spørsmål om hvordan å effektivt implementere storskala digital

etterforskning av "big data". Det er umulig å behandle de etterforskningssakene manuelt.

Allikevel har noen avanserte teknikker blitt utviklet av forskningssamfunn. For eksempel

er maskinlæringsteknikker en av de beste kanditatløsningene for å håndtere etterforskningssaker

av "big data". Den betydelige fordelen med å anvende maskinlæringsteknikker

er ikke bare at the introduseres en automatisk måte å få ting til å fungere, men også

å kunne behandle de kompliserte etterforskningssakene med høyere presisjon enn andre

metoder. Maskinlæringsteknikker består av disse stadiene, innsamling av inndata,

preprosessering av data, algoritmeutforming & -distribusjon og evaluering av utdata.

Databehandlingen er et uunngåelig steg for å oppnå bedre ytelse fra maskinlæringsteknikker.

Allikevel bruker forskningssamfunn mye krefter på utvikling og ytelsesoptimalisering

av avanserte maskinlæringsteknikker. Det avgjørende stadiet for preprosessering

av data ser ut til å ha vært oversett lenge. Dette er motivasjonen vår for å gjennomføre

dette arbeidet i dette uutforskede feltet.

I denne rapporten vil diskutere om hvordan å legge til rette for implementasjon av

digital etterforskning av "big data" i storskala, ved å bruke vår løsning for preprosessering

av data. Metodologien som blir introdusert i denne rapporten er en hybridløsning

basert på teori om stokastisitet, Grubbs’ kriterium og maskinlæringsmetoden, KNNalgoritmen.

Den fullstendige teknikken inneholder to runder med preprosesseringsarbeid.

Samtidig reflekterer ytelsesanalysen av eksperimentresultater i løsningen vår en

betydelig prestasjon.