Vis enkel innførsel

dc.contributor.authorZhang, Heng
dc.date.accessioned2013-08-15T11:37:25Z
dc.date.available2013-08-15T11:37:25Z
dc.date.issued2013
dc.identifier.urihttp://hdl.handle.net/11250/143958
dc.description.abstractENGLISH: As the rapid development of high-technology, more and more novel and interesting applications and systems emerge. For example, people are willing to share their life any time any where just by accessing their Facebook accounts. In the same time, the popularity of mobility offices and fault-tolerance working platforms are becoming more and more hot than ever. For example, Dropbox is an popular cloud storage services among the world in recently. In addition, Google collaboration platform is one of the most successful business application for global users to work together in any time, even if they are not in the same office geologically. It is not difficult to find that more similar examples regarding to this concern. However, Nothing is prefect forever. Technology is a double-edged sword, especially in the information technology field. It pops up a lot of challenges. Consequently, digital forensics investigators pop up a significant question of how to implement large scale digital forensics investigation on big data effectively. It is impossible to handle those cases manually. However, some advanced techniques have been developed by research communities. For example, machine learning techniques are one of the most suitable candidate solutions to handle these big data cases. The significant merit for applying machine learning techniques is not only to introduce an automatic way of working, but also to process those complicated cases with higher precision than other means. Machine learning techniques consist of these stages, input gathering, data preprocessing, algorithm designing & deploying and output evaluation. The data preprocessing is an inevitable step for achieving better performance from machine learning techniques. However, research societies pay a lot of effort on advanced machine learning algorithm development and performance optimization. The crucial step of data preprocessing seems to be regarded by the same significance. This is the motivation for us to conduct this piece of work in this field. In this paper, we are going to address how to facilitate the implementation of largescale digital forensics investigation on big data set with the help of our data preprocessing solution. The methodology introduced in this paper is a hybrid solution based the stochastic theory, Grubbs’ criterion and the machine learning method, K Nearest Neighbour (KNN) algorithm. The complete technique contains two round of preprocessing work. While, the performance study on experiment results reflects a considerable achievement by our solution.no_NO
dc.description.abstractNORSK: Med den hurtige utviklingen av høyteknologi, fremtrer flere og flere nye og interessante programmer og systemer. For eksempel er folk villige til å dele sitt liv når som helst og hvor som helst gjennom sine Facebook-kontoer. Samtidig øker populariteten av mobile kontorloesninger og feiltoleranse-arbeidsplattformer. Eksempelvis er Dropbox en nyere og populær skylagringstjeneste som er i bruk i de fleste land i verden. I tillegg er Google sin samarbeidsplattform en av de mest suksessfulle forretningsapplikasjonene som gjoer det mulig for brukere å jobbe sammen når som helst rundt om i verden, uten å måtte være på samme geologiske lokasjon. Det er ikke vanskelig å finne flere lignende eksempler som omfatter dette. Uansett er ingen ting perfekt for alltid. Teknologi er et tveegget sverd, spesielt i feltet for informasjonsteknologi. Det dukker opp mange utfordringer. Derfor har digitale etterforskere stilt et betydelig spørsmål om hvordan å effektivt implementere storskala digital etterforskning av "big data". Det er umulig å behandle de etterforskningssakene manuelt. Allikevel har noen avanserte teknikker blitt utviklet av forskningssamfunn. For eksempel er maskinlæringsteknikker en av de beste kanditatløsningene for å håndtere etterforskningssaker av "big data". Den betydelige fordelen med å anvende maskinlæringsteknikker er ikke bare at the introduseres en automatisk måte å få ting til å fungere, men også å kunne behandle de kompliserte etterforskningssakene med høyere presisjon enn andre metoder. Maskinlæringsteknikker består av disse stadiene, innsamling av inndata, preprosessering av data, algoritmeutforming & -distribusjon og evaluering av utdata. Databehandlingen er et uunngåelig steg for å oppnå bedre ytelse fra maskinlæringsteknikker. Allikevel bruker forskningssamfunn mye krefter på utvikling og ytelsesoptimalisering av avanserte maskinlæringsteknikker. Det avgjørende stadiet for preprosessering av data ser ut til å ha vært oversett lenge. Dette er motivasjonen vår for å gjennomføre dette arbeidet i dette uutforskede feltet. I denne rapporten vil diskutere om hvordan å legge til rette for implementasjon av digital etterforskning av "big data" i storskala, ved å bruke vår løsning for preprosessering av data. Metodologien som blir introdusert i denne rapporten er en hybridløsning basert på teori om stokastisitet, Grubbs’ kriterium og maskinlæringsmetoden, KNNalgoritmen. Den fullstendige teknikken inneholder to runder med preprosesseringsarbeid. Samtidig reflekterer ytelsesanalysen av eksperimentresultater i løsningen vår en betydelig prestasjon.no_NO
dc.language.isoengno_NO
dc.subjectinformation securityno_NO
dc.subjectdigital forensicsno_NO
dc.titleA novel data preprocessing solution for large scale digital forensics investigation on big datano_NO
dc.typeMaster thesisno_NO
dc.subject.nsiVDP::Mathematics and natural science: 400::Information and communication science: 420::Security and vulnerability: 424no_NO
dc.source.pagenumber134no_NO


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel