The use of Levenshtein distance in computer forensics

2005

NORSK:

Vi benytter oss av datateknologi i stadig størrre grad, og denne teknologien er i ferd med

å bli en viktig del av vår hverdag. Bruk av denne teknologien åpner opp mange nye muligheter,

men kan også misbrukes til å begå kriminelle handlinger. I slike sammenhenger

benyttes dataetterforskere for å undersøke data og aktuelle digitale medier etter spor og

bevis på slike handlinger. Etterforskningsarbeidet har tradisjonelt sett i stor grad vært

basert på en stor grad av manuelle operasjoner der dataetterforskeren selv har inspisert

dataene. Etterhvert som teknologien videreutvikles, møter man imidlertid stadig større

datamengder som må behandles, mens tilgjengelig tid for å etterforske en sak i stor grad

er konstant. Dette kan i sin tur føre til at søkene etter bevis blir mindre grundige, med

mulig tap av bevis som resultat.

I denne oppgaven ses det nærmere på problemet rundt håndtering av de store datamengder

som finnes i dagens systemer, sett i en dataetterforsknings-kontekst. Videre

forslås en metode der en omtrentlig søkealgoritme benyttes til å fokusere på interessante

deler av et digitalt medie eller disk. Som et resultat kan disse områdene undersøkes nærmere

av mer presise algoritmer, og på denne måten lokalisere digitale bevis på en mer

effektiv måte.

ENGELSK:

Computer technology is gaining widespread use, and is becoming an increasingly important

factor in our everyday lives. This technology opens up new possibilities, but may

also be used as a tool of crime. To counter this, computer forensics professionals analyse

data in memory and hard drives for clues and evidence of such criminal activities. This

work has previously included a significant amount of manual labour, where a computer

forensics investigator manually inspected the data. As technology progresses, however,

these investigators are faced with a steadily increasing amount of data to process, while

available time for investigations remains relatively constant. This may result in less thorough

searches, in order to meet a strict deadline, with possible loss of evidence as a

result.

In this thesis a closer look into the problem of handling the increasing data amounts

present in modern computer systems in a computer forensics context has been taken.

We further suggest an alternative way to process large amounts of raw data, with the

use of an approximate search algorithm to help focusing on interesting areas of a digital

media. These areas may then subsequently be searched and inspected by more precise

algorithms in order to pin-point digital evidence more efficiently.