Real time detection and analysis of PDF-files
Abstract
ENGLISH: The PDF-file format is a very popular format to perform attacks with due to the format being quite
versatile. A PDF-file can be used as direct attacks against specific targets like the government,
the army or other high value targets. These kinds of attacks may be performed by foreign
intelligence or by organised crime because they have the most to gain by a successful attack.
The attacks are often well obfuscated which makes it easy for users to unintentionally execute
the malware on his/her machine. A PDF-file may for instance contain a well written report with
important information to the user [1], but do also contain malicious code in order to perform
reconnaissance on the target’s network.
This master thesis is a continuation of the results of Jarle Kittilisen’s master thesis in 2011. The
thesis will utilize Kittilsen’s proposed methodology by using the machine learning tool ’support
vector machine’ in order to classify PDF-files as malicious or benign. This thesis will focus on
online detection of PDF-files where as Kittilsen performed post-detection. One of the biggest
problems with an online detection of PDF-files is the time frame from the PDF-file is detected
until it has been classified as either malicious or benign. This master thesis seek to provide
answers for the viability of an online detection system of PDF-files. NORSK: En PDF-fil kan bli brukt som et direkte angrep mot spesifikke mål som f.eks. regjeringen, militæret
eller andre verdifulle mål. Slik angrep kan bli utført av organiserte kriminelle eller utenlandske
etterretningstjenester fordi disse gruppene kan tjene mye på et suksessfullt angrep. Angrepene
er ofte godt gjemt slik at sannsynligheten for at brukere uvitende kjører skadelig kode på deres
PC-er er stor. En PDF-fil kan f.eks. inneholde en godt skrevet rapport med viktig informasjon som
er relevant for brukeren [1], men PDF-filen kan også inneholde kode som kan gjøre det mulig
for angriper å rekogniserer nettverket som brukeren befinner seg på.
Denne masteroppgaven er en videreutvikling basert på resultatene i Jarle Kittilsens
masteroppgave fra 2011 [2]. Masteroppgaven vil bruke Kittilsens foreslåtte metode om å bruke
maskinlærings verktøyet ’support vector machine’ for å kunne klassifisere PDF-filer som godartet
eller skadelig. Masteroppgaven vil fokusere på muligheten for et online deteksjonssystem av PDFfiler
fordi Kittilsen fokuserte på deteksjon av PDF-filer i etterkant av at filene hadde kommet fram
til mottakerne. Et av de største problemene til et online deteksjonssystem er tidsbruken fra en
PDF-fil blir detektert til den har blitt klassifisert som godartet eller skadelig. Denne masteroppgaven
ønsker å finne svar på hvorvidt et online deteksjonssystem for PDF-filer er en reell mulighet.