Hunting malicious scripts using machine learning

Brevig, Torstein

dc.contributor.advisor	Dyrkolbotn, Geir Olav
dc.contributor.advisor	Leder, Felix
dc.contributor.author	Brevig, Torstein
dc.date.accessioned	2021-09-23T19:05:31Z
dc.date.available	2021-09-23T19:05:31Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:56390147:37865080
dc.identifier.uri	https://hdl.handle.net/11250/2781115
dc.description	Full text not available
dc.description.abstract	Siden datamaskiner er i bruk overalt i samfunnet, har ondsinnet programvare (skadevare) vokst til en stor trussel. For eksempel har bruken av ransomware økt de siste årene. En måte å spre slik skadevare på er ved bruk av e-mail. For å forsvare seg mot disse angrepene, kan programmerere analysere skadevaren. Problemet er at forfatterne av skadevaren kan bruke obfuskeringsteknikker for å hindre analyse. Den onsinnede delen av e-mailen kan være tillegget, eller et script som er en del av tillegget. Scriptet kan inneholde skadevaren, eller laste det ned fra internett. Siden dokumenter typisk er laget i Microsoft Office, så er Visual Basic script ofte brukt i slike ondsinnede dokumenter. Disse ondsinnede scriptene er ofte obfuskerte, slik at det er vanskelig å si om de er ondsinnede eller ikke. Metodene vi har for å analysere slike scripts er i dag ikke gode nok. Denne oppgaven foreslår å bruke en maskinlæringsmodell for å detektere obfuskerte scripts, i tillegg til ondsinnede scripts. For å gjøre dette må vi lage eller finne egenskaper som beskriver det typiske ved obfuskerte og/eller ondsinnede scripts. Flere egenskaper fra relaterte arbeider og egne forslag blir presentert og evaluert i denne oppgaven, før de brukes til å klassifisere obfuskerte og ondsinnede Visual Basic scripts. For obfuskeringsklassifieringen klarte vi å redusere antallet egenskaper med 74%, fra 46 til 12, samtidig som klassifikasjonen ble bedre. Klassifiseringen av skadevare viste en svak nedgang i falske positive, men også en svak økning av falske negative tilfeller, ved bruk av den rangerte gruppen av egenskaper sammenliknet med bruk av alle egenskaper.
dc.description.abstract	Since computers are ubiquitous in personal and work life, malicious software (malware) has become an increasingly large threat. For instance in recent years usage of a type of malware called ransomware has increased. One way of spreading such malware is through e-mail. Analysts try to make sense of these pieces of malware, but the malware authors can employ obfuscation techniques to thwart analysis. The malicious part of an e-mail could be the attachment itself, or for instance a script attached to a seemingly innocent document. This script could contain the malware payload, or be used to download the payload from a remote server. Since documents are typically made with Microsoft Office, Visual Basic script is a common occurrence in these malicious documents. The malicious scripts are often obfuscated, making it difficult to tell whether they are malicious or not. Current methods are not adequate for analysing such scripts. This thesis proposes to use a machine learning model in order to detect both obfuscated and malicious Visual Basic scripts. In order to do this, we need to create or find features that describe the classification target in some way. Several features from related works and newly proposed ones are presented and evaluated in this thesis, before they are used to perform the classification of both obfuscated and malicious Visual Basic scripts. For the obfuscation classification we were able to reduce the number of features by 74%, from 46 to 12, while slightly increasing the classifier performance. The malware classification showed a slight decrease in false positives, but also a slight increase in false negatives, when using the ranked feature subset compared to using all features.
dc.language
dc.publisher	NTNU
dc.title	Hunting malicious scripts using machine learning
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2525]

Vis enkel innførsel