Triage of PE-files through divide-and-conquer clustering

Bae, Sturla Høgdahl

dc.contributor.advisor	Dyrkolbotn, Geir Olav
dc.contributor.author	Bae, Sturla Høgdahl
dc.date.accessioned	2021-09-23T19:05:47Z
dc.date.available	2021-09-23T19:05:47Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:56390147:16523410
dc.identifier.uri	https://hdl.handle.net/11250/2781119
dc.description.abstract	Antallet nye, unike ondsinnede filer som oppdages hver dag øker stadig. Grunnen til at det oppdages så mange nye filer, er ikke at det lages så mange helt nye varianter av skadevare hver dag, men fordi små endringer blir gjort på eksisterende ondsinnede filer. Det kan være nok å endre én enkelt bit for å få en fil til å fremstå som en helt ny fil, samtidig som filen fortsatt vil utføre akkurat samme handling. Etter hvert som antallet nye filer vokser, kan det bli umulig å analysere alle nye filer i dybden. I verste fall, kan dette føre til at nye varianter av ondsinnede filer forblir uoppdaget over en lengre tidsperiode. Etter som en stor andel av de "nye" filene bare er mindre variasjoner av andre filer, bør det ikke være nødvendig å analysere alle filer i dybden. Ved å analysere én enkelt fil i dybden, kan man forutsi hvilken familie av skadevare lignende filer tilhører, og merke disse filene basert på dette. Ved å gjøre dette, vil antallet filer som må analyseres i dybden reduseres i stor grad. En metode som gjør det mulig å identifisere lignede filer raskt og effektivt, er gruppering av filer basert på statiske egenskaper. Mange egenskaper kan benyttes for å gruppere filer. Ved å kombinere egenskaper som utfyller hverandre, kan man potensielt finne flere filer som ligner på hverandre enn hvis man kun benytter én egenskap. Det kan derfor være nyttig å benytte flere egenskaper. Noen egenskaper gjør det mulig å gruppere filer på raskere måter enn andre. Hvilke egenskaper man benytter kan dermed avgjøre hvor tidkrevende og kostbart det vil være å gruppere filer. I et forsøk på å øke presisjonen eller redusere tiden det tar å gruppere filer, kan man benytte splitt-og-hersk algoritmen. Dette innebærer å gruppere filer ulikt, basert på egenskapene til filene. Først og fremst grupperes filene ved hjelp av egenskaper som er raske å gruppere etter, og dersom man ikke klarer å identifisere en merkelapp for filer basert på dette, blir det gjort et nytt forsøk på å gruppere filene med egenskaper som er tregere å gruppere etter. Denne rapporten beskriver den foreslåtte metoden, et konseptbevis som har blitt implementert for å evaluere om hvor nyttig metoden er, en sammenligning mellom den foreslåtte metoden og enklere metoder for å gruppere filer, samt utfordringene ved å prioritere filer og å evaluere resultater.
dc.description.abstract	The number of new, unique malicious files detected every day is steadily increasing. The reason why so many new files are detected, is not that so many new families of malware are created every day, but because minor modifications are made to existing malicious files. Changing a single bit is enough to make a file appear as an entirely new file, even though the behaviour of the file remains the same. As the number of new files grows, it can eventually become infeasible to analyse all new files in-depth. Worst case, this could lead to new variants of malicious files going undetected for a longer period. Since a large share of the "new " files are mere variations of other files, in-depth analysis should not be necessary for all files. By analysing a single file in-depth, one can predict the label of all similar files. This way, the number of files in need of in-depth analysis would be reduced greatly. A method that allows quick identification of similar files, is clustering based on static properties. Numerous features can be used in clustering. By combining features that complement each other, it can be possible to identify more files that are similar. It can therefore be wise to use several features. Some features allow clustering to be performed with quicker methods than others. How time-consuming and costly it is to cluster files, can therefore be determined by the choice of features. In an attempt to increase the precision or reduce the execution time of clustering files, the divide-and-conquer algorithm could be applied. This involves clustering files differently, based on the properties of the files. Primarily the files should be clustered using features that allow quick clustering, and if a label cannot be determined by this, a new attempt can be made with features that are slow to cluster files by. Provided that using fast features will be enough in most cases, it will be possible to cluster files quicker than if all features were used on all files. This thesis describes the proposed method, a proof of concept implemented to evaluate if the method has merit, a comparison between the proposed method and more basic clustering methods, and the challenges related to performing triage and evaluating result.
dc.language
dc.publisher	NTNU
dc.title	Triage of PE-files through divide-and-conquer clustering
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:56390147:16523 ...
Size:: 5.771Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2522]

Show simple item record