Vis enkel innførsel

dc.contributor.advisorJohnsen, Jan William
dc.contributor.authorBakken, Martin Schiefloe
dc.date.accessioned2023-10-27T17:19:47Z
dc.date.available2023-10-27T17:19:47Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:146715749:34515899
dc.identifier.urihttps://hdl.handle.net/11250/3099239
dc.description.abstractKriminalitet på internett utvikler seg i dag med et stadig større tempo. Kriminelle aktører benytter seg av nettsider for å spre ulovlig innhold, og til kjøp og salg av ulovlige varer og tjenester. Gjennom disse sidene kan aktørene utvikle et tett samarbeid, hvor de kan kjøpe hverandres kunnskap for å fasilitere sin egen kriminalitet. Denne nye forretningsmodellen er kjent som kriminalitet som tjeneste (CaaS). For å bekjempe nettkriminalitet er det nødvendig å identifisere og avvikle disse nettsidene. Denne masteroppgaven utfører et eksperiment for å identifisere ondsinnede nettsider ved hjelp av informasjon hentet fra WHOIS og SSL sertifikatene tilknyttet domenene. Ved å bruke denne informasjonen kan klassifiseringen skje tidlig i nettsidenes levetid, ettersom WHOIS informasjon genereres ved nettsidens registrering. SSL sertifikatene gir informasjon om serverene som nettsidene er tilgjengelige fra. Klassifiseringen er gjort av de fem maskinlæringsalgoritmene, “Random Forest”, “AdaBoost”, “Naive Bayes”, “Quadratic Discriminant Analysis” og “Multi-Layer Perceptron”. Deres resultater og ytelse er videre vurdert. For å forbedre algoritmenes prestasjon, ble treningsdataen balansert ved å bruke to forskjellige resamplingsteknikker: undersampling og oversampling. Ettersom denne oppgaven har brukt et datasett som inneholder personlig informasjon, utføres også passende risikoanalyser. I tillegg er etiske dilemmaer ved bruk av personlig informasjon i forskning adressert. Modellen som hadde best ytelse var Random Forest, som ved bruk av undersampling, oppnådde tilbakekall på 0.78 og en nøyaktighet på 0.76. Gjennom dette eksperimentet ønsker masteroppgaven å finne ut hvilke maskinlæringsalgoritmer som utpeker seg ved ondsinnet nettsideidentifikasjon og hvilke typer informasjon fra WHOIS og SSL sertifikater som kan bidra til å klassifisere ondsinnede nettsider.
dc.description.abstractCybercrime is evolving at an ever-increasing rate. Criminal actors are using websites to host illegal content and sell illegal goods and services, closely collaborating with each other. This new way of collaboration, where exact needs can be filled to facilitate further crimes, has evolved into the business model known as Crime as a Service. Mitigating online criminality is dependent on website detection and takedown. This Master’s thesis presents an experiment identifying malicious websites based on features extracted from the WHOIS records and SSL certificates of the domains. Using this information can ease early detection of malicious websites as WHOIS records are generated when the domain is registered. Furthermore, SSL certificates reveal information about the server hosting the domain. This thesis performs classification with the five machine learning algorithms, Random Forest, AdaBoost, Naive Bayes, Quadratic Discriminant Analysis, and Multi-Layer Perceptron, whose performance is compared and assessed. The training dataset was resampled to improve the performance of the classifiers using undersampling and oversampling. Using a dataset containing personal information, the thesis also performs adequate risk assessments and addresses ethical considerations using personal information in research. The top-performing classifier was the Random Forest model using random undersampling to generate the balanced training dataset, achieving a recall score of 0.78 and an accuracy score of 0.76. Through the experiment, the thesis aims at providing insight into promising machine learning models for website classification, and what features generated from WHOIS records and SSL certificates can be used to identify malicious websites.
dc.languageeng
dc.publisherNTNU
dc.titleWebpage Fingerprinting using Infrastructure-based Features
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel