Vis enkel innførsel

dc.contributor.advisorJohnsen, Jan William
dc.contributor.authorMarjara, Avleen Singh
dc.date.accessioned2024-03-01T18:19:34Z
dc.date.available2024-03-01T18:19:34Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:155686180:43399933
dc.identifier.urihttps://hdl.handle.net/11250/3120733
dc.descriptionFull text not available
dc.description.abstractDen raske veksten av Internett-baserte aktiviteter har ført til en betydelig økning i cybertrusler, med villedende og ondsinnede URL-er som fungerer som et nøkkelverktøy for å spre skadelig programvare, utføre phishing-angrep og initiere forskjellige former for cyberkriminalitet. Ved å bruke maskinlæringsmetoder kan vi antyde legitimiteten til en URL i nær sanntid, noe som er en kritisk utfordring for å sikre brukersikkerhet og opprettholde sikkerheten til brukere og virksomheter. Denne oppgaven tar sikte på å bidra til kunnskap om leksikale og beskrivende attributter for URL-er. Eksperimentene i denne oppgaven er basert på 52 URL-attributter som brukes til å trene maskinlæringsmodeller med Random Forest, XGBoost og KNN. Denne oppgaven utdyper ytterligere forskning innen bruk av maskinlæring for å oppdage ondsinnede URL-er ved å introdusere fire nye attributter: entropi av filsti, entropi av underdomene, samme bokstav brukt tre eller flere ganger på rad og forholdet mellom lengden på underdomenet og lengden på domenet. Ved å introdusere disse attributtene observerte vi en økning i ytelsen i to av våre totalt tre utvalgte algoritmer. Basert på de utførte eksperimentene var vi i stand til å oppnå høyest 'precision' ved å bruke Random Forest og XGBoost, med henholdsvis 0,9732 og 0,9731 når vi utførte klassifiseringen ved å bruke alle attributtene. Resultatene fra det andre eksperimentet viser en generell reduksjon i ytelsesmålinger, noe som antyder at modellene presterte bedre med de nye attributtene. Vi observerte imidlertid en liten økning for 'precision' og 'recall' ved bruk av XGBoost. I vårt tredje eksperiment forsøkte vi å svare på hvilke attributter som bidro mest til å antyde ondsinnede eller godartede tilfeller, ved å beregne 'permutation importance'. Vi fant ut at for ondsinnede nettadresser, er de viktigste attributtene blant andre: tilstedeværelse av .php-filtype, entropi av domenet, antall bindestreker i domene og underdomene og forholdet mellom lengden på underdomenet og lengden på domenet. Funnene for den godartede klassen inkluderer blant annet: entropi av URL, domene og underdomene, gjennomsnittlig lengde på sti og lengde på underdomene. Vi konkluderer med at de nye attributtene er relevante for slike klassifiseringsoppgaver ettersom attributtene var blant øvre halvdel av attributtenes viktighet (feature importance). Det bør imidlertid bemerkes at ytterligere forskning er nødvendig for å konkludere hvilken kombinasjon av de forskjellige attributtene oppnår best klassifiseringsytelse dersom man ønsker å redusere antall attributter.
dc.description.abstractThe rapid growth of Internet-based activities has led to a significant increase in cyber threats, with deceptive and malicious URLs serving as a key vehicle for spreading malware, conducting phishing attacks, and initiating various cybercrimes. Utilizing machine learning methods we predict the legitimacy of a URL in near real-time, which is a critical challenge for ensuring user safety and maintaining the security of users and businesses. This thesis aims at contributing to the knowledge regarding lexical and descriptive features for URLs. The experiments of this thesis are based on 52 URL features which are used to train machine learning models with Random Forest, XGBoost and KNN. This thesis further extends existing research in the field of applying machine learning to detect malicious URLs by introducing four new features: entropy of request path, entropy of subdomain, same letter used consecutively three or more times and the ratio between the length of the subdomain and length of domain. By introducing these features we observed an increase in the performance in two of our in total three selected classifiers. Based on the conducted experiments we were able to achieve the highest scores in terms of accuracy using Random Forest and XGBoost, with 0.9732 and 0.9731 respectively when performing the classification using the whole featureset. The results of the second experiment shows an overall decrease of performance metrics, implying that the models performed better with the new features. However, we observed a small increase for the precision and recall metrics of XGBoost. For our third experiment we attempted to answer which features contributed the most when predicting malicious or benign instances, by computing the permutation importance. We found that for malicious URLs the most important features include: presence of .php file extension, entropy of the domain, number of hyphens in domain and subdomain and the ratio between the length of the subdomain and length of the domain. The findings for the benign class includes among others: entropy of URL, domain and subdomain, average length of path and length of subdomain. We conclude that the newly introduced features are relevant for such classification tasks as the features were among the top half of the feature importance as we. However, it should be noted that further research is required in order to conclude which combination of the different features provides the best classification performance if the featureset is to be reduced.
dc.languageeng
dc.publisherNTNU
dc.titleUsing a machine learning approach for URL analysis
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel