Exploring phishing detection features in webpage source code

Schmedling, Erik

dc.contributor.advisor	Johnsen, Jan William
dc.contributor.author	Schmedling, Erik
dc.date.accessioned	2023-07-20T17:20:11Z
dc.date.available	2023-07-20T17:20:11Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:139587122:98094312
dc.identifier.uri	https://hdl.handle.net/11250/3080576
dc.description	Full text not available
dc.description.abstract	Phishing fortsetter å være en fremtredende cybersikkerhetstrussel, og utnytter menneskelige sårbarheter for å få uautorisert tilgang og stjele data. Hensikten med denne studien er å identifisere egenskapene som skiller phishing-nettsteder fra legitime. Forskningen fokuserer på et problem med binær klassifisering, og skiller nettsteder i "trygge" og "phishing"-kategorier. Gjennom utvikling og anvendelse av over to hundre forskjellige funksjonsekstraksjonsmetoder, hadde denne studien som mål å identifisere de mest relevante funksjonene for phishing- nettstedsoppdagelse. Analysen ble utført på et spesialbygget datasett satt sammen fra offentlige URL-lister, noe som sikrer et bredt utvalg av nettsteder. Datasettet fungerte som et testområde for funksjonsekstraksjonsmetoder og fungerte som grunnlaget for arbeidet med å forbedre datakvaliteten. Blant de ekstraherte funksjonene viste visse funksjoner en sterk korrelasjon med klassevariabelen, noe som indikerer deres potensial for å forbedre oppdagelsen av phishing-nettsteder. Deretter ble disse identifiserte funksjonene evaluert mot flere maskinlæringsmodeller, og validerte deres effektivitet i klassifiseringsoppgaven. I tillegg ble det utført en undersøkelse for å bestemme den optimale undergruppen av funksjoner fra hele settet. Validert på tvers av flere modeller, oppnådde det foreslåtte funksjonssettet en nøyaktighet på omtrent 93\%, noe som indikerer potensiell effektivitet. Denne studien har gjort betydelige fremskritt mot å svare på spørsmålene: "Hvilke funksjoner som kan trekkes ut fra nettstedssidekilder er relevante for phishing-nettstedsdeteksjon?" og "Hvilke algoritmer kan hjelpe til med å forstå og forbedre et sett med slike funksjoner?". grunnlag for fremtidig forskning på området, noe som kan føre til utvikling av mer sofistikerte og nøyaktige phishing- deteksjonsteknikker.
dc.description.abstract	Phishing continues to be a prominent cybersecurity threat, exploiting human vulnerabilities to gain unauthorized access and steal data. The purpose of this study is to identify the characteristics that distinguish phishing websites from legitimate ones. The research focuses on a problem of binary classification, separating websites into "safe" and "phishing" categories. Through the development and application of over two hundred distinct feature extraction methods, this study aimed to identify the most pertinent features for phishing website detection. The analysis was performed on a custom-built dataset compiled from public URL lists, ensuring a wide variety of websites. The dataset served as a testing ground for feature extraction methods and served as the foundation for efforts to improve data quality. Among the extracted features, certain features exhibited a strong correlation with the class variable, indicating their potential for enhancing the detection of phishing websites. Subsequently, these identified features were evaluated against multiple machine learning models, validating their effectiveness in the classification task. In addition, an investigation was conducted to determine the optimal subset of features from the complete set. Validated across multiple models, the proposed feature set achieved an accuracy of approximately 93\%, indicating its potential efficacy. This study made substantial progress toward answering the questions, "What features that can be extracted from websites’ page sources are relevant for phishing website detection?" and "What algorithms can aid in understanding and enhancing a set of such features?". It laid the groundwork for future research in the domain, which could lead to the development of more sophisticated and accurate phishing detection techniques.
dc.language	eng
dc.publisher	NTNU
dc.title	Exploring phishing detection features in webpage source code
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2578]

Vis enkel innførsel