Exploring phishing detection features in webpage source code

Schmedling, Erik

Schmedling, Erik

Master thesis

URI

https://hdl.handle.net/11250/3080576

Date

2023

Metadata

Show full item record

Collections

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2594]

Description

Full text not available

Abstract

Phishing fortsetter å være en fremtredende cybersikkerhetstrussel og utnytter menneskelige sårbarheter for å få uautorisert tilgang og stjele data. Hensikten med denne studien er å identifisere egenskaper som skiller phishing-nettsider fra legitime nettsider. Arbeidet fokuserer på et problem med binær klassifisering, og skiller nettsider i "godartede" og "phishing"-kategorier. Med omfanget begrenset til kun å inkludere HTML-kildekode fra nettsider, har det blitt tatt en bevisst beslutning om å legge vekt på en undergruppe av mulige egenskaper, med håp om å gi faktiske bidrag til forskningsfeltet. Gjennom utvikling og anvendelse av over 200 forskjellige metoder for å ekstrahere egenskaper, hadde denne studien som mål å identifisere de mest relevante egenskapene for oppdagelse av phishing-nettsider. Analysen ble utført på et eget spesiallaget datasett kompilert fra offentlige URL-lister, noe som sikrer et bredt utvalg av nettsteder. Blant de ekstraherte egenskapene viste visse egenskaper en sterk korrelasjon med nettsidekategorien, noe som indikerer deres potensiale for å forbedre deteksjon av phishing-nettsteder. Deretter ble disse identifiserte egenskapene evaluert ved hjelp av flere maskinlæringsmodeller, hvilket validerte både egenskapene og modellenes potensial. Det ble i tillegg utført en analyse for å bestemme en optimal undergruppe av egenskaper fra hele settet. På tvers av flere modeller, oppnådde den foreslåtte gruppen med egenskaper en nøyaktighet på omtrent 94 % på balanserte datasett, noe som er imponerende når man tar i betraktning at data utenfor studiens omfang, som URLer, IP-adresser og visuelt utseende har blitt bevisst ekskludert i disse forsøkene. Ved å kombinere dette arbeidet med forskning på andre grupper med egenskaper, kan man drastisk forbedre den generelle nøyaktigheten som presenteres her, og muligens utfordre dagens ledende løsninger for phishing-deteksjon.

Phishing continues to be a prominent cybersecurity threat, exploiting human vulnerabilities to gain unauthorized access and steal data. The purpose of this study is to identify the characteristics that distinguish phishing websites from legitimate ones. The research focuses on a problem of binary classification, separating websites into "benign" and "phishing" categories. With the scope limited to only include HTML source code from web pages, a conscious decision has been made to put emphasis on a subset of possible features, with the hopes of making actual contributions to the field. Through the development and application of over 200 distinct feature extraction methods, this study aimed to identify the most pertinent features for phishing website detection. The analysis was performed on a custom-built dataset compiled from public URL lists, ensuring a wide variety of websites. The dataset served as a testing ground for feature extraction methods and served as the foundation for efforts to improve data quality. Among the extracted features, certain features exhibited a strong correlation with the web page category, indicating their potential for enhancing the detection of phishing websites. Subsequently, these identified features were evaluated using multiple machine learning models, validating their effectiveness in the classification task. In addition, an investigation was conducted to determine an optimal subset of features from the complete set. Validated across several models, the proposed feature set achieved an accuracy of approximately 94% on evenly balanced data sets, which is impressive when considering that features outside the scope, such as URLs, IP-addresses, visual appearance and so on have been deliberately excluded in these experiments. By combining this work with research into other feature subsets, one could drastically improve the overall accuracy presented here, possibly challenging the state-of-the-art solutions within this field.

Publisher

NTNU