Exploring siamese neural networks for similarity detection in fraudulent websites

Vestad, Espen Taftø

dc.contributor.advisor	Johnsen, Jan William
dc.contributor.advisor	Nguyen, An Thi
dc.contributor.author	Vestad, Espen Taftø
dc.date.accessioned	2023-07-14T17:21:52Z
dc.date.available	2023-07-14T17:21:52Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:139587122:43287788
dc.identifier.uri	https://hdl.handle.net/11250/3079074
dc.description.abstract	Økende digitalisering og kommunikasjonstilgang på tvers av landegrenser har tillat cyber-kriminelle å operere med flere fordeler enn myndighetene på internett. En av myndighetenes hovedutfordringer er den tidkrevende prosessen tilknyttet nedstenging av kriminelle nettsteder. De kriminelle på sin side kan skalere sine operasjoner ved å kopiere eksisterende svindelnettsteder. Dette med minimal innsats. Når kriminelle nettsteder dupliseres, vil det ofte være likheter mellom den nye og den originale kopien. Digital etterforskning kan utnytte disse likhetene for å detektere gjennoppstående kopier av nettsider, og videre forårsake forstyrrelser i deres operasjoner. Gjennom denne oppgaven foreslås metodikk som kan benyttes innen deteksjon og forstyrrelse for kriminelle nettsteder i drift. Ved bruk av siamesiske nettverk trente vi en distanse algoritme for å kalkulere likheter mellom skjermbilder av svindelnettsteder. Tidligere maskinlæringsmetoder innenfor feltet har i hovedsak tatt utgangspunkt i tekstbaserte egenskaper, slik som kildekode, setninger eller HTML-struktur. Vår metode bidrar til eksisterende forskning ved å prosessere skjermbilder av nettsider som input til "deep learning". Dette uten å manuelt bestemme relevante egenskaper på forhånd. Oppgaven utforsker også hvordan nettverket lærer relevante egenskaper gjennom pikselattribusjon. Gjennomførte eksperimenter resulterte i et siamesisk nettverk i stand til å detektere likheter mellom nettsteder dersom modellen trenes i et større scenario. Innen digital etterforskning kan modellen eksempelvis benyttes i automatiserte løsninger for tidligere deteksjon og forstyrring av dupliserte kriminelle nettsteder.
dc.description.abstract	Growing digitization and communication across international borders has allowed cybercriminals to operate more advantageously than law enforcement on the internet. Law enforcement suffers from a complex and time-consuming process to take down criminal website campaigns. In contrast, criminals scale up their operations by replicating instances of fraudulent websites with minor effort. When replicated, similarities often persist between the original website and the replicated copy. Digital forensic investigations could exploit these persisting similarities to detect replicated copies and further cause disruption. Through this thesis, we propose a method that can contribute to the detection and disruption of criminal website campaigns. By using Siamese Neural Networks, we train a distance metric to compute and compare the similarity between screenshots of fraudulent websites. Previously developed machine learning methods within the field have mostly relied on text-based features, such as website source code, sentences, or HTML structure. The proposed method contributes to existing research by using deep learning to process screenshots as the input medium, without manually determining relevant features upfront. The thesis also evaluates how the network captures features through pixel attribution techniques. The final result showcases a siamese neural network applicable for website similarity detection when trained in a bigger-scale scenario. In digital forensics, the approach could be utilized in automated solutions to enhance the detection and disruption of replicated criminal websites.
dc.language	eng
dc.publisher	NTNU
dc.title	Exploring siamese neural networks for similarity detection in fraudulent websites
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:139587122:4328 ...
Størrelse:: 14.38Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2525]

Vis enkel innførsel