Deep Learning Based Approaches for Financial Fraud Detection

og energi for å redusere tapet forårsaket av det. Tradisjonelle metoder for oppdagelse av svindel trenger mye trent revisjoner for å verifisere forretningssaker som er ganske ineffektive, med utbredelsen av online betaling der er et sterkt behov for automatisert svindeloppdagelsessystem. Det skal kunne oppdage svindel fra store

mengde transaksjonsdata på kort tid uten å fange opp for mye normal oppførsel. Som svindel

oppdagelse i forretningsinstitusjon er ikke et nytt tema, det er allerede mange løsninger på dette problemet, for eksempel læring av ubalanse for problem med ubalanse i datasett, GBDT for oppdagelse av svindel. Nylig,

med utvikling av dyp læringsteknikker er det mange forsøk som prøver å bruke dyp nevronnettverk for påvisning av økonomisk svindel. Imidlertid gjennomfører ingen av dem omfattende

analyse på dette feltet. Denne oppgaven introduserer en komplett metodikk for oppdagelse av svindel som prøver å bruke dype nevronnettverk for å løse problemer som eksisterte i hele prosessen med økonomisk svindel. I følge eksperimentresultatene våre fikk vi tre konklusjoner: (1) dype nevronnettverk kan forenkle prosessen med funksjonsteknikk. De foreslåtte CNN- og LSTM-nettverkene har oppnådd bedre forutsigelsesnøyaktighet med underive funksjonssett enn LightGBM (en mye brukt modell i detekteringsfelt for økonomisk svindel) med et komplett funksjonssett. (2) Dyp læringsbasert oversam pling-metode (Autoencoder) kan lindre påvirkningen av datasettets ubalanse, ytelsen til den ligner på den klassiske oversamplingsmetoden SMOTE. (3) Foreslåtte dype nevronnettverk (CNN og LSTM) utfører mye bedre enn basismodell (LightGBM) med samme datasett, dette bekrefter hypotesen om at dypt nevronnettverk er et kraftig verktøy som kan forbedre effektiviteten til svindeloppdagelse. (4) To datasett brukes til å teste de tre klassifikatorene som brukes i denne oppgaven, og eksperimentresultatene på disse to datasettene er like som ytterligere bekrefter konklusjonen vi har oppnådd ovenfor.

Financial fraud detection is an annoying problem which takes financial institutions a lot of money

and energy to reduce the loss caused by it. Traditional fraud detection methods need a lot of trained

audits to verify business cases which is pretty inefficient, with the prevalent of online payment there

is a strong need for automated fraud detection system. It should be able to detect fraud from large

amount of transaction data in short time without intercepting too much normal behaviors. As fraud

detection in business institution is not a new topic, there are already many solutions to this problem such as imbalance learning for dataset imbalance problem, GBDT for fraud detection. Recently,

with the development of deep learning techniques, there are many attempts which try to use deep

neuron networks for financial fraud detection. However none of them conduct a comprehensive

analysis on this field. This thesis introduces a complete fraud detection methodology which tries to

utilize deep neuron networks to solve problems existed in the entire process of financial fraud detection. According to our experiment results, we got three conclusions: (1) deep neuron networks

can simplify the process of feature engineering. The proposed CNN and LSTM networks have obtained better prediction accuracy with underived feature set than LightGBM(a widely used model

in financial fraud detection field) with a complete feature set. (2) Deep learning based oversampling method(Autoencoder) can alleviate the influence of dataset imbalance, the performance of it

is similar to the classical oversampling method SMOTE. (3) Proposed deep neuron networks (CNN

and LSTM) perform much better than base model (LightGBM) with the same dataset, this verify

the hypothesis that deep neuron network is a powerful tool which can improve the efficiency of

fraud detection. (4) Two dataset are used for testing the three classifiers used in this thesis, and the

experiment results on these two dataset are similar which further confirm the conclusion we have

obtained above.

Utgiver

NTNU