Deep Learning Based Approaches for Financial Fraud Detection
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2781175Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
Oppdagelse av økonomisk svindel er et irriterende problem som tar finansinstitusjoner mye pengerog energi for å redusere tapet forårsaket av det. Tradisjonelle metoder for oppdagelse av svindel trenger mye trent revisjoner for å verifisere forretningssaker som er ganske ineffektive, med utbredelsen av online betaling der er et sterkt behov for automatisert svindeloppdagelsessystem. Det skal kunne oppdage svindel fra storemengde transaksjonsdata på kort tid uten å fange opp for mye normal oppførsel. Som svindeloppdagelse i forretningsinstitusjon er ikke et nytt tema, det er allerede mange løsninger på dette problemet, for eksempel læring av ubalanse for problem med ubalanse i datasett, GBDT for oppdagelse av svindel. Nylig,med utvikling av dyp læringsteknikker er det mange forsøk som prøver å bruke dyp nevronnettverk for påvisning av økonomisk svindel. Imidlertid gjennomfører ingen av dem omfattendeanalyse på dette feltet. Denne oppgaven introduserer en komplett metodikk for oppdagelse av svindel som prøver å bruke dype nevronnettverk for å løse problemer som eksisterte i hele prosessen med økonomisk svindel. I følge eksperimentresultatene våre fikk vi tre konklusjoner: (1) dype nevronnettverk kan forenkle prosessen med funksjonsteknikk. De foreslåtte CNN- og LSTM-nettverkene har oppnådd bedre forutsigelsesnøyaktighet med underive funksjonssett enn LightGBM (en mye brukt modell i detekteringsfelt for økonomisk svindel) med et komplett funksjonssett. (2) Dyp læringsbasert oversam pling-metode (Autoencoder) kan lindre påvirkningen av datasettets ubalanse, ytelsen til den ligner på den klassiske oversamplingsmetoden SMOTE. (3) Foreslåtte dype nevronnettverk (CNN og LSTM) utfører mye bedre enn basismodell (LightGBM) med samme datasett, dette bekrefter hypotesen om at dypt nevronnettverk er et kraftig verktøy som kan forbedre effektiviteten til svindeloppdagelse. (4) To datasett brukes til å teste de tre klassifikatorene som brukes i denne oppgaven, og eksperimentresultatene på disse to datasettene er like som ytterligere bekrefter konklusjonen vi har oppnådd ovenfor. Financial fraud detection is an annoying problem which takes financial institutions a lot of moneyand energy to reduce the loss caused by it. Traditional fraud detection methods need a lot of trainedaudits to verify business cases which is pretty inefficient, with the prevalent of online payment thereis a strong need for automated fraud detection system. It should be able to detect fraud from largeamount of transaction data in short time without intercepting too much normal behaviors. As frauddetection in business institution is not a new topic, there are already many solutions to this problem such as imbalance learning for dataset imbalance problem, GBDT for fraud detection. Recently,with the development of deep learning techniques, there are many attempts which try to use deepneuron networks for financial fraud detection. However none of them conduct a comprehensiveanalysis on this field. This thesis introduces a complete fraud detection methodology which tries toutilize deep neuron networks to solve problems existed in the entire process of financial fraud detection. According to our experiment results, we got three conclusions: (1) deep neuron networkscan simplify the process of feature engineering. The proposed CNN and LSTM networks have obtained better prediction accuracy with underived feature set than LightGBM(a widely used modelin financial fraud detection field) with a complete feature set. (2) Deep learning based oversampling method(Autoencoder) can alleviate the influence of dataset imbalance, the performance of itis similar to the classical oversampling method SMOTE. (3) Proposed deep neuron networks (CNNand LSTM) perform much better than base model (LightGBM) with the same dataset, this verifythe hypothesis that deep neuron network is a powerful tool which can improve the efficiency offraud detection. (4) Two dataset are used for testing the three classifiers used in this thesis, and theexperiment results on these two dataset are similar which further confirm the conclusion we haveobtained above.