Predicting Money Laundering - Evaluating artificial neural networks for predicting potential money laundering activities using customer characteristics and banking activity
Abstract
Hvitvasking er et vedvarende og utviklende problem på global skala. Etter hvert som teknologien utvikler seg, oppstår også nye teknikker for hvitvasking. For tiden er de fleste anti-hvitvasking (AML) gjenkjenningssystemer i banker og finansinstitusjoner regelbaserte, noe som resulterer i et høyt antall falske positiver på grunn av svært forenklede regler. Det er en økende trend i å anvende datadrevne metoder slik som maskinlæring og kunstig intelligens for å oppdage mistenkelig aktivitet blant kunder og transaksjoner. Denne avhandlingen undersøker bruken av kunstige nevrale nettverk (KNN) for å oppdage potensielle aktiviteter knyttet til hvitvasking blant en norsk banks bedriftskunder.
Vi har vært ekstremt heldige som har fått tilgang til et datasett fra en norsk bank bestående av kundekarakteristikker, kontoinformasjon, kredittscoredata og bankaktivitet. Datasettet inneholder 216 649 månedlige observasjoner fra februar 2021 til februar 2023, fordelt på 10 595 bedriftskunder. Totalt er det 21 rapporterte kunder, noe som utgjør en betydelig utfordring knyttet til klasseubalanse. For å adressere dette vil vi utforske integreringen av Synthetic Minority Over Sampling Technique (SMOTE). På grunn av klasseubalansen laget vi to KNN-modeller, en med SMOTE og en uten. Ytelsen til KNN-ene vil bli evaluert og sammenlignet med hverandre og med deres respektive logistiske regresjons (LR) referanser.
Våre resultater viser at KNN med SMOTE underpresterer sammenlignet med sin LR referanse. Derimot overgår KNN uten SMOTE betydelig sin LR referanse. Totalt sett er begge KNN-er i stand til å predikere en tilfredsstillende mengde av de faktisk rapporterte kundene. Basert på våre data har vi demonstrert at KNN har potensial til å bli brukt som et verktøy, og dermed støtte AML-deteksjonsprosessen i banker eller finansinstitusjoner. Resultatene viser potensial for praktiske anvendelser, men det er flere implikasjoner hvis en slik modell skal implementeres i banker. Tidligere forskning som bruker reelle data anvendt på maskinlæring innen hvitvasking av penger er begrenset. Derfor kan vi betrakte denne avhandlingen som et unikt og verdifullt bidrag i kampen mot hvitvasking. Money laundering is a persistent and evolving problem on a global scale. As technology advances, new money laundering techniques arise. Currently, most of the anti-money laundering (AML) detection systems in banks and financial institutions are rule-based, resulting in a high number of false positives due to very simplistic rules. However, there is an increasing trend in employing data-driven methods such as machine learning and artificial intelligence to detect suspicious activity among customers and transactions. This thesis investigates the application of artificial neural networks (ANNs) in detecting potential money laundering activities among a Norwegian bank's corporate customers.
We have been extremely fortunate to gain access to a data set from a Norwegian bank consisting of customer characteristics, accounting information, credit score data and banking activity. The data set contains 216,649 monthly observations from February 2021 through February 2023, across 10,595 unique corporate customers. In total, there are 21 reported customers, which presents a significant challenge related to class imbalance. To address this, we will explore the integration of Synthetic Minority Over Sampling Technique (SMOTE). Because of the class imbalance, we created two ANN models, one with SMOTE and one without. The performance of the ANNs will be evaluated, compared to each other and to their respective logistic regression (LR) baselines.
Our results reveals that the ANN with SMOTE underperforms compared to its baseline LR. However, the ANN without SMOTE significantly outperforms its baseline LR. Overall, both ANNs is capable of predicting a satisfactory amount of the actual reported customers. Based on our data, we have demonstrated that ANNs have the potential to be employed as a tool, and thereby support the AML detection process in banks or financial institutions. The results displays potential for practical applications, yet there are several implications if such a model would be implemented in banks. Previous research using real data applied to machine learning in the field of money laundering is limited. Therefore, we can consider this thesis as a unique and valuable contribution in the combat against money laundering.