Using Multivariate Methods To Predict Financial Default
Abstract
Fintech er en voksende bransje for banker og andre virksomheter som tilbyr lån, forsikring, kunderådgiving og andre finansielle tjenester. Et viktig aspekt er hvordan data om kunder og tjenester bør analyseres for å gi de beste råd samt minske risiko for tap både for kunder og tilbyder. I dette arbeidet har jeg benyttet ulike multivariate analysemetoder for å vurdere risiko for mislighold av lån med utgangspunkt i tilgjengelig informasjon om enkeltkunder.
Banker står på en stor mengde data for hver kunde, blant annet personlig information, kredittkort transaksjoner og avdrag og renter på lån. Åpen kildekode bestående av tjekkisk bankdata med tabeller med transaksjoner, lån og kredittkort informasjon i tillegg til demografiske data er i denne oppgaven brukt til å utvikle klassifikasjonsmodeller for å separere kunder med mislighold og kunder uten.
Et egenskapssett eller feature sett blir samlet sammen ved å bruke relasjonene mellom tabellene i datasettet. Dette settet blir deretter delt i to etter numeriske og kategoriske variabler. Deretter benyttes Principal Component Analysis (PCA) og Logistic Principal Component Analysis (LPCA/ Logistic PCA) til å lage to forskjellige modeller. Disse modellene i tillegg til feature settet blir deretter brukt som input til klassifikasjonsmodellene Support Vector Machines (SVM), Random Forest (RF), Logistic Regression (LR), Partial Least Squares Regression (PLSR) og Principal Component Regression (PCR). Test sett validering og kryssvalidering, i tillegg til forklart varians og korrelasjons loadings blir analysert for å bestemme modellkompleksitet.
Modellene har vist at det å klassifisere mislighold er vanskelig, mye forårsaket av et veldig ubalansert datasett. Dette fører til veldig partiske modeller mot ikke-mislighold. Det kategoriske datasettet med kjønn, region, korttype og alder viste veldig lite underliggende korrelasjon mellom variablene, noe som undergraver potensialet til Logistic PCA. Med mindre enn 25 variabler i hvert sett kan dette også føre til begrenset varians og beslutningsgrunnlag.
Følgelig fra et begrenset data sett er ikke resultatene gode nok til å bli brukt i en beslutningsprosess for å bestemme betalingsevne. Klassifikasjonsmodellen til Random Forest med feature settet som input viste de beste resultatene, men med en fremdeles begrenset evne til å klassifisere mislighold. Fintech, short for Financial technology, describes technology that seeks to improve and automate financial services. The idea is to help companies, business owners and consumers better manage their finances, processes and lives while minimizing the risk of doing so for both consumers and product owners. This thesis applies different multivariate methods of analysis in order to determine the risk of default, meaning failing to meet the legal obligations of loan, based on financial client data.
Banks gather a large amount of data on each client, such as personal details, all credit card transactions and loan repayments. Open source Czech banking data containing tables of transactions, loan and credit card information as well as demographic data is in this thesis used to develop classification classification models to separate default clients from non-default clients.
A feature set is aggregated using the relationships between the different tables. This feature set is then divided into numeric and categorical variable frames. Afterwards Principal Component Analysis (PCA) and Logistic Principal Component Analysis (LPCA/Logistic PCA) models are built for the numeric and categorical frames respectively. These models as well as the feature set is used as input to classification models Support Vector Machines, Random Forest, Logistic Regression, Partial Least Squares Regression and Principal Component Regression. Test set validation and cross validation, as well as explained variance and correlation loadings are interpreted to determine model complexity.
The models showed that classifying default clients is extremely difficult, largely caused by a highly imbalanced data set. Which in turn causes very biased models towards non-default clients. The categorical data set containing variables gender, region, card type and age showed very little underlying correlation, undermining the potential of Logistic PCA. Having less than 25 variables in each data frame might not be enough information to classify default clients, as important variables might not be present in the data.
With limitations in the data set itself, the results are not good enough to use in a payment ability decision process. The classification models with feature set as input showed slightly better results, but with an insufficient ability to classify the default clients.