Predicting the Risk of Customers Redeeming Loans

Wilberg, Julie Madeleine

Wilberg, Julie Madeleine

Master thesis

Permanent lenke

https://hdl.handle.net/11250/2778363

Utgivelsesdato

2020

Metadata

Vis full innførsel

Samlinger

Institutt for matematiske fag [2434]

Beskrivelse

Full text not available

Sammendrag

Lån er en nødvendighet for mye av den økonomiske aktiviteten i det moderne samfunn. Långiverne får inntekt fra renter og gebyrer, noe som innebærer at en kunde som innfrir lån representerer et inntektstap. Det er derfor av stor interesse å kunne forutsi om en kunde vil innfri et lån, og identifisere hvilke faktorene som forårsaker det. Denne oppgaven presenterer to statistiske modeller, logistisk regresjon og XGBoost. Logistisk regresjon modellerer logit for sannsynligheten for innfrielse som en lineær kombinasjon av kovariater, og XGBoost bruker boostede beslutningstrær der mange mindre beslutningstrær kombineres for å lage prediksjonsmodellen. Vi undersøker om de trente modellene kan predikere om en kunde vil innfri lånet i løpet av en tre-måneders periode, og i hvilken grad modellene kan brukes til å rangere kovariatene etter betydning. Selvom rangering av kovariater er en rett frem oppgave for logistiske regresjonsmodeller, er dette ofte mer komplisert for avanserte maskinlæringsmodeller som XGBoost. Modellene er trent ved å bruke et datasett konstruert fra kundedata, lånedata og markedsrentedata. Datasettet er svært ubalansert, med bare 2% av observasjonene som representerer kunder som har innfridd lånene sine. Av den grunn er accuracy ikke et godt mål på modellenes ytelse, fordi bare å klassifisere alle observasjoner til majoritetsklassen vil gi svært høy accuracy. Vi velger i stedet å fokusere på AUC, da dette vurderer både sensitiviteten og spesifisiteten til prediksjonen.

Vi finner at XGBoost-modellen presterer best på testdatasettet med en AUC på 0,723, sammenlignet med 0,635 for den logistiske regresjonsmodellen. Vi er i stand til å rangere kovariatene etter viktighet i begge modellene og finner at lånebeløpet og renten på lånet rangeres blant de mest innflytelsesrike kovariatene. Imidlertid er det betydelige forskjeller mellom hvordan modellene rangerer kovariatene. En årsak til dette er tilstedeværelsen av confounding kovariater, selvom det også kan gjenspeile reelle forskjeller mellom mønstrene detektert av modellene. Modellenes prediktive ytelse er ikke tilstrekkelig til å nøyaktig predikere hvilke kunder som vil innfri lånene sine. De gir imidlertid verdifull informasjon om hvilke faktorer som påvirker deres beslutning om å gjøre det. I tillegg kan modellene potensielt brukes til å velge ut en gruppe kunder med mål om å motivere disse fra å innfri lånene sine.

Loans are a necessity for much of the economic activity in modern society. Lenders that provide loans profit from interest and other fees, meaning that a customer that redeems a loan early represents a loss of revenue. Hence, it is of great interest to predict whether a customer will redeem a loan and determining the factors that cause it. This thesis presents two statistical models, logistic regression and XGBoost. Logistic regression models the logit of the redemption probability as a linear combination of covariates, and XGBoost uses boosted regression trees where many smaller regression trees are combined to create the prediction model. We investigate whether the trained models can predict whether a customer will redeem their mortgage within a three-month window and to what extent the models can be used to rank the covariates by importance. While ranking the covariates is a straightforward task for logistic regression models, it is often more complicated for advanced machine learning models like XGBoost. The models are trained using a data set constructed from customer data, loan data, and market interest rates. The data set is highly unbalanced, with only 2% of the observations representing customers that have redeemed their loans. For this reason, accuracy is not a good performance metric as simply predicting all observations as belonging to the majority class will result in very high accuracy. We choose to instead focus on the AUC metric, as this considers both the sensitivity and specificity of the predictions.

We find that the XGBoost model performs better on the test data set with an AUC of 0.723, compared to 0.635 for the logistic regression model. We are able to estimate covariate importance for both models and find that loan balance and interest rate consistently rank among the most influential covariates. However, there are also significant differences between how the models rank the covariates. One reason for this is the presence of confounding variables, although it may also reflect real differences between the patterns detected by the models. The predictive performance of the models is not sufficiently accurate to pinpoint which customers will redeem their loans. However, they provide valuable information about which factors influence their decision in doing so. Additionally, the models could potentially be used to target a wider group of customers with incentives to keep their mortgages at a specific bank.

Utgiver

NTNU