Improving Direct Phone Targeting through Customer Response Modeling
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2779284Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Beskrivelse
Full text not available
Sammendrag
Direkte markedsføring har som hensikt å nå en kunde personlig. Å klassifisere hvilke kunder som mest sannsynlig svarer positivt på en kampanje er en viktig oppgave innenfor direkte markedsføring. Ved å bruke maskinlæringsmetoder og historiske data kan en prediktiv responsmodell bygges. I denne oppgaven er det et tilbud om refinansiering som er kampanjen som er i fokus. Refinansiering er et produkt som mange banker tilbyr til sine kunder. Det er en erstatning av eksisterende lån med et nytt lån med bedre betingelser, ofte i form av lavere rente og lengre nedbetalingstid. Refinansiering er som regel til fordel for begge parter. Banken sørger for at kunden forblir en kunde hos dem, mens kunden får bedre lånevilkår.
Hovedmålene med denne oppgaven er å lage gode maskinlæringsmodeller som kan forutsi om en kunde som blir ringt med tilbudet om refinansiering vil svare positivt eller negativt til tilbudet, samt forstå hvilke faktorer som er viktige og påvirker svaret. I bunn og grunn er det en binær klassifiseringsoppgave, da svaret enten vil være “ja” eller “nei”. For å konstruere disse modellene vil et datasett, fra SpareBank 1 Kreditt, bestående av data fra tidligere telefonsamtaler med tilbud om refinansiering satt i sammenheng med kredittkortdata, bankdata og demografisk informasjon bli brukt.
Logistisk regresjon og random forests brukes til å lage modeller som predikerer om en kunde vil akseptere tilbudet om å refinansiere eller ikke. Disse algoritmene ble valgt da de er populære og har gitt gode resultater på lignende oppgaver. Den logistiske regresjonen ble hovedsakelig brukt for å få et referanseresultat. Flere metoder for å regulere den logistiske regresjonsmodellen ble også testet. Samt at grenseverdien i den logistiske regresjonen ble optimalisert. Balansert nøyaktighet (BACC) beregnes for å evaluere deres prediktive nøyaktighet, i tillegg til andre evalueringsmål. Hyperparametrene til random forests er optimalisert ved hjelp av en kombinasjon av forsøksplanlegging (DOE) og responsoverflatemetodikk (RSM), og til slutt blir også en metode kalt adaptiv responsoverflatemetodikk (ARSM) testet. Ettersom datasettet som er gitt er ubalansert, testes to forskjellige tilnærminger for å balansere datasettet, og modeller konstrueres også på disse datasettene for å sammenligne de prediktive resultatene.
Den logistiske regresjonen oppnådde en BACC på 0.517 på det originale fulle datasettet, og random forests oppnådde en BACC på 0.533 på dette datasettet. Med optimalisert grenseverdi oppnådde den logistiske regresjonen en BACC på 0.675 og med optimaliserte hyperparametre oppnådde random forests en BACC på 0.678. Ved bruke av de balanserte datasettene til å trene den logistiske regresjonsmodellen og random forests ble det oppnådd en BACC på henholdsvis 0.669 og 0.667. Så alle disse nevnte metodene ga en betydelig forbedring i den predikative nøyaktigheten. In direct marketing, a task of high importance is to classify which customers are more likely to respond to a campaign. By using machine learning methods and historical data a predictive response model can be built. In this thesis, the campaign of interest is an offer to refinance. Refinance is a product that financial institutions sometimes offer to their customers. It is the replacement of an existing mortgage with a new one with different, and preferably better, terms. It is often of benefit for both parties. The financial institutions ensure that the customer stays a customer at them as well as they keep getting interest rates on the debt obligation. While the customer gets better loan conditions.
The main objectives of this thesis are to make good machine learning models that can predict how a customer who is called with the offer to refinance will respond, as well as understanding which factors are important and affects the response. So in essence, it is a binary classification task, as the response will either be “yes” or “no”. To construct these models a data set, offered by SpareBank 1 Kreditt, consisting of data from previous phone calls with an offer to refinance put in context with credit card data, bank data and demographic information will be used.
Logistic regression and random forests are used to make models that predict whether a customer will accept the offer to refinance or not. These algorithms were chosen for their popularity and good performance on similar tasks in previous studies. The logistic regression was mainly used in order to have a benchmark result. Several methods to regularize the logistic regression model are also tested. And lastly, the cutoff value in the logistic regression is optimized. The balanced accuracy (BACC) is calculated to evaluate their predictive accuracy, among other performance metrics. The hyperparameters of the random forests algorithm are optimized using a combination of design of experiments (DOE) and response surface methodology (RSM), and finally, a method called adaptive response surface methodology (ARSM) is tested. As the data set provided is unbalanced, two different approaches to balance the data set are tested and models are constructed on these data sets as well, to compare the predictive performances.
The logistic regression obtained a BACC of 0.517 on the full unsampled data set and the random forests obtained a BACC of 0.533 on this data set. Whereas the logistic regression with optimized cutoff-value obtained a BACC of 0.675 and the random forests with optimized hyperparameters obtained a BACC of 0.678. When training the logistic regression model and the random forests on the undersampled data set, a BACC of respectively 0.669 and 0.667 was obtained. So all these mentioned methods gave a significant improvement in the predictive accuracy.