Improving Direct Response Modelling through Hyperparameter Optimization of Extreme Gradient Boosting and Random Forests
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3016986Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Responsmodellering brukes i direkte markedsføring til å rangere kunder etter sannsynligheten for respons. Dette gjøres for å øke responsraten til en kampanje, og dermed øke inntektene. Denne oppgaven vil fokusere på en ringekampanje med et tilbud om å refinansiere utført av SpareBank1, rettet mot kunder som er kvalifisert for refinansiering av forbrukslån og kredittkort. Hovedmålet med denne oppgaven er å bygge og optimalisere modeller som kan forutsi hvilke kunder som vil respondere på kampanjen. Dette er en binær klassifiseringsoppgave på et ubalansert datasett, der svaret enten er ”ja” eller ”nei”. Datasettet er levert av SpareBank1 og inneholder historiske data fra tidligere ringekampanjer samlet inn fra mars 2020 til juli 2021. I tillegg er det viktig å få en forståelse av hva slags type kunde som aksepterer et slikt tilbud om refinansiering. Extreme Gradient Boosting (XGBoost) og Random Forests var de to maskinlæringsalgoritmene brukt til å bygge de predikative modellene i denne oppgaven. XGBoost ble valgt fordi den er effektiv og ofte utkonkurrerer andre metoder, mens Random Forests ble valgt fordi det er en robust og veletablert metode. Modellene ble evaluert og optimalisert med vekt på den balanserte nøyaktigheten og sensitiviteten, altså modellenes evne til å klassifisere kundene som takker ja. For å forbedre klassifiseringen, ble hyperparametrene til de to metodene optimalisert. Optimaliseringen ble først gjort med et screeningseksperiment ved bruk av forsøksplanlegging (DoE) og deretter videre optimalisering gjennom responsflatemetodikk (RSM). DoE kan identifisere hvilke hyperparametere som er mest betydningsfulle og i hvilken konfigurasjon. I tillegg ble hyperparametrene optimalisert med Bayesiansk optimering. Kombinasjoner av Bayesiansk optimering, DoE og RSM ble også testet for å sjekke effekten av screening og bruk av et sentralt sammensatt forsøk (CCD) som innledende verdier. Til slutt ble variabel viktighet før og etter optimalisering undersøkt.
For begge metodene identifiserte screeningseksperimentet de mest innflytelsesrike hyperparametrene som de som direkte påvirket vektingen av klassene. Disse hyperparametrene ble valgt for ytterligere optimalisering ved bruk av RSM. RSM optimaliserte verdiene til hyperparametrene og forbedret den balanserte nøyaktigheten. Klassifiseringen av den viktige positive klassen ble også forbedret, noe som førte til en økning i sensitiviteten. Bayesiansk optimering forbedret også klassifiseringen ved å øke sensitiviteten og den balanserte nøyaktigheten. En mer stabil optimalisering ble oppnådd med Bayesiansk optimering i kombinasjon med RSM. Modeller optimalisert med Bayesiansk optimering oppnådde de høyeste verdiene for balansert nøyaktighet. Sammenlignet med referanseresultater, førte dette til en forbedring på 19% og 16% i den balanserte nøyaktigheten for XGBoost og Random Forests. Forskjellene mellom de optimaliserte modellene var imidlertid ikke store. Variabel viktigheten før og etter optimalisering viste ikke store forskjeller, og variabelen INTEREST EARNING LENDING AMT var viktig i prediksjonen. Response modelling can be applied in direct marketing to rank customers by the likelihood ofresponse. This is done to increase the response rate of a campaign, and thus increase revenue. Thisthesis will focus on a call campaign with an offer to refinance conducted by SpareBank1, directedat customers eligible for refinancing of consumer loans and credit cards. The main objective ofthis thesis is to build and optimize models that can predict which customers will respond to thecampaign. This is a binary classification task on an imbalanced dataset, where the response iseither ”yes” or ”no”. The dataset is provided by SpareBank1 and contains historical data fromprevious call campaigns collected from March 2020 to July 2021. Furthermore, it is essential tounderstand what type of customer accepts the offer to refinance.
Extreme Gradient Boosting (XGBoost) and Random Forests were the two machine learningalgorithms used to build the predicative models in this thesis. XGBoost was chosen because itis effective and often outperforms other methods, while Random Forests was chosen because itis a well-established method that has been proven to be robust. The models were evaluated andoptimized with emphasis on the balanced accuracy and the sensitivity, which is the model’s abilityto classify the positive responders. To improve the classification, the hyperparameters of the twomethods were tuned. First, the tuning was performed with a screening experiment using Design ofExperiments (DoE) and then further optimization using Response Surface Methodology (RSM).DoE can identify which hyperparameters are most significant and in what configuration. Second,the hyperparameters were optimized using Bayesian optimization. Combinations of Bayesian optimization, DoE, and RSM were also tested to check the effects of screening and applying a centralcomposite design as an initial grid. Lastly, feature importance before and after tuning was investigated.
For both methods, the screening experiment identified the most influential hyperparametersas those directly affecting the class weights. These hyperparameters were chosen for further optimization using RSM. RSM successfully optimized the hyperparameter values and improved thebalanced accuracy. More importantly, the classification of the important positive class improved,leading to an increase in the sensitivity. Bayesian optimization was also applied, which also improved the classification by increasing the balanced accuracy and the sensitivity. A more stableoptimization was achieved with Bayesian optimization in combination with RSM. The highest balanced accuracy scores were obtained from models tuned with Bayesian optimization. Comparedto benchmark results, this led to an improvement of 19% and 16% in the balanced accuracy forXGBoost and Random Forests. However, the difference between the optimized models was notevident. Tuning did not significantly affect the calculated feature importance, and the variableINTEREST EARNING LENDING AMT proved to be important in the prediction.