Vis enkel innførsel

dc.contributor.advisorBakke, Øyvind
dc.contributor.authorUthus, Sindre Nybakk
dc.date.accessioned2019-10-26T14:00:30Z
dc.date.available2019-10-26T14:00:30Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2624601
dc.description.abstractKunder er grunnlaget for enhver forretning sin suksess, og en forretning kan aldri være for takknemlig for sine trofaste kunder. I denne masteroppgaven skal vi finne signifikante forskjeller mellom ulike typer kunder. Ved å gjøre dette kan vi få nyttig kundeinnsikt av passive kunder, og forstå hvorfor kunder velger å gå fra å være aktive til å bli inaktive kunder. Analysene er gjort på kundedatabasen til banken som denne oppgaven er skrevet for. Bankkundene er delt inn i seks grupper, eller kategorier, basert på kundeaktivitet og antall bankprodukter tatt i bruk. Vi betegner kategoriene som A-F, hvor kategori A står for kundene som er mest aktive og kategori F står for kundene som er minst aktive. Vi bruker nominal regresjon til å finne forskjeller i hver av disse kategoriene. Vi fant ut at kunder som har vært i en søkeprosess for lån eller kredittkort hadde en større sannsynlighet for å være en kunde av kategoriene A og B. Vi fant også ut at sannssynligheten for å være kategorisert i F er sterkt redusert hvis kunden er medlem eller ikke-medlem med medlemsbetingelser. I tillegg, sannsynligheten for å være en kunde av kategori A økes kraftig dersom kunden har aktivert eFaktura. La kategoriene A-D være kategoriene med aktive kunder, og kategoriene E-F være kategoriene med inaktive kunder. Vi lager en indikatormodell som forutser hvilke kunder som går fra å være aktive til å bli inaktive i fremtiden. Vi utfører statistiske modellerings- og læringsmetoder, som binær logistisk regresjon, "random forests" og XGBoost, for å oppdage disse kundene. Vi tester også forskjellige modeller basert på modellseleksjonsmetoder som bruker Akaike informasjonskriterium (AIC), lasso regularisering og viktighet av variabler. Modellkvaliteten er evaluert på AUC-verdien på test data. Modellen som presterte best var XGBoost-modellen med alle variablene inkludert. Dermed vil denne modellen bli brukt som indikatormodellen, m.a.o. modellen som skal forutse om en aktiv bankkunde holder seg aktiv eller blir inaktiv i løpet av det kommende året. Vi erfarte at innskuddssaldoen til kunden var den mest signifikante variabelen i denne analysen. Den logistiske regresjonskoeffisienten for denne variabelen er negativ, som betyr at jo høyere innskuddsaldoen er, desto lavere sannsynlighet er det for å bli inaktiv i fremtiden. Antall transaksjoner av kunden og om kunden har lån, er også svært viktige faktorer som spiller inn.
dc.description.abstractCustomers are the foundation of any business's success, and a business can never be too grateful for loyal customers. Customer insight is therefore an important key to help sustain loyal and active customers. In this thesis we are going to detect significant differences between different customer types, as well as indicating future inactive customers. Doing so, we will get useful insight about the inactive customers, and perhaps understand why they choose to go from being active to being inactive. The analyses are done on a bank customer database, provided by the bank itself. The bank customers are divided into six groups, or categories, based on customer activity and the number products used. The categories are denoted by A-F, where A contains the most active customers and F contains the least active customers with no products used. We perform nominal regression in order to detect differences between these groups. We experienced that customers that have applied for loan/credit card are more likely to be customers from the categories A and B. Furthermore, we experienced that probability for being in category F is strongly decreased if the customer is a member or a non-member with member benefits. Also, the probability for being in category A is significantly increased if the customers have activated electronical billing. Let the categories A-D relate to the active customers, and the categories E-F relate to the inactive customers. To indicate customers that are going to be inactive in the future, we create an indicator model. We perform statistical modelling and learning methods, such as binary logistic regression, random forests and XGBoost, in order to create this model. We use model selection methods, such as the Akaike Information Criterion (AIC), lasso regularization and variable importance. The performance of a model is evaluated on the AUC value on test data. The model that performed best was the XGBoost model with all the variables included. Thus, this will be used as the indicator for detecting bank customers that are going to be inactive within the next year. We experienced that balance of the customer was clearly the most significant variable, when it comes to being active or inactive in the future. The binary logistic regression coefficient for this variable is negative. Hence, the higher the balance on the deposit account of a customer, the lower is the probability for being inactive in the future. The number of transactions of the customer and if the customer has a loan, are both also very important factors when it comes to being active/inactive in the future.
dc.languageeng
dc.publisherNTNU
dc.titleBinary Classification, Logistic and Nominal Regression: Application to Bank Customer Loyalty Data
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel