Show simple item record

dc.contributor.advisorTyssedal, John Sølve
dc.contributor.authorLøite, Ask Moe
dc.date.accessioned2023-11-03T18:19:39Z
dc.date.available2023-11-03T18:19:39Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140649151:34577595
dc.identifier.urihttps://hdl.handle.net/11250/3100607
dc.description.abstractEn betydelig del av den vestlige befolkningen eier et kredittkort, men mange av disse personene bruker ikke aktivt kortene sine. Denne oppgaven har som mål å undersøke passive kredittkortbrukere hos SpareBank1, og fokuserer på å konstruere og forbedre modeller som kan forutsi hvilke passive kredittkort brukere som har potensial til å bli aktive kredittkort brukere. Oppgaven involverer binær klassifisering, der responsen er kategorisert som enten "sann" eller "usann". Dataene som brukes i denne analysen er levert av SpareBank1 og omfatter perioden fra mai 2020 til februar 2023. I denne oppgaven ble prediksjonsmodellene logistisk regresjon, gradient boosted decision trees og dyp læring brukt. Logistisk regresjon ble valgt på grunnlag av at denne modellen har vært en av de mest brukte binære regresjonsmodellene de siste 40 årene. Dette skyldes enkelheten og tolkningsmulighetene, samtidig som den gir gode prediksjonsresultater med minimal bruk av beregningsressurser. Gradient boosted decision trees ble valgt fordi denne typen modell har vist seg å være allsidig og overgå andre prediksjonsmodeller. Dyp læring ble valgt fordi denne modellen har vist seg å være en svært effektiv maskinlæringsmodell de siste årene, med mange vellykkede anvendelser på tvers av ulike områder. Prediksjonsmodellene ble først bygget med standardverdier for hyperparametere, og deretter med optimaliserte verdier for hyperparameterne. For å finne de optimale verdiene for hyperparameterne ble Bayesiansk optimalisering brukt. Evalueringen av prediksjonsmodellene fokuserte på AUC, MCC, BACC og Brier-score. Videre ble betydningen av ulike variabler undersøkt ved bruk av både prediksjonsmodellbiblioteker og SHAP-verdier. Denne analysen omfattet vurdering av variablenes betydning både før og etter hyperparameterjusteringen. Gradient boosted decision trees fikk bedre resultater enn både logistisk regresjon og dyp læring. Bayesiansk optimalisering forbedret prediksjonsytelsen for gradient boosted decision trees og dyp læring, men ikke for logistisk regresjon. De beste verdiene for AUC (0.6606), Brier-score (0.0593), MCC (0.1190) og BACC (0.6217) ble oppnådd med gradient boosted decision trees. Bruk av optimaliserte hyperparametere endret ikke signifikant beregnet betydning av variablene for prediksjonsmodellene. Ved bruk av SHAP-verdier ble det funnet at de viktigste variablene endret seg fra prediksjonsmodell til prediksjonsmodell.
dc.description.abstractThis thesis aims to examine passive credit card users within SpareBank1 and focuses on constructing and refining models capable of predicting which passive customers that have the potential to become active again. The task at hand involves binary classification, where the response is categorized as either "true" or "false". The data used for this analysis is provided by SpareBank1 and encompasses data spanning from May 2020 to February 2023. The predicting models used in this thesis are logistic regression, gradient boosted decision trees and deep learning. These models were initially built with default values for the hyperparameters, and then with optimized values for the hyperparameters found by Bayesian optimization. The predictive models were evaluated by various metrics, including the area under the ROC curve, Matthews Correlation Coefficient, Balanced Accuracy, and the Brier score. Furthermore, the importance of features were investigated using both the predictive model libraries and SHAP values both before and after the hyperparameter tuning process. Gradient boosted decision trees outperformed both logistic regression and deep learning. Bayesian optimization increased the predicting performance for gradient boosted decision trees and deep learning, however it did not increase the predicting performance for logistic regression. The best AUC $(0.6606)$, Brier score $(0.0593)$, Matthews Correlation Coefficient $(0.1190)$, and Balanced Accuracy $(0.6217)$, where obtained using gradient boosted decision trees. Using optimized hyperparameters did not significantly change the calculated feature importance for the predicting models. Using SHAP values, it was found that different features emerged as the most important features across the different predicting models.
dc.languageeng
dc.publisherNTNU
dc.titleBinary Classification of Credit Card Users with Logistic Regression, Gradient Boosted Decision Trees and Deep Learning
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record