Vis enkel innførsel

dc.contributor.advisorTyssedal, John Sølve
dc.contributor.authorVatnedal, Rut Pernille
dc.date.accessioned2021-09-15T17:26:18Z
dc.date.available2021-09-15T17:26:18Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:50780835:51176533
dc.identifier.urihttps://hdl.handle.net/11250/2778343
dc.description.abstractKredittinstitusjoner bruker kredittscoringsmodeller til å avgjøre hvilke kredittkortsøknader som skal innvilges. Prestasjonen til statistiske- eller maskinlæringsmodeller brukt i kredittscoring avhenger av verdiene til satte hyperparametere. Hyperparameterene må derfor bli tildelt passende verdier for at modellene skal fungere optimalt. Oppgaven kombinerer statistisk forsøksplanlegging og responsflatemetodikk med resamplingsteknikker for å optimalisere prediksjonsevnen til random forests-algoritmen på et datasett bestående av 50 000 kredittkortsøknader fra SpareBank 1 Kreditt AS. Screening-forsøk benyttes til å identifisere hyperparametere som har betydelig påvirkning på modellprestasjonen og verdiene til disse optimaliseres ved å tilpasse en andreordens responsflatemodell og finne hyperparameterverdiene som maksimerer denne. Siden datasettet er ubalansert er resamplingsteknikkene undersampling og oversampling benyttet på treningsdataene for å øke modellprestasjonen. Metoden viser seg å være mer informativ enn typiske hyperparameteroptimaliseringsmetoder som rutenett-søk og tilfeldig søk da den gir kunnskap om hvilke hyperparametere som har signifikant påvirkning på modellprestasjonen, samt mulige interaksjoner mellom hyperparameterene. Ved bruk av metoden økte klassifiseringsprestasjonen til random forests med 38% sammenlignet med prestasjonen med standardinnstillinger. Den maksimale balanserte nøyaktigheten oppnådd var 0.798. Med optimaliserte hyperparameterverdier presterte random forests relativt likt når den ble trent på henholdsvis usamplet, undersamplet og oversamplet data.
dc.description.abstractCredit institutions rely on accurate credit scoring models to determine which credit card applicants to grant credit. The performance of statistical- or machine learning algorithms used in credit scoring depends on the values of hyperparameters. These hyperparameters must be assigned suitable values to obtain superior model performance. The thesis combines design of experiments (DOE) and response surface methodology (RSM) with resampling techniques to optimize the predictive performance of the random forests algorithm on a data set consisting of 50 000 credit card applicants from SpareBank 1 Kreditt AS. Hyperparameters are tuned by conducting screening experiments to identify active hyperparameters and using response surface methodology to optimize their values by estimating a second-order response surface and finding the hyperparameter configuration which yields the maximum response. As the data set is imbalanced, the two resampling techniques undersampling and oversampling are used on the training data to enhance model performance. The tuning method in this thesis provides more information about the hyperparameters and their interactions than standard tuning methods such as grid search or random search. By tuning the hyperparameters and resampling the training data, random forests’ classification performance is increased by 38% relative to its performance with default values, reaching a maximum balanced accuracy of 0.798. With tuned hyperparameter values, random forests performed approximately equally well when trained on unsampled, undersampled and oversampled data.
dc.languageeng
dc.publisherNTNU
dc.titleOptimizing Predictive Performance of Random Forests by means of Design of Experiments and Resampling, with a Case-study in Credit Scoring
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel