Bankruptcy prediction for Norwegian enterprises using interpretable machine learning models with a novel timeseries problem formulation

Moen, Petter Aarseth

dc.contributor.advisor	Eidsvik, Jo
dc.contributor.author	Moen, Petter Aarseth
dc.date.accessioned	2021-09-15T17:27:44Z
dc.date.available	2021-09-15T17:27:44Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:50780835:62187039
dc.identifier.uri	https://hdl.handle.net/11250/2778369
dc.description.abstract	Prediksjon av konkurs hos selskaper er et emne som er relevant både hos investorer, kreditorer, banker og regulatorer. I denne oppgaven bruker vi et datasett bestående av årsrapporter fra mer enn 175 000 norske små- og mellomstore bedrifter over 8 år til å trene tre statiske statistiske modeller (logistisk regresjon, nevrale nettverk og CatBoost), og tester ytelsen på et representativt sett ytelsesmetrikker. Nytt for området er prediksjonsrammeverket CatBoost, som gir en AUC-score på 0.8735 på et balansert testdatasett, sammenlignet med 0.8437 hos den mer tradisjonelle logistisk regresjonsmodellen. Ytelsesøkningen kommer delvis av introduksjonen av en ny kategorisk variabel som inneholder informasjon om industrområdet til selskapet. Vi presenterer og tester også forskjellige måter å integrere kategoriske variabler i modellen, og finner at target encoding gir generelt best resultater. Vi finner også at et mer kompakt variabelsett med 30 nøkkeltallvariabler (i motsetning til 156 i det fulle variabelsettet) gir sammenlignbar ytelse i alle tilfeller. Videre formulerer vi konkursproduksjonsproblemet som et tidsrekkeprediksjonsproblem, og bruker følgende år med nøkkeltall til å konstruere tidsrekker med 1-4 år av denne dataen. Vi implementerer to tidsrekkemodeller basert på nevrale nettverk, RNN og LSTM, som produserer testsett AUC-scorer på henholdsvis 0.8651 og 0.8698. Tidsrekkemodellene yter verre enn CatBoost-modellen (og sammenlignbart med det vanlige nevrale nettverket) på tidsrekker med 1 år tilgjengelig data, men produserer signifikant bedre resultater på tidsrekker med 3 og 4 år med data, med AUC-scorer på henholdsvis 0.8827 og 0.8891 for LSTM-modellen. Til slutt presenterer vi et teoretisk solid rammeverk for modellinterpretasjon, kalt SHAP, som gir verdier for individuelle variabelbidrag til enhver modellprediksjon. Vi demonstrerer så hvordan dette rammeverket kan brukes på våre konkursprediksjonsmodeller, både til variabelseleksjon og analyse av modellens lærte oppførsel. Vi finner at førstnevnte produserer sammenlignbare resultater som med mer komplekse variabelseleksjonsmetoder.
dc.description.abstract	Prediction of corporate bankruptcy is a topic of great relevance to both investors, creditors, banks, and regulators, offering significant potential for economic gains. Using a dataset of financial statements from more than 175 000 Norwegian small and medium-sized enterprises spanning 8 years, we implement and train three static statistical models (logistic regression, neural networks, and CatBoost) and test their performance on a representative set of performance metrics. New for the field is the gradient boosting framework CatBoost, which produces an AUC score of 0.8735 on a balanced test dataset, compared to 0.8437 of the traditionally used logistic regression model. This performance increase is partly facilitated by the introduction of a novel categorical feature, containing information about the industry of a company. We present and compare several ways of integrating such categorical features into the model frameworks, and find that a target encoding generally performs the best. We also find that more compact feature subsets of 30 financial ratio features (as opposed to the full 156 feature set) achieve comparable performance in all cases. We then formulate the bankruptcy prediction problem as a timeseries prediction problem, using subsequent years of financial ratios to construct timeseries containing 1-4 years of such data. We implement two neural network based timeseries models, namely recurrent neural networks and long short term memory networks, which are found to produce balanced test set AUC scores of 0.8651 and 0.8698, respectively. While worse than the CatBoost model (and similar to the standard neural network) for the timeseries with only 1 year of data, we find that the timeseries models produce significantly better results for timeseries with 3 and 4 years of data, with AUC scores of 0.8827 and 0.8891 for the LSTM model, respectively. Finally, we outline a theoretically sound model interpretation framework, named SHAP, providing values for individual feature contributions to any model prediction. We then demonstrate how this framework can be applied to our considered bankruptcy prediction models, both for feature selection and analysis of learned model behaviour. The former is found to perform comparatively to a more exhaustive feature selection search method.
dc.language	eng
dc.publisher	NTNU
dc.title	Bankruptcy prediction for Norwegian enterprises using interpretable machine learning models with a novel timeseries problem formulation
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:50780835:62187 ...
Størrelse:: 8.188Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2438]

Vis enkel innførsel