Learning from Imbalanced Data, with a Case Study in Finance
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2634377Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Denne avhandlingen undersøker noen av utfordringene ved å klassifisere et ubalansert datasett, og de valgte algoritmene er logistisk regresjon og random forests (en metode basert på valgtrær). Hovedproblemet å håndtere når man skal klassifisere ubalanserte datasett er det faktum at de fleste algortimer har som tendens å maksimere nøyaktigheten, som betyr at få av observasjonene i minoritetsklassen blir klassifisert på riktig vis. Resamplingsteknikker som undersampling, oversampling og SMOTE - syntetisk minoritets oversamplings teknikk - ble brukt for å balansere datasettet for å forbedre ytelsen til klassifikasjonsalgoritmene. En forenklet versjon av SMOTE ble implementert og brukt her. Ytelsen ble målt ved balansert nøyaktighet, og alle tre resamplingsmetoder så ut til å gi veldig like resultater i mange tilfeller. For random forests så undersampling ut til å oppføre seg ganske annerledes enn oversampling og SMOTE. Resamplingsteknikkene så ut til å yte svært likt da de ble brukt på logistisk regresjon.
Et datasett ble gitt av Sparebank 1 Kredittkort AS, med mål om å identifisere hvilke kunder som kunne komme til å søke refinansiering av kredittkortgjelden sin hos konkurrerende banker. Undersampling økte den balanserte nøyaktigheten til random forests fra 0.77 til 0.82. Logistisk regresjon oppnådde en balansert nøyaktighet på omtrent 0.79 uten resampling, og 0.81 med resampling. Oversampling og SMOTE så ut til å være noe mer effektive på logistisk regresjon enn undersampling.