Vis enkel innførsel

dc.contributor.advisorTyssedal, John Sølve
dc.contributor.authorFrogner, Thomas Benjamin
dc.date.accessioned2019-12-22T15:00:15Z
dc.date.available2019-12-22T15:00:15Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2634377
dc.description.abstractDenne avhandlingen undersøker noen av utfordringene ved å klassifisere et ubalansert datasett, og de valgte algoritmene er logistisk regresjon og random forests (en metode basert på valgtrær). Hovedproblemet å håndtere når man skal klassifisere ubalanserte datasett er det faktum at de fleste algortimer har som tendens å maksimere nøyaktigheten, som betyr at få av observasjonene i minoritetsklassen blir klassifisert på riktig vis. Resamplingsteknikker som undersampling, oversampling og SMOTE - syntetisk minoritets oversamplings teknikk - ble brukt for å balansere datasettet for å forbedre ytelsen til klassifikasjonsalgoritmene. En forenklet versjon av SMOTE ble implementert og brukt her. Ytelsen ble målt ved balansert nøyaktighet, og alle tre resamplingsmetoder så ut til å gi veldig like resultater i mange tilfeller. For random forests så undersampling ut til å oppføre seg ganske annerledes enn oversampling og SMOTE. Resamplingsteknikkene så ut til å yte svært likt da de ble brukt på logistisk regresjon. Et datasett ble gitt av Sparebank 1 Kredittkort AS, med mål om å identifisere hvilke kunder som kunne komme til å søke refinansiering av kredittkortgjelden sin hos konkurrerende banker. Undersampling økte den balanserte nøyaktigheten til random forests fra 0.77 til 0.82. Logistisk regresjon oppnådde en balansert nøyaktighet på omtrent 0.79 uten resampling, og 0.81 med resampling. Oversampling og SMOTE så ut til å være noe mer effektive på logistisk regresjon enn undersampling.
dc.languageeng
dc.publisherNTNU
dc.titleLearning from Imbalanced Data, with a Case Study in Finance
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel