Vis enkel innførsel

dc.contributor.advisorAas, Kjersti
dc.contributor.authorRustad, Arne
dc.date.accessioned2022-11-30T18:19:28Z
dc.date.available2022-11-30T18:19:28Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:104646180:36522065
dc.identifier.urihttps://hdl.handle.net/11250/3035146
dc.description.abstractKontrafaktiske forklaringer er en metode for å forklare prediksjoner fra black-box modeller gjennom henvising til alternative lignende virkeligheter der et annet utfall skjer. Denne eksempel-baserte forklaringsmetoden er i ferd med å bli et populært hjelpemiddel innen forklaring av avanserte AI-modeller. I denne avhandlingen presenterer vi et rammeverk for å syntetisere tabelldata ved hjelp av Wasserstein Generative Adversarial Networks (WGAN) som vi navngir tabGAN. I tillegg modifiserer vi dette rammeverket til også å kunne lage modell-baserte kontrafaktiske forklaringer. Det nye rammeverket for generering av kontrafaktiske forklaringer kaller vi for tabGANcf, selv om det i praksis er mer et pilotprosjekt for å synliggjøre at man kan lage kontrafaktiske forklaringer på denne måten. Rammeverket for syntetisering av tabelldata, tabGAN, er imidlertid langt mer komplett. Det tilrettelegger for stor individuell brukstilpasning, og de anbefalte standardverdiene i rammeverket er basert på et omfattende hyperparametersøk. Gjennom arbeidet med rammeverket tabGAN fikk vi ideen til en ny type transformasjon som kan brukes som preprosesseringsmetode for numeriske variabler. Vi kaller den for randomisert kvantiltransformasjon (the Randomized Quantile Transformation), ettersom den er en stokastisk versjon av kvantiltransformasjon. I tillegg til en mer standard WGAN versjon implementerer vi et WGAN med betinget generator, inspirert av datasyntetiseringsmetoden CTGAN. Tanken bak den betingede arkitekturen og spesialtilpassede treningsprosessen er å være bedre i stand til å representere de sjeldne kategoriene for ubalanserte diskrete kolonner, slik at det blir lettere for generatoren å lære seg å gjenskape de også riktig. Vi sammenligner seks datasyntetiseringsmetoder fra rammeverket tabGAN mot de beste datasyntetiseringsmetodene innen dette feltet, som CTGAN, TVAE, CopulaGAN, GaussianCopula og TabFairGAN. I sammenligningen evaluerer vi hvor godt datasyntetisererne er i stand til å gjenskape både marginal- og simultanfordelinger fra et reelt datasett. I tillegg evaluerer vi hvor godt maskinlæringsmodeller trent på syntetisk data fra hver datasyntetiserer presterer på ett reelt testdatasett, sammenlignet med hvor godt samme modell trent på det originale treningsdatasettet gjør det. Dette gjentar vi for fire forskjellige reelle datasett. Metodene fra tabGAN-rammeverket gjør det konsekvent bedre i disse evalueringene sammenlignet med de andre datasyntetiserermetodene. I tillegg til dette er metodene fra tabGAN-rammeverket raskere å trene enn de andre datasyntetisererne som også er basert på GAN. Resultatene indikerer videre at randomisert kvantiltransformasjon er svært nyttig for numeriske datasettvariable med mange repeterte verdier. For det kontrafaktiske rammeverket tabGANcf utfører vi en visuell verifisering av at metodene fra rammeverket er i stand til å generere kontrafaktiske forklaringer som faktisk endrer prediksjonene til en black-box klassifiseringsmodell. Vi observer at de ulike metodene fra rammeverket fint klarer å endre prediksjonene uten å gjøre unødvendige endringer på diskrete variable, men at dette ikke er tilfellet for de numeriske variablene. I denne avhandlingen foreslår vi en mulig løsning både på dette problemet og andre potensielle utfordringer vi identifiserer. Grunnet tidsbegrensninger overlater vi testing av disse forslagene til fremtidig forskning.
dc.description.abstractCounterfactual explanations is an emerging method for explaining predictions from black-box models by utilizing "what-if" scenarios. In this thesis, we create a Wasserstein Generative Adversarial Network (WGAN) based tabular data synthesizing framework, tabGAN, and later we modify this WGAN framework to create a model-based counterfactual synthesizer framework, which we call tabGANcf. The counterfactual framework is more a proof-of-concept, while the data synthesizing framework is more complete, with a lot of customization available and default values based on extensive hyperparameter tuning. During the creation of the data synthesizing framework tabGAN, we also create a new type of transformation, which we include as a preprocessing option for the numerical variables in a dataset. The novel transformation is a stochastic version of quantile transformation, which we in this thesis name the Randomized Quantile Transformation. In addition to a regular WGAN implementation, the data synthesizing framework tabGAN also implements a WGAN with a conditional generator inspired by the CTGAN data synthesizer. The conditional architecture and training process aim to provide more representation for rare categories in imbalanced columns. We compare six data synthesizing methods from the tabGAN framework against the state-of-the-art data synthesizer methods CTGAN, TVAE, CopulaGAN, GaussianCopula, and TabFairGAN. The comparison includes an evaluation of the recreated marginal and joint distributions of a real dataset, as well as a comparison of machine learning efficacy on four real datasets. The methods from the tabGAN framework consistently outperform the other data synthesizing methods. Additionally, the methods from the tabGAN framework run substantially faster than the other GAN based data synthesizers in the evaluation, around 3-4 times faster than CTGAN and CopulaGAN for the real dataset used in the training time comparison. The comparison also indicates that the novel transformation method, the Randomized Quantile Transformation, is very beneficial for dataset variables with many repeated values. We visually verify that methods from the tabGANcf framework are able to generate counterfactual explanations that change the predictions of a black-box classifier whilst not making unnecessary changes to the discrete variables. Sparsity of proposed changes in the numerical variables is, however, still an issue. We propose a potential solution for this that can be investigated in future research. We also provide a list of other extensions that can be implemented in future GAN based counterfactual synthesizers.
dc.languageeng
dc.publisherNTNU
dc.titletabGAN: A Framework for Utilizing Tabular GAN for Data Synthesizing and Generation of Counterfactual Explanations
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel