Probabilistic Tabular Diffusion for Counterfactual Explanation Synthesis
Abstract
Nylig popularisering av kunstig intelligens (KI) har ført til både positive og negative utbrudd angående fremtiden til teknologien. Flere av den siste tidens mest omdiskuterte KI-systemer tilhører et område kalt dyp generativ KI, som er en samlebetegnelse for høyst kompliserte modeller i stand til å generere syntetiske data av ulike sorter. Et annet felt ved navn forklarbar KI har som mål å utvikle metoder for å øke forståelsen av ugjennomsiktige prediksjonsmodeller. Dette er en problemstilling som en stadig økende andel av forskere, lovgivere og brukere vier oppmerksomhet til. Kontrafaktiske forklaringer utgjør en spesielt spennende forklaringsmetode, fordi de er verdifulle forklaringer av individuelle prediksjoner, på samme tid som de er enkle for mennesker å forstå. I denne avhandlingen kombinerer vi de to nevnte, og tilsynelatende motstridende, underområdene av KI ved å bruke dype generative modeller til å generere kontrafaktiske forklaringer.
Vårt bidrag er tredelt. For det første gir vi en grundig og selvstendig, men likevel tilgjengelig, innføring i teorien som omhandler diffusjonsmodeller. Disse modellene er fundamentale i flere av de hittil mest vellykkede rammeverkene for å fremstille syntetiske data, for eksempel innenfor billedkunst. Deretter bidrar vi til forskningen innenfor diffusjonsmodeller med fokus på modellering av tabulære data. Dette gjør vi ved å gi en omfattende redegjørelse av én spesifikk nylig etablert modell, der vi fyller inn vesentlige detaljer som virker å mangle i den opprinnelige fremstillingen. Til slutt anvender vi den tabulære diffusjonsmodellen til å generere kontrafaktiske forklaringer, ved å modifisere en gitt modellagnostisk algoritme. Vi evaluerer den generative ytelsen til den tabulære diffusjonsmodellen på tre reelle og åpent tilgjengelige datasett, relativt til to tidligere undersøkte modeller med veldokumenterte prestasjoner — én dyp modell basert på variational autoencoders og én grunn modell basert på beslutningstrær. I tillegg beregner vi kontrafaktiske forklaringer ved hjelp av de tre nevnte modellene, før vi vurderer deres evne til å forklare prediksjoner fra en arbitrær binær klassifiseringsmodell.
Våre eksperimenter viser at alle tre modellene er i stand til å generere både syntetiske tabelldata og kontrafaktiske forklaringer, men med ulik grad av tillit og pålitelighet. Vi ser ingen tydelige tegn på at den tabulære diffusionsmodellen yter bedre enn referansemodellene, verken når det kommer til å generere tabelldata fra en estimert underliggende simultanfordeling eller når det kommer til å generere kontrafaktiske forklaringer for å belyse binære prediksjoner av test-observasjoner. Grunnet lovende resultater, uten omfattende justering av hyperparametre, oppfordrer vi til å benytte den tre-baserte modellen som referanse i enhver evalueringsprosess i videre forskning innenfor generativ modellering av tabulære data. Helt til slutt foreslår vi noen mulige retninger for fremtidig forskning på diffusjonsmodeller anvendt på tabelldata, med hovedvekt på generering av syntetiske data eller kontrafaktiske forklaringer. Recent mainstream popularization of artificial intelligence (AI) has led to both positive and negative sentiments concerning the future of the technology. Several of the current most notable AI systems can be categorized as deep generative AI, a term that encompasses highly complex models capable of generating data from different modalities. Another subfield called explainable AI (XAI) aims to develop methods to increase understanding of opaque prediction models, an objective that both researchers and legislators continue to direct considerable efforts towards. An emerging, especially human-friendly technique from XAI corresponds to counterfactual explanations, which are valuable explanations for individual predictions. In this thesis, we combine these two seemingly contradictory subfields of AI, by applying deep generative models to synthesize counterfactual explanations.
Our main contributions are threefold. First, we develop an accessible and self-contained exposition of diffusion probabilistic models, the generative models that underpin several of the most successful technologies for generating data, for example, in art. Second, we add to the literature on diffusion models applied to tabular data, by dissecting and thoroughly explaining the key components of one such model. Third, we utilize the tabular diffusion model to generate counterfactual explanations, by altering one specific model-agnostic algorithm. The generative performance of the tabular diffusion model is evaluated on three publicly available, real datasets against two previously demonstrated models — one deep variational autoencoder model and one shallow decision tree model. Moreover, counterfactual explanations are computed using the three models as foundations, in order to evaluate their usefulness for explaining an arbitrary binary classifier.
In our experiments, we observe that all three models are able to generate tabular data and counterfactual explanations, but with differing levels of faithfulness and reliability. In fact, we do not find sufficient evidence to conclude that the considered diffusion model is superior to the baselines, neither at generating data from an approximated unknown joint distribution nor at generating counterfactual explanations for clarifying binary predictions on test observations. Due to promising results, we urge researchers to consider the out-of-the-box tree-based model as a reference during evaluation in further work on deep generative modelling for tabular data. Finally, we provide possible directions for future research on diffusion models for tabular data and counterfactual explanations.