Explaining random forest predictions with partial dependence and accumulated local effects plots
Denne bacheloroppgaven tar for seg potensielle bruskområder for to XAI metoder for å analysere svart boks modeller. For å gjøre dette brukes en svart boks model fra statistisk læring, for denne oppgaven er det valgt å bruke random forest. De to XAI metodene som blir brukt er partial dependency plots (PDP) og Accumulated Local Effect plots (ALE plots).
For å bygge en forståelse av hvordan random forests fungerer så starter bacheloroppgaven med teorien bak beslutningstrær. Deretter blir hovedidéene som leder til random forest presentert, og til slutt blir hovedtemaet til oppgaven gjennomgått: PDP og ALE plots. Både teorien og metodene blir dekt, og en praktisk implementasjon av metodene på både et reelt og simulert dataset blir analysert.
ALE plots burde i teorien ha bedre resultater en PDP på korrelerte dataset, men overaskende nok var ikke dette tilfellet i praksis. Når det ble forsøkt å reprodusere teorien ved å implementere metodene på Boston house datasettet, hvor kovariantene er veldig korelerte, og på et simulert dataset hadde begge metodene nesten identiske resultater. This thesis aims to look at the potential usefulness of two explainable AI methods for analyzing black-box models. To do this a black-box model from statistical learning has to be used, for this thesis the tree based method random forest is used. The two methods that are used are partial dependency plots (PDP) and Accumulated Local Effect plots (ALE plots).
To build up an understanding of how random forests works the thesis starts with the theory behind tree based models. Then the core ideas that lead to random forests is presented. Finally the main topic of the thesis is introduced: PDP and ALE plots. Both the theory of the methods are covered, and a practical implementation on both real and simulated datasets is analyzed.
ALE plots should in theory perform better than PDP on correlated datasets, surprisingly this was not the case in practise. When trying to reproduce this on the Boston house dataset, where the covariates are quite correlated, and on a simulated dataset both methods produced almost the same results.