Show simple item record

dc.contributor.advisorAas, Kjersti
dc.contributor.authorAase, Frida Svendal
dc.date.accessioned2023-09-28T17:24:00Z
dc.date.available2023-09-28T17:24:00Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140649151:35330689
dc.identifier.urihttps://hdl.handle.net/11250/3092847
dc.description.abstractShapley-verdier er en populær metode innenfor forklarbar kunstig intelligens på grunn av et solid teoretiske grunnlag for deres korrekthet og rettferdighet. Imidlertid er beregningen av Shapley-verdier kostbar og derfor ikke gjennomførbart i mange praktiske situasjoner. For å redusere kostnaden brukes Shapley-verdiestimater. Estimeringen av Shapley-verdier kan deles inn i to trinn. Det første trinnet er å estimere bidragsfunksjonen. Bidragsfunksjonen skal fange opp hvordan hver kovariat påvirker prediksjonen til maskinlæringsmodellen, og et vanlig valg er forventningsverdien til modellen betinget på at en delmengde av kovariatene er observert. Denne forventningsverdien er ofte analytisk utilgjengelig. To estimatorer betraktes i denne avhandlingen. Metoden ``off-manifold" (norsk: av eller utenfor manifolden) som ofte fører til skjevhet (engelsk: bias) for virkelige datasett. Surrogatmodellen er en veiledet (engelsk: supervised) maskinlæringsmodell som er trent for å tilnærme bidragsfunksjonen. Det andre estimeringstrinnet er å estimere Shapley-verdiene gitt et estimat av bidragsfunksjonen. Vi betrakter to estimatorer, KernelSHAP og FastSHAP. Av de eksponentielt mange kombinasjonene av kovariater som betraktes i de eksakte Shapley-verdiene, reduserer KernelSHAP kostnaden ved å betrakte en liten delmengde av de viktigste kombinasjonene. FastSHAP er en maskinlæringsmodell som er trent for å estimere Shapley-verdiene. Vi utfører en grundig empirisk studie av estimatorene basert på beregningskostnad og nøyaktighet for simulerte og virkelige datasett. Ved å tydelig separere estimeringstrinnene og evaluere metodene på simulerte datasett der sannheten er kjent, gir vi nye innsikter i metodene. Vi finner at off-manifold-metoden er mer nøyaktig for mindre datasett, spesielt hvis kovariatene er ``nesten uavhengige". Derimot for større datasett, er surrogatmodellen mer nøyaktig, i hvert fall hvis kovariatene er ``langt fra uavhengige". Surrogatmodellen er klart raskere, noe som gjør den foretrukket i mange situasjoner. Begge Shapley-verdiestimatorene er raske når bidragsfunksjonen er gitt. KernelSHAP-metoden er mer nøyaktig enn FastSHAP-metoden hvis tilstrekkelig mange kombinasjoner av kovariater betraktes, spesielt for mindre datasett. I praksis krever økning av antall kombinasjoner av kovariater i KernelSHAP økning av antall estimater av bidragsfunksjonen. Dermed, hvis KernelSHAP kombineres med den langsommere off-manifold-metoden, vil økning i nøyaktighet føre til tregere beregning, som må gjentas for hver enkelt observasjons prediksjon. FastSHAP har fordelen av at etter treningen av modellen er utført, kan hele den totrinns estimeringsprosedyren utføres med en enkelt modellevaluering per observasjon som forklares. Vi finner at ytelsen til metodene for et virkelighetsdatasett samsvarer med resultatene fra simulasjonsstudien.
dc.description.abstractShapley values are popular for explainable artificial intelligence due to their solid theoretical foundation of correctness and fairness. However, the computation of the Shapley values is costly, and therefore, infeasible in many real-world problems. To reduce the cost, Shapley value estimators are used. The Shapley value estimation can be divided into two steps. The first step is the contribution function estimation. The contribution function is meant to capture how each feature affects the prediction of the black box model, and a common choice is the expected value of the model conditioned on a subset of the features being observed, which often is analytically intractable. Two estimators are considered in this thesis. The off-manifold method assumes feature independence, often leading to a bias for real-world data sets. The surrogate model is a supervised machine learning model trained to approximate the contribution function. The second estimation step is to estimate the Shapley values given an estimate of the contribution function. We consider two estimators, KernelSHAP and FastSHAP. Out of the exponential number of feature combinations considered in the exact Shapley values, KernelSHAP reduces the cost by considering a small subset of the most important ones. FastSHAP is a machine learning model trained to estimate the Shapley values. We perform an in-depth empirical study of the estimators based on computational cost and accuracy for simulated and real-world data sets. By clearly separating the estimation steps and evaluating the methods on simulated data sets where the ground truth is known, we provide new insights into the methods. We find that the off-manifold method is more accurate for smaller data sets, especially if the features are ``nearly independent". In contrast, for larger data sets, the surrogate model is more accurate, especially if the features are ``far from independent". The surrogate model is clearly faster, making it preferable in many real-world problems. Both of the Shapley value estimators are fast when the contribution function is given. The KernelSHAP method is more accurate than the FastSHAP method if enough feature combinations are considered, especially for smaller data sets. In practice, increasing the number of feature combinations in KernelSHAP requires increasing the number of estimates of the contribution function. Thus, if KernelSHAP is combined with the slower off-manifold method, increasing the accuracy will lead to slower computation, which must be repeated for every instance's prediction. FastSHAP has the advantage that after an initial training procedure, the full two step estimation procedure can be performed by a single model evaluation per instance of interest. For a real-world data set, we find that the relative performance of the methods aligns with the results from the simulation study.
dc.languageeng
dc.publisherNTNU
dc.titleAn Exploration of Shapley Values for Model Interpretability: Providing a Fair and Accurate Explanation of Black Box Models
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record