Vis enkel innførsel

dc.contributor.advisorLekkas, Anastasios
dc.contributor.authorKinn, David Aleksander
dc.date.accessioned2023-09-29T17:22:19Z
dc.date.available2023-09-29T17:22:19Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140443607:69784770
dc.identifier.urihttps://hdl.handle.net/11250/3093213
dc.description.abstractDenne master oppgaven presenterer en ny metode for omfattende forklaring av hvordan en forsterkningslærende agent handler i en episode. Metoden forklarer hvorfor agenten tar sine handlinger og hvordan disse handlingene påvirker dens fremtidige tilstander. Vi refererer til disse som årsakene og virkningene av agenten, henholdsvis, og er derfor vi kaller forklaringene for Cause and Effect Sequential (CES) forklaringer. CES forklaringer holdes enkle ved å gruppere lignende påfølgende handlinger og begrense tilstandene og handlingene nevnt i forklaringen til de mest innflytelsesrike. Resultatene fra metoden indikerer at metoden generelt fungerer bra. Evalueringer gjort av en godt trent agent virker logiske, mens evalueringene tatt av en dårlig trent agent er vanligvis er mer ulogiske (som de bør være). Vi validerer deler av forklaringen med SHapley Additive exPlanations (SHAP) og konkluderer med at metodene vanligvis er enige. Forfatteren foreslår å forbedre metoden ytterligere ved å justere parameterne for handlinggruppering automatisk, tillate lineær økning eller reduksjon av handlinggruppene, og å gjøre flere tiltak for å robust finne de innflytelsesrike delene av episodene.
dc.description.abstractThis thesis presents a new method for comprehensively explaining how a Reinforcement Learning agent acts in an episode. The method explains why the agent takes its actions and how these actions affect its future states. We refer to these as the causes and effects of the agent, respectively, which is why we call the explanations Cause and Effect Sequential (CES) explanations. CES explanations are kept simple by grouping similar subsequent actions and limiting the states and actions mentioned in the explanation to the most influential ones. The results of the method indicate that the method generally works well. Assessments taken by a well-trained agent seem logical, while the evaluations are more illogical for a poorly trained agent (as they should be). We validate parts of the explanation with SHapley Additive exPlanations (SHAP) and conclude that the methods usually agree. The author suggests improving the method further by adjusting the action grouping parameters automatically, allowing for linear increasing or decreasing action groups, and doing several measures to find the influential parts of the episodes more robustly.
dc.languageeng
dc.publisherNTNU
dc.titleCausal Episode Explanations for Reinforcement Learning Applications
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel