From Static to Dynamic Concept Detection in Sequential Decision-Making: Improving Reward Functions Using Explainable AI
Abstract
Dype nevrale nettverk trent ved hjelp av "deep reinforcement learning" (DRL) ved å spille mot seg selv i brettspill uten menneskelig innspill, har demonstrert overmenneskelig ytelse. Gitt dette er det stadig viktigere og interessant å utforske kunnskapen og strategiene disse nevrale nettverkene har lært. Konseptbaserte metoder fra forklarbar kunstig intelligens, XAI, har vist lovende resultater i å oppdage menneskelige konsepter representert i trente nevrale nettverk. Mest forskning har fokusert på statiske konsepter, som enten er til stede eller fraværende i en gitt tilstand, heller enn på dynamiske konsepter, representert i en sekvens av tilstander. Ettersom DRL-nettverk er trent på sekvensielle data, er identifisering av dynamiske konsepter et viktig skritt i å forklare beslutningsprosessen til dype nevrale nettverk i DRL-miljøer.
Denne oppgaven undersøker tilegnelsen av både statiske og dynamiske konsepter i et dypt nevralt nettverk trent i spillet Go. En DRL-algoritme basert på selvspill kombinert med Monte Carlo-tresøk er implementert for å effektivt identifisere mønstre i optimale og suboptimale greiner i treet. Ved å forstå hvilke konsepter som er viktige for det dype nevrale nettverket, trenes en såkalt "joint embedding model" (JEM) på tilstand-handling-par assosiert med disse konseptene. Dette nettverket brukes under treningen av DRL-nettverket for å vurdere forbedringen i belønningsfunksjonen ved bruk av konsepter. Ytelsen av DRL-nettverket sammenliknes med ytelsen til DRL-nettverk trent med konseptfunksjoner og standard nullsumstilnærminger. I tillegg undersøkes bruken av en såkalt "concept bottleneck model" (CBM) for å finne den beste måten å gi konseptbaserte forklaringer ved deployering.
Tilpasning av metoden for statisk konseptdeteksjon gjennom Monte Carlo-tresøk for å oppdage dynamiske konsepter har vist at både kjente statiske og dynamiske konsepter kan tilegnes av et dypt nevralt nettverk som spiller Go. Å trene en JEM på tilstand-handling-par tilsvarende viktige konsepter viste seg å være utfordrende for å nøyaktig identifisere forklaringer for gitte tilstand-handling-par. Da nettverket ble videre brukt i belønningsfunksjonen, forårsaket den unøyaktige konseptutvinningen en feiljustering i en opprinnelig justert belønningsfunksjon. Derimot viste bruk av konseptfunksjoner i belønningsfunksjonen forbedret læring sammenliknet med standard nullsumstilnærming. Dette fremhever effektiviteten av å bruke konsepter i belønningsfunksjonen når belønninger er riktig tildelt. Eksperimenter med en CBM, som gir konseptforklaringer til sluttbrukere gjennom dens latente vektor, demonstrerte dens anvendelighet i å gi forklaringer ved deployering. Konseptfunksjoner tilbød imidlertid den mest nøyaktige og modulære løsningen sammenliknet med både CBM og JEM. Deep neural networks trained using deep reinforcement learning (DRL) by self-play in board games without human input, have demonstrated superhuman performance. Given this, it is increasingly important as well as interesting to explore the knowledge and strategies these neural networks have learned. Concept-based methods from explainable artificial intelligence, XAI, have shown promising results in detecting human concepts represented within trained neural networks. Most research has focused on static concepts, which are either present or absent in a given state, rather than on dynamic concepts, encoded in a sequence of states. Since DRL networks are trained on sequential data, identifying dynamic concepts is an important step in explaining the decision-making process of deep neural networks in reinforcement learning settings.
This thesis examines the acquisition of both static and dynamic concepts in a deep neural network trained in the game of Go. A DRL self-play algorithm combined with Monte Carlo tree search is implemented to effectively identify patterns in optimal and suboptimal rollouts. By understanding which concepts are important to the deep neural network, a joint embedding model is trained on state-action pairs associated with these concepts. This joint embedding model is used during training of the DRL model to assess the improvement in reward shaping using concepts. The performance of the joint embedding model is compared to that of concept functions and standard zero-sum approaches. Additionally, the use of a concept bottleneck model is investigated in order to determine the best way to provide concept-based explanations at deployment.
Adapting the method of static concept detection through Monte Carlo tree search to discover dynamic concepts has shown that both known human static and dynamic concepts can be acquired by a deep neural network playing Go. Training a joint embedding model on state-action pairs corresponding to important concepts proved challenging in accurately identifying explanations for given state-action pairs. When the joint embedding model was further used for reward shaping, the inaccurate concept extraction caused a misalignment in an initially aligned reward function. Conversely, using concept functions in the reward function demonstrated improved learning over the standard zero-sum approach, highlighting the effectiveness of utilizing concepts for reward shaping when rewards are accurately assigned. Experiments with a concept bottleneck model, which provide high-level concepts through its bottleneck layer, demonstrated its applicability in providing concept-based explanations at deployment. However, concept functions offered the most accurate and modular solution compared to both the concept bottleneck model and joint embedding model.