Explainable AI through Concept Detection with Application to Misalignment Detection and Mitigation
Abstract
Dype nevrale nettverk blir stadig mer kapable og brukt av samfunnet, men deres indre virkemåte er uforståelig for mennesker. Mangelen på forståelighet kan begrense bruken av ellers nyttige modeller på grunn av nylig vedtatte lover som krever transparente systemer, samt etiske bekymringer. Dette er spesielt utfordrende for Deep Reinforcement Learning (DRL) systemer, da de vanligvis er mer autonome enn andre maskinlæringssystemer. For å adressere disse problemene, utvikles Explainable Artificial Intelligence (XAI) metoder for å forklare de indre virkemåtene til nevrale nettverk. Dessverre har den populære tilnærmingen av salienensmetoder vist seg å produsere misvisende og upålitelige modellforklaringer. Samtidig har konseptbaserte forklaringer vist lovende resultater og fått betydelig oppmerksomhet. Dette motiverer utviklingen av konseptbaserte forklaringsmetoder for å forklare DRL-systemer, og for å undersøke hvordan de presterer sammenlignet med saliensmetoder.
I dette arbeidet utvikles et videospill kalt Qrunner for å utforske nytten av konseptbaserte forklaringer for et DRL-system. Et Deep Q-Network (DQN) trenes til å nå menneskelig nivå i Qrunner, og deretter brukes konseptbaserte forklaringsmetoder for å forklare hva dette nettverket har lært. Eksperimentene viser at DQN internaliserer konsepter kjent for mennesker, og at disse konseptene kan brukes til å forklare nettverksprediksjoner. To nye tilnærminger utforskes for å hindre ufullstendige og misvisende forklaringer. Den første tilnærmingen demonstrerer muligheten for å oppdage ukjente konsepter innenfor DQN ved å klynge mellomrepresentasjoner og sammenligne sentroidene til disse klyngene med kjente konsepter. Den andre tilnærmingen tester om oppdagede konsepter representerer det den menneskelige mottakeren av forklaringene forventer. Disse eksperimentene avdekker et internalisert problem i nettverket, for hvilket en ny metode kalt refinement learning utvikles og brukes for å rette modellen. Til slutt brukes saliensmetoder for å forklare DQN, og sammenlignes deretter med de konseptbaserte forklaringene. Begge metodene viser seg å være nyttige for å forklare DQN, men konseptbaserte metoder har noen fordeler.
Arbeidet bidrar til XAI feltet ved å demonstrere konkrete anvendelser av konseptbaserte forklaringer for å forklare og hindre internaliserte feil i en DRL-modell. Disse metodene kan sannsynligvis forbedres ytterligere og generaliseres på tvers av andre nevrale nettverkssystemer. Ved å gjøre det, kan AI-systemer utplasseres mer ansvarlig i fremtiden. Fremtidig arbeid bør undersøke hvordan konsepter kan oppdages mer nøyaktig innenfor nevrale nettverk. While deep neural networks are becoming increasingly capable and utilized by society, their inner workings are inherently uninterpretable for humans. The lack of interpretability can limit the deployment of otherwise useful models due to recently passed laws that enforce transparency requirements, as well as ethical concerns. This is particularly challenging for Deep Reinforcement Learning (DRL) systems, as they are commonly more autonomous than other machine learning systems. To address these issues, Explainable Artificial Intelligence (XAI) methods are being developed to explain the inner workings of neural networks. Unfortunately, the widely used approaches using saliency methods have been found to produce misleading and unreliable model explanations. Meanwhile, concept-based explanations have shown promising results and have gained significant attention. This motivates the development of concept-based explanation methods to explain DRL systems, and to investigate how they perform compared to saliency methods.
In this work, a video game called Qrunner is developed to explore the utility of concept-based explanations for a DRL system. A Deep Q-Network (DQN) is trained to reach human-level performance in Qrunner, and then concept-based explanation methods are used to explain what this network has learned. The experiments reveal that the DQN internalizes concepts known to humans, and that these concepts can be used to explain network predictions. Two novel approaches are explored to safeguard against incomplete and misleading explanations. The first approach demonstrates the possibility of discovering unknown concepts within the DQN by clustering intermediate representations and comparing the centroids of these clusters to known concepts. The second approach tests whether detected concepts represent what the human recipient of the explanations expects. These experiments reveal internalized misalignment in the DQN, for which a novel method called refinement training is developed and used to rectify the model. Finally, saliency methods are used to explain the DQN, and then compared to the concept-based explanations. Both methods are found to be useful for explaining the DQN, but concept-based methods have some advantages.
The thesis contributes to the field of XAI by demonstrating concrete applications of concept-based explanations to explain and mitigate misalignment in a DRL model. These methods can likely be further improved and generalized across other neural network systems. In doing so, AI systems can be deployed more responsibly in the future. Future work should investigate how concepts can be more accurately detected within neural networks.