Explaining a Deep Reinforcement Learning Agent Using Regression Trees

Løver, Jakob

dc.contributor.advisor	Lekkas, Anastasios
dc.contributor.advisor	Gjærum, Vilde
dc.contributor.author	Løver, Jakob
dc.date.accessioned	2021-10-15T17:20:51Z
dc.date.available	2021-10-15T17:20:51Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:76427839:20993498
dc.identifier.uri	https://hdl.handle.net/11250/2823436
dc.description.abstract	Bruken av "svart-boks"-modeller innen maskinlæring skaper problemer for systemer med fokus på sikkerhet. Systemer som nyttegjør seg av dyp forsterkende læring (engelsk: deep reinforcement learning / DRL) designes ofte med svart-boks-modeller som for eksempel nevrale nettverk. Nøyaktigheten til disse systemene kommer ofte på bekostning av hvor forståelig valgene til det nevrale nettverket er. Flere problemer oppstår hvis man prøver å forklare en svart-boks-modell uten å vite mer om den innvendige strukturen til modellen. Istedet kan en mer forståelig modell brukes til å approksimere svart-boks-modellen for å gi domene-eksperter et mer helhetlig innsyn i hvorfor svart-boks-modellene oppfører seg som de gjør. Å legge båter til kai er et vanskelig reguleringsproblem. Tidligere har flere forskjellige metoder blitt forsøkt brukt for å automatisere denne prosessen med varierende suksess, slik som mer tradisjonelle regulatorer og overvåket maskinlæring. Problemer oppstår ved bruk av for eksempel overvåket masinlæring til å løse reguleringsproblemet. For at modellen man trener opp skal kunne generalisere bra fra kai til kai må man være nøye med hva slags data man oppsamler, som er et vanskelig problem i seg selv. Dette kan løses ved å trene opp en agent ved hjelp av DRL. Istedet for å eksplisitt trene opp en agent til å legge båten til kai kan agenten lære seg selv hvordan dette kan gjøres. Agenten nyttegjør seg av et svart-boks nevralt nettverk trent opp ved hjelp av PPO (engelsk: Proximal Policy Optimization). Derfor er det interessant å undersøke metoder som kan hjelpe å forklare hva det nevrale nettverket har lært seg. I denne masteroppgaven undersøker vi alternativer modeller som kan approksimere det nevrale nettverket til agenten gjennom å herme dens oppførsel (engelsk: imitation learning). Denne approksimasjonen kan føre til ny lærdom om hva det nevrale nettverket lærte seg selv gjennom DRL, og kan gi ingeniører enda et verktøy i verktøykassa for å sikre at agenten oppfører seg som forventet. I denne masteroppgaven beviser vi at nye utviklinger innen beslutningstrær kan approksimere en DRL-agent trent til å legge båt til kai med tilfredstillende høyere nøyaktighet enn tidligere metoder. De nye metodene "Optimale Regresjonstrær" (engelsk: Optimal Regression Trees / ORT) med lineære regresjoner i løvnodene, og "Nær Optimale Regresjonstrær" (engelsk: Near-optimal Nonlinear Regression Trees / NNRT) er trent opp gjennom å herme DRL agenten med et mål om å øke innsikten i agenten. Metoden ORT ble valgt fordi strukturen er svært lik andre regresjonstrær som "Klassifisering- og regresjonstrær" (engelsk: Classification and Regression Trees / CART) og "Lineær-modell-trær" (engelsk: Linear Model Trees / LMT), men til forskjell fra disse metodene bygges ikke ORT med grådige algoritmer som ofte fører til sub-optimale trær. NNRT ble valgt på grunn av den påstått økte ytelsen over ORT, i tillegg til de ulineære funksjonene i løvnodene som kan føre til trær med lavere dybde enn de tidligere nevnte metodene. Trærne ble testet på ny usett data for å sammenlikne ytelsen med DRL-agenten, og den tidligere implementerte metoden LMT. Det bevises i oppgaven at ORT har jevnt over høyere ytelse enn LMT. Det bevises også at ORT kan fungere som en erstatning for DRL-agenten som er trent opp ved hjelp av PPO med lavere feilrate enn LMT. Gjennom kjente ytelsesmål for regresjoner viser resultatene at ORT approksimerte PPO-agenten bedre enn LMT, og at ORT kan approksimere alle fem pådragene til agenten ved å ofre noe nøyaktighet for en enorm økning i innsikt i agenten. Det bevises at ORT har lavere dybde og er mer nøyaktige enn LMT på bekostning av at man behøver ett tre for hvert pådrag i agenten.
dc.description.abstract	The adoption of black-box machine learning systems in control systems poses a problem for applications where safety is of critical importance. Deep reinforcement learning systems are often built using black-box models such as neural networks. The accuracy of these systems usually come at the cost of interpretability, meaning how understandable their decisions are. Explaining decisions made by a black-box model without knowing more about the internal workings of the model poses several issues. Instead, an training interpretable model to approximate the black-box model can alleviate these issues by giving domain experts a more holistic understanding of why certain decisions were made. Docking ships to harbor is a difficult control problem. In the past, different strategies have been employed for automatic docking, such as more traditional controllers and supervised machine learning, with various success. Several issues arise when one uses for example supervised learning to solve the docking problem. For example, to be able to generalize well from harbor to harbor, great care must be taken to collect good data, which on its own is a difficult problem. This can be remedied by using Deep Reinforcement Learning (DRL). Instead of explicitly teaching the agent how to dock the vessel, the agent may learn itself through simulations how to dock. The deep reinforcement learning agent however is powered by a black-box neural network trained through Proximal Policy Optimization (PPO). It is therefore of interest to investigate methods that may aid in explaining what the neural network has taught itself. In this master thesis, we will investigate alternative models that approximate the neural network powering the DRL agent through imitation learning. This approximation can lead to new insights into what the neural network learned through self-learning, and provide engineers with another tool in their toolkit to ensure the agent will behave as expected. This master thesis demonstrates that recent developments in decision tree methods are able to sufficiently approximate the behavior of a deep reinforcement learning agent trained to dock a vessel to harbor. The state-of-the-art methods Optimal Regression Trees with linear predictions, and Near-optimal Nonlinear Regression Trees are trained through imitation learning by growing trees using data from the docking agent to create more interpretable models. The optimal regression tree method was chosen because of the similar structure to decision tree methods such as Classification and Regression Trees, and Linear Model Trees, without the disadvantage of being built through greedy algorithms leading to sub-optimal solutions. Near-optimal Nonlinear Regression Trees was chosen because of the supposed further improvement over the optimal regression trees and its non-linear prediction functions, possibly enabling shallower trees than all the aforementioned methods. The resulting trees are evaluated on new unseen data to compare their performance to that of the original black-box agent trained through PPO, and the previously implemented method Linear Model Trees. It is shown that Optimal Regression Trees were able to function as a replacement for the PPO agent with a lower failure rate than the linear model trees. Through common metrics for regression evaluation, it is shown that Optimal Regression Trees approximated the PPO agent better than the Linear Model Tree, and are able to approximate all states of the docking agent by trading some accuracy for vastly improved interpretability. We provide evidence that Optimal Regression Trees are shallower and more accurate than the Linear Model Trees at the cost of needing one tree per action.
dc.language	eng
dc.publisher	NTNU
dc.title	Explaining a Deep Reinforcement Learning Agent Using Regression Trees
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:76427839:20993 ...
Size:: 2.283Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for teknisk kybernetikk [3740]

Show simple item record