Propagating Variance in Reinforcement Learning Using Bayesian Regression

Münter, Rasmus A. Wichstrøm

Münter, Rasmus A. Wichstrøm

Master thesis

Permanent lenke

http://hdl.handle.net/11250/2624598

Utgivelsesdato

2019

Metadata

Vis full innførsel

Samlinger

Institutt for matematiske fag [2534]

Sammendrag

I reinforcement learning kan bruk av bayesiske metoder føre til nesten optimale resultater på exploration-exploitation trade-off. For at disse metodene skal lykkes bør man ta hensyn til forholdet mellom forskjellige tilstander. Nyere forskning har vist at ved å forplante variansen mellom tilstandene er det mulig å forbedre dagens exploration-metoder. Denne oppgaven viser empirisk at det er mulig å implisitt forplante variansen mellom tilstandene med en lineær konjugat bayesisk regresjonsmodell. Videre er metoden utvidet til nevrale nettverk som viser at det er mulig å bruke denne metoden i mer komplekse miljøer. I den nåværende formen er den forplantede variansen imidlertid bare avhengig av handlingen, og ytterligere forskning er nødvendig for å utvide dette til en tilstandsavhengig varians.

In reinforcement learning, using bayesian methods can lead to near optimal results on the exploration-exploitation trade-off. For these methods to be successful one should take into account the relationship between different states. Recent papers have shown that by propagating variance between states it is possible to improve on current exploration methods. This thesis empirically shows that it is possible to implicitly propagate variance between states with a linear conjugate prior regression model. Furthermore the method is extended to neural networks showing it is possible to use this variance propagation method in more complex environments. However, in it’s current form, the propagated variance is dependent only on the action and further research is required to extend this to a state-dependent variance.

Utgiver

NTNU