Quantifying Environmental Diversity in Reinforcement Learning
Abstract
Å løse flere oppgaver med den samme agenten er en viktig problemstilling i reinforcement learning. I dette prosjektet utforsker vi konseptet variasjon i problem-sett. For å måle dette presenteres en algoritme for å kvantifisere denne variasjonen. Denne algoritmen trener opp en ekspert-agent for hvert problem og gjør en numerisk sammenlikning av verdi-funksjonene deres. Utviklingen og bruken av denne metoden er demonstrert på enkle egenutviklede illustrasjons-problemer, og resultatene er lovende og tolkes som tidlige indikatorer på rollen til problem-variasjon under læring. Potensialet for å skalere systemet til å passe reelle problemstillinger er et sentralt tema. Solving multiple task with the same general agent is a wide open problem within reinforcement learning. In this project we seek to explore this by taking a closer look at the diversity in sets of environments. To do this, a novel algorithm for quantifying diversity is proposed, where the value functions or policy approximators produced by expert agents trained for each individual environment are compared numerically over a set of states. A class of environments is developed to demonstrate the usage of this method, and the results are promising and used as early indicators on the nature of diversity. A central backdrop through the whole project is the potential for scaling this system beyond the proof of concept stage.