Quantifying Environmental Diversity in Reinforcement Learning

Jørgensen, Jonathan

dc.contributor.advisor	Downing, Keith
dc.contributor.advisor	Chandra, Arjun
dc.contributor.author	Jørgensen, Jonathan
dc.date.accessioned	2021-09-15T16:06:29Z
dc.date.available	2021-09-15T16:06:29Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:17795563
dc.identifier.uri	https://hdl.handle.net/11250/2777594
dc.description.abstract	Å løse flere oppgaver med den samme agenten er en viktig problemstilling i reinforcement learning. I dette prosjektet utforsker vi konseptet variasjon i problem-sett. For å måle dette presenteres en algoritme for å kvantifisere denne variasjonen. Denne algoritmen trener opp en ekspert-agent for hvert problem og gjør en numerisk sammenlikning av verdi-funksjonene deres. Utviklingen og bruken av denne metoden er demonstrert på enkle egenutviklede illustrasjons-problemer, og resultatene er lovende og tolkes som tidlige indikatorer på rollen til problem-variasjon under læring. Potensialet for å skalere systemet til å passe reelle problemstillinger er et sentralt tema.
dc.description.abstract	Solving multiple task with the same general agent is a wide open problem within reinforcement learning. In this project we seek to explore this by taking a closer look at the diversity in sets of environments. To do this, a novel algorithm for quantifying diversity is proposed, where the value functions or policy approximators produced by expert agents trained for each individual environment are compared numerically over a set of states. A class of environments is developed to demonstrate the usage of this method, and the results are promising and used as early indicators on the nature of diversity. A central backdrop through the whole project is the potential for scaling this system beyond the proof of concept stage.
dc.language
dc.publisher	NTNU
dc.title	Quantifying Environmental Diversity in Reinforcement Learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:17795 ...
Størrelse:: 22.41Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6620]

Vis enkel innførsel