Analysing the influence of policy architecture choice on generalizing to new environments in deep reinforcement learning

Grande, Johannes Austbø

dc.contributor.advisor	Downing, Keith
dc.contributor.advisor	Chandra, Arjun
dc.contributor.author	Grande, Johannes Austbø
dc.date.accessioned	2021-09-15T16:31:46Z
dc.date.available	2021-09-15T16:31:46Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:30125362
dc.identifier.uri	https://hdl.handle.net/11250/2777938
dc.description.abstract	Generalisering er evnen til å overføre kunnskap fra et kjent problem til et ukjent problem. Det er noe som i det siste har fått mye oppmerksomhet innen dyp ''Reinforcement Learning'' (RL), og har ført til både raskere trening og bedre løsnigner. I maskinlæring kan det måles ved å ha et trenings- og et evaluerings-sett med lignende, men forskjellige, problemer. ''Self-attention''-arkitekturer, som for eksempel ''transformers'', har nylig hatt gjennombrudd innen sekvensmodelleringsfelt som ''Natural Language Processing'' (NLP). RL er også avhengig av sekvensmodellering, og bør kunne benytte seg av disse gjennombruddene til å forbedre generalisering. ''Long Short Term Memory'' (LSTM), som bruker rekursjon, har vært go-to-metoden for sekvensiel data, og er det fremdeles i dyp RL. ''Transformers'' har ikke de samme innebygde tidsavhengighetene som LSTM har, og dette kan være en fordel når det gjelder generalisering. Denne oppgaven undersøker påvirkningen "transformers" og LSTM, som modell for en agent, har på agenters generaliseringsevner. Dette gjøres ved bruk av tilfeldig genererte problemer for å kunne generere det antallet forskjellige problemer som er nødvendige for å prøve å måle generalisering. Resultatene viser at LSTM fremdeles stort sett er bedre enn ''transformers'' på kjente problemer, men ''transformers'' viser at de kan matche LSTM i ytelse på ukjente problemer, under visse omstendigheter.
dc.description.abstract	Generalization is the ability to transfer knowledge from a seen problem to an unseen problem. It is something that has recently gained a lot of attention in deep Reinforcement Learning (RL), and has shown to both speed up training and improve performance. In machine learning it can be measured by having one training and one evaluation set with similar, but different, problems. Self-attention architectures, such as transformers, have recently shown breakthroughs in sequential modeling fields such as Natural Language Processing (NLP). RL also relies on sequential modeling, and should be able to make use of these breakthroughs to improve generalization. Long Short Term Memory (LSTM), which uses recursion, has been the go-to method for sequential data, and still is in deep RL. Transformers do not have the same rigid temporal dependencies as LSTM built into their structure, and this might be an advantage when it comes to generalization. This thesis investigates the influence of transformers and LSTMs, which model agent policies, has on the generalization ability of agents. This is done using procedurally generated environments to be able to generate the large amount of different problems necessary for trying to measure generalization. The results show that LSTM is still mostly superior to transformers in performance on seen problems, but transformers show that they can match LSTMs in performance on unseen problems, in some circumstances.
dc.language
dc.publisher	NTNU
dc.title	Analysing the influence of policy architecture choice on generalizing to new environments in deep reinforcement learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:30125 ...
Størrelse:: 7.894Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6552]

Vis enkel innførsel