Vis enkel innførsel

dc.contributor.advisorDowning, Keith
dc.contributor.advisorChandra, Arjun
dc.contributor.authorGrande, Johannes Austbø
dc.date.accessioned2021-09-15T16:31:46Z
dc.date.available2021-09-15T16:31:46Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:57320302:30125362
dc.identifier.urihttps://hdl.handle.net/11250/2777938
dc.description.abstractGeneralisering er evnen til å overføre kunnskap fra et kjent problem til et ukjent problem. Det er noe som i det siste har fått mye oppmerksomhet innen dyp ''Reinforcement Learning'' (RL), og har ført til både raskere trening og bedre løsnigner. I maskinlæring kan det måles ved å ha et trenings- og et evaluerings-sett med lignende, men forskjellige, problemer. ''Self-attention''-arkitekturer, som for eksempel ''transformers'', har nylig hatt gjennombrudd innen sekvensmodelleringsfelt som ''Natural Language Processing'' (NLP). RL er også avhengig av sekvensmodellering, og bør kunne benytte seg av disse gjennombruddene til å forbedre generalisering. ''Long Short Term Memory'' (LSTM), som bruker rekursjon, har vært go-to-metoden for sekvensiel data, og er det fremdeles i dyp RL. ''Transformers'' har ikke de samme innebygde tidsavhengighetene som LSTM har, og dette kan være en fordel når det gjelder generalisering. Denne oppgaven undersøker påvirkningen "transformers" og LSTM, som modell for en agent, har på agenters generaliseringsevner. Dette gjøres ved bruk av tilfeldig genererte problemer for å kunne generere det antallet forskjellige problemer som er nødvendige for å prøve å måle generalisering. Resultatene viser at LSTM fremdeles stort sett er bedre enn ''transformers'' på kjente problemer, men ''transformers'' viser at de kan matche LSTM i ytelse på ukjente problemer, under visse omstendigheter.
dc.description.abstractGeneralization is the ability to transfer knowledge from a seen problem to an unseen problem. It is something that has recently gained a lot of attention in deep Reinforcement Learning (RL), and has shown to both speed up training and improve performance. In machine learning it can be measured by having one training and one evaluation set with similar, but different, problems. Self-attention architectures, such as transformers, have recently shown breakthroughs in sequential modeling fields such as Natural Language Processing (NLP). RL also relies on sequential modeling, and should be able to make use of these breakthroughs to improve generalization. Long Short Term Memory (LSTM), which uses recursion, has been the go-to method for sequential data, and still is in deep RL. Transformers do not have the same rigid temporal dependencies as LSTM built into their structure, and this might be an advantage when it comes to generalization. This thesis investigates the influence of transformers and LSTMs, which model agent policies, has on the generalization ability of agents. This is done using procedurally generated environments to be able to generate the large amount of different problems necessary for trying to measure generalization. The results show that LSTM is still mostly superior to transformers in performance on seen problems, but transformers show that they can match LSTMs in performance on unseen problems, in some circumstances.
dc.language
dc.publisherNTNU
dc.titleAnalysing the influence of policy architecture choice on generalizing to new environments in deep reinforcement learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel