Vis enkel innførsel

dc.contributor.advisorGambäck, Björn
dc.contributor.authorRøkenes, Sigve
dc.date.accessioned2022-11-03T18:19:58Z
dc.date.available2022-11-03T18:19:58Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:112296943:57452308
dc.identifier.urihttps://hdl.handle.net/11250/3030017
dc.description.abstractDenne masteroppgaven handler om konkurransebasert genererende forsterkningslæring. Mer spesifikt presenterer oppgaven en ny metode som bruker Proximal Policy Optimization-algoritmen og en konkurrerende vurderingsmodell til å lære agenter å male bilder i et digitalt tegneprogram. I løpet av de siste årene har datagenerering ved hjelp av konkurrerende nevrale nettverk oppnådd svært gode resultater på en rekke utfordrende problemer. Denne typen læringssystem trener to konkurrerende modeller samtidig, og lærer over tid å produsere falske eksempler basert på hvilken treningsdata som benyttes. Nyere forskning har utviklet modeller som for eksempel kan produsere originale bilder som er vanskelige å skille fra fotografier. Samtidig har forsterkningslæring blitt brukt til å trene agenter som kan løse mange komplekse problemer, særlig i forbindelse med videospill og fysikkbaserte robotsimuleringer. En rekke problemer som tidligere ble sett på som svært utfordrene å løse med datamaskiner har nå blitt løst, og i mange tilfeller overgår disse systemene mennesker. Det finnes lite forskning som kombinerer forsterkningslæring og konkurrerende nevrale nettverk, men med tanke på hvor godt metodene har fungert i nyere tid finnes det potensiale i å kombinere dem. Forsterkingslæring er avhengig av en funksjon som vurderer oppførselen til agenter, og slike funksjoner er ofte vanskelige å definere. Konkurransebaserte metoder kan imidlertid lære modeller å estimere en slik vurdering på egen hånd. Et kombinert system kan dermed løse problemer basert på kun løsningseksempler, og vil ikke være avhengig av menneskedefinerte vurderingsfunksjoner på samme måte. Denne oppgaven demonstrerer for første gang at Proximal Policy Optimization-algoritmen kan løse slike problemer, samt at minst to forskjellige læringsmetoder for vurderingsnettverk (Wasserstein og minimax) fungerer i denne sammenhengen. Videre viser oppgaven at både tidsbasert vurdering og komplekse agentarkitekturer er viktige for å kunne lære fra særlig vanskelige datasett. Til slutt beviser oppgaven at verken populasjonsbasert læring eller modeller med minne over tid er nødvendige for å oppnå resultater som er sammenlignbare med lignende metoder.
dc.description.abstractThis thesis explores the topic of generative adversarial reinforcement learning. Specifically, the thesis proposes a new method that uses Proximal Policy Optimization and adversarial reward systems to train agents to paint using sequential strokes on a simulated canvas. Generative adversarial networks have, since their introduction, proved to work very well on several challenging problems. Recent research has, for example, facilitated the generation of novel, high-quality images that are difficult to tell apart from real photos. Meanwhile, reinforcement learning has enabled agents to learn how to solve numerous complex problems, most commonly in domains such as video games and physics simulations with continuous control. Recent techniques, such as Proximal Policy Optimization, have proved to work in complex settings previously inaccessible to computers. The intersection of reinforcement learning and generative adversarial networks is largely unexplored. Given the challenges involved in specifying objective functions in reinforcement learning and recent successes of adversarial learning, combining the techniques is a promising area of research. By introducing adversarial reward systems to the reinforcement learning setting, agents could learn to solve difficult problems using examples of solutions rather than handcrafted evaluation functions. This thesis demonstrates for the first time that Proximal Policy Optimization can be used in this context, and establishes that both Wasserstein and minimax discriminators are suitable adversaries. Furthermore, the work proves that temporal rewards are crucial to enable learning in complex environments, and demonstrates that the quality of reward signals is greatly influenced by the training procedure of the adversarial opponent. Standard policy architectures are shown to be insufficient given the complexity of the environment dynamics, and the thesis presents a more extensive autoregressive decoder architecture that remains capable of learning and representing good policies. Finally, the thesis proves that population-based training and recurrent policies, previously used in similar techniques, are not necessary to achieve results comparable to the current state-of-the-art.
dc.languageeng
dc.publisherNTNU
dc.titleGenerative Adversarial Reinforcement Learning with Proximal Policy Optimization
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel