Vis enkel innførsel

dc.contributor.advisorLindseth, Frank
dc.contributor.authorBjørnstad, Isak Grande
dc.date.accessioned2021-11-05T18:35:10Z
dc.date.available2021-11-05T18:35:10Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:32792721
dc.identifier.urihttps://hdl.handle.net/11250/2828224
dc.description.abstractSammen med dyp læring har Reinforcement Learning (forsterkningslæring) hatt flere gjennombrudd de siste årene, noe som har økt forskningsinteressen. Kombinert med økt tilgjengelighet av realistiske og open-source bilsimulatorer som Carla, har det aldri vært et bedre tidspunkt for forskning på autonome bilsystemer basert på RL. I denne oppgaven blir et autonomt kjøretøysystem trent ved hjelp av ende-til-ende dyp RL i to forskjellige simulatorer med ulikt nivå av realisme. Simuleringene viser at en implementasjon av algoritmen Proximal Policy Optimisation lærer effektive kjørepolitikker i begge miljøer med kun små forskjeller i implementasjonsdetaljer. Vi finner at det å designe og finjustere det RL baserte autonome kjøretøysystemet muliggjør raskere utføring av eksperimenter, som igjen resulterer i en mer finjustert implementasjon til å bli plassert ut i den mer komplekse simulatoren. Vi utvikler et enkelt 3D-miljø som genererer tilfeldige veier foran bilen mens den kjører. RL-eksperimenter i dette miljøet viser at det å bruke komprimerte representasjoner av de visuelle observasjonene ved å benytte en Variational Autoencoder, resulterte i bedre politikker målt ved ytelsesmetrikker som gjennomsnittlig distanse og andel vellykkede episoder. Ulempen er at dette også kan ha bivirkninger som at den lærte kjørepolitikken blir mer "ukomfortabel". Realitetsgapet mellom simulator og den virkelige verden skaper problemer når det blir forsøkt å plassere politikker som er trent i simulator, ut i den virkelige verden. Vi demonstrerer en moderat vellykket politikkoverføring over et tilsvarende "simulatorgap" mellom to simulatorer som varierer signifikant i grafikkrealisme og miljødynamikk, slik som kjøretøyfysikk. En modell trent kun i en enkel Unity-basert simulator viser seg å oppnå en andel vellykkede episoder på 60 \% i Carla simulatoren.
dc.description.abstractIn conjunction with deep learning, reinforcement learning has had several breakthroughs in recent years, causing a surge in research interest. Combined with the increased availability of realistic and open-source car simulators such as Carla, this means there has never been a better time to research reinforcement learning based autonomous vehicle systems. In this thesis, an end-to-end autonomous vehicle system is trained with deep reinforcement learning in two different simulators with differing levels of realism. An implementation of the Proximal Policy Optimization algorithm is shown to learn good driving policies in both environments with only minor implementation differences. We find that designing and tuning the reinforcement learning based autonomous vehicle system in a simple simulator allowed faster experimentation resulting in a better tuned implementation to be deployed in the more complex simulator. We develop a low-fidelity 3D environment that generates random roads on the fly in front of a car as it drives. Reinforcement learning experiments in this environment show that encoding visual observations with Variational Autoencoders result in better policies in terms of performance metrics like mean distance and episode success rate, but can have unintended side effects such as more uncomfortable driving policies being learned. The reality gap between simulator and the real world causes difficulties when attempting to deploy a policy trained in a simulator in the real world. We demonstrate a moderately successful policy transfer over an analogous "simulator gap" between two different simulators that differ significantly in graphical fidelity and environment dynamics, such as vehicle physics. A model trained only in a simple Unity-based simulator is shown to achieve an episode success rate of 60 % in the Carla simulator.
dc.languageeng
dc.publisherNTNU
dc.titleDeep Reinforcement Learning for Autonomous Vehicles in Simulated Environments
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel