Reinforcement Learning for Autonomous Vehicle Control: The Effect of Different Observation Space Representations

Ghouchbar, Anders

dc.contributor.advisor	Lindseth, Frank
dc.contributor.author	Ghouchbar, Anders
dc.date.accessioned	2021-09-15T16:14:06Z
dc.date.available	2021-09-15T16:14:06Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:46742980
dc.identifier.uri	https://hdl.handle.net/11250/2777842
dc.description	Full text not available
dc.description.abstract	I denne rapporten utforsker vi moderne reinforcement-learning-løsninger knyttet til utvikling av selvkjørende biler. Mer spesifikt vil vi se på forskjellene mellom to ulike tilnærminger til miljøerepresentasjon i simulering. Den første metoden bruker bildedata tatt fra et kamera på kjøretøyet og datasynmetoder for å representere verden. Den andre metoden tar utgangspunkt i at all posisjonell data om miljøet og kjøretøyet er kjent. Rapporten tar for seg de grunnleggende konseptene bak moderne reinforcement learning, samt presenterer noen av algoritmene som brukes i dag. Videre dokumenteres implementasjonen av "Proximal Policy Optimization"-algoritmen (PPO) i kjøresimulatoren CARLA. Vi presenterer resultatene av de best presterende modellene basert på de to representasjonsmetodene. Resultatene viser at begge metodene er i stand til å konvergere mot meningsfull adferd i et enkelt kjøremiljø. Med sammenliknet få treningsepisoder, presterte den datasynbaserte metoden best. Samtidig krever denne metoden 3D-opptegningstid, en forhåndstrent autoenkoder og detaljerte 3D-miljøer i trening. Den tilfører også flere potensielle problemer i overgangen fra simulering til den virkelige verden (sim2real). Metoden basert på posisjonell data fjerner disse kravene og gir dermed en betydelig økning i databeregningseffektivitet. Det tar omtrent dobbelt så mange treningsepisoder å nå liknende resultater med vår best presterende posisjonelldatabaserte metode. Likevel tilsier våre estimater at de kan nås i løpet av én time på vår hardware, i motsetning til de 56 timene det tok for vår datasynbaserte metode.
dc.description.abstract	In this thesis we will explore modern reinforcement learning solutions to the problem of autonomous driving. In particular, we will review the differences between two approaches of environment representation in simulation. The first approach uses image data captured from cameras on the vehicle and computer vision methods to represent the world. The second approach assumes all positional data about the surrounding environment and the vehicle is known. The thesis covers the basic concepts of modern reinforcement learning as well as documenting some of the algorithms in use today. It also covers existing approaches relevant to the problem of reinforcement learning in autonomous vehicles. Continuing, it documents the implementation of the Proximal Policy Optimization (PPO) algorithm in the CARLA driving simulator, and provides results of the best performing models using the two environment representation approaches. The results show that both approaches have the capability of converging into meaningful behavior in a simple driving environment. The vision based approach had the best performance with a comparatively low number of training episodes. However, this approach does require rendering time, a pretrained autoencoder, and high-quality 3D environments in training. It also poses more potential problems when transferring the model from simulation to the real world (sim2real). The positional data based approaches remove these requirements, leading to a significant increase in computational efficiency. It takes about twice as many training episodes to reach similar results with our best performing positional data based approach. However, our estimations suggest they can be reached in about 1 hour of training on our hardware, as opposed to the 56 hours it took for the vision based approach.
dc.language
dc.publisher	NTNU
dc.title	Reinforcement Learning for Autonomous Vehicle Control: The Effect of Different Observation Space Representations
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6559]

Vis enkel innførsel