Autonomous Driving in Simulated Environments with Soft Actor-Critic Reinforcement Learning
Description
Full text not available
Abstract
Autonomoe kjøretøy lover stor nytte for samfunnet. En potensiell måte å bygge disse systemene er gjennom ende-til-ende tilnærminger, som kan realiseres gjennom dyp læring og forsterkende læring (RL).
Vi utforsker oppgaven med å lære en agent å kjøre via RL-algoritmen Soft Actor-Critic (SAC) i miljøer implementert i Carla, som er en kjøresimulator med åpen kildekode. Algoritmen har vist resulter på høyde med andre moderne RL algoritmer, samtidig som det er forholdsvis lett å justere dens hyperparametere for å oppnå god ytelse. Algoritmen har både en formulering for kontinurlige handlingsrom og en formulering for diskrete handlingsrom, og vi sammenligner de to formuleringene på oppgaver knyttet til autonom kjøring. Vi bygger på arbeidet til Toromanoff et al. og Chekroun et al., som begge har demonstrert suksessfull bruk av RL i Carla-simulatoren. Videre så utforsker vi teknikker innenfor semantisk segmentering for å kunne gi RL-agenter en effektiv representasjon av den nåværende tilstanden til et miljø.
Ved å predikere semantisk segmenteringsinformasjon fra RGB kameraer gjennom en enkoder som koder informasjonen til en latentroms representasjon, realiserte vi tilstandsrepresentasjoner som gjorde det mulig for SAC-agenter å lære seg å holde en kjørebane og enkel urban kjøring. Ved å sammenligne de to formuleringene av SAC, finner vi at formuleringen som bruker kontinuerlige handlingsrom oppnår best resultater. Våre SAC-agenter oppnår videre bedre resulter enn agenter trent ved Proximal Policy Optimization. Vi utforsker det å injisere demonstrasjonsdata fra en ekspert i SAC-læringsprosessen, med resulter som indikerer at dette kan føre til agenter som trenger å generere færre eksempler fra miljøet for å oppnå god ytelse. Autonomous driving promises great benefits for society. A prospective avenue for achieving it is end-to-end approaches, which can be realized using deep learning and reinforcement learning.
We explore the task of learning an agent to drive via the reinforcement learning algorithm Soft Actor-Critic (SAC) in environments implemented in the open source simulator Carla. The algorithm has shown state-of-the-art performance on many tasks while being comparatively easy to tune. It has both a discrete action space formulation and a continuous action space formulation, and we compare the two on the task of driving. We build on the work of Toromanoff et al. and Chekroun et al., which have both demonstrated reinforcement learning approaches with great results in the Carla simulator. We further explore techniques from the field of semantic image segmentation, in attempting to provide RL-agents with an efficient representation of the current state of an environment.
By predicting semantic segmentation information from RGB cameras using a neural network encoder that encodes the information into a latent space representation, we were able to realize state representations that allowed SAC agents to learn the task of lane keeping and driving in a simple urban environment. In comparing the two action space formulations of SAC, we find the continuous formulation to generally achieve better performance. Our SAC agents are further able to achieve better performance than agents trained with Proximal Policy Optimization. We explore injecting demonstration data from an expert into the SAC learning process, with results suggesting that this can increase the sample efficiency of SAC.