AI-agents Trained Using Deep Reinforcement Learning in the CARLA Simulator
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3019911Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
De siste årene har dyp læring og forsterknings-læring innenfor synsbaserte autonome kjøresystemer hatt en stor økning i interesse, i tillegg til flere gjennombrudd. Opprettelsen av offentlig tilgjengelige verktøy, med åpen kildekode, som kjøresimulatoren CARLA, har skapt flere svært dyktige autonome kjøresystemer, både ved bruk av forsterknings-læring og imiterings-læring.
World on Rails-algoritmen er en forsterknings-læring-tilnærming, som bruker kjøringssimulatoren CARLA til å trene en agent til å kjøre autonomt. I World on Rails-algoritmen trenes først en "forward"-modell, som brukes til å forutsi fremtidige tilstander for forskjellige handlinger som en agent kan velge i en gitt tilstand, uten å faktisk utføre dem i simulatoren. Denne "forward"-modellen brukes deretter til å trene en visuomotorisk agent, ved å forutsi utfallet til enhver potensiell kjørebane.
I denne oppgaven undersøker vi World on Rails-algoritmen ved å forsøke å gjenskape resultatene som ble presentert i World on Rails-artikkelen. Vi klarte bare å lage et datasett på omtrent 100 tusen datarammer, men klarer likevel å lage en modell som yter bemerkelsesverdig godt på NoCrash-benchmarken, til og med bedre enn World on Rails-artikkelens gjenskaping av Learning by Cheating, i forhold til suksessrate.
Vi undersøker også hvordan introduksjonen av et autoencoder-treningstrinn kan bidra til å forbedre ytelsen til World on Rails-algoritmen. Vi gjør dette ved å forhåndstrene en visuell enkoder på et svært relevant datasett som inneholder bilder fra kjøresimulatoren CARLA. Vi trener den visuomotoriske modellen med denne visuelle enkoderen i to forskjellige oppsett, der den ene bruker den visuelle enkoderen med frosne vekter, og den andre med ufrosne vekter. Vi fant ut at bruk av den forhåndstrente visuelle enkoderen med ufrosne vekter bidro betydelig til å forbedre modellens evne til å forstå trafikklys og deres tilstander. In recent years, deep learning and reinforcement learning within the field of vision-based autonomous driving systems has had a large increase in interest, and additionally several breakthroughs. The creation of publicly available open-source tools such as the CARLA driving simulator, has spawned the creation of several highly capable autonomous driving systems, both using a reinforcement learning approach and imitation learning approach.
The World on Rails algorithm is a reinforcement learning approach to training an autonomous agent to drive using the CARLA driving simulator. In the World on Rails algorithm, a forward model is first trained and used to predict the future states for different actions that an agent can choose at a given state, without actually performing them in the real world. This forward model is then used to supervise a visuomotor agent, by predicting the outcome of any potential driving trajectory.
In this thesis, we investigate the World on Rails algorithm by attempting to recreate the results that were presented in the World on Rails paper. We only managed to create a dataset of approximately 100 thousand data frames, but still manage to create a model that performs remarkably well on the NoCrash benchmark, even outperforming the World on Rails paper's recreation of Learning by Cheating in terms of success rate.
We also investigate how the introduction of an autoencoder training step can help improve the performance of the World on Rails algorithm. We do this by pre-training a visual encoder backbone on a highly relevant dataset containing images from the CARLA driving simulator. We train the visuomotor agent with this visual encoder backbone in two different arrangements, one using the visual encoder with frozen weights, and the other with unfrozen weights. We found that using the pre-trained visual encoder backbone with unfrozen weights, did significantly help to improve the model's ability to understand traffic lights, and their states.