Vis enkel innførsel

dc.contributor.advisorBreivik, Morten
dc.contributor.advisorLindseth, Frank
dc.contributor.advisorKiss, Gabriel
dc.contributor.authorKummervold, Sindre Byrkjedal
dc.date.accessioned2023-10-13T17:20:09Z
dc.date.available2023-10-13T17:20:09Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140443607:20682509
dc.identifier.urihttps://hdl.handle.net/11250/3096517
dc.description.abstractEt system som er i stand til autonom kjøring, må ha flere funksjoner. For det første må kjøretøyet kunne sanse omgivelsene sine, og for det andre må det bruke informasjonen om omgivelsene for å manøvrere til ønsket destinasjon. Denne oppgaven er fokusert på bruken av Reinforcement Learning (RL) for å manøvrere kjøretøyet i dets miljø - den autonome kjøresimulatoren med åpen kildekode CARLA. Tidligere RL-systemer i CARLA-simulatoren bruker enkle syns-enkodere for å registrere omgivelsene, noe som muligens begrenser ytelsen. Denne oppgaven undersøker bruken av mer komplekse forhåndstrente syns-enkodere i sammenheng med Reinforcement Learning (RL). Flere agenter ble opplært i miljøer i CARLA-simulatoren, med varierende kompleksitet og utfordringer. En ren RL agent ble trent for å gi ett sammenligninigsgrunnlag, ved bruk av Proximal Policy Optimization (PPO)-algoritmen med Transfuser enkoderen og ga suboptimale resultater, ettersom kjøretøyet konsekvent svingte av veien og kolliderte. Inntroduksjon av ekspertdemonstrasjoner gjennom General Reinforced Imitation for Autonomous Driving (GRIAD)-tilnærmingen forbedret ikke ytelsen, og resulterte i at kjøretøyet sto stille på veien. For å overvinne disse begrensningene ble det laget et forenklet miljø med redusert trafikkkompleksitet, noe som resulterte i store fremskritt i påfølgende treninger. I det forenklede miljøet ble både TransFuser-enkoderen og en enkel Convolutional Neural Network (CNN) brukt. CNN-enkoderen demonstrerte bedre ytelse sammenlignet med TransFuser. Likevel møtte begge tilnærmingene utfordringer med å unngå kollisjoner med andre kjøretøy. Det er viktig å merke seg at opplæringsvarigheten bare var en million steg, noe som nødvendiggjorde ytterligere undersøkelser for å trekke definitive konklusjoner. Fremtidig forskning bør fokusere på å vurdere virkningen av mer komplekse synskodere på opplæringen av RL agenter. Å forlenge treningstiden kan føre til en mer grundig forståelse av de potensielle fordelene og ulempene forbundet med sofistikerte syns-enkodere i RL-scenarier. Ved å adressere disse områdene kan det gjøres fremskritt i utviklingen av effektive opplæringsmetoder for RL-agenter som opererer i komplekse miljøer i den virkelige verden.
dc.description.abstractA system capable of autonomous driving needs to have several capabilities. Firstly, the vehicle needs to be able to sense its environment, and secondly, it needs to use the information about its surroundings to maneuver to its desired destination. This thesis is focused on the use of Reinforcement Learning (RL) to maneuver the vehicle in its environment - the open-source autonomous driving simulator CARLA. Previous RL systems in the CARLA simulator use simple vision encoders to sense their surroundings, possibly limiting their performance. This thesis investigates the utilization of more complex pre-trained vision encoders in the context of Reinforcement Learning (RL) for autonomous driving. Multiple agents were trained in environments within the CARLA simulator, varying in complexity. The baseline training using the Proximal Policy Optimization (PPO) algorithm with a complex transformer-based vision encoder produced suboptimal results, as the vehicle consistently veered off the road and encountered crashes. Incorporating expert demonstrations through the General Reinforced Imitation for Autonomous Driving (GRIAD) approach did not enhance performance, leaving the vehicle stationary on the road. To overcome these limitations, a simplified environment with reduced traffic complexity was created, resulting in notable advancements in subsequent training runs. In the simplified environment, both the complex encoder and a simple Convolutional Neural Network (CNN) was employed. The CNN encoder demonstrated superior performance compared to the TransFuser encoder. Nevertheless, both approaches encountered challenges in avoiding collisions with other vehicles. It is important to note that the training duration only was 1 million steps, necessitating further investigation to draw definitive conclusions. Future research should focus on assessing the impact of more complex vision encoders on the training of RL agents. Extending the training time and gradually increasing traffic complexity can lead to a more thorough understanding of the potential benefits and drawbacks associated with sophisticated vision encoders in RL scenarios. By addressing these areas, advancements can be made in the development of effective training methodologies for RL agents operating in complex real-world environments.
dc.languageeng
dc.publisherNTNU
dc.titleTraining of Reinforcement Learning Agents for Autonomous Driving in Simulated Environments
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel