Show simple item record

dc.contributor.advisorMester, Rudolf
dc.contributor.authorFjellheim, Henrik
dc.date.accessioned2023-10-18T17:20:25Z
dc.date.available2023-10-18T17:20:25Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:37544330
dc.identifier.urihttps://hdl.handle.net/11250/3097369
dc.description.abstractBruken av dyp forsterkende læring (DRL) for autonome / selvkjørende kjøretøy er et høyaktuelt tema i bilindustrien. Mange autonome kjøretøysystemer støtter seg delvis eller helt på DRL for å løse oppgavene sine. Disse oppgavene spenner fra lagerarbeid inne i låste containere til kjøring på offentlige veier og interaksjon og sammarbeid med mennesker. En begrensning ved mange av de mest lovende DRL-metodene er at de er strukturert på en slik måte at de bare gir én enkelt handling for en enkelt situasjon, noe som gjør dem vanskelige å forutsi og potensielt farlige. DRL baserer seg også på dype nevrale nettverk, både for å forstå dynamikken i omgivelsene og for å ta optimale beslutninger. Disse nettverkene er sub-symbolske og ikke veldig transparente, så å forstå hvorfor en handling ble tatt og hvordan man kan unngå at det skjer igjen, er ikke trivielt. I denne masteravhandlingen blir det foreslått en arkitektur som tar sikte på å gjøre enhver (implisitt) DRL-metode forutsigbar og i stand til å planlegge. Arkitekturen, kalt Predictable-DRL (PDRL), kombinerer ideer fra DRL med arkitekturen til en modellprediktiv regulator (MPC) fra kontrollteori for å skape en modellbasert forsterkningslærer (MBRL). En DRL-metode vil bli brukt til å ta optimale handlinger, som arkitekturen vil konstruere til en planlagt bane for roboten. På samme måte som andre MBRL-er, vedlikeholder PDRL en matematisk modell av dynamikken til omgivelsene sine, som den oppdaterer jevnlig. Denne modellen brukes til å projisere og forutsi fremtidige situasjoner, som dermed muligjør planlegging. PDRL er utviklet med en bestemt ikke-holonomt robotisk kjøretøy i tankene, nemlig LIMO av AgileX, så det første steget i utviklingen av PDRL er å opprette en matematisk modell av dette systemet, som vil bli gitt til PDRL som et utgangspunkt. Den nye arkitekturen ble testet og sammenlignet med sin direkte DRL-motpart, og viste en reduksjon i kollisjonsrate både under trening og gjennom navigasjonsoppgaver. På samme måte som andre MBRL-metoder, er den oppnådde scoren til den nye arkitekturen relativt lavere sammenlignet med modellfrie motparter, og den er også mer sårbar for systemforstyrrelser. En nøkkelfordel med den foreslåtte arkitekturen, på linje med andre MBRL-er, ligger i dens evne til å forutse og "hallusinere" fremtidige tilstander, noe som gjør det mulig for agenten å lære fra potensielle kollisjoner uten å faktisk oppleve dem. Denne funksjonen legger til rette for online læring, altså læring etter utplassering i agentens operative miljø. Videre har arkitekturen potensial for effektiv kommunikasjon av intensjoner i fleragentmiljøer. Med videreutvikling kan agenten utvides for å følge trafikkregler, som for eksempel høyre-håndsregelen, når den samhandler med andre agenter i kjørescenarioer. Det ble opprettet en YouTube-kanal med videoer for å gi leseren en forståelse av omgivelsene der agentene skal operere, samt gi en visuell representasjon av PDRL før de begynner å lese oppgaven: https://www.youtube.com/@PDRLMasterThesis.
dc.description.abstractThe use of deep reinforcement learning (DRL) for autonomous vehicles is a hot topic in the autonomous driving industry. Many autonomous vehicular systems rely in part or entirely on DRL to solve their tasks. These tasks range from warehouse work inside locked containers to driving on public roads and interacting with humans. A limitation of many of the most promising DRL methods is that they are structured in such a way that they will only give a single action/output for a single situation/state, making them hard to predict and potentially hazardous. DRL relies on deep neural networks, both to understand the dynamics of the environment as well as to make optimal decisions. These networks are sub-symbolic and not very transparent, so understanding why an action was taken and how to avoid it happening again is not trivial. In this thesis, a proposed architecture aims to make any implicit DRL method predictable and capable of planning. The architecture, called Predictable-DRL (PDRL), combines ideas from DRL with the architecture of a model-predictive controller (MPC) from control theory to create a model-based reinforcement learner (MBRL). A DRL method will be used to take optimal actions, that the architecture will construct into a trajectory. Similar to other MBRLs, PDRL explicitly maintains and updates a transition model of the system. This model is used for projecting and predicting future input data and for the planning. The PDRL is developed with a specific nonholonomic robotic vehicle in mind, the LIMO by AgileX, so the first step is to create a model of this system, which will be provided to PDRL as a starting point. The new architecture was tested and compared to its straightforward DRL counterpart, demonstrating a reduction in collisions during both training and navigation tasks. Similar to other MBRL methods, the score achieved by the new architecture is relatively lower compared to model-free counterparts, and it is also more susceptible to system disturbances. A key advantage of the proposed architecture, similar to other MBRLs, lies in its ability to anticipate and "hallucinate" future states, enabling the agent to learn from potential collisions without actually experiencing them. This feature greatly facilitates online learning. Furthermore, the architecture exhibits potential for effective communication of intentions in multi-agent environments. With further development, the agent could be extended to adhere to traffic rules, such as the right-hand rule, when interacting with other agents during driving scenarios. Take a look at the youtube-channel connected to this thesis, to better understand what the environment and agent looks like, before reading the thesis: https://www.youtube.com/@PDRLMasterThesis.
dc.languageeng
dc.publisherNTNU
dc.titleShort-Term Trajectory Planning for a Non-Holonomic Robot Car: Utilizing Reinforcement Learning in conjunction with a Predefined Vehicle Model
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record