dc.contributor.advisor | Mester, Rudolf | |
dc.contributor.author | Fjellheim, Henrik | |
dc.date.accessioned | 2023-10-18T17:20:25Z | |
dc.date.available | 2023-10-18T17:20:25Z | |
dc.date.issued | 2023 | |
dc.identifier | no.ntnu:inspera:142737689:37544330 | |
dc.identifier.uri | https://hdl.handle.net/11250/3097369 | |
dc.description.abstract | Bruken av dyp forsterkende læring (DRL) for autonome / selvkjørende kjøretøy er et høyaktuelt
tema i bilindustrien. Mange autonome kjøretøysystemer støtter seg delvis eller helt på DRL for
å løse oppgavene sine. Disse oppgavene spenner fra lagerarbeid inne i låste containere til kjøring
på offentlige veier og interaksjon og sammarbeid med mennesker. En begrensning ved mange av
de mest lovende DRL-metodene er at de er strukturert på en slik måte at de bare gir én enkelt
handling for en enkelt situasjon, noe som gjør dem vanskelige å forutsi og potensielt farlige.
DRL baserer seg også på dype nevrale nettverk, både for å forstå dynamikken i omgivelsene og
for å ta optimale beslutninger. Disse nettverkene er sub-symbolske og ikke veldig transparente,
så å forstå hvorfor en handling ble tatt og hvordan man kan unngå at det skjer igjen, er ikke
trivielt.
I denne masteravhandlingen blir det foreslått en arkitektur som tar sikte på å gjøre enhver
(implisitt) DRL-metode forutsigbar og i stand til å planlegge. Arkitekturen, kalt Predictable-DRL
(PDRL), kombinerer ideer fra DRL med arkitekturen til en modellprediktiv regulator (MPC)
fra kontrollteori for å skape en modellbasert forsterkningslærer (MBRL). En DRL-metode vil
bli brukt til å ta optimale handlinger, som arkitekturen vil konstruere til en planlagt bane
for roboten. På samme måte som andre MBRL-er, vedlikeholder PDRL en matematisk modell
av dynamikken til omgivelsene sine, som den oppdaterer jevnlig. Denne modellen brukes til å
projisere og forutsi fremtidige situasjoner, som dermed muligjør planlegging. PDRL er utviklet
med en bestemt ikke-holonomt robotisk kjøretøy i tankene, nemlig LIMO av AgileX, så det
første steget i utviklingen av PDRL er å opprette en matematisk modell av dette systemet, som
vil bli gitt til PDRL som et utgangspunkt.
Den nye arkitekturen ble testet og sammenlignet med sin direkte DRL-motpart, og viste en reduksjon i kollisjonsrate både under trening og gjennom navigasjonsoppgaver. På samme måte
som andre MBRL-metoder, er den oppnådde scoren til den nye arkitekturen relativt lavere sammenlignet med modellfrie motparter, og den er også mer sårbar for systemforstyrrelser.
En nøkkelfordel med den foreslåtte arkitekturen, på linje med andre MBRL-er, ligger i dens evne
til å forutse og "hallusinere" fremtidige tilstander, noe som gjør det mulig for agenten å lære fra
potensielle kollisjoner uten å faktisk oppleve dem. Denne funksjonen legger til rette for online
læring, altså læring etter utplassering i agentens operative miljø. Videre har arkitekturen potensial for effektiv kommunikasjon av intensjoner i fleragentmiljøer. Med videreutvikling kan agenten
utvides for å følge trafikkregler, som for eksempel høyre-håndsregelen, når den samhandler med
andre agenter i kjørescenarioer.
Det ble opprettet en YouTube-kanal med videoer for å gi leseren en forståelse av omgivelsene
der agentene skal operere, samt gi en visuell representasjon av PDRL før de begynner å lese
oppgaven: https://www.youtube.com/@PDRLMasterThesis. | |
dc.description.abstract | The use of deep reinforcement learning (DRL) for autonomous vehicles is a hot topic in the autonomous driving industry. Many autonomous vehicular systems rely in part or entirely on DRL
to solve their tasks. These tasks range from warehouse work inside locked containers to driving
on public roads and interacting with humans. A limitation of many of the most promising DRL
methods is that they are structured in such a way that they will only give a single action/output
for a single situation/state, making them hard to predict and potentially hazardous. DRL relies
on deep neural networks, both to understand the dynamics of the environment as well as to make
optimal decisions. These networks are sub-symbolic and not very transparent, so understanding
why an action was taken and how to avoid it happening again is not trivial.
In this thesis, a proposed architecture aims to make any implicit DRL method predictable and
capable of planning. The architecture, called Predictable-DRL (PDRL), combines ideas from
DRL with the architecture of a model-predictive controller (MPC) from control theory to create a
model-based reinforcement learner (MBRL). A DRL method will be used to take optimal actions,
that the architecture will construct into a trajectory. Similar to other MBRLs, PDRL explicitly
maintains and updates a transition model of the system. This model is used for projecting and
predicting future input data and for the planning. The PDRL is developed with a specific nonholonomic robotic vehicle in mind, the LIMO by AgileX, so the first step is to create a model
of this system, which will be provided to PDRL as a starting point.
The new architecture was tested and compared to its straightforward DRL counterpart, demonstrating a reduction in collisions during both training and navigation tasks. Similar to other
MBRL methods, the score achieved by the new architecture is relatively lower compared to
model-free counterparts, and it is also more susceptible to system disturbances.
A key advantage of the proposed architecture, similar to other MBRLs, lies in its ability to
anticipate and "hallucinate" future states, enabling the agent to learn from potential collisions
without actually experiencing them. This feature greatly facilitates online learning. Furthermore,
the architecture exhibits potential for effective communication of intentions in multi-agent environments. With further development, the agent could be extended to adhere to traffic rules,
such as the right-hand rule, when interacting with other agents during driving scenarios.
Take a look at the youtube-channel connected to this thesis, to better understand what the environment and agent looks like, before reading the thesis: https://www.youtube.com/@PDRLMasterThesis. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Short-Term Trajectory Planning for a Non-Holonomic Robot Car: Utilizing Reinforcement Learning in conjunction with a Predefined Vehicle Model | |
dc.type | Master thesis | |