Short-Term Trajectory Planning for a Non-Holonomic Robot Car: Utilizing Reinforcement Learning in conjunction with a Predefined Vehicle Model
Abstract
Bruken av dyp forsterkende læring (DRL) for autonome / selvkjørende kjøretøy er et høyaktuelttema i bilindustrien. Mange autonome kjøretøysystemer støtter seg delvis eller helt på DRL forå løse oppgavene sine. Disse oppgavene spenner fra lagerarbeid inne i låste containere til kjøringpå offentlige veier og interaksjon og sammarbeid med mennesker. En begrensning ved mange avde mest lovende DRL-metodene er at de er strukturert på en slik måte at de bare gir én enkelthandling for en enkelt situasjon, noe som gjør dem vanskelige å forutsi og potensielt farlige.DRL baserer seg også på dype nevrale nettverk, både for å forstå dynamikken i omgivelsene ogfor å ta optimale beslutninger. Disse nettverkene er sub-symbolske og ikke veldig transparente,så å forstå hvorfor en handling ble tatt og hvordan man kan unngå at det skjer igjen, er ikketrivielt.
I denne masteravhandlingen blir det foreslått en arkitektur som tar sikte på å gjøre enhver(implisitt) DRL-metode forutsigbar og i stand til å planlegge. Arkitekturen, kalt Predictable-DRL(PDRL), kombinerer ideer fra DRL med arkitekturen til en modellprediktiv regulator (MPC)fra kontrollteori for å skape en modellbasert forsterkningslærer (MBRL). En DRL-metode vilbli brukt til å ta optimale handlinger, som arkitekturen vil konstruere til en planlagt banefor roboten. På samme måte som andre MBRL-er, vedlikeholder PDRL en matematisk modellav dynamikken til omgivelsene sine, som den oppdaterer jevnlig. Denne modellen brukes til åprojisere og forutsi fremtidige situasjoner, som dermed muligjør planlegging. PDRL er utvikletmed en bestemt ikke-holonomt robotisk kjøretøy i tankene, nemlig LIMO av AgileX, så detførste steget i utviklingen av PDRL er å opprette en matematisk modell av dette systemet, somvil bli gitt til PDRL som et utgangspunkt.
Den nye arkitekturen ble testet og sammenlignet med sin direkte DRL-motpart, og viste en reduksjon i kollisjonsrate både under trening og gjennom navigasjonsoppgaver. På samme måtesom andre MBRL-metoder, er den oppnådde scoren til den nye arkitekturen relativt lavere sammenlignet med modellfrie motparter, og den er også mer sårbar for systemforstyrrelser.
En nøkkelfordel med den foreslåtte arkitekturen, på linje med andre MBRL-er, ligger i dens evnetil å forutse og "hallusinere" fremtidige tilstander, noe som gjør det mulig for agenten å lære frapotensielle kollisjoner uten å faktisk oppleve dem. Denne funksjonen legger til rette for onlinelæring, altså læring etter utplassering i agentens operative miljø. Videre har arkitekturen potensial for effektiv kommunikasjon av intensjoner i fleragentmiljøer. Med videreutvikling kan agentenutvides for å følge trafikkregler, som for eksempel høyre-håndsregelen, når den samhandler medandre agenter i kjørescenarioer.
Det ble opprettet en YouTube-kanal med videoer for å gi leseren en forståelse av omgivelseneder agentene skal operere, samt gi en visuell representasjon av PDRL før de begynner å leseoppgaven: https://www.youtube.com/@PDRLMasterThesis. The use of deep reinforcement learning (DRL) for autonomous vehicles is a hot topic in the autonomous driving industry. Many autonomous vehicular systems rely in part or entirely on DRLto solve their tasks. These tasks range from warehouse work inside locked containers to drivingon public roads and interacting with humans. A limitation of many of the most promising DRLmethods is that they are structured in such a way that they will only give a single action/outputfor a single situation/state, making them hard to predict and potentially hazardous. DRL relieson deep neural networks, both to understand the dynamics of the environment as well as to makeoptimal decisions. These networks are sub-symbolic and not very transparent, so understandingwhy an action was taken and how to avoid it happening again is not trivial.
In this thesis, a proposed architecture aims to make any implicit DRL method predictable andcapable of planning. The architecture, called Predictable-DRL (PDRL), combines ideas fromDRL with the architecture of a model-predictive controller (MPC) from control theory to create amodel-based reinforcement learner (MBRL). A DRL method will be used to take optimal actions,that the architecture will construct into a trajectory. Similar to other MBRLs, PDRL explicitlymaintains and updates a transition model of the system. This model is used for projecting andpredicting future input data and for the planning. The PDRL is developed with a specific nonholonomic robotic vehicle in mind, the LIMO by AgileX, so the first step is to create a modelof this system, which will be provided to PDRL as a starting point.
The new architecture was tested and compared to its straightforward DRL counterpart, demonstrating a reduction in collisions during both training and navigation tasks. Similar to otherMBRL methods, the score achieved by the new architecture is relatively lower compared tomodel-free counterparts, and it is also more susceptible to system disturbances.
A key advantage of the proposed architecture, similar to other MBRLs, lies in its ability toanticipate and "hallucinate" future states, enabling the agent to learn from potential collisionswithout actually experiencing them. This feature greatly facilitates online learning. Furthermore,the architecture exhibits potential for effective communication of intentions in multi-agent environments. With further development, the agent could be extended to adhere to traffic rules,such as the right-hand rule, when interacting with other agents during driving scenarios.
Take a look at the youtube-channel connected to this thesis, to better understand what the environment and agent looks like, before reading the thesis: https://www.youtube.com/@PDRLMasterThesis.