Reinforcement Learning for Autonomous Safe Navigation in Dynamic and Cluttered Environments Exploiting Dynamics-Aware Embeddings of Depth Images
Abstract
Nylige fremskritt innen sensorteknologi, aktuatorer og beregning har bidratt til å drastisk øke operasjonspotensialet til ubemannede luftfartøy. Som en konsekvens av dette blir disse fartøyene brukt til å løse komplekse oppgaver i krevende og sensordegraderte miljøer som stiller høye krav til sofistikerte autonome navigasjonssystemer. Å designe slike navigasjonssystemer, som må operere i sanntid, har vist seg å være vanskelig med verktøy fra klassisk reguleringsteknikk og datasyn. Dette har motivert forskning på læringsbasert autonom navigasjon, muliggjort av fremskritt innen massivt parrelell dyp læring som har banet vei for effektiv læring av dype nevrale nettverk. Innen dette forskningsfeltet har metoder som benytter seg av dype nevrale nettverk til å prosessere sensormålinger (f.eks. bilder) til kompakte representasjoner brukt til å informere læringsbaserte kontrollere trent med Dyp Forsterkende Læring (DFL) vist stort potensiale.
Motivert av det overnevnte foreslår denne masteroppgaven en ny metode basert på DFL for trygg navigasjon i krevende miljøer med både statiske og dynamiske hindringer som utnytter kompakte dynamikkbevisste representasjoner av dybdebilder, beregnet av nevrale nettverk.
De nevrale nettverkene er trent til å samtidig kode dybdebilder til latente tilstander, predikere neste latente tilstand gjennom en gjemt tilstand og rekonstruere dybdebildene fra de latente latente og gjemte tilstandene. Som en konsekvens av denne prosessen vil de latente og gjemte tilstandene til denne såkalte verdensmodellen fange de lavfrekvente detaljene i dybdebildene, egendynamikken til roboten og kinematikken til hindringer. Videre brukes verdensmodellens tilstander å informere en læringsbasert kontroller, trent ved bruk av proksimal kontrolleroptimering.
Den foreslåtten metoden er validert gjennom en rekke eksperimentelle studier utført i simulering. Resultatene er oppmuntrende og viser intelligente kontrollresponser som muliggjør navigasjon i ekstremt rotete og krevende miljøer. Kontrolleren er kapabel til å navigere trygt selv i fravær av dybdebilder ved å bruke verdensmodellen i åpen sløyfe og er robust til simulert sensorstøy. Metodevalget er videre validert gjennom en ablasjons-studie hvor metoden er sammenlignet med en grunnlinjekontroller uten tilgang til den prediktive verdensmodellen.
Selv om metoden viser stort potensiale, gjøres det et poeng ut av å understreke identifiserte begrensninger og eksplisitte forslag til forbedringer blir gitt. Oppgaven konkluderes med en diskusjon angående arkitekturvalg, utfordringer relatert til deployering på ekte maskinvare og forslag til fremtidig arbeid. For å akselerere dette, tilgjengeliggjøres den relaterte kildekoden åpent. Recent advances in onboard sensing, actuation and compute have drastically increased thecapabilities of unmanned aerial vehicles. As a consequence of this, they are tasked to under-take increasingly complex tasks in challenging and sensory degraded environments, requiringsophisticated autonomous navigation systems. Building such navigation systems, requiredto operate in real-time, using tools from classical control and computer vision has presenteditself as a challenge. This has motivated a line of research on learning based autonomousnavigation, made possible by the the rise of massively parallel deep learning enabling efficientlearning of deep neural networks. Within this line of research, methods relying on deep neuralnetworks to process sensor measurements (e.g. images) to dense and information-rich em-beddings informing control policies trained with Deep Reinforcement Learning (DRL) havedemonstrated significant potential.
Motivated by the above, this thesis proposes a novel approach based on DRL for autonomoussafe navigation in cluttered and dynamic environments, exploiting dynamics-aware embed-dings of depth images computed using deep neural networks.These networks are jointly trained to encode depth images in to a low dimensional latentstate, predict the evolution of the latent state through a hidden state, and reconstruct theinput images from the latent and hidden states. As such, the latent and hidden states of thisso-called world model capture the low frequency details of the depth images, the dynamics ofthe robot and the kinematics of obstacles in the environment. The latent and hidden statesare then used in conjunction with state and goal information to inform an environment-awarecontrol policy, trained using proximal policy optimization.
To validate the proposed approach, several experimental studies are conducted in simula-tion. The results are encouraging and exhibits emergent behaviours capable of navigatingextremely cluttered and unseen environments. Notably, the control policy is able to safelynavigate in the absence of depth images by relying on the world model in open-loop, and isrobust to simulated sensor noise. The choice of method is further validated in an ablationstudy where the proposed approach is compared to a myopic baseline.
While showing great promise, we make a point of highlighting identified limitations with theproposed approach and give explicit suggestions for improvements. The thesis is concludedwith a discussion on architectural decisions and challenges related to a sim to real transfer,and some suggestions for future work. To accelerate this, the associated code is releasedopen-source.