Reinforcement Learning for Fast, Map-Free Navigation in Cluttered Environments Using Aerial Robots

Nitschke, Patrick

Nitschke, Patrick

Master thesis

Åpne

no.ntnu:inspera:102231297:35978121.pdf (24.14Mb)

Permanent lenke

https://hdl.handle.net/11250/3030271

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for teknisk kybernetikk [3789]

Sammendrag

Autonom navigering i stadig mer komplekse domener byr på nye utfordringer og stiller spørsmål

ved effektiviteten og kapasiteten til tradisjonelle modellbaserte metoder. Selv om tradisjonelle

metoder har vært vellykkede for ustrukturerte miljøer i det siste, kan usikre, sensor-degraderte

eller dynamiske miljøer ikke modelleres og dermed løses med disse metodene. I stedet har

læringsbaserte metoder blitt stadig mer populære på grunn av deres evne til å lære kompleks

atferd uten eksplisitt programmering, der flere komponenter kan kombineres til en enkelt modell for å takle persepsjons-, prediksjons- og bevegelsesoppgaven til autonom navigering.

I dette temaet utforsker denne oppgaven bruken av forsterkende læring for autonom navigering av en drone gjennom hinderfylt miljøer, med kun et dybdekamera. Vi foreslår en todelt dyp

nevrale nettverksmodell som består av en koder-CNN og MLP, der CNN fungerer som persepsjonsmodulen mens MLP er den optimale kontrolleren. Med dette rammeverket mottar modellen vår en dronetilstand og et dybdebilde som input og kartlegger dette til en hastighets- og

girhastighetsreferanse for å nå et spesifisert mål i tre dimensjoner.

For å løse oppgaven presenterer vi problemet som en uovervåket representasjonslærings- og

forsterkende læringsoppgave. CNN er opplært som en koder for VAE som lærer å rekonstruere

dybdebilder, mens MLP lærer å bruke VAE latent kode som en dybderepresentasjon av miljøet,

for å kunne navigere i miljøet. Vi introduserer en tilpasset rekonstruksjonsfeil for VAE for å spesifisere kollisjonsspesifikke funksjoner som bør prioriteres i dybdekodingen. Vi introduserer også

en ny belønningsfunksjon for forsterkende læringsmiddel som motiverer både veipunktnavigasjon og kollisjonsunngåelse.

Ved ytterligere å bruke storskala parallellisme, presenterer vi opplæringen og evalueringen

av vår endelige forsterkende læringspolicy, som oppnår en suksessrate på 92,5% i gjennomsnitt

over fire kjente miljøer på 20 ganger10 med ulik grad av rot. Agenten viser god robusthet når

en Gaussisk multiplikativ støy eps ∼ N(1, 0, 2) brukes på alle tilstander og handlinger, med en

suksessrate på 87,5% på tvers av de fire miljøene. Imidlertid identifiserer vi noen begrensninger

med modellen vår – nemlig avhengighet av nøyaktige dybderepresentasjoner og en dårlig generalisering til større miljøer. Til slutt, som videre arbeid, bør vi trene modulene våre til å håndtere

støyende dybdebilder, legge til modifikasjoner for å ta hensyn til generalisering, og legge til en

prediksjonsmodul i form av en LSTM eller transformator for å forbedre ytelsen ytterligere.

Autonomous navigation in increasingly complex domains presents new challenges that question

the efficiency and capability of traditional model-based methods. Though traditional approaches

have been successful for unstructured environments in the past, uncertain, sensor-degraded, or

dynamic environments cannot be modelled and thus be solved by these approaches. Instead,

learning-based methods have become increasingly popular due to their ability to learn complex

behaviour without explicit programming, where multiple components can be combined into a

single model to tackle the perception, prediction and motion task of autonomous navigation.

In this theme, this thesis explores the use of reinforcement learning for autonomous navigation of a quadrotor through cluttered environments, with only a depth camera. We propose a

two-part deep neural network model comprised of an encoder-CNN and MLP, where the CNN

serves as the perception module while the MLP is the optimal controller. With this framework,

our model receives a quadrotor state and depth image as input and maps this to a velocity and

yaw rate reference to reach a specified goal in three dimensions.

To solve the task, we present the problem as an unsupervised representation learning and

reinforcement learning task. The CNN is trained as an encoder of VAE that learns to reconstruct

depth images, while the MLP learns to utilise the VAE latent code as a depth representation of the

environment, so to be able to navigate the environment. We introduce a custom reconstruction

error for the VAE to specify collision-specific features that should be prioritised in the depth

encoding. We also introduce a novel reward function for the reinforcement learning agent that

motivates both waypoint navigation and collision avoidance.

By further utilising large-scale parallelism, we present the training and evaluation of our final

reinforcement learning policy, which achieves a 92.5% success rate averaged across four known

20×10 environments with varying degrees of clutter. The agent demonstrates good robustness

when a Gaussian multiplicative noise eps ∼ N (1, 0.2) is applied to all states and actions, with an

87.5% success rate across the four environments. However, we identify some constraints with

our model – namely dependence on accurate depth representations and a poor generalisation

to larger environments. Finally, as further work, we should train our modules to handle noisy

depth images, add modifications to account for generalisation, and add a prediction module in

the form of an LSTM or Transformer to further improve performance.

Utgiver

NTNU