Reinforcement Learning for Fast, Map-Free Navigation in Cluttered Environments Using Aerial Robots
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3030271Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Autonom navigering i stadig mer komplekse domener byr på nye utfordringer og stiller spørsmålved effektiviteten og kapasiteten til tradisjonelle modellbaserte metoder. Selv om tradisjonellemetoder har vært vellykkede for ustrukturerte miljøer i det siste, kan usikre, sensor-degraderteeller dynamiske miljøer ikke modelleres og dermed løses med disse metodene. I stedet harlæringsbaserte metoder blitt stadig mer populære på grunn av deres evne til å lære kompleksatferd uten eksplisitt programmering, der flere komponenter kan kombineres til en enkelt modell for å takle persepsjons-, prediksjons- og bevegelsesoppgaven til autonom navigering.I dette temaet utforsker denne oppgaven bruken av forsterkende læring for autonom navigering av en drone gjennom hinderfylt miljøer, med kun et dybdekamera. Vi foreslår en todelt dypnevrale nettverksmodell som består av en koder-CNN og MLP, der CNN fungerer som persepsjonsmodulen mens MLP er den optimale kontrolleren. Med dette rammeverket mottar modellen vår en dronetilstand og et dybdebilde som input og kartlegger dette til en hastighets- oggirhastighetsreferanse for å nå et spesifisert mål i tre dimensjoner.For å løse oppgaven presenterer vi problemet som en uovervåket representasjonslærings- ogforsterkende læringsoppgave. CNN er opplært som en koder for VAE som lærer å rekonstrueredybdebilder, mens MLP lærer å bruke VAE latent kode som en dybderepresentasjon av miljøet,for å kunne navigere i miljøet. Vi introduserer en tilpasset rekonstruksjonsfeil for VAE for å spesifisere kollisjonsspesifikke funksjoner som bør prioriteres i dybdekodingen. Vi introduserer ogsåen ny belønningsfunksjon for forsterkende læringsmiddel som motiverer både veipunktnavigasjon og kollisjonsunngåelse.Ved ytterligere å bruke storskala parallellisme, presenterer vi opplæringen og evalueringenav vår endelige forsterkende læringspolicy, som oppnår en suksessrate på 92,5% i gjennomsnittover fire kjente miljøer på 20 ganger10 med ulik grad av rot. Agenten viser god robusthet nåren Gaussisk multiplikativ støy eps ∼ N(1, 0, 2) brukes på alle tilstander og handlinger, med ensuksessrate på 87,5% på tvers av de fire miljøene. Imidlertid identifiserer vi noen begrensningermed modellen vår – nemlig avhengighet av nøyaktige dybderepresentasjoner og en dårlig generalisering til større miljøer. Til slutt, som videre arbeid, bør vi trene modulene våre til å håndterestøyende dybdebilder, legge til modifikasjoner for å ta hensyn til generalisering, og legge til enprediksjonsmodul i form av en LSTM eller transformator for å forbedre ytelsen ytterligere. Autonomous navigation in increasingly complex domains presents new challenges that questionthe efficiency and capability of traditional model-based methods. Though traditional approacheshave been successful for unstructured environments in the past, uncertain, sensor-degraded, ordynamic environments cannot be modelled and thus be solved by these approaches. Instead,learning-based methods have become increasingly popular due to their ability to learn complexbehaviour without explicit programming, where multiple components can be combined into asingle model to tackle the perception, prediction and motion task of autonomous navigation.In this theme, this thesis explores the use of reinforcement learning for autonomous navigation of a quadrotor through cluttered environments, with only a depth camera. We propose atwo-part deep neural network model comprised of an encoder-CNN and MLP, where the CNNserves as the perception module while the MLP is the optimal controller. With this framework,our model receives a quadrotor state and depth image as input and maps this to a velocity andyaw rate reference to reach a specified goal in three dimensions.To solve the task, we present the problem as an unsupervised representation learning andreinforcement learning task. The CNN is trained as an encoder of VAE that learns to reconstructdepth images, while the MLP learns to utilise the VAE latent code as a depth representation of theenvironment, so to be able to navigate the environment. We introduce a custom reconstructionerror for the VAE to specify collision-specific features that should be prioritised in the depthencoding. We also introduce a novel reward function for the reinforcement learning agent thatmotivates both waypoint navigation and collision avoidance.By further utilising large-scale parallelism, we present the training and evaluation of our finalreinforcement learning policy, which achieves a 92.5% success rate averaged across four known20×10 environments with varying degrees of clutter. The agent demonstrates good robustnesswhen a Gaussian multiplicative noise eps ∼ N (1, 0.2) is applied to all states and actions, with an87.5% success rate across the four environments. However, we identify some constraints withour model – namely dependence on accurate depth representations and a poor generalisationto larger environments. Finally, as further work, we should train our modules to handle noisydepth images, add modifications to account for generalisation, and add a prediction module inthe form of an LSTM or Transformer to further improve performance.