Show simple item record

dc.contributor.advisorAlexis, Kostas
dc.contributor.authorNitschke, Patrick
dc.date.accessioned2022-11-05T18:19:39Z
dc.date.available2022-11-05T18:19:39Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:102231297:35978121
dc.identifier.urihttps://hdl.handle.net/11250/3030271
dc.description.abstractAutonom navigering i stadig mer komplekse domener byr på nye utfordringer og stiller spørsmål ved effektiviteten og kapasiteten til tradisjonelle modellbaserte metoder. Selv om tradisjonelle metoder har vært vellykkede for ustrukturerte miljøer i det siste, kan usikre, sensor-degraderte eller dynamiske miljøer ikke modelleres og dermed løses med disse metodene. I stedet har læringsbaserte metoder blitt stadig mer populære på grunn av deres evne til å lære kompleks atferd uten eksplisitt programmering, der flere komponenter kan kombineres til en enkelt modell for å takle persepsjons-, prediksjons- og bevegelsesoppgaven til autonom navigering. I dette temaet utforsker denne oppgaven bruken av forsterkende læring for autonom navigering av en drone gjennom hinderfylt miljøer, med kun et dybdekamera. Vi foreslår en todelt dyp nevrale nettverksmodell som består av en koder-CNN og MLP, der CNN fungerer som persepsjonsmodulen mens MLP er den optimale kontrolleren. Med dette rammeverket mottar modellen vår en dronetilstand og et dybdebilde som input og kartlegger dette til en hastighets- og girhastighetsreferanse for å nå et spesifisert mål i tre dimensjoner. For å løse oppgaven presenterer vi problemet som en uovervåket representasjonslærings- og forsterkende læringsoppgave. CNN er opplært som en koder for VAE som lærer å rekonstruere dybdebilder, mens MLP lærer å bruke VAE latent kode som en dybderepresentasjon av miljøet, for å kunne navigere i miljøet. Vi introduserer en tilpasset rekonstruksjonsfeil for VAE for å spesifisere kollisjonsspesifikke funksjoner som bør prioriteres i dybdekodingen. Vi introduserer også en ny belønningsfunksjon for forsterkende læringsmiddel som motiverer både veipunktnavigasjon og kollisjonsunngåelse. Ved ytterligere å bruke storskala parallellisme, presenterer vi opplæringen og evalueringen av vår endelige forsterkende læringspolicy, som oppnår en suksessrate på 92,5% i gjennomsnitt over fire kjente miljøer på 20 ganger10 med ulik grad av rot. Agenten viser god robusthet når en Gaussisk multiplikativ støy eps ∼ N(1, 0, 2) brukes på alle tilstander og handlinger, med en suksessrate på 87,5% på tvers av de fire miljøene. Imidlertid identifiserer vi noen begrensninger med modellen vår – nemlig avhengighet av nøyaktige dybderepresentasjoner og en dårlig generalisering til større miljøer. Til slutt, som videre arbeid, bør vi trene modulene våre til å håndtere støyende dybdebilder, legge til modifikasjoner for å ta hensyn til generalisering, og legge til en prediksjonsmodul i form av en LSTM eller transformator for å forbedre ytelsen ytterligere.
dc.description.abstractAutonomous navigation in increasingly complex domains presents new challenges that question the efficiency and capability of traditional model-based methods. Though traditional approaches have been successful for unstructured environments in the past, uncertain, sensor-degraded, or dynamic environments cannot be modelled and thus be solved by these approaches. Instead, learning-based methods have become increasingly popular due to their ability to learn complex behaviour without explicit programming, where multiple components can be combined into a single model to tackle the perception, prediction and motion task of autonomous navigation. In this theme, this thesis explores the use of reinforcement learning for autonomous navigation of a quadrotor through cluttered environments, with only a depth camera. We propose a two-part deep neural network model comprised of an encoder-CNN and MLP, where the CNN serves as the perception module while the MLP is the optimal controller. With this framework, our model receives a quadrotor state and depth image as input and maps this to a velocity and yaw rate reference to reach a specified goal in three dimensions. To solve the task, we present the problem as an unsupervised representation learning and reinforcement learning task. The CNN is trained as an encoder of VAE that learns to reconstruct depth images, while the MLP learns to utilise the VAE latent code as a depth representation of the environment, so to be able to navigate the environment. We introduce a custom reconstruction error for the VAE to specify collision-specific features that should be prioritised in the depth encoding. We also introduce a novel reward function for the reinforcement learning agent that motivates both waypoint navigation and collision avoidance. By further utilising large-scale parallelism, we present the training and evaluation of our final reinforcement learning policy, which achieves a 92.5% success rate averaged across four known 20×10 environments with varying degrees of clutter. The agent demonstrates good robustness when a Gaussian multiplicative noise eps ∼ N (1, 0.2) is applied to all states and actions, with an 87.5% success rate across the four environments. However, we identify some constraints with our model – namely dependence on accurate depth representations and a poor generalisation to larger environments. Finally, as further work, we should train our modules to handle noisy depth images, add modifications to account for generalisation, and add a prediction module in the form of an LSTM or Transformer to further improve performance.
dc.languageeng
dc.publisherNTNU
dc.titleReinforcement Learning for Fast, Map-Free Navigation in Cluttered Environments Using Aerial Robots
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record