Vis enkel innførsel

dc.contributor.advisorAlexis, Kostas
dc.contributor.authorFleisje, Ingvild Christoffersen
dc.date.accessioned2023-10-18T17:20:09Z
dc.date.available2023-10-18T17:20:09Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140443607:37497551
dc.identifier.urihttps://hdl.handle.net/11250/3097362
dc.description.abstractUtviklingen av autonome luftfartøy som kan utføre raske og smidige manøvrer i komplekse omgivelser har vært utfordrende. Tradisjonell kontroll er avhengig av flere moduler som oppfatter, kartlegger, planlegger og styrer roboten, hvor hver modul legger til forsinkelser og usikkerheter som akkumuleres gjennom kontrollsystemet [1]. Behovet for en systemmodell gjør tradisjonelle metoder uegnet i usikre eller dynamiske omgivelser. Nylig utvikling av læringsbaserte metoder kombinert med dype nevrale nettverk, kjent som Deep Reinforcement Learning (DRL), har gjort det mulig å kombinere tradisjonelt separate moduler for bevegelseskontroll, persepsjon og prediksjon i en enkelt modell, som er i stand til å lære kontrollstrategier direkte fra kameradata [2]. Algoritmen Proximal Policy Optimization (PPO) [3] har blitt et populært valg i DRL-baserte kontrolloppgaver på grunn av sin fremragende ytelse på flere benchmarks. Denne masteravhandlingen presenterer DRL-baserte kontrollere for autonom navigasjon av en drone i både frie og hindringsfyllte omgivelser ved hjelp av PPO-algoritmen. Gitt dronens observasjoner, som inkluderer dybdedata for unnamanøvrering av hindringer, genererer DRL-kontrolleren styrekommandoer som veileder quadrotoren mot en målposisjon i tre dimensjoner. For å minimere navigasjonsforsinkelser benyttes en variational autoencoder (VAE) for å komprimere dybdedataene til en lavdimensjonal representasjon. Studien undersøkte design av og evaluerte resultatene av forskjellige belønningsfunksjoner for navigasjonsproblemet. Resultatene belyser betydningen av å nøye utforme belønningsfunksjoner, vurdere utforskningsstrategier og justere hyperparametere basert på omgivelsenes kompleksitet. Funnene viser potensialet ved å kombinere ulike former for belønning for å forbedre konvergensegenskapene og rollen utforskning spiller i oppdagelsen av gode kontrollstrategier. Begrensninger i antallet utførte eksperimenter og utfordringer med å håndtere nedgående navigasjonsbaner utgjør et grunnlag for videre undersøkelse og for- bedring. Resultatene bidrar til forståelse av designet av belønningsfunksjoner i reinforcement learning for dronenavigasjon i komplekse omgivelser og legger grunnlaget for fremtidige fremskritt på dette feltet.
dc.description.abstractDeveloping autonomous aerial vehicles capable of executing fast and agile maneuvers in complex environments has been challenging. Traditional control relies on several modules that help sense, map, plan, and control the robot, each module adding delays and uncertainties that accumulate through the control system [1]. Their need for a system model makes them infeasible in uncertain or dynamic environments. The recent development of learning-based methods combined with deep neural networks, known as deep reinforcement learning (DRL), has allowed traditionally separate modules for motion control, perception, and prediction to be combined into a single model, capable of learning control policies directly from camera inputs [2]. The Proximal Policy Optimization (PPO) [3] algorithm has been a popular choice in DRL-based control tasks due to its state-of-the-art performance on several reinforcement learning benchmarks. This thesis investigated deep reinforcement learning-based controllers for the autonomous navigation of a quadrotor through free and obstacle-filled environments using the Proximal Policy Optimization (PPO) algorithm. Given observations of the quadrotor states, including depth data for the obstacle-avoidance controller, the implemented DRL controllers output the desired control commands to apply to the quadrotor for it to reach its target. The DRL controllers use an actor-critic Proximal Policy Optimization algorithm to search for an optimal control policy that enables the quadrotor to reach a three-dimensional target position. To minimize navigation delays, the depth data is compressed to a low-dimensional representation using a probabilistic encoder network, pre-trained through a variational autoencoder (VAE). The work involved (1) formulating the quadrotor control problem as a reinforcement learning task, (2) designing the VAE and actor-critic networks, (3) designing reward functions that encourage efficient yet safe behavior, (4) implementing the solution in a simulator environment, (5) training the quadrotor through a series of simulations, and (6) analyzing and comparing the resulting performance metrics and quadrotor behavior to evaluate the impact of various reward functions and role of exploration in different complexity environments.
dc.languageeng
dc.publisherNTNU
dc.titleReward Shaping and Performance Analysis of Proximal Policy Optimization for Quadrotor Navigation in Environments of Varying Complexity
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel