Merging Classical Control and Deep Reinforcement Learning for Dynamic Collision Avoidance for a Quadcopter
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3099021Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
Selvstyrte ubemannede luftfartøy (UAVs, engelsk: Unmanned Aerial Vehicles), som eksempelvis kvadrokoptere, kan forbedre effektiviteten ved leveranser, utføre risikofylte inspeksjoner av strukturelle eiendeler, eller til og med drive overvåking under redningsaksjoner. Et minimumskrav for å oppnå autonomi er evnen til å følge en a priori kjent bane og samtidig unngå kollisjon med uforutsette hindringer. Denne studien har derfor som mål å mestre banefølging og kollisjonsunngåelse for et kvadrokopter ved å kombinere lavnivå- og høynivåkontroll.
Denne masteroppgaven presenterer en lavnivåregulator for et kvadrokopter som integrerer høy-nivå forsterkningslæring (RL, engelsk: Reinforcement Learning) for kollisjonsunngåelse for å effektivt utnytte styrkene til klassisk og datadrevet kontrolldesign. Ved bruk av dyp forsterkningslæring (DRL, engelsk: Deep Reinforcement Learning) ble en agent trent til å navigere rundt hindringer ved hjelp av konvolusjonelt nevralt nettverk (CNN, engelsk: Convolutional Neural Network)-basert sansing av LiDAR-målinger. En geometrisk banefølgingsregulator ble utledet og implementert som en kontrollabstraksjon for DRL-agenten. Proximal Policy Optimization (PPO, engelsk: Proximal Policy Optimization)-algoritmen ble brukt til å trene DRL-agenten i syntetiske og stokastisk genererte miljøer. Til slutt ble den testet i scenarioer med økende vanskelighetsgrad og i scenarioer som aldri hadde blitt møtt tidligere.
Resultatene, som ble oppnådd gjennom simuleringer, viser stort potensial for bruk av klassisk reguleringsteknikk som en abstraksjon i komplekse kontrolloppgaver. Ved å belønne agenten i de separate, konkurrerende problemområdene banefølging og kollisjonsunngåelse, har den trente agenten til en viss grad lært seg å følge banen i fravær av hindringer og utføre manøvrer for kollisjonsunngåelse når det er nødvendig. Prestasjonen har også generalisert til tidligere usette scenarier, der agenten handler intelligent for å overkomme hindringene. Det er imidlertid fortsatt potensiale for forbedring i scenarioer med mange hindringer, og fremtidige forskningsretninger for å forbedre agentens prestasjoner er foreslått. Autonomous Unmanned Aerial Vehicles (UAVs), such as quadcopters, can improve the efficiency of deliveries, perform inspections of assets that are risky for humans, or even perform surveillance during rescue operations. A minimum requirement for achieving autonomy is the ability to follow an a priori known path while avoiding collision with unforeseen obstacles. Thus, the current work aims to solve the dual objective of path following and collision avoidance for a quadcopter by combining low-level and high-level control.
This thesis proposes a path following controller for a quadcopter that integrates Reinforcement Learning (RL) for collision avoidance to effectively exploit the strengths of classical and data-driven control design approaches. Using Deep Reinforcement Learning (DRL), an agent was trained to perform local navigation around obstacles using a Convolutional Neural Network (CNN)-based perception of LiDAR measurements. A geometrical path following controller was derived and implemented as a control abstraction for the DRL agent. The Proximal Policy Optimization (PPO) algorithm was applied to train the DRL agent in synthetic and stochastically generated environments. Ultimately, it was tested in scenarios of increasing complexity and in scenarios never encountered before.
The results obtained through software simulations show great potential for using classical control as an abstraction in complex control tasks. By rewarding the agent in the separate, competing problem domains of path following and collision avoidance, the trained agent has to a certain extent learned to follow the path in the absence of obstacles and perform evasive maneuvers when required. The performance has also generalized to previously unseen scenarios, where the agent acts intelligently to overcome the obstacles. However, there is still potential for improvement in scenarios with a high density of obstacles, and future research directions to improve the performance are suggested.