Vis enkel innførsel

dc.contributor.advisorRasheed, Adil
dc.contributor.authorHavenstrøm, Simen Theie
dc.date.accessioned2021-09-23T17:58:56Z
dc.date.available2021-09-23T17:58:56Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:45409093
dc.identifier.urihttps://hdl.handle.net/11250/2780864
dc.description.abstractTradisjonelle kybernetiske metoder har mange verktøy og teknikker som kan anvendes for en rekke klasser dynamiske systemer. En forutsetning for å kunne anvende mange av de tradisjonelle metodene, er en pålitelig matematisk representasjon av systemet/miljøet man ønsker å manipulere. Med økt kompleksitet, til den grad at valg og vurderinger ikke lenger følger trivielle regler, kan det bli vanskelig å finne slike representasjoner - kanskje til og med umulig. Å konstruere lover for tilbakekoblede kontrollsystemer i slike tilfeller, kan derfor vise seg å være utfordrende. Forsterkende læring danner kontrollover basert på erfaring og belønning, og viser seg dermed som et potensielt godt verktøy der det er vanskelig å representere systemet eller ønsket oppførsel eksplisitt. I denne oppgaven benyttes kontrollere basert på forsterkende læring til å styre et simulert autonomt undervannskjøretøy med 6 frihetsgrader. Objektivet er at kjøretøyet skal følge en forhåndsdefinert sti i 3D, samtidig som den er utsatt for hydrodynamiske forstyrrelser og obstruksjoner som kan forårsake kollisjoner hvis stien følges ukritisk. Da kjøretøy med 6 frihetsgrader og et 3D miljø tilbyr mange måter å operere kjøretøyet på i en slik kontekst, er de autonome agentene trent med forskjellig belønningsstrategi for å observere utfallet i den lærte kontrollstrategien. Kontrollerene, eller agentene, følger et opplæringsregimet som kalles "pensumlæring" ("Curriculum learning"). Dette bygger på at agentene gradvis utsettes for vanskeligere oppgaver og følgelig økt kompleksitet, istedenfor at oppgaver introduseres helt tilfeldig. Det er dermed en naturlig progresjon fra nybegynner til ekspert når det kommer til å kunne operere kjøretøyet i det nevnte miljøet. Etter trening viste ekspert-pilotene imponerende resultater i både stifølging og kollisjonsunngåelse. Under ideelle forhold (ingen forstyrrelser) oppnådde den beste agenten en kollisjonsrate på 0%. I tillegg viste den gode prestasjoner for stifølging. I det store bildet kan ideen om å bruke selvlærende kontrollsystemer, som etterligner menneskers evne for vurderinger og veivalg, ses som et tidlig skritt mot fullstendig autonome kjøretøy. Arbeidet som presenteres i denne rapporten bygger på et eget forprosjekt, såvel som tidligere arbeid med tilsvarende objektiver i 2D for kjøretøy med 3 frihetsgrader.
dc.description.abstractTraditional control theory has many to tools to offer the control engineer when faced with a wide array of dynamical systems. However, as complexity of systems grow, providing reliable mathematical representations gets more involved - possibly even infeasible. In these contexts decision-making becomes non-trivial and many of the traditional methods can not be applied. If there is no way to explicitly encode desired behaviour, then how can one hope to construct a useful control law? The framework of reinforcement learning has the potential to break this deadlock, and through experience based learning the need for explicit representations of the environment is discarded. In this thesis, such learning controllers are developed to operate the control fins of a simulated autonomous underwater vehicle with 6 degrees-of-freedom. The control objective is for the vehicle to follow a predefined 3D path while being engaged in a hydrodynamic environment containing environmental disturbances and unforeseen obstacles intersecting the path. There is obviously many ways to operate in this environment, and for this reason the agents developed are learning by different incentives to observe the differential in behavioural outcome. The controllers, or agents, are trained by following a learning paradigm known as curriculum learning: That is the idea of progressively exposing the agents to more complex tasks, instead of the sampled environments being completely random. Thus, there is a natural progression from beginner to expert. After training, the expert level agents are deployed in test simulations showing impressive results both in path following and in collision avoidance. Under ideal conditions (no disturbance), the best controller managed to obtain a collision rate of 0%, while still balancing the objective of path following impressively. In a larger context, the idea of applying learning controllers to emulate human-like decision-making can be seen as a preliminary step towards reaching fully autonomous vehicles. The work presented in this report builds on a preproject and earlier earlier work with the same control objectives, albeit in 2D and with 3 degrees-of-freedom.
dc.language
dc.publisherNTNU
dc.titleFrom Beginner to Expert: Deep Reinforcement Learning Controller for 3D Path Following and Collision Avoidance by Autonomous Underwater Vehicles
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel