Station-Keeping using Deep Learning

Ulstein, Ingvild Tveit

dc.contributor.advisor	Schjølberg, Ingrid
dc.contributor.author	Ulstein, Ingvild Tveit
dc.date.accessioned	2019-10-17T14:01:27Z
dc.date.available	2019-10-17T14:01:27Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2622902
dc.description.abstract	Denne oppgaven undersøker muligheten for å skape en kontroller for et fjernstyrt undervannsfartøy (ROV) med en dyp forsterkningsinlæringsmetode, nærmere bestemt ved hjelp av en Proximal Policy Optimisation (PPO) algoritme. Motivasjonen bak denne oppgaven er muligheten til å bidra til å øke graden av autonomi for undervannsfartøy. Farkostene er kostbare å operere og krever mye arbeidskraft. Tradisjonelle kontrollsystemer krever en omfattende beskrivelse av modelldynamikken, men den ikke-lineære dynamikken til undervannsfartøyene kan være vanskelig å modellere. Prestasjonen til en modellbasert kontroller vil degradere ved en uriktig dynamisk modell. En forsterkende læringsmetode til kontrolleren krever ingen tidligere kunnskaper om dynamikken, siden agenten lærer av interaksjon med miljøet og konstruerer et eget bevegelsesmønster. Relevant forskning om dyp, forsterkende læringsalgoritmer presenteres, samt en introduksjon til forsterkningslæring og PPO-algoritmen. En åpen kildekodeimplementering av PPO-algoritmen ble valgt sammen med en datamaskinprogramvare som gir en forbindelse mellom Gazebo-simuleringen og treningsalgoritmen. Implementeringen og verifikasjonen av PPO-algoritmen og Gazebo-forbindelsen ble testet på et enkelt eksempel med balansering av en påle. Resultatene var lovende, og pålebalanseringen viste en tilfredsstillende oppførsel. Et forslag til opplæring av ROV for dynamisk posisjonering ble gitt, med forslag til belønningsfunksjon. Implementeringen av ROV i det ønskede rammeverket var imidlertid ennå ikke vellykket, og det ble ikke oppnådd treningsresultater for dynamisk posisjonering av en ROV.
dc.description.abstract	This thesis explores the possibility of creating a controller for a Remotely Operated Vehicle (ROV) with a deep reinforcement learning method, speciﬁcally the Proximal Policy Optimisation (PPO) algorithm. The motivation behind this thesis is to possibly contribute to increasing the level of autonomy for underwater vehicles, which are expensive to operate both in terms of labour and money. Traditional control systems require an extensive description of the model dynamics, but the nonlinear dynamics of the underwater vehicles can be hard to model. The performance of a model-based controller will degrade under an incorrect dynamical model. A reinforcement learning approach to controller does not require any previous knowledge about the dynamics as the agent learns from interactions with the environment and constructs a policy for behaviour. Relevant research on deep reinforcement learning is presented, as well as an introduction to reinforcement learning and the PPO algorithm. An open-source implementation of the PPO algorithm was chosen, together with a package that provides a connection between the Gazebo simulation and the training algorithm. The implementation and veriﬁcation of the PPO algorithm and the Gazebo connection were tested on a simple cartpole example. The results were promising, and the cartpole training showed an overall satisfying behaviour. A proposal for the training of the ROV for station-keeping was given, with a suggestion for a reward function. However, the implementation of the ROV into the desired framework was not yet successful, and no training results were obtained for station-keeping of the ROV.
dc.language	eng
dc.publisher	NTNU
dc.title	Station-Keeping using Deep Learning
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for marin teknikk [3429]

Vis enkel innførsel