Show simple item record

dc.contributor.advisorSchjølberg, Ingrid
dc.contributor.authorUlstein, Ingvild Tveit
dc.date.accessioned2019-10-17T14:01:27Z
dc.date.available2019-10-17T14:01:27Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2622902
dc.description.abstractDenne oppgaven undersøker muligheten for å skape en kontroller for et fjernstyrt undervannsfartøy (ROV) med en dyp forsterkningsinlæringsmetode, nærmere bestemt ved hjelp av en Proximal Policy Optimisation (PPO) algoritme. Motivasjonen bak denne oppgaven er muligheten til å bidra til å øke graden av autonomi for undervannsfartøy. Farkostene er kostbare å operere og krever mye arbeidskraft. Tradisjonelle kontrollsystemer krever en omfattende beskrivelse av modelldynamikken, men den ikke-lineære dynamikken til undervannsfartøyene kan være vanskelig å modellere. Prestasjonen til en modellbasert kontroller vil degradere ved en uriktig dynamisk modell. En forsterkende læringsmetode til kontrolleren krever ingen tidligere kunnskaper om dynamikken, siden agenten lærer av interaksjon med miljøet og konstruerer et eget bevegelsesmønster. Relevant forskning om dyp, forsterkende læringsalgoritmer presenteres, samt en introduksjon til forsterkningslæring og PPO-algoritmen. En åpen kildekodeimplementering av PPO-algoritmen ble valgt sammen med en datamaskinprogramvare som gir en forbindelse mellom Gazebo-simuleringen og treningsalgoritmen. Implementeringen og verifikasjonen av PPO-algoritmen og Gazebo-forbindelsen ble testet på et enkelt eksempel med balansering av en påle. Resultatene var lovende, og pålebalanseringen viste en tilfredsstillende oppførsel. Et forslag til opplæring av ROV for dynamisk posisjonering ble gitt, med forslag til belønningsfunksjon. Implementeringen av ROV i det ønskede rammeverket var imidlertid ennå ikke vellykket, og det ble ikke oppnådd treningsresultater for dynamisk posisjonering av en ROV.
dc.description.abstractThis thesis explores the possibility of creating a controller for a Remotely Operated Vehicle (ROV) with a deep reinforcement learning method, specifically the Proximal Policy Optimisation (PPO) algorithm. The motivation behind this thesis is to possibly contribute to increasing the level of autonomy for underwater vehicles, which are expensive to operate both in terms of labour and money. Traditional control systems require an extensive description of the model dynamics, but the nonlinear dynamics of the underwater vehicles can be hard to model. The performance of a model-based controller will degrade under an incorrect dynamical model. A reinforcement learning approach to controller does not require any previous knowledge about the dynamics as the agent learns from interactions with the environment and constructs a policy for behaviour. Relevant research on deep reinforcement learning is presented, as well as an introduction to reinforcement learning and the PPO algorithm. An open-source implementation of the PPO algorithm was chosen, together with a package that provides a connection between the Gazebo simulation and the training algorithm. The implementation and verification of the PPO algorithm and the Gazebo connection were tested on a simple cartpole example. The results were promising, and the cartpole training showed an overall satisfying behaviour. A proposal for the training of the ROV for station-keeping was given, with a suggestion for a reward function. However, the implementation of the ROV into the desired framework was not yet successful, and no training results were obtained for station-keeping of the ROV.
dc.languageeng
dc.publisherNTNU
dc.titleStation-Keeping using Deep Learning
dc.typeMaster thesis


Files in this item

FilesSizeFormatView

This item appears in the following Collection(s)

Show simple item record