Station-Keeping using Deep Learning

Ulstein, Ingvild Tveit

Ulstein, Ingvild Tveit

Master thesis

URI

http://hdl.handle.net/11250/2622902

Date

2019

Metadata

Show full item record

Collections

Institutt for marin teknikk [3428]

Abstract

Denne oppgaven undersøker muligheten for å skape en kontroller for et fjernstyrt undervannsfartøy (ROV) med en dyp forsterkningsinlæringsmetode, nærmere bestemt ved hjelp av en Proximal Policy Optimisation (PPO) algoritme.

Motivasjonen bak denne oppgaven er muligheten til å bidra til å øke graden av autonomi for undervannsfartøy. Farkostene er kostbare å operere og krever mye arbeidskraft. Tradisjonelle kontrollsystemer krever en omfattende beskrivelse av modelldynamikken, men den ikke-lineære dynamikken til undervannsfartøyene kan være vanskelig å modellere. Prestasjonen til en modellbasert kontroller vil degradere ved en uriktig dynamisk modell. En forsterkende læringsmetode til kontrolleren krever ingen tidligere kunnskaper om dynamikken, siden agenten lærer av interaksjon med miljøet og konstruerer et eget bevegelsesmønster.

Relevant forskning om dyp, forsterkende læringsalgoritmer presenteres, samt en introduksjon til forsterkningslæring og PPO-algoritmen. En åpen kildekodeimplementering av PPO-algoritmen ble valgt sammen med en datamaskinprogramvare som gir en forbindelse mellom Gazebo-simuleringen og treningsalgoritmen.

Implementeringen og verifikasjonen av PPO-algoritmen og Gazebo-forbindelsen ble testet på et enkelt eksempel med balansering av en påle. Resultatene var lovende, og pålebalanseringen viste en tilfredsstillende oppførsel. Et forslag til opplæring av ROV for dynamisk posisjonering ble gitt, med forslag til belønningsfunksjon. Implementeringen av ROV i det ønskede rammeverket var imidlertid ennå ikke vellykket, og det ble ikke oppnådd treningsresultater for dynamisk posisjonering av en ROV.

This thesis explores the possibility of creating a controller for a Remotely Operated Vehicle (ROV) with a deep reinforcement learning method, speciﬁcally the Proximal Policy Optimisation (PPO) algorithm.

The motivation behind this thesis is to possibly contribute to increasing the level of autonomy for underwater vehicles, which are expensive to operate both in terms of labour and money. Traditional control systems require an extensive description of the model dynamics, but the nonlinear dynamics of the underwater vehicles can be hard to model. The performance of a model-based controller will degrade under an incorrect dynamical model. A reinforcement learning approach to controller does not require any previous knowledge about the dynamics as the agent learns from interactions with the environment and constructs a policy for behaviour.

Relevant research on deep reinforcement learning is presented, as well as an introduction to reinforcement learning and the PPO algorithm. An open-source implementation of the PPO algorithm was chosen, together with a package that provides a connection between the Gazebo simulation and the training algorithm.

The implementation and veriﬁcation of the PPO algorithm and the Gazebo connection were tested on a simple cartpole example. The results were promising, and the cartpole training showed an overall satisfying behaviour. A proposal for the training of the ROV for station-keeping was given, with a suggestion for a reward function. However, the implementation of the ROV into the desired framework was not yet successful, and no training results were obtained for station-keeping of the ROV.

Publisher

NTNU