Show simple item record

dc.contributor.advisorLekkas, Anastasios
dc.contributor.authorRorvik, Ella-Lovise Hammervold
dc.date.accessioned2020-06-04T16:02:46Z
dc.date.available2020-06-04T16:02:46Z
dc.date.issued2020
dc.identifier.urihttps://hdl.handle.net/11250/2656724
dc.description.abstractAutomatisk dokking er viktig for å realisere autonom skipsfart, og har blitt forsket på siden 1990-tallet. Dokking ses på som en kompleks høyrisikoprosess, der et fartøy trenger å følge havnens regler, unngå både statiske og dynamiske hindringer, nå det ønskede dokkingspunktet og holde sin posisjon mens det venter på å bli festet på en trygg måte. Dette har vist seg å være en vanskelig oppgave, blant annet på grunn av betydelig redusert manøvrerbarhet under dokking og faren for kollisjoner og andre uhell. Teknikker som optimal kontrollteori og fuzzy-logikk (eng. fuzzy logic) har blitt foreslått for å løse oppgaven med autonom dokking. Disse metodene har noen ulemper. Et viktig eksempel er behovet for pålitelige og gode matematiske modeller. Utfordringer med å lage gode matematiske modeller ligger i å håndtere iboende ulineariteter og varierende forhold under dokking av et fartøy, slik som vekslende hastigheter og værforhold. Andre utfordringer med tradisjonelle metoder inkluderer blant annet avhengigheter av lavnivå kontrollsystemer og meget høye beregningskrav i kontrollsystemene, om bord på skipene. De siste årene har et felt innen databaserte tilnærminger, kalt dyp forsterkende læring (eng. deep reinforcement learning, DRL), blitt brukt med gode resultater på endel tilfeller av kontinuerlig styring av fartøyer i simuleringer. Dyp forsterkende læring (DRL) optimaliserer løsninger på beslutningsmessige (eng. decision-making) problemer. Dette skjer ved at læringssystemet selv utforsker handlinger i et miljø, og mottar tilbakemeldinger på det som er oppnådd. Nyere utvikling innen DRL har ført til vellykkede løsninger på tidligere uløste oppgaver sammenlignet med andre lovende databaserte tilnærminger. Ved å bruke DRL for å styre et fartøy til kai (kalt dokking, fra engelsk «docking») unngås flere av ulempene med tidligere brukte metoder. En DRL-basert modell for dokking kan håndtere usikkerhetene i modellene til både fartøy og havn, og kan koples direkte til styringsorganene (aktuatorene), i en ressurseffektiv ende-til-ende-løsning. I tillegg kan DRL-baserte modeller dra fordel av tilgang til manøvreringsdata fra fartøy under læringen, men metoden krever det ikke. Dyp forsterkende læring (DRL) er også i stand til å bruke sensorinformasjon direkte for å lage funksjonelle styringsregler (eng. functional control laws). Hovedmålet med denne masteroppgaven er å utforske muligheten for å bruke dyp forsterkende læring (DRL) for å lage et ende-til-ende dokkingssystem for et 3-frihetsgraders (3-DOF) fullstyrt autonomt overflatefartøy, og analysere ytelsen og forklarbarheten til kontrollreglene. Den DRL-baserte dokkingsmodellen er opprettet gjennom en progressiv metodikk, som først løser oppgaver som å legge til kai og målsporing (eng. target tracking), før disse kombineres i en ende-til-ende dokkingmodell. Ende-til-ende dokkingsystemet leder fartøyet på en effektiv måte fra like utenfor havnen helt fram til kai, og holder fartøyet ved den angitte plasseringen ved kaia. Ende-til-ende DRL-kontrolleren bruker informasjon om fartøyets posisjon i forhold til havna for å unngå kollisjoner, og kan til en viss grad håndtere uforutsette havstrømmer. DRL-agenten løser alle disse oppgavene ved å kontrollere både thrustervinkler og krefter. Den DRL-baserte modellen er derfor i stand til både å erstatte thrusterallokeringen, de tradisjonelle kontrollerne og føringssystemet. Den DRL-baserte modellen ble analysert ved bruk av en tilpassning av Shapley additiv forklaring (eng. Shapley additive explanation, SHAP). Dette er tilpasning av en teknikk fra feltet for forklarbar AI (XAI), og har som formål å skaffe innsikt i og forståelse av DRL-baserte dokkingmodellen. Teknikken presenterer mål på tilstandenes relative bidrag til agentens valg av thrustere, og gir dermed innsikt i enkelte aspekter av DRL-modellenes resonnement. Resonnementet ble analysert både fra generelle synspunkt og for gitte hendelser på bestemte øyeblikk. Det ble vist at slik innsikt fra SHAP kunne brukes til å forbedre DRL-dokkingmodellen. To forskjellige DRL-algoritmer ble utforsket, proksimal politikkoptimalisering (eng. proximal policy optimisation, PPO) og dyp deterministisk politikkgradient (eng. deterministic policy gradient , DDPG). Det ble vist at PPO fungerte like bra eller bedre enn DDPG for alle læringsaspektene i denne oppgaven rundt dokking. Dette prosjektet viser at DRL kan være nyttig for å løse dokkingsproblemer, og lage modeller med høy nøyaktighet og effektive baner. Den foreslåtte bruken av SHAP for å analysere atferden til DRL-baserte modeller viser lovende resultater med tanke på å skaffe seg bedre innsikt i resonnementet. Dette gjør det følgelig lettere å forbedre løsningene, og kan øke tilliten til DRL-baserte modeller. Selv om de DRL-baserte kontrollerne ble funnet ved hjelp av en forenklet simulator, kan metodikken utvides til reelle systemer.
dc.description.abstractDocking is considered a complex, high-risk process where a vessel must follow the rules of the harbour, avoid both static and dynamic obstacles, reach the desired docking point, and hold its position while awaiting fastening to the dock. Autonomous docking is a vital part of achieving ship autonomy, and has been researched since the 1990s. It has proven to be a difficult task, due to significantly reduced manoeuvrability during docking and nonlinearities, to mention some of the more essential challenges. Techniques such as optimal control theory and fuzzy control logic have been proposed to solve the task of autonomous docking. These methods have produced noteworthy results but also have some drawbacks. One prominent example is the need for reliable and good mathematical models, coping with inherent nonlinearities and varying conditions (including speed, weather etc.). Other limitations are dependencies on lower-level controllers, and for some methods high computational requirements during operations. In recent years, a data-based field of study called deep reinforcement learning (DRL) has successfully been applied to some continuous control problems of marine vessels in simulations. Deep reinforcement learning optimises decision-making problems through exploring actions in an environment and receiving feedback on performance. Recent developments in DRL have led to successful solutions of previously unsolved tasks by otherwise promising data-based approaches. Deep RL is, for instance, able to utilise sensor information to create functional control laws and end-to-end solutions. Using DRL to create docking models helps towards avoiding several of the drawbacks of previous methods. A DRL-based docking model can handle uncertainties in the models of the marine vessel and harbour and utilise direct sensor information. Additionally, Deep RL-based models may benefit from having access to manoeuvring data from the ship master during learning or retraining, but the method does not need it. The main objective of this thesis is to explore the possibility of using deep reinforcement learning (DRL) to create an end-to-end harbour docking system for a 3 degrees-of-freedom (3-DOF) fully-actuated autonomous surface vessel, and analyse its performance and explainability. The DRL-based docking model is created through a progressive methodology, first solving tasks such as berthing and target tracking, before combining these solutions into an end-to-end docking model. The docking model can control a vessel efficiently from just outside the harbour to a berth, and hold its position once at the berth. The end-to-end DRL-controller uses information about the vessel's position relative to the harbour, to avoid collisions and can (up to a certain extent) handle unforeseen ocean currents. The DRL agent solves all these tasks by controlling both thruster angles and forces. The DRL-based control law is, therefore, able to both replace thruster allocation, the traditional controllers and guidance systems. The DRL-based model was analysed using Shapley additive explanation (SHAP), a technique from the field of explainable AI (XAI), to get insight and understanding of the model. Shapley additive explanation was used to find the states' relative contributions to the agent's selection of thrust, and thereby provide insight into certain aspects of the DRL-agent's reasoning. The reasoning was analysed both from general point of views, and for given events at specific moments. It was demonstrated that such insight, provided by SHAP, could be used to improve the DRL-agent. Two different DRL-algorithms were explored, namely proximal policy optimization (PPO) and deep deterministic policy gradient (DDPG). It was found that PPO was easier to adapt to the docking phases, where PPO was equally or more successful on all encountered aspects of docking. The result of this thesis shows that DRL can be useful to solve several aspects and the entire docking problem, creating models with high accuracy and efficient trajectories. The proposed use of SHAP for analysing the behaviour of DRL-based controllers shows promising results of gaining better insight. It consequently makes it easier improve solutions and increases the trust of DRL-based models. Even though DRL-based controllers were found using a simplified simulator, the methodology can be extended to real systems.
dc.languageeng
dc.publisherNTNU
dc.titleAutomatisk dokking av et autonomt overflatefartøy
dc.typeMaster thesis


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record