Vis enkel innførsel

dc.contributor.advisorSkjetne, Roger
dc.contributor.authorMothes, Brage Elias West
dc.date.accessioned2019-10-17T14:09:16Z
dc.date.available2019-10-17T14:09:16Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2622956
dc.description.abstractDenne avhandlingen presenterer et studie av maskinlæring (ML) anvendt i maritim sammenheng. Mer spesifikt har forsterkende læring (FL), som et handlings-planleggende lag for veiledning i et dokningsscenario blitt inspisert. Dette ble gjort gjennom en analyse av kontrollsystemets evne til å lære optimale kaileggings manøvre ved å prøve- og feile gjennom simuleringer nær kaien. Avhandlingen tjener til å bygge opp forståelse av RL for marine applikasjoner. En modell basert på CyberShip Arctic Drillship som opererer i Marine Cybernetics Laboratory ved NTNU, har tjent som plattform for testing av FL i kaileggingsscenarioet. Oppbyggingen av denne modellen presenteres som bakgrunn for avhandlingen, sammen med relevant teori om autonome systemer, baneplanlegging, manøvrering og maskinlæring. For enkelhets skyld ble treningen av FL-agenten gjennomført ved å forslå hastigheter og inngangsbaner for fartøyet individuelt. Gjennom trening med hensyn på fart kunne vi vise hvordan agenten kunne lære forbedrede strategier basert på ulike tiltak og samtidig overholde spesifiserte begrensninger. Som en modellfri tilnærming, uten behov for kunnskap knyttet til underliggende dynamikk, kunne disse strategiene læres i samsvar med ulike oppsett av terreng. Samtidig viser uforutsette strategier seg å oppstå som følge av et kjent potensial hos FL-agenter til å oppdage uventede måter å anskaffe belønning. Dette kan ha positive effekter, men understreker også betydningen av presis design av belønning, ettersom oversette farer kan oppstå. Ved evaluering av inngangsbaner viste tilbake-forplantning av belønning seg avgjørdende for konvergering, ettersom tilgjengelige tilstander viste avhengighet langt tilbake. Likevel veiledet dette agenten velykket mot langsiktige belønninger, slik at forbedrede strategier omfattet hele prosessen i stedet for bare den umiddelbare optima. Agenten viste imidlertid utsatt for motstridende belønninger, som tilsynelatende maskerte globale optima og reduserte stabiliteten i læringsprosessen. N-step tilbake-forplantning har blitt anbefalt en mulig forbedring til dette, sammen med akselerert læring. Simuleringene gjenspeiler avhengigheten av agentens oppførsel på definisjon av handlingsrom, og anvendt belønningsfunksjon. I tillegg ble omfanget av handlingsrom funnet å begrense mulige løsninger, men med utvidelsesevne kommer med større beregningsbehov. Basert på resultatene, viser modellfri FL lovende evner for fartøyets veiledning i kaileggingssituasjoner, i forhold til optimalisering i henhold til ønskede overvåkingsvariabler.
dc.description.abstractThis thesis presents a study of machine learning (ML) applied to the marine field. In specific reinforcement learning (RL) applied as an action-planning guidance layer in a docking scenario has been inspected. This was done through an analysis of the control systems ability to learn optimal docking maneuvers by trial and error simulations close to the quay. The underlying intention is to build understanding of RL for marine applications. A model based on CyberShip Arctic Drillship operating in the Marine Cybernetics Laboratory at NTNU, has served as the platform for testing RL in the docking scheme. The buildup of this model is presented as background for the thesis, along with relevant theory of autonomous systems, path planning, maneuvering, and machine learning. For simplicity, training of the RL agent was simulated for proposing speeds and entrance paths for the vessel individually. Training in regards of speed, we were able to show how the agent could learn improved strategies based on various measures and concurrently comply with specified restrictions. As a model-free approach, needless of knowledge connected to underlying dynamics, these strategies could be learnt in accordance with different environmental settings. Simultaneously it showed how unconsidered strategies could arise, due to a known potential of RL agents to discover unexpected ways to obtain rewards. This could have positive effects, but also highlights the importance of careful reward design, as fields unaccounted for can be violated. When evaluating entrance paths, backpropagation of rewards proved crucial in order to converge to satisfactory results, where available states showed dependency far back. Still, this successfully guided the agent towards long term rewards, enabling improved strategies accounting for the complete process rather than just the immediate optima. However, the agent showed susceptible to conflicting rewards, seemingly shrouding global optima and reducing stability of the learning progress. N-step backpropagation has been recommended as a possible improvement to this, along with accelerated learning. The simulations all reflected the dependency of the agents behavior on action space definition and applied reward function. Additionally the extensiveness of the action space was found to restrict possible solutions of the agent, but extensiveness comes with greater computational demands. Based on the provided results, the model-free RL shows promising capabilities for vessel guidance in docking situations, allowing optimization according to desired monitoring variables.
dc.languageeng
dc.publisherNTNU
dc.titleReinforcement Learning for Autodocking of Surface Vessels
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel