Learning an End-to-End Steering Model for an Unmanned Surface Vehicle

Vedeler, Alexandra Skau

dc.contributor.advisor	Pettersen, Kristin Ytterstad
dc.contributor.advisor	Warakagoda, Narada
dc.contributor.author	Vedeler, Alexandra Skau
dc.date.accessioned	2019-10-31T15:12:26Z
dc.date.issued	2019
dc.identifier	no.ntnu:inspera:35771502:14960579
dc.identifier.uri	http://hdl.handle.net/11250/2625746
dc.description.abstract	Hindringsunngåelse med maritime fartøy, slik som Ubemannede Overflatefartøy (UOF), har tradisjonelt sett blitt løst ved hjelp av spesialiserte moduler som er designet og optimalisert separat fra hverandre. Denne tilnærmelsen krever imidletid et høyt kunnskapsnivå om miljøet, fartøyet, og deres komplekse dynamikk. I dette prosjektet studerer vi en alternativ metode som kan transformere fartøyets sensor data til styringsaksjoner i en mer direkte, ende-til-ende-metode i håp om å gjøre systemet mer kompakt, effektivt og at det krever mindre innsikt inn i den komplekse dynamikken til det maritime miljøet. Dyp Forsterkende Læring (FL) er slikt sett et lovende alternativ som har hatt flere imponerende resultater i de siste årene. Imidlertid gjør denne metodens bruk av en manuelt utformet belønningsfunksjon, noe som kan være vanskelig å anskaffe i tilfeller der den ønskede atferden er vanskelig å formulere matematisk. Vi foreslår her bruk av Imitasjonelæring (IL) med bruk av Dyp Forsterkende Læring (FL) of Dyp Invertert Forsterkningslæring (IFL), og vi presanterer et system som lærer en ende-til-ende-styringsmodell som kan transformere radar-lignende bilder direkte til styringsaksjoner i en hindringsunngåelsessituasjon. I tillegg til dette presenterer vi et FL-system og en håndlaget belønnelsesfunskjon for oppgaven slik at vi kan evaluere prestasjonen til både IL og FL. Vi fant at FL presterer best, men at begge systemene klarer å fatte oppgaven ved bruk av observasjoner kun bestående av radar og GPS data. Vi anser dermed både RL og IL som lovende alternativer for videre utvikling i UOF-oppgaver, hvor IL spesielt kan funcgere som et alternativ i oppgaver som er vanskeligere å beskrive i en belønningsfunksjon enn dette spesifikke tilfellet.
dc.description.abstract	The task of obstacle avoidance using maritime vessels, such as Unmanned Surface Vehicles (USVs), has traditionally been solved using specialized modules that are designed and optimized separately. However, this approach requires a deep insight into the environment, the vessel, and their complex dynamics. In this project, we study an alternative method that maps the USV's sensor output to steering actions in a direct end-to-end way in hopes of making the system more compact, efficient and demand less insight into the complex dynamics of the environment. Deep Reinforcement Learning is a promising alternative in this regard and has produced some impressive results over the last years. However, the requirement of a manually crafted reward function may hinder its use in cases where the wanted behavior is difficult to express. We propose the use of Imitation Learning (IL) using Deep Reinforcement Learning (RL) and Deep Inverse Reinforcement Learning (IRL) and present a system that learns an end-to-end steering model capable of mapping radar-like images directly to steering actions in an obstacle avoidance scenario. In addition to this, we present an RL system and a handcrafted reward function for the task in order to evaluate both IL and RL performance on the task. We found that while RL performs with the greater accuracy and consistency, both systems are able to grasp the task of obstacle avoidance using only a mix of radar and GPS observations, completely model free. We thus deem both RL and IL promising options for future development in USV tasks, where IL specifically may provide an option for tasks that are even more difficult to model with a reward function than this specific case.
dc.language	eng
dc.publisher	NTNU
dc.title	Learning an End-to-End Steering Model for an Unmanned Surface Vehicle
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:35771502:14960 ...
Størrelse:: 7.378Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:35771502:14960 ...
Størrelse:: 1.531Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3663]

Vis enkel innførsel