Vis enkel innførsel

dc.contributor.advisorRasheed, Adil
dc.contributor.authorHeiberg, Amalie
dc.date.accessioned2021-09-23T18:19:44Z
dc.date.available2021-09-23T18:19:44Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:20997196
dc.identifier.urihttps://hdl.handle.net/11250/2780994
dc.description.abstractBruken av og forskning innen autonome systemer har økt kraftig i senere år, inkludert i marin sektor. Ettersom transportsektoren samtidig gjennomgår en omfattende elektrifisering, lover autonom skipsfart ikke bare reduserte kostnader gjennom nedbemanning og mer effektiv drift, men også reduserte utslipp. Helautonomi kan derfor sies å være et fremtidig mål, selv om det i dag kreves konstant monitorering av delvis autonome skip. Et av de største hindrene for å nå dette målet er utviklingen av et robust og pålitelig kontrollsystem som er i stand til å takle alle mulige situasjoner og vær. Videre er det essensielt at alle skip følger internasjonale regler for kollisjonsunngåelse på havet (engelsk forkortelse: COLREGs), slik at samarbeidet med kapteiner og andre mennesker er trygt. Siden COLREGs ble skrevet for mennesker, er de ofte formulert på tvetydig vis, og dermed ikke lett overførbare til eller verifiserbare i en digital kontekst. Grunnet disse utfordringene er det teknisk krevende å nå målet kun ved bruk av klassiske og modell-baserte metoder. Kunstig intelligens kan approksimere beslutningsmodeller, og virker derfor lovende. Forsterkende læring (engelsk: reinforcement learning) har vist et spesielt stort potensiale i et bredt spekter av applikasjoner, inkludert de som krever kontinuerlig tilstands- og handlingsrom. Siden forsterkende læring i tillegg er en selvlærende og modellfri metode er det en spesielt god kandidat for autonome skip. I denne masteroppgaven undersøkes potensialet for å flette COLREGs inn i en kontroller basert på dyp forsterkende læring (engelsk forkortelse: DRL). For å oppnå dette sammenliknes en kvalitativ og en risiko-basert metode. Begge metodene fører til gode resultater i testscenarioer, og følger COLREG-regler relevante i et miljø med én aktiv agent (regler 14-16). Dette betyr at, i tillegg til å oppnå svært god stifølging og kollisjonsunngåelse i møte med statiske objekter, var agentene i stand til å forholde seg til de implementerte COLREG-reglene. I begge tilfeller var det tydelig at en modulær funksjon for belønning fungerer godt i applikasjoner hvor agenten skal oppnå ulike konkurrerende mål. Den vellykkede inkluderingen av viktige COLREG-regler i et DRL-basert system for stifølging og kollisjonsunngåelse vitner om at DRL er gunstig for autonom navigasjon på havet.
dc.description.abstractAutonomous systems are becoming ubiquitous, and are now also gaining momentum within the marine sector. Since the electrification of transport is happening at the same time, the envisioned autonomous vessels promise reduced environmental impact, lower costs, and higher efficiency. Although close monitoring is still required to ensure safety, the ultimate goal would be total autonomy. One of the major hurdles is the development of a control system versatile enough to handle all possible weather and encounter situations, that is also robust and reliable. Additionally, the International Regulations for Preventing Collisions at Sea (COLREGs) must be followed for successful interaction with human sailors. Since the COLREGs were written for the human mind to interpret, they are written in ambiguous prose and therefore not machine readable or verifiable. Due to these challenges and the wide variety of situations to be tackled, classical model-based approaches prove complicated to implement and computationally heavy. Within the field of artificial intelligence, deep reinforcement learning (DRL) has shown great potential for a wide range of applications. Its model-free and self-learning nature makes it a promising candidate for autonomous vessels. In this thesis, two ways of incorporating the COLREGs into a DRL-based path following and obstacle avoidance system are explored. First, the direct usage of sensor data combined with intuition is looked into. Then, a system based on readily available theory of collision risk is developed. Both of the approaches provide good results in testing scenarios, adhering to the COLREG rules relevant to a single-agent environment -- rules 14-16. This means that in addition to achieving excellent path following and collision avoidance performance in the face of static obstacles, the DRL agent adhered the implemented COLREGs in situations where the desired behaviour was clearly defined. In both cases, it was shown that a modular approach to reward function design works well in DRL applications with multiple objectives. The successful inclusion of key COLREG rules into a well-functioning path following and collision avoidance system is testament to the potential of DRL in autonomous vessels.
dc.language
dc.publisherNTNU
dc.titleCOLREG-Compliance for Autonomous Surface Vehicles using Deep Reinforcement Learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel