Deep Reinforcement Learning Applied to Targeted Oceanographic Sampling for an Autonomous Underwater Vehicle: Comparing Machine Learning and Model Based Approaches in a Simulated Environment

Kingman, Ivan Håbjørg

dc.contributor.advisor	Lekkas, Anastasios
dc.contributor.advisor	Våge, Andreas
dc.contributor.author	Kingman, Ivan Håbjørg
dc.date.accessioned	2021-10-03T16:27:54Z
dc.date.available	2021-10-03T16:27:54Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:76427839:45166098
dc.identifier.uri	https://hdl.handle.net/11250/2787227
dc.description.abstract	Dyp forsterkende læring ble benyttet i et forsøk på å få en autonom under-vannsdrone til å oppsøke biologiske varmepunkter ("hotspots") av plankton iet simulert miljø. Prosedyrisk generert planktondata ble benyttet for å danne etlæringsmiljø for en dynamisk modell av en autonom undervannsdrone, utstyrtmed styrings- og reguleringssystemer. Læreagenten ble presentert med et settav handlinger av høy abstraksjonsgrad å velge fra, implementert som veipunk-ter for styringssystemet, og ble gitt i oppgave å velge handlinger for å mak-simere plankton den måtte komme over mens den søkte etter et område medhøy planktontetthet, omtalt som planktonvarmepunktet. Agentens ytelse blesammenlignet med en tradisjonell stifinneralgoritme, nemlig A* algoritmen.Sammenligningen avdekte ingen tydelig fordel ved maskinlæringstilnærmin-gen over den tradisjonelle modellbaserte tilnærmingen, men indikerte at målrettetoseanografisk prøvetakning ble oppnådd til en viss grad. Ettersom miljøet erhøyst oversimplifisert, samt potensielt utilstrekkelig trening av maskinlæring-sagenten, er det vanskelig å trekke noen konkrete slutninger. Videre arbeid ernødvendig for å utvikle et mer realistisk simulert miljø, nærmere bestemt medplanktondata fra den virkelige verden, usikkerhet i miljøet og strømninger ihavet for å simulere den dynamisk varierende driften av biomasse i havet, ogderved skape en mer kompleks problemstilling, hvor maskinlæringstilnærmin-gen kan gjøre nytte av dens mektige egenskaper for målrettet prøvetakning etusikkert og dynamisk miljø.
dc.description.abstract	Deep Reinforcement Learning (DRL) was applied in an attempt to enable an Autonomous Underwater Vehicle (AUV) to seek out hotspots of plankton in a simulated environment. Procedurally generated plankton data was used to provide a training environment for a dynamically modelled AUV, equipped with guidance and control systems. The learning agent was given a set of high level actions to choose from, and tasked with choosing actions to maximize encountered plankton while seeking out a patch of high plankton density, referred to as the plankton hotspot. The performance of the agent was compared to a traditional pathfinding approach to the problem, namely the A* algorithm. The comparison revealed no clear benefit to the machine learning approach over the traditional model based approach, but indicated that targeted oceanographic sampling to some extent was achieved. Due to the highly simplified nature of the environment simulation, along with possibly insufficient training of the machine learning agent, the results are inconclusive. More work is needed to develop a more realistic simulation environment, specifically with real world plankton data, environment uncertainty, and ocean currents to simulate the dynamically varying biomass, defining a more complex problem where the machine learning approach may lend its powerful capability to targeted sampling in an uncertain and dynamic environment.
dc.language	eng
dc.publisher	NTNU
dc.title	Deep Reinforcement Learning Applied to Targeted Oceanographic Sampling for an Autonomous Underwater Vehicle: Comparing Machine Learning and Model Based Approaches in a Simulated Environment
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:76427839:45166 ...
Størrelse:: 9.229Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3741]

Vis enkel innførsel