Vis enkel innførsel

dc.contributor.advisorLekkas, Anastasios
dc.contributor.advisorVåge, Andreas
dc.contributor.authorKingman, Ivan Håbjørg
dc.date.accessioned2021-10-03T16:27:54Z
dc.date.available2021-10-03T16:27:54Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:76427839:45166098
dc.identifier.urihttps://hdl.handle.net/11250/2787227
dc.description.abstractDyp forsterkende læring ble benyttet i et forsøk på å få en autonom under-vannsdrone til å oppsøke biologiske varmepunkter ("hotspots") av plankton iet simulert miljø. Prosedyrisk generert planktondata ble benyttet for å danne etlæringsmiljø for en dynamisk modell av en autonom undervannsdrone, utstyrtmed styrings- og reguleringssystemer. Læreagenten ble presentert med et settav handlinger av høy abstraksjonsgrad å velge fra, implementert som veipunk-ter for styringssystemet, og ble gitt i oppgave å velge handlinger for å mak-simere plankton den måtte komme over mens den søkte etter et område medhøy planktontetthet, omtalt som planktonvarmepunktet. Agentens ytelse blesammenlignet med en tradisjonell stifinneralgoritme, nemlig A* algoritmen.Sammenligningen avdekte ingen tydelig fordel ved maskinlæringstilnærmin-gen over den tradisjonelle modellbaserte tilnærmingen, men indikerte at målrettetoseanografisk prøvetakning ble oppnådd til en viss grad. Ettersom miljøet erhøyst oversimplifisert, samt potensielt utilstrekkelig trening av maskinlæring-sagenten, er det vanskelig å trekke noen konkrete slutninger. Videre arbeid ernødvendig for å utvikle et mer realistisk simulert miljø, nærmere bestemt medplanktondata fra den virkelige verden, usikkerhet i miljøet og strømninger ihavet for å simulere den dynamisk varierende driften av biomasse i havet, ogderved skape en mer kompleks problemstilling, hvor maskinlæringstilnærmin-gen kan gjøre nytte av dens mektige egenskaper for målrettet prøvetakning etusikkert og dynamisk miljø.
dc.description.abstractDeep Reinforcement Learning (DRL) was applied in an attempt to enable an Autonomous Underwater Vehicle (AUV) to seek out hotspots of plankton in a simulated environment. Procedurally generated plankton data was used to provide a training environment for a dynamically modelled AUV, equipped with guidance and control systems. The learning agent was given a set of high level actions to choose from, and tasked with choosing actions to maximize encountered plankton while seeking out a patch of high plankton density, referred to as the plankton hotspot. The performance of the agent was compared to a traditional pathfinding approach to the problem, namely the A* algorithm. The comparison revealed no clear benefit to the machine learning approach over the traditional model based approach, but indicated that targeted oceanographic sampling to some extent was achieved. Due to the highly simplified nature of the environment simulation, along with possibly insufficient training of the machine learning agent, the results are inconclusive. More work is needed to develop a more realistic simulation environment, specifically with real world plankton data, environment uncertainty, and ocean currents to simulate the dynamically varying biomass, defining a more complex problem where the machine learning approach may lend its powerful capability to targeted sampling in an uncertain and dynamic environment.
dc.languageeng
dc.publisherNTNU
dc.titleDeep Reinforcement Learning Applied to Targeted Oceanographic Sampling for an Autonomous Underwater Vehicle: Comparing Machine Learning and Model Based Approaches in a Simulated Environment
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel