dc.contributor.advisor | Lekkas, Anastasios | |
dc.contributor.advisor | Våge, Andreas | |
dc.contributor.author | Kingman, Ivan Håbjørg | |
dc.date.accessioned | 2021-10-03T16:27:54Z | |
dc.date.available | 2021-10-03T16:27:54Z | |
dc.date.issued | 2021 | |
dc.identifier | no.ntnu:inspera:76427839:45166098 | |
dc.identifier.uri | https://hdl.handle.net/11250/2787227 | |
dc.description.abstract | Dyp forsterkende læring ble benyttet i et forsøk på å få en autonom under-vannsdrone til å oppsøke biologiske varmepunkter ("hotspots") av plankton iet simulert miljø. Prosedyrisk generert planktondata ble benyttet for å danne etlæringsmiljø for en dynamisk modell av en autonom undervannsdrone, utstyrtmed styrings- og reguleringssystemer. Læreagenten ble presentert med et settav handlinger av høy abstraksjonsgrad å velge fra, implementert som veipunk-ter for styringssystemet, og ble gitt i oppgave å velge handlinger for å mak-simere plankton den måtte komme over mens den søkte etter et område medhøy planktontetthet, omtalt som planktonvarmepunktet. Agentens ytelse blesammenlignet med en tradisjonell stifinneralgoritme, nemlig A* algoritmen.Sammenligningen avdekte ingen tydelig fordel ved maskinlæringstilnærmin-gen over den tradisjonelle modellbaserte tilnærmingen, men indikerte at målrettetoseanografisk prøvetakning ble oppnådd til en viss grad. Ettersom miljøet erhøyst oversimplifisert, samt potensielt utilstrekkelig trening av maskinlæring-sagenten, er det vanskelig å trekke noen konkrete slutninger. Videre arbeid ernødvendig for å utvikle et mer realistisk simulert miljø, nærmere bestemt medplanktondata fra den virkelige verden, usikkerhet i miljøet og strømninger ihavet for å simulere den dynamisk varierende driften av biomasse i havet, ogderved skape en mer kompleks problemstilling, hvor maskinlæringstilnærmin-gen kan gjøre nytte av dens mektige egenskaper for målrettet prøvetakning etusikkert og dynamisk miljø. | |
dc.description.abstract | Deep Reinforcement Learning (DRL) was applied in an attempt to enable an
Autonomous Underwater Vehicle (AUV) to seek out hotspots of plankton in
a simulated environment. Procedurally generated plankton data was used to
provide a training environment for a dynamically modelled AUV, equipped
with guidance and control systems. The learning agent was given a set of high
level actions to choose from, and tasked with choosing actions to maximize encountered
plankton while seeking out a patch of high plankton density, referred
to as the plankton hotspot. The performance of the agent was compared to a
traditional pathfinding approach to the problem, namely the A* algorithm. The
comparison revealed no clear benefit to the machine learning approach over the
traditional model based approach, but indicated that targeted oceanographic
sampling to some extent was achieved. Due to the highly simplified nature
of the environment simulation, along with possibly insufficient training of the
machine learning agent, the results are inconclusive. More work is needed to
develop a more realistic simulation environment, specifically with real world
plankton data, environment uncertainty, and ocean currents to simulate the
dynamically varying biomass, defining a more complex problem where the machine
learning approach may lend its powerful capability to targeted sampling
in an uncertain and dynamic environment. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Deep Reinforcement Learning Applied to Targeted Oceanographic Sampling for an Autonomous Underwater Vehicle: Comparing Machine Learning and Model Based Approaches in a Simulated Environment | |
dc.type | Master thesis | |