Deep Reinforcement Learning Applied to Targeted Oceanographic Sampling for an Autonomous Underwater Vehicle: Comparing Machine Learning and Model Based Approaches in a Simulated Environment
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2787227Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Sammendrag
Dyp forsterkende læring ble benyttet i et forsøk på å få en autonom under-vannsdrone til å oppsøke biologiske varmepunkter ("hotspots") av plankton iet simulert miljø. Prosedyrisk generert planktondata ble benyttet for å danne etlæringsmiljø for en dynamisk modell av en autonom undervannsdrone, utstyrtmed styrings- og reguleringssystemer. Læreagenten ble presentert med et settav handlinger av høy abstraksjonsgrad å velge fra, implementert som veipunk-ter for styringssystemet, og ble gitt i oppgave å velge handlinger for å mak-simere plankton den måtte komme over mens den søkte etter et område medhøy planktontetthet, omtalt som planktonvarmepunktet. Agentens ytelse blesammenlignet med en tradisjonell stifinneralgoritme, nemlig A* algoritmen.Sammenligningen avdekte ingen tydelig fordel ved maskinlæringstilnærmin-gen over den tradisjonelle modellbaserte tilnærmingen, men indikerte at målrettetoseanografisk prøvetakning ble oppnådd til en viss grad. Ettersom miljøet erhøyst oversimplifisert, samt potensielt utilstrekkelig trening av maskinlæring-sagenten, er det vanskelig å trekke noen konkrete slutninger. Videre arbeid ernødvendig for å utvikle et mer realistisk simulert miljø, nærmere bestemt medplanktondata fra den virkelige verden, usikkerhet i miljøet og strømninger ihavet for å simulere den dynamisk varierende driften av biomasse i havet, ogderved skape en mer kompleks problemstilling, hvor maskinlæringstilnærmin-gen kan gjøre nytte av dens mektige egenskaper for målrettet prøvetakning etusikkert og dynamisk miljø. Deep Reinforcement Learning (DRL) was applied in an attempt to enable anAutonomous Underwater Vehicle (AUV) to seek out hotspots of plankton ina simulated environment. Procedurally generated plankton data was used toprovide a training environment for a dynamically modelled AUV, equippedwith guidance and control systems. The learning agent was given a set of highlevel actions to choose from, and tasked with choosing actions to maximize encounteredplankton while seeking out a patch of high plankton density, referredto as the plankton hotspot. The performance of the agent was compared to atraditional pathfinding approach to the problem, namely the A* algorithm. Thecomparison revealed no clear benefit to the machine learning approach over thetraditional model based approach, but indicated that targeted oceanographicsampling to some extent was achieved. Due to the highly simplified natureof the environment simulation, along with possibly insufficient training of themachine learning agent, the results are inconclusive. More work is needed todevelop a more realistic simulation environment, specifically with real worldplankton data, environment uncertainty, and ocean currents to simulate thedynamically varying biomass, defining a more complex problem where the machinelearning approach may lend its powerful capability to targeted samplingin an uncertain and dynamic environment.