Path-following and Collision Avoidance using World Models
Abstract
Denne masteroppgaven presenterer en applikasjon av den modellbaserte forsterkningslæringsagen- ten DreamerV2 for banefølging og kollisjonsunngåelse med autonome overflatsfartøy. Fartøyet lærer gjennom interaksjon med omgivelsene en verdensmodell som predikerer dynamikken til seg selv og omgivelsene, som brukes til å lære å løse oppgaven.
Den lærte verdensmodellen kan også brukes til å rekonstruere fremtidige sensormålinger gitt en sekvens med pådrag. Dette kan gi økt menneskelig tolkbarhet, da modellen har mulighet til å forespeile fremtidige sensormålinger, noe tidligere tilnærminger som bruker modellfri forsterkningslæring ikke har mulighet til.
Ved evaluering av modellen finner vi at den etter å trenes klarer å løse oppgaven med en suksess- rate på 76.8%. Vi viser modellens evne til å predikere fremtidige observasjoner i en tidshorisont på 45 sekunder. Posisjonen til båten i forhold til banen som skal følges og større statiske hin- dringer blir som regel predikert relativt godt, men den sliter med små statiske hindringer samt bevegelsen til andre skip. This master thesis presents an application of the model-based DreamerV2 deep reinforcement learning agent for path-following and collision avoidance for autonomous surface vessels. The vessel learns a world model describing the dynamics of itself and its surroundings, which it uses to learn the task of path-following and collision avoidance.
The learned neural network world model can also be used to predict the future sensor inputs of the vessel given a sequence of actions. This may allow for greater human interpretability, as the model may be used for visualizing predicted future sensor inputs, which is not an inherent capability of prior work using model-free reinforcement learning methods.
Experimentally testing our approach on a path-following and collision avoidance benchmark, our vessel has a success rate of 76.8%. We show the agent’s capability to predict up to 45 seconds into the future, given a sequence of actions. The relative position of larger static obstacles and the path is typically predicted well, but the trained model struggles with smaller obstacles and moving vessels.