Uncertainty-aware DRL-based Ship Collision Avoidance and Trajectory Tracking
Abstract
Den maritime industrien opplever økende interesse for autonome overflatefartøy (engelsk: Autonomous Surface Vehicles/ASV) for å forbedre sikkerhet, effektivitet og bærekraft. Det dynamiske og usikre maritime miljøet presenterer imidlertid komplekse beslutningsoppgaver. Den iboende usikkerheten i tracking av dynamiske hindringer ved bruk av sensordata som radar og AIS, sammen med uforutsigbar fartøysadferd, kompliserer oppgaven med kollisjonsunngåelse (engelsk: collision avoidance/COLAV) ytterligere. Algoritmer innenfor forsterkende læring (engelsk: Reinforcement Learning/RL) tilbyr en lovende løsning på denne utfordrende kontrolloppgaven på grunn av deres modellfrie natur og evne til å lære intrikate policyer gjennom interaksjen med omgivelsene.
Denne studien tar for seg utviklingen av usikkerhetsbevisste agenter innenfor dyp forsterkende læring (engelsk: Deep Reinforcement Learning/DRL) for banestyring og kollisjonsunngåelse. Agentene er designet for å håndtere usikkerhet i estimatene gitt av et trackingsystem som monitorerer nærliggende skip ved bruk av simulerte radarsensordata. To tilnærminger for å integrere usikkerhetsinformasjon i agentenes observasjonsvektorer utforskes: eksplisitt gjennom standardavvik og implisitt ved å inkorporere usikkerhet i beregningene av tid til nærmeste passeringspunkt (engelsk: Time to Closest Point of Approach/TCPA) og avstand ved nærmeste passeringspunkt (engelsk: Distance at Closest Point of Approach/DCPA).
En reaktiv, kollisjonsrisikobasert COLAV-formalisme implementeres i PPO (engelsk: Proximal Policy Optimization/PPO) rammeverket. Tre agenter utivkles og sammenlignes: en basisagent uten usikkerhetsinformasjon og to usikkerhetsbevisste agenter med forskjellige representasjoner av usikkerhet. Agentene er utviklet, trent og testet innenfor et omfattende COLAV-simuleringsrammeverk, noe som legger til rette for realistisk trening og testing. Denne studien tar også for seg utfordringene knyttet til å generere treningsdata for RL-agenter designet for å håndtere usikkerhet i COLAV-scenarier.
Resultatene viser agentenes sterke banesporing og kollisjonsunngåelsesevner i komplekse, flerfartøys scenarioer med høy usikkerhet. Imidlertid observeres et merkbart skille mellom trenings- og testytelse, noe som fremhever utfordringene med å balansere kollisjonsunngåelse og banesporingsmål. De usikkerhetsbevisste agentene overgår basisagenten når det gjelder å opprettholde sikre avstander til dynamiske hindringer, men ser ikke ut til å fullt ut utnytte den gitte usikkerhetsinformasjonen. Funnene i denne studien viser at høy stokastisitet i omgivelsene utgjør en betydelig utfordring for læringsprosessen. I denne sammenheng blir robuste treningsstrategier som gir agentene verdifulle erfaringer gjennom hele treningsprosessen avgjørende. Dette prosjektets tilnærming til å introdusere usikkerhet og generere treningsdata gir innsikter som kan være verdifulle for fremtidig forskning. The maritime industry is experiencing a growing interest in Autonomous Surface Vehicles (ASVs) to enhance safety, efficiency, and sustainability. However, the dynamic and uncertain nature of the maritime environment poses complex decision-making tasks. The inherent uncertainties in tracking dynamic obstacles using sensor data like radar and AIS, along with unpredictable vessel behavior, further complicate the collision avoidance (COLAV) problem. Reinforcement Learning (RL) algorithms offer a promising solution to this challenging control problem due to their model-free nature and ability to learn intricate policies through interaction with the environment.
This thesis investigates the development of uncertainty-aware Deep Reinforcement Learning (DRL) agents for trajectory tracking and collision avoidance. The agents are designed to handle uncertainties in the estimates provided by a tracking system, which monitors nearby ships using simulated radar sensor data. Two approaches for integrating uncertainty information into the agents' observation vectors are explored: explicitly through standard deviations and implicitly by incorporating uncertainty into the calculations of Time to Closest Point of Approach (TCPA) and Distance at Closest Point of Approach (DCPA).
A reactive, collision risk-based COLAV formalism is implemented within the Proximal Policy Optimization (PPO) framework. Three agents are developed and compared: a baseline agent without uncertainty information and two uncertainty-aware agents with different representations of uncertainty. The agents are developed, trained and tested within an extensive COLAV simulation framework, facilitating realistic training and testing. The thesis also addresses the challenge of generating training data for RL agents designed to manage uncertainty in COLAV scenarios.
Results demonstrate the agents' strong trajectory tracking and collision avoidance capabilities in complex, multi-ship encounters with high uncertainty. However, a notable gap is observed between training and testing performance, highlighting the challenges in balancing collision avoidance and trajectory tracking objectives. The uncertainty-aware agents outperform the baseline agent in terms of maintaining safe distances to dynamic obstacles, but do not appear to fully utilize the provided uncertainty information. The findings in this study demonstrate that high environmental stochasticity poses a significant challenge to the learning process. In this regard, robust training strategies that present the agents with valuable experiences throughout training become imperative. This project's approach to introducing uncertainty and generating training data offers insights that can be valuable for future research.