Safe Reinforcement Learning in Marine Navigation and Control: Using a Predictive Safety Filter for Safety Verification on Autonomous Surface Vessels
Abstract
Antall maritime stystemer som settes til havs øker for hvert år, inkludert utviklingen av havvindsparker, undervannsrobotikk, og autonom skipstransport. Mange av disse systemene er sikkerhetskritiske, noe som gjør det viktig å ha et lukket sløyfe kontrollsystem som tilfredsstiller underliggende fysiske begrensninger og sikkerhetsaspekter på en robust måte. Dette er imidlertid ofte utfordrende å oppnå for systemer i den virkelige verden. For eksempel har autonome skip ikke-lineær og usikker dynamikk, og er underlagt mange tidsvarierende miljøforstyrrelser som bølger, havstrømmer og vind. Det er økende interesse for å bruke tilnærminger basert på maskinlæring for å tilpasse disse systemene til mer komplekse scenarioer, men det finnes ingen standard rammeverk for å garantere sikkerheten og stabiliteten til slike systemer.
Nylig har prediktive sikkerhetsfiltre (PSF) dukket opp som en metode for å sikre oppfyllesle av begrensninger i læringbasert kontroll, og omgår behovet for eksplisitt håndtering av begrensninger i selve læringalgoritmene. Sikkerhetsfiltertilnærmingen fører til en modulær separasjon av problemet, og tillater bruk av vilkårlige kontrollpolitikker (engelsk: control policies) på en måte som er uavhengig av opppgaven. Filteret tar inn en potensielt usikker foreslått kontrollhandling fra hovedkontrolleren og løser et optimaliseringsproblem for å beregne en minimal endring av den foreslåtte handlingen, som overholder både fysiske og sikkerhetsrelaterte begrensninger.
I dette arbeidet kombinerer vi forsterkende læring (engelsk: reinforcement learning / RL) med prediktiv sikkerhetsfiltrering til marin navigasjon og kontroll. RL-agenten blir trent på sti-følging og sikkerhetsoverhodelse over et bredt spekter av tilfeldig genererte miljøer, mens det prediktive sikkerhetsfilteret kontinuerlig overvåker agentenes foreslåtte kontrollhandlinger og modifiserer dem om nødvendig. Den kombinerte PSF/RL-metoden er implementert på en simulert modell av Cybership II, en miniatyrreplika av et typisk forsyningsskip. Sikkerhetsytelse og læringsrate blir evaluert og sammenlignet med en standard RL-agent uten PSF. Det er demonstrert at det prediktive sikkerhetsfilteret er i stand til å holde fartøyet trygt, samtidig som det ikke forhindrer læringsraten eller ytelsen til RL-agenten. The number of maritime systems being launched in the ocean is increasing every year, including the development of offshore wind farms, underwater robotics for ocean condition monitoring, and autonomous ship transport. Many of these activities are safety-critical, making it essential to have a closed-loop control system that satisfies constraints arising from underlying physical limitations and safety aspects in a robust manner. However, this is often challenging to achieve for real-world systems. For example, autonomous ships at sea have nonlinear and uncertain dynamics, and are subject to numerous time-varying environmental disturbances such as waves, currents, and wind. There is increasing interest in using machine learning-based approaches to adapt these systems to more complex scenarios, but there is currently no standard framework to guarantee the safety and stability of such systems. \\
Recently, predictive safety filters (PSF) have emerged as a promising method for ensuring constraint satisfaction in learning-based control, bypassing the need for explicit constraint handling in the learning algorithms themselves. The safety filter approach leads to a modular separation of the problem, allowing the usage of arbitrary control policies in a task-agnostic way. The filter takes in a potentially unsafe control action from the main controller and solves an optimization problem to compute a minimal perturbation of the proposed action, which adheres to both physical and safety-related constraints.\\
In this work, we combine reinforcement learning (RL) with predictive safety filtering in the context of marine navigation and control. The RL agent is trained on path following and safety adherence across a wide range of randomly generated environments, while the predictive safety filter continuously monitors the agents' proposed control actions and modifies them if necessary. The combined PSF/RL scheme is implemented on a simulated model of Cybership II, a miniature replica of a typical supply ship. Safety performance and learning rate are evaluated and compared with those of a standard, non-PSF, RL agent. It is demonstrated that the predictive safety filter is able to keep the vessel safe, while not prohibiting the learning rate and performance of the RL agent.