Safe reinforcement learning for control-affine systems with probabilistic safety constraints
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2781104Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Sammendrag
Forsterkende læring holder løfte om å gjøre det mulig for autonome systemer å tilegne seg nye ferdigheter uten menneskelig innblanding, og i senere år er det gjort betydelige fremskritt innen måter å lære optimale reguleringsregler i ukjente omgivelser. Selv om mange av disse algoritmene oppnår imponerende ytelse, er de typisk ikke opptatt av å garantere sikker drift under læring, noe som kan forårsake skadelig oppførsel i scenarier i den virkelige verden. Denne oppgaven er motivert av viktigheten av sikkerhetskritisk regulering hos læringsbaserte systemer, og introduserer et rammeverk for sikker læring basert på kontrollbarrierefunksjoner for å sørge for systemsikkerhet med høy sannsynlighet.
Mange læringsbaserte algoritmer for sikkerhetskritisk regulering er avhengige av forhåndskunnskap om omgivelsene de er utplassert i, eller introduserer restriktive antagelser om potensielle reguleringsregler. For tiden finnes det initiativ for å forene fleksibiliteten gitt av forsterkende læring med strengheten til tradisjonell reguleringsteknikk, med den hensikt å sørge for sikkerheten og stabiliteten til systemer. Det har blitt utviklet metoder for læring som er underlagt sikkerhetsbegrensninger, og som innhenter stokastiske modellestimater av en ukjent dynamisk systemmodell. Det finnes derimot få metoder for å oppnå mindre restriktive sikkerhetsgarantier for forsterkningslæringsrammeverk.
I denne oppgaven utformes og evalueres et rammeverk for sikkerhetsbegrenset modellbasert forsterkende læring. En metode for utforskning for å lære en Gaussisk prosess fra aktivt innhentet data blir introdusert. Kontrolbarrierefunksjoner blir benyttet for å gi probabilisitiske sikkerhetsgarantier under utforskning. Videre utvikles en metode for sikkerhetsbegrenset optimalisering av en reguleringsregel. Den stokastiske dynamiske modellen funnet gjennom sikker utforskning utnyttes for å lage et episodisk læringsrammeverk. En praktisk versjon av det teoretiske rammeverket implementeres og evalueres i simulering. Reinforcement learning holds promise to enable autonomous systems to acquire novel skills without human intervention, and recent years have seen significant advances in ways of learning optimal control policies in unknown environments. While many of these algorithms achieve impressive performance, they are typically not concerned with guaranteeing safe operation during learning, which may cause unsafe or harmful behavior in real-world scenarios. Motivated by the importance of safety-critical control in learning-based systems, this thesis introduces a framework for safe learning based on control barrier functions to ensure system safety with high probability.
Many learning-based algorithms for safety-critical control rely on prior knowledge from the environment they are deployed in, or introduce restrictive assumptions on potential control policies. Currently, there is an initiative to unify the flexibility offered by reinforcement learning with the rigorousness of classical control methods, in order to ensure system safety and stability. Methods have been developed that learn subject to safety constraints, and which obtain stochastic model estimates of unknown system dynamics. However, few methods for obtaining less restrictive guarantees of safety for reinforcement learning frameworks exist.
In this thesis, a framework for safety-constrained, model-based reinforcement learning is proposed and evaluated. An exploration scheme for safely learning a Gaussian process model from actively sampled data is introduced. Control barrier functions are utilized to provide probabilistic guarantees of safety while exploring. Further, a method for safety-constrained policy optimization is developed. The stochastic dynamics model found by safe exploration is utilized to produce an episodic framework for learning. From the theoretical framework, a practical version is implemented and its performance is evaluated in simulation.