Safe reinforcement learning for control-affine systems with probabilistic safety constraints

Olsen, Sondre

dc.contributor.advisor	Gravdahl, Jan Tommy
dc.contributor.advisor	Grøtli, Esten Ingar
dc.contributor.author	Olsen, Sondre
dc.date.accessioned	2021-09-23T19:04:57Z
dc.date.available	2021-09-23T19:04:57Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:76427839:45140850
dc.identifier.uri	https://hdl.handle.net/11250/2781104
dc.description.abstract	Forsterkende læring holder løfte om å gjøre det mulig for autonome systemer å tilegne seg nye ferdigheter uten menneskelig innblanding, og i senere år er det gjort betydelige fremskritt innen måter å lære optimale reguleringsregler i ukjente omgivelser. Selv om mange av disse algoritmene oppnår imponerende ytelse, er de typisk ikke opptatt av å garantere sikker drift under læring, noe som kan forårsake skadelig oppførsel i scenarier i den virkelige verden. Denne oppgaven er motivert av viktigheten av sikkerhetskritisk regulering hos læringsbaserte systemer, og introduserer et rammeverk for sikker læring basert på kontrollbarrierefunksjoner for å sørge for systemsikkerhet med høy sannsynlighet. Mange læringsbaserte algoritmer for sikkerhetskritisk regulering er avhengige av forhåndskunnskap om omgivelsene de er utplassert i, eller introduserer restriktive antagelser om potensielle reguleringsregler. For tiden finnes det initiativ for å forene fleksibiliteten gitt av forsterkende læring med strengheten til tradisjonell reguleringsteknikk, med den hensikt å sørge for sikkerheten og stabiliteten til systemer. Det har blitt utviklet metoder for læring som er underlagt sikkerhetsbegrensninger, og som innhenter stokastiske modellestimater av en ukjent dynamisk systemmodell. Det finnes derimot få metoder for å oppnå mindre restriktive sikkerhetsgarantier for forsterkningslæringsrammeverk. I denne oppgaven utformes og evalueres et rammeverk for sikkerhetsbegrenset modellbasert forsterkende læring. En metode for utforskning for å lære en Gaussisk prosess fra aktivt innhentet data blir introdusert. Kontrolbarrierefunksjoner blir benyttet for å gi probabilisitiske sikkerhetsgarantier under utforskning. Videre utvikles en metode for sikkerhetsbegrenset optimalisering av en reguleringsregel. Den stokastiske dynamiske modellen funnet gjennom sikker utforskning utnyttes for å lage et episodisk læringsrammeverk. En praktisk versjon av det teoretiske rammeverket implementeres og evalueres i simulering.
dc.description.abstract	Reinforcement learning holds promise to enable autonomous systems to acquire novel skills without human intervention, and recent years have seen significant advances in ways of learning optimal control policies in unknown environments. While many of these algorithms achieve impressive performance, they are typically not concerned with guaranteeing safe operation during learning, which may cause unsafe or harmful behavior in real-world scenarios. Motivated by the importance of safety-critical control in learning-based systems, this thesis introduces a framework for safe learning based on control barrier functions to ensure system safety with high probability. Many learning-based algorithms for safety-critical control rely on prior knowledge from the environment they are deployed in, or introduce restrictive assumptions on potential control policies. Currently, there is an initiative to unify the flexibility offered by reinforcement learning with the rigorousness of classical control methods, in order to ensure system safety and stability. Methods have been developed that learn subject to safety constraints, and which obtain stochastic model estimates of unknown system dynamics. However, few methods for obtaining less restrictive guarantees of safety for reinforcement learning frameworks exist. In this thesis, a framework for safety-constrained, model-based reinforcement learning is proposed and evaluated. An exploration scheme for safely learning a Gaussian process model from actively sampled data is introduced. Control barrier functions are utilized to provide probabilistic guarantees of safety while exploring. Further, a method for safety-constrained policy optimization is developed. The stochastic dynamics model found by safe exploration is utilized to produce an episodic framework for learning. From the theoretical framework, a practical version is implemented and its performance is evaluated in simulation.
dc.language	eng
dc.publisher	NTNU
dc.title	Safe reinforcement learning for control-affine systems with probabilistic safety constraints
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:76427839:45140 ...
Størrelse:: 7.763Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3741]

Vis enkel innførsel