Vis enkel innførsel

dc.contributor.advisorGros, Sebastien
dc.contributor.authorFrekhaug, Thomas Aleksander
dc.date.accessioned2021-09-23T18:14:45Z
dc.date.available2021-09-23T18:14:45Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:21016532
dc.identifier.urihttps://hdl.handle.net/11250/2780972
dc.description.abstractDenne avhandlingen er en studie i Trygg Forsterkende Læring (eng: Reinforcement Learning, RL) der det blir benyttet utforskningsagenter (eng: policy) som bruker anisotropisk utforskning. Trygg RL er en ny kategori av RL hvor målet er å utvikle algoritmer som kan lære seg en optimal handlemetode samtidig som at tilstandene i systemet aldri bryter noen spesifikke begrensinger under treningsperioden. Dette begrenser derimot utforskningsmulighetene til agenten, og det er, under trygg RL, uunngåelig at utforskningen til agenten blir anisotropisk. Avhandlingen tar også for seg to kontrollerne som hvis formål er å approksimere enten agenten eller verdifunksjonene. De to kontrollerne som blir brukt er den Lineære-Kvadratiske regulatoren (eng: Linear Quadratic Regulator , LQR), og den Ulineære Modell-Prediktive Regulatoren (eng: Nonlinear Model Predictive Control, NMPC). Hoveddelen av avhandlingen tar for seg en analytisk evaluasjon av konsekvensene ved anisotropisk utforskning når en NMPC brukes som en agent samt ved bruk av aktør-kritikk (eng: Actor-Critic) metoden for å approksimere prestasjonsgradienten (eng: Performance gradient). Fra denne analysen, så kommer det klart fram at det er mulig å garantere konvergens av den estimerte prestasjonsgradienten, uavhengig av kovariansen til utforsknings algoritmen, ved å gjøre en liten endring i den kompatible funksjons approksimatoren (eng: Compatible Function Approximator). Videre ble det funnet to begrensninger på eventuelle feil ved bruk av den estimerte prestasjonsgradienten under anisotropisk utforskning; Ved å bruke relativ feil, så kommer det fram at den estimerte prestasjonsgradienten er øvre begrenset i forhold til den faktiske prestasjonsgradienten med en faktor på 2. Videre, ved bruk av en Taylor ekspansjon, så ble det funnet at en eventuell feil vil gå mot null om kovariansen til tilstandsutviklingen går mot null over tid. Det ble også vist at en eventuell feil vil være maksimalt proporsjonal til kovariansen i tilstandsutviklingen. Lineære kvadratiske eksperimenter ble gjennomført, der alle samsvarer med teorien som har blitt utviklet i avhandlingen. Videre så indikerer eksperimentene at, i et lineært kvadratisk system, så er den estimerte prestasjonsgradienten eksakt, men dette var det derimot ikke grunnlag for å teoretisk bekrefte.
dc.description.abstractThis thesis is a study in the utilisation of anisotropic exploration in safe Reinforcement Learning (RL). Safe RL is a domain where the goal is to develop algorithms that may learn optimal policies while simultaneously ensuring that certain safety constraints are respected during the training process. Safety constraints limit the possible exploration space of a policy, and it inevitable that any isotropic exploration schemes must be morphed, giving anisotropic exploration. The thesis considers the predictive controller algorithms Linear Quadratic Regulator (LQR) and Nonlinear Model Predictive Controller (NMPC) as function approximators in the Actor-Critic policy gradient method. These approximators form an estimate of the performance gradient as given by the deterministic policy gradient under an anisotropic exploration scheme. The estimated performance gradient under anisotropic exploration is the focus of the research in the thesis. An analytical evaluation of the estimated performance gradient yielded an estimate purely dependent on the state trajectory. From this, a modified function approximator became apparent, and it is shown that the resulting estimated performance gradient converges to the true performance gradient, regardless of anisotropic exploration. Further analysis of the estimated performance gradient yielded two bounds on a potential error. The first bound on the error was established by means of calculating the relative error between the estimated and true performance gradient and concludes that the estimate is bounded within a relative factor of 2 from the true performance gradient. The second bound was found through the means of a Taylor approximation and shows that any error from the estimate is strictly proportional with the covariance of the state trajectory and to the curvature of the estimate. Furthermore, under conditions and arguments from the delta method, the error of the estimate is shown to be reduced to zero. Experiments using a linear system and quadratic reward function were performed, and they support the theoretical bounds provided by the theory, but also suggest that the estimated performance gradient is an exact estimate.
dc.language
dc.publisherNTNU
dc.titleSafe Reinforcement Learning using Model Predictive Control: An analysis of utilising anisotropic exploration with deterministic policy gradients
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel