Show simple item record

dc.contributor.advisorAamo, Ole Morten
dc.contributor.authorKleiven, Robin
dc.date.accessioned2021-09-23T17:59:25Z
dc.date.available2021-09-23T17:59:25Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:20909696
dc.identifier.urihttps://hdl.handle.net/11250/2780878
dc.description.abstractVed regulering / parameter tilordning kan grensene som må defineres for kontrollbytte / parameterbytte være utfordrende. I denne oppgaven er mulighetene for å anvende forsterkningslæring (RL) for kontrollplanlegging blitt undersøkt. Algoritmene som ble brukt var tabellmetodene; Q-læring og tilstand-handling-belønning-tilstand-handling (SARSA). Det koblede tanksystemet ble brukt til å undersøke hypotesene i denne oppgaven. Handlingsrommet var stort, og det fikk RL-agenten til å svinge mellom kontrollerne. Tilstandsrommet ble deretter redusert. Dette fjernet den svingende atferden og agenten var i stand til å velge de optimale kontrollerne. Kontrollerne som ble brukt var den lineære kvadratiske regulatoren (LQR) sammen med en minimum -og maksimal -kontroller. I tillegg ble det studert hva som ville skjedd hvis en proporsjonal-integrert (PI) -kontroller og en proporsjonal-derivat (PD) -kontroller ble lagt til. Dette ga ingen ny innsikt i problemet. Det koblede tanksystemet ble deretter gjort mer komplekst ved å innføre flere ikke-lineariteter slik at løsningen krevde mer enn bare en kontroller for tilfredsstillende kontroll. Et nødventilsystem ble brukt som skilte systemet inn i 4 delsystemer ved å legge til en tilleggsventil i hver tank som åpnet når et kriteria ble oppfylt. Dette kriteriet varierte fra; for høy vannstand og tilfeldig slå av og på ventilene. For hvert av disse delsystemene ble det laget en LQR. Agenten var i stand til å definere et sett med regler for å veksle mellom riktig LQR for å kontrollere rundt et settpunkt for hvert av tilfellene av dette nødventilsystemet, men det ser ut til å ikke bytte optimalt for å komme til likevekts punktet så raskt som mulig. Agentens handlingsvalg har noen svingninger, og det ble vist at mangel på trening var en stor komponent som forårsaket dette, og ved å trene agenten mere ble dette redusert. RL lyktes i å definere et sett av regler for kontroll planlegging for dette komplekse systemet.
dc.description.abstractIn controller/gain scheduling the boundaries that need to be defined for the control switching/gain switching can be challenging. In this thesis, the possibilities of applying reinforcement learning (RL) for controller scheduling have been investigated. The algorithms used were the tabular methods; Q learning and state-action-reward-state-action (SARSA). The coupled tank system was used to investigate the research questions in this thesis. The state-action space was big and that caused the RL agent to oscillate between the controllers. The state-space was then reduced. This removed the oscillatory behavior and the agent was able to pick the optimal controllers. The controllers used were the linear quadratic regulator (LQR) together with a minimum and maximum controller. Additionally, it was studied what would happen if a proportional-integral (PI) controller and a proportional derivative (PD) controller were added. This did not give any new insight into the problem. The coupled tank system was then made more complex by introducing more nonlinearities such that the solution required more than only one controller for satisfactory control. An emergency valve system was used that separated the system into 4 subsystems by adding an additional valve in each tank that opened when a condition was met. This condition varied from; water level too high and randomly switching on and off the valves. For each of these subsystems, an LQR was made. The agent was able to define a set of rules to switch between the correct LQR to control around a set point for each case with this emergency valve system, but it seems to not switch optimally to get to this equilibrium as fast as possible. The action choices of the agent have some oscillations and it was shown that lack of training was a big component that caused this and by increasing the training of the agent this was reduced. RL was successful in defining a set of rules for controller scheduling for this complex system.
dc.language
dc.publisherNTNU
dc.titleApplying Reinforcement Learning for Controller Scheduling
dc.typeMaster thesis


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record