Deep Reinforcement Learning in Real-Time Optimization

Konow, Frida Bjørnstad

dc.contributor.advisor	Jäschke, Johannes (NTNU)
dc.contributor.advisor	Gopaluni, Bhushan (UBC)
dc.contributor.advisor	Loewen, Philip (UBC)
dc.contributor.author	Konow, Frida Bjørnstad
dc.date.accessioned	2022-09-27T17:22:14Z
dc.date.available	2022-09-27T17:22:14Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:111295783:32315043
dc.identifier.uri	https://hdl.handle.net/11250/3021959
dc.description.abstract	Forsterkningslæring er et område innen maskinlæring som tiltrekker seg oppmerksomhet grunnet egenskaper til å løse komplekse problemer. Læring gjennom å prøve-og-feile er den grunnleggende idéen, der problemet formuleres som en ''Markov decision process'', MDP. Det kan betraktes som en optimaliseringsmetode, der valg tas for å oppnå et langsiktig mål. Ved å kombinere forsterkningslæring med dyp læring, kan problemer med flere dimensjoner løses. Forsterkningslæring krever ingen prosessmodell. Utfordninger med forsterkningslæring er diverse beregningsproblemer og effektiv optimalisering ved trening på små datasett. ''Real-time optimization'' (RTO) sørger for at et prosessanlegg kontinuerlig optimaliseres til et økonomisk optimum ved å løse et statisk optimaliseringsproblem. Å utlede nøyaktige prosessmodeller for RTO kan være utfordrende. Bruk av forsterkningslæring kan eliminere behovet for en slik prosessmodell i RTO. Et statisk RTO problem avviker fra et typisk forsterkningslæringsproblem. Derfor er det essensielt å formulere det statiske RTO problemet som en MDP for å kunne bruke forsterkningslæring i RTO. Dette prosjektet bidrar til en detaljert beskrivelse og diskusjon om hvordan et statisk optimaliseringsproblem kan formuleres som en MDP fra grunnleggende prinsipper og ingen forhåndskunnskap innenfor forsterkningslæring. Videre vises det hvordan den modellfrie forsterkningsalgoritmen ''deep deterministic policy gradient'' (DDPG) kan benyttes for å løse problemet ved hjelp av et Python-verktøy kalt Stable Baselines 3. ''Modifier adaptation'' (MA) introduseres som en konvensjonell RTO-metode, og benyttes som et basiseksempel for sammenligning med forsterkinigslæring-RTO. Begge løsningsmetodene anvendes på Williams-Otto-reaktoren som casestudie for implementering. Resultatene viser at det statiske optimaliseringsproblemet kan løses ved hjelp av forsterkningslæring. Videre viser resultatene forsterknings-læring-RTO står overfor utfordringer med prøveeffektivitet og konvergering til løsninger som bryter med systemets begrensninger. Disse utfordringene må løses for å kunne implementere metoden i praksis. Til slutt presenteres tiltak for å løse utfordringene, samt en drøfting av forsterkinigslæring-RTOs potensiale som emne for videre forskning.
dc.description.abstract	Reinforcement learning (RL) is a machine learning field attracting attention for its ability to solve complex problems. The fundamental idea is learning through trial-and-error, where the problem is formulated as a Markov decision process (MDP). It can be seen as an optimization tool, where the best decisions are chosen to fulfil a long-term goal. Deep RL is RL in combination with deep learning, for which high dimensional and continuous problems can be solved using RL. Model-free RL algorithms do not require any process model. A challenge is that they suffer from computational issues and sample inefficiency. Real-time optimization (RTO) ensures that process plant operation is continuously optimized to the economic optimum by solving a steady-state optimization problem. Developing an accurate process model to use in RTO can be challenging in chemical process plants. Therefore, the use of RL in RTO can eliminate the need for a process model. However, the steady-state RTO problem differs from a typical RL problem. Formulating it as an MDP is essential to enable the use of RL as an optimization method in RTO. This project contributes to a detailed description and discussion on how to formulate a steady-state optimization problem as an MDP from first principles, assuming minimal prior knowledge in RL. Further, it shows how to utilize the model-free RL algorithm deep deterministic policy gradient (DDPG) to solve the problem with the Python RL tool Stable Baselines 3. A version of RTO called modifier adaptation (MA) is introduced as an example of a conventional RTO alternative. It is used as a base case for comparison with the RL-RTO, and both schemes are applied to the Williams-Otto reactor as a case study for implementation. The results prove that the steady-state optimization problem can be solved using RL. However, RL-RTO faces challenges with sample efficiency and constraint violation that must be addressed for real-life implementation. Finally, measures to overcome the challenges and a discussion of RL-RTO's potential as a subject for further research are presented.
dc.language	eng
dc.publisher	NTNU
dc.title	Deep Reinforcement Learning in Real-Time Optimization
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:111295783:3231 ...
Størrelse:: 10.15Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for kjemisk prosessteknologi [1784]

Vis enkel innførsel