Vis enkel innførsel

dc.contributor.advisorJäschke, Johannes (NTNU)
dc.contributor.advisorGopaluni, Bhushan (UBC)
dc.contributor.advisorLoewen, Philip (UBC)
dc.contributor.authorKonow, Frida Bjørnstad
dc.date.accessioned2022-09-27T17:22:14Z
dc.date.available2022-09-27T17:22:14Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:111295783:32315043
dc.identifier.urihttps://hdl.handle.net/11250/3021959
dc.description.abstractForsterkningslæring er et område innen maskinlæring som tiltrekker seg oppmerksomhet grunnet egenskaper til å løse komplekse problemer. Læring gjennom å prøve-og-feile er den grunnleggende idéen, der problemet formuleres som en ''Markov decision process'', MDP. Det kan betraktes som en optimaliseringsmetode, der valg tas for å oppnå et langsiktig mål. Ved å kombinere forsterkningslæring med dyp læring, kan problemer med flere dimensjoner løses. Forsterkningslæring krever ingen prosessmodell. Utfordninger med forsterkningslæring er diverse beregningsproblemer og effektiv optimalisering ved trening på små datasett. ''Real-time optimization'' (RTO) sørger for at et prosessanlegg kontinuerlig optimaliseres til et økonomisk optimum ved å løse et statisk optimaliseringsproblem. Å utlede nøyaktige prosessmodeller for RTO kan være utfordrende. Bruk av forsterkningslæring kan eliminere behovet for en slik prosessmodell i RTO. Et statisk RTO problem avviker fra et typisk forsterkningslæringsproblem. Derfor er det essensielt å formulere det statiske RTO problemet som en MDP for å kunne bruke forsterkningslæring i RTO. Dette prosjektet bidrar til en detaljert beskrivelse og diskusjon om hvordan et statisk optimaliseringsproblem kan formuleres som en MDP fra grunnleggende prinsipper og ingen forhåndskunnskap innenfor forsterkningslæring. Videre vises det hvordan den modellfrie forsterkningsalgoritmen ''deep deterministic policy gradient'' (DDPG) kan benyttes for å løse problemet ved hjelp av et Python-verktøy kalt Stable Baselines 3. ''Modifier adaptation'' (MA) introduseres som en konvensjonell RTO-metode, og benyttes som et basiseksempel for sammenligning med forsterkinigslæring-RTO. Begge løsningsmetodene anvendes på Williams-Otto-reaktoren som casestudie for implementering. Resultatene viser at det statiske optimaliseringsproblemet kan løses ved hjelp av forsterkningslæring. Videre viser resultatene forsterknings-læring-RTO står overfor utfordringer med prøveeffektivitet og konvergering til løsninger som bryter med systemets begrensninger. Disse utfordringene må løses for å kunne implementere metoden i praksis. Til slutt presenteres tiltak for å løse utfordringene, samt en drøfting av forsterkinigslæring-RTOs potensiale som emne for videre forskning.
dc.description.abstractReinforcement learning (RL) is a machine learning field attracting attention for its ability to solve complex problems. The fundamental idea is learning through trial-and-error, where the problem is formulated as a Markov decision process (MDP). It can be seen as an optimization tool, where the best decisions are chosen to fulfil a long-term goal. Deep RL is RL in combination with deep learning, for which high dimensional and continuous problems can be solved using RL. Model-free RL algorithms do not require any process model. A challenge is that they suffer from computational issues and sample inefficiency. Real-time optimization (RTO) ensures that process plant operation is continuously optimized to the economic optimum by solving a steady-state optimization problem. Developing an accurate process model to use in RTO can be challenging in chemical process plants. Therefore, the use of RL in RTO can eliminate the need for a process model. However, the steady-state RTO problem differs from a typical RL problem. Formulating it as an MDP is essential to enable the use of RL as an optimization method in RTO. This project contributes to a detailed description and discussion on how to formulate a steady-state optimization problem as an MDP from first principles, assuming minimal prior knowledge in RL. Further, it shows how to utilize the model-free RL algorithm deep deterministic policy gradient (DDPG) to solve the problem with the Python RL tool Stable Baselines 3. A version of RTO called modifier adaptation (MA) is introduced as an example of a conventional RTO alternative. It is used as a base case for comparison with the RL-RTO, and both schemes are applied to the Williams-Otto reactor as a case study for implementation. The results prove that the steady-state optimization problem can be solved using RL. However, RL-RTO faces challenges with sample efficiency and constraint violation that must be addressed for real-life implementation. Finally, measures to overcome the challenges and a discussion of RL-RTO's potential as a subject for further research are presented.
dc.languageeng
dc.publisherNTNU
dc.titleDeep Reinforcement Learning in Real-Time Optimization
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel