Hydropower optimization using model-based Reinforcement Learning
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3087822Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
Sammendrag
En av de mest effektive måtene å lagre energi på er ved å planlegge produksjonen av vannkraft slik at kraft produseres når det er mest gunstig og at vannet i andre perioder reserveres. I det nordiske kraftmarkedet prøver vannkraftoperatører å optimalisere profitten.
Dette er et utfordrende problem som innebærer ikke-lineær dynamikk, usikkerhet og driftsbegrensninger. Tradisjonelle metoder bruker vanligvis varianter av lineær programmering for å løse problemet, men disse metodene kan ha lang kjøretid. Det nordiske kraftmarkedet er i ferd med å bli gå over til 15 minutters tidsoppløsning, noe som øker beregningsbyrden for tradisjonelle metoder. I denne avhandlingen prøver vi å finne alternative metoder med en annen avveining mellom løsningskvalitet og kjøretid. Kjøretiden må være lavere, og ideelt sett bør ikke løsningskvaliteten påvirkes negativt.
Vi observerer at modellen vår for profitten til kraftverket er differensierbar med noen ikke-kontinuerlige punkter, noe som gjør det mulig å beregne gradienten av profitten med hensyn til vannføringen i kraftverket. Vi kan deretter bruke gradient ascent for å optimalisere vannføringen i en episode. For å håndtere de ikke-kontinuerlige punktene bruker vi først ulike teknikker som Monte Carlo tree search og cross-entropy method i et forsøk på å komme nær det globale maksimumet.
Vi finner at denne metoden har en kjøretid innenfor de gitte tidsbegrensningene og bedre løsningskvalitet enn noen state-of-the-art metoder. Imidlertid var vi ikke i stand til å sammenligne ytelsen med produksjonssystemer eller det globale optimumet. Følgelig er det nøyaktige omfanget av løsningens kvalitet ukjent. One of the most effective ways to store energy is by scheduling hydropower plants to produce when it is most beneficial and reserve the water in other periods. In the Nordic power market, hydropower operators try to optimize profits.
This is a challenging problem involving non-linear dynamics, uncertainty and operating constraints. Traditional methods typically use variants of linear programming to solve the problem, but these methods can have high running times. The Nordic power market is transitioning to become closer to real-time, which increases the computational burden on traditional methods. In this thesis, we try to find alternative methods with a different trade-off between solution quality and running time. The running time needs to be lower, and ideally, the solution quality should not be adversely affected.
We make the observation that our model of the environment is differentiable with some non-continuous points, which allows us to compute the gradient of the profit with regard to the actions. We can then do gradient ascent to optimize actions for an episode. To deal with the non-continuous points we first use various techniques such as Monte Carlo tree search and the cross-entropy method in an attempt to get close to the global maximum.
We find that this method has a running time within the given time constraint and a better solution quality than some state-of-the-art methods. However, we were unable to compare the performance to production systems or the global optimum. Consequently, the exact extent of the solution's quality remains unknown.