Stochastic Gradient Optimization of Petroleum Assets: Towards Reinforcement Learning
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3024781Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Et petroleumsproduksjonssystem byr på flere unike utfordringer som gjør sanntidsoptimering vanskelig. Modellutvikling basert på fysiske lover er komplisert og kostbart på grunn avsvært kompleks dynamikk og mangel på tilgjengelig sensorikk. Ekstraksjonsprosessen fører tiltidsvarierende dynamikk som gjør at enhver prosessmodell må kontinuerlig kalibreres for åopprettholde nødvendig nøyaktighet. Grunnet dette er det stadig ny forskning på modellfrieoptimeringsmetoder. Til tross for ny forskning utføres de aller fleste kontrollbeslutningene avmenneskelige operatører. Dette er fordi metodene sjelden tar hensyn til begrensningene somoppstår ved optimering av produksjonssystem.
I denne oppgaven undersøker vi bruk av policy gradient-metoder for gassløftede produksjonssystemer. Disse metodene utgjør fellesnevneren til stokastisk gradientsøk og forsterkendelæring – en klasse av maskinlæringsmetoder som har fått eksponensielt økende oppmerksomhet de siste årene. Vårt hovedmål var å evaluere potensialet for at policy gradient-metoder kanpasse til sanntidsoptimering av petroleumssystemer. Etter vår beste evne har vi ikke funnetnoen tidligere forskning på anvendelser på gassløft-problemet.
Tre forskjellige gradient-metoder ble implementert og testet ved bruk av en Stochastic gradient ascent-algoritme. Alle baserer seg på Monte Carlo-estimatorer som bruker kun én måling.SPSA-algoritmen er brukt som et referansepunkt, siden den baserer seg på finite differenceestimering, en litt annerledes tilnærming. Flere syntetiske testmodeller er konstruert for åsimulere ulike fenomener som kan skje under gassløft, inkludert støy, tidsvarierende optimumog beskrankninger. Dette er for å evaluere robusthet.
Resultatene viser at SPSA-algoritmen yter bedre med flere antall brønner. Actor-critic algoritmen yter best med færre brønner. Dette er en algoritme som benytter seg av en verdifunksjonsom læres underveis i simuleringen. En lineær funksjonsapproksimator brukes for å modellere denne. Policy gradient-metodene er generelt mer robust mot ulike scenarior enn SPSA. Vihar brukt naturlige gradienter til å akselerere optimeringsprosessen. Algoritmene yter bra påtestmodellene. Det kreves likevel ytterlig forskning på flere områder, for å kunne konkludereom disse metodene egner seg for sanntidsoptimering. Likevel tror vi at disse metodene kan hapotensiale til å bli brukt som et assisterende verktøy for operatører i fremtiden. A petroleum asset presents many unique challenges for real-time optimization. Developing aprocess model based on first-principles is complicated and expensive due to highly complexdynamics and a lack of available instrumentation. Furthermore, the extraction process inducestime-varying dynamics, requiring continuous calibration of the process model to remain accurate. Model-free optimization methods have been receiving increased attention because of this.However, as many of these methods fail to consider the various limitations of a productionasset, operator engineers still decide on most control changes.
In this thesis, we investigate the use of policy gradient methods for gas-lifted petroleum optimization. These methods form the intersection between stochastic gradient methods andreinforcement learning – a class of machine learning whose popularity has grown exponentially over recent years. Our goal was to evaluate the applicability of policy gradient methodsto real-time petroleum optimization. To the extent of our knowledge, there is yet no researchon policy gradient methods for the gas-lift problem.
Three different policy gradient algorithms, based on single-sample Monte Carlo estimators,are tested and compared using Stochastic gradient ascent. The SPSA algorithm is used as abenchmark, employing a stochastic finite difference gradient from two samples. Several synthetic test cases are implemented to evaluate robustness against various phenomena, such asmeasurement noise, time-varying optimum, and system-wide constraints.
The results show that the Actor-critic algorithm performs the best on systems with fewer wells,using a linear approximator for the value function. The SPSA algorithm performs better withhigher dimensions. The policy gradient methods are generally more robust toward new scenarios than SPSA, with natural gradients accelerating the optimization process. All algorithmsconverge to optimal production within a few iterations in most simulations. Although they perform well on the synthetic test cases, several research areas should be explored before theirapplicability to real-time optimization can be concluded. However, we believe these methodsmight have the potential to be a valuable tool for operators in the future.