Stochastic Gradient Optimization of Petroleum Assets: Towards Reinforcement Learning

Grepperud, Jakob Eide

dc.contributor.advisor	Grimstad, Bjarne
dc.contributor.advisor	Imsland, Lars
dc.contributor.author	Grepperud, Jakob Eide
dc.date.accessioned	2022-10-07T17:33:50Z
dc.date.available	2022-10-07T17:33:50Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:102231297:37540783
dc.identifier.uri	https://hdl.handle.net/11250/3024781
dc.description.abstract	Et petroleumsproduksjonssystem byr på flere unike utfordringer som gjør sanntidsoptimering vanskelig. Modellutvikling basert på fysiske lover er komplisert og kostbart på grunn av svært kompleks dynamikk og mangel på tilgjengelig sensorikk. Ekstraksjonsprosessen fører til tidsvarierende dynamikk som gjør at enhver prosessmodell må kontinuerlig kalibreres for å opprettholde nødvendig nøyaktighet. Grunnet dette er det stadig ny forskning på modellfrie optimeringsmetoder. Til tross for ny forskning utføres de aller fleste kontrollbeslutningene av menneskelige operatører. Dette er fordi metodene sjelden tar hensyn til begrensningene som oppstår ved optimering av produksjonssystem. I denne oppgaven undersøker vi bruk av policy gradient-metoder for gassløftede produksjonssystemer. Disse metodene utgjør fellesnevneren til stokastisk gradientsøk og forsterkende læring – en klasse av maskinlæringsmetoder som har fått eksponensielt økende oppmerksomhet de siste årene. Vårt hovedmål var å evaluere potensialet for at policy gradient-metoder kan passe til sanntidsoptimering av petroleumssystemer. Etter vår beste evne har vi ikke funnet noen tidligere forskning på anvendelser på gassløft-problemet. Tre forskjellige gradient-metoder ble implementert og testet ved bruk av en Stochastic gradient ascent-algoritme. Alle baserer seg på Monte Carlo-estimatorer som bruker kun én måling. SPSA-algoritmen er brukt som et referansepunkt, siden den baserer seg på finite differenceestimering, en litt annerledes tilnærming. Flere syntetiske testmodeller er konstruert for å simulere ulike fenomener som kan skje under gassløft, inkludert støy, tidsvarierende optimum og beskrankninger. Dette er for å evaluere robusthet. Resultatene viser at SPSA-algoritmen yter bedre med flere antall brønner. Actor-critic algoritmen yter best med færre brønner. Dette er en algoritme som benytter seg av en verdifunksjon som læres underveis i simuleringen. En lineær funksjonsapproksimator brukes for å modellere denne. Policy gradient-metodene er generelt mer robust mot ulike scenarior enn SPSA. Vi har brukt naturlige gradienter til å akselerere optimeringsprosessen. Algoritmene yter bra på testmodellene. Det kreves likevel ytterlig forskning på flere områder, for å kunne konkludere om disse metodene egner seg for sanntidsoptimering. Likevel tror vi at disse metodene kan ha potensiale til å bli brukt som et assisterende verktøy for operatører i fremtiden.
dc.description.abstract	A petroleum asset presents many unique challenges for real-time optimization. Developing a process model based on first-principles is complicated and expensive due to highly complex dynamics and a lack of available instrumentation. Furthermore, the extraction process induces time-varying dynamics, requiring continuous calibration of the process model to remain accurate. Model-free optimization methods have been receiving increased attention because of this. However, as many of these methods fail to consider the various limitations of a production asset, operator engineers still decide on most control changes. In this thesis, we investigate the use of policy gradient methods for gas-lifted petroleum optimization. These methods form the intersection between stochastic gradient methods and reinforcement learning – a class of machine learning whose popularity has grown exponentially over recent years. Our goal was to evaluate the applicability of policy gradient methods to real-time petroleum optimization. To the extent of our knowledge, there is yet no research on policy gradient methods for the gas-lift problem. Three different policy gradient algorithms, based on single-sample Monte Carlo estimators, are tested and compared using Stochastic gradient ascent. The SPSA algorithm is used as a benchmark, employing a stochastic finite difference gradient from two samples. Several synthetic test cases are implemented to evaluate robustness against various phenomena, such as measurement noise, time-varying optimum, and system-wide constraints. The results show that the Actor-critic algorithm performs the best on systems with fewer wells, using a linear approximator for the value function. The SPSA algorithm performs better with higher dimensions. The policy gradient methods are generally more robust toward new scenarios than SPSA, with natural gradients accelerating the optimization process. All algorithms converge to optimal production within a few iterations in most simulations. Although they perform well on the synthetic test cases, several research areas should be explored before their applicability to real-time optimization can be concluded. However, we believe these methods might have the potential to be a valuable tool for operators in the future.
dc.language	eng
dc.publisher	NTNU
dc.title	Stochastic Gradient Optimization of Petroleum Assets: Towards Reinforcement Learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:102231297:3754 ...
Størrelse:: 8.405Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3758]

Vis enkel innførsel