Stochastic Gradient Optimization of Petroleum Assets: Towards Reinforcement Learning

Grepperud, Jakob Eide

Grepperud, Jakob Eide

Master thesis

Åpne

no.ntnu:inspera:102231297:37540783.pdf (8.405Mb)

Permanent lenke

https://hdl.handle.net/11250/3024781

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for teknisk kybernetikk [3663]

Sammendrag

Et petroleumsproduksjonssystem byr på flere unike utfordringer som gjør sanntidsoptimering vanskelig. Modellutvikling basert på fysiske lover er komplisert og kostbart på grunn av

svært kompleks dynamikk og mangel på tilgjengelig sensorikk. Ekstraksjonsprosessen fører til

tidsvarierende dynamikk som gjør at enhver prosessmodell må kontinuerlig kalibreres for å

opprettholde nødvendig nøyaktighet. Grunnet dette er det stadig ny forskning på modellfrie

optimeringsmetoder. Til tross for ny forskning utføres de aller fleste kontrollbeslutningene av

menneskelige operatører. Dette er fordi metodene sjelden tar hensyn til begrensningene som

oppstår ved optimering av produksjonssystem.

I denne oppgaven undersøker vi bruk av policy gradient-metoder for gassløftede produksjonssystemer. Disse metodene utgjør fellesnevneren til stokastisk gradientsøk og forsterkende

læring – en klasse av maskinlæringsmetoder som har fått eksponensielt økende oppmerksomhet de siste årene. Vårt hovedmål var å evaluere potensialet for at policy gradient-metoder kan

passe til sanntidsoptimering av petroleumssystemer. Etter vår beste evne har vi ikke funnet

noen tidligere forskning på anvendelser på gassløft-problemet.

Tre forskjellige gradient-metoder ble implementert og testet ved bruk av en Stochastic gradient ascent-algoritme. Alle baserer seg på Monte Carlo-estimatorer som bruker kun én måling.

SPSA-algoritmen er brukt som et referansepunkt, siden den baserer seg på finite differenceestimering, en litt annerledes tilnærming. Flere syntetiske testmodeller er konstruert for å

simulere ulike fenomener som kan skje under gassløft, inkludert støy, tidsvarierende optimum

og beskrankninger. Dette er for å evaluere robusthet.

Resultatene viser at SPSA-algoritmen yter bedre med flere antall brønner. Actor-critic algoritmen yter best med færre brønner. Dette er en algoritme som benytter seg av en verdifunksjon

som læres underveis i simuleringen. En lineær funksjonsapproksimator brukes for å modellere denne. Policy gradient-metodene er generelt mer robust mot ulike scenarior enn SPSA. Vi

har brukt naturlige gradienter til å akselerere optimeringsprosessen. Algoritmene yter bra på

testmodellene. Det kreves likevel ytterlig forskning på flere områder, for å kunne konkludere

om disse metodene egner seg for sanntidsoptimering. Likevel tror vi at disse metodene kan ha

potensiale til å bli brukt som et assisterende verktøy for operatører i fremtiden.

A petroleum asset presents many unique challenges for real-time optimization. Developing a

process model based on first-principles is complicated and expensive due to highly complex

dynamics and a lack of available instrumentation. Furthermore, the extraction process induces

time-varying dynamics, requiring continuous calibration of the process model to remain accurate. Model-free optimization methods have been receiving increased attention because of this.

However, as many of these methods fail to consider the various limitations of a production

asset, operator engineers still decide on most control changes.

In this thesis, we investigate the use of policy gradient methods for gas-lifted petroleum optimization. These methods form the intersection between stochastic gradient methods and

reinforcement learning – a class of machine learning whose popularity has grown exponentially over recent years. Our goal was to evaluate the applicability of policy gradient methods

to real-time petroleum optimization. To the extent of our knowledge, there is yet no research

on policy gradient methods for the gas-lift problem.

Three different policy gradient algorithms, based on single-sample Monte Carlo estimators,

are tested and compared using Stochastic gradient ascent. The SPSA algorithm is used as a

benchmark, employing a stochastic finite difference gradient from two samples. Several synthetic test cases are implemented to evaluate robustness against various phenomena, such as

measurement noise, time-varying optimum, and system-wide constraints.

The results show that the Actor-critic algorithm performs the best on systems with fewer wells,

using a linear approximator for the value function. The SPSA algorithm performs better with

higher dimensions. The policy gradient methods are generally more robust toward new scenarios than SPSA, with natural gradients accelerating the optimization process. All algorithms

converge to optimal production within a few iterations in most simulations. Although they perform well on the synthetic test cases, several research areas should be explored before their

applicability to real-time optimization can be concluded. However, we believe these methods

might have the potential to be a valuable tool for operators in the future.

Utgiver

NTNU