dc.description.abstract | Et petroleumsproduksjonssystem byr på flere unike utfordringer som gjør sanntidsoptimering vanskelig. Modellutvikling basert på fysiske lover er komplisert og kostbart på grunn av
svært kompleks dynamikk og mangel på tilgjengelig sensorikk. Ekstraksjonsprosessen fører til
tidsvarierende dynamikk som gjør at enhver prosessmodell må kontinuerlig kalibreres for å
opprettholde nødvendig nøyaktighet. Grunnet dette er det stadig ny forskning på modellfrie
optimeringsmetoder. Til tross for ny forskning utføres de aller fleste kontrollbeslutningene av
menneskelige operatører. Dette er fordi metodene sjelden tar hensyn til begrensningene som
oppstår ved optimering av produksjonssystem.
I denne oppgaven undersøker vi bruk av policy gradient-metoder for gassløftede produksjonssystemer. Disse metodene utgjør fellesnevneren til stokastisk gradientsøk og forsterkende
læring – en klasse av maskinlæringsmetoder som har fått eksponensielt økende oppmerksomhet de siste årene. Vårt hovedmål var å evaluere potensialet for at policy gradient-metoder kan
passe til sanntidsoptimering av petroleumssystemer. Etter vår beste evne har vi ikke funnet
noen tidligere forskning på anvendelser på gassløft-problemet.
Tre forskjellige gradient-metoder ble implementert og testet ved bruk av en Stochastic gradient ascent-algoritme. Alle baserer seg på Monte Carlo-estimatorer som bruker kun én måling.
SPSA-algoritmen er brukt som et referansepunkt, siden den baserer seg på finite differenceestimering, en litt annerledes tilnærming. Flere syntetiske testmodeller er konstruert for å
simulere ulike fenomener som kan skje under gassløft, inkludert støy, tidsvarierende optimum
og beskrankninger. Dette er for å evaluere robusthet.
Resultatene viser at SPSA-algoritmen yter bedre med flere antall brønner. Actor-critic algoritmen yter best med færre brønner. Dette er en algoritme som benytter seg av en verdifunksjon
som læres underveis i simuleringen. En lineær funksjonsapproksimator brukes for å modellere denne. Policy gradient-metodene er generelt mer robust mot ulike scenarior enn SPSA. Vi
har brukt naturlige gradienter til å akselerere optimeringsprosessen. Algoritmene yter bra på
testmodellene. Det kreves likevel ytterlig forskning på flere områder, for å kunne konkludere
om disse metodene egner seg for sanntidsoptimering. Likevel tror vi at disse metodene kan ha
potensiale til å bli brukt som et assisterende verktøy for operatører i fremtiden. | |
dc.description.abstract | A petroleum asset presents many unique challenges for real-time optimization. Developing a
process model based on first-principles is complicated and expensive due to highly complex
dynamics and a lack of available instrumentation. Furthermore, the extraction process induces
time-varying dynamics, requiring continuous calibration of the process model to remain accurate. Model-free optimization methods have been receiving increased attention because of this.
However, as many of these methods fail to consider the various limitations of a production
asset, operator engineers still decide on most control changes.
In this thesis, we investigate the use of policy gradient methods for gas-lifted petroleum optimization. These methods form the intersection between stochastic gradient methods and
reinforcement learning – a class of machine learning whose popularity has grown exponentially over recent years. Our goal was to evaluate the applicability of policy gradient methods
to real-time petroleum optimization. To the extent of our knowledge, there is yet no research
on policy gradient methods for the gas-lift problem.
Three different policy gradient algorithms, based on single-sample Monte Carlo estimators,
are tested and compared using Stochastic gradient ascent. The SPSA algorithm is used as a
benchmark, employing a stochastic finite difference gradient from two samples. Several synthetic test cases are implemented to evaluate robustness against various phenomena, such as
measurement noise, time-varying optimum, and system-wide constraints.
The results show that the Actor-critic algorithm performs the best on systems with fewer wells,
using a linear approximator for the value function. The SPSA algorithm performs better with
higher dimensions. The policy gradient methods are generally more robust toward new scenarios than SPSA, with natural gradients accelerating the optimization process. All algorithms
converge to optimal production within a few iterations in most simulations. Although they perform well on the synthetic test cases, several research areas should be explored before their
applicability to real-time optimization can be concluded. However, we believe these methods
might have the potential to be a valuable tool for operators in the future. | |