Autonomous Drilling Using Reinforcement Learning

Sjøvold, Eivind

dc.contributor.advisor	Aamo, Ole Morten
dc.contributor.advisor	Godhavn, John-Morten
dc.contributor.author	Sjøvold, Eivind
dc.date.accessioned	2021-09-23T18:52:37Z
dc.date.available	2021-09-23T18:52:37Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:76427839:26649032
dc.identifier.uri	https://hdl.handle.net/11250/2781054
dc.description.abstract	Prosessen bak brønnboring krever store investeringer. Optimalisering av operasjonelle parametere med den henskikt å maksimere borerate(eng:rate of penetration (ROP)) er derfor et naturlig diskusjonstema. Optimalisering av en statisk modell i forkant av boreoperasjoner har begrenset bruksområde, da modellering av boreprossesen er utfordrende. Fenomenene som påvirker boreraten er ikke eksakt forstått. Modellparameterene er steds- og tilstandsspesifikke, og historisk boredata har derfor begrenset bruksområde. Sanntidsoptimalisering av ROP fremstår som en mulig løsning, da måleteknologi og beregningskapasitet utvikler seg. Det eksisterer datadrevne, modellfrie tilnærminger som optimaliserer ROP i sanntid, gjennom blant annet minimering av "mechanical specific energy(MSE)" med "extremum-seeking(ES)"-algoritmen. Dette prosjektet undersøker om modellfri, dyp forsterkende læring(eng:reinforcement learning(RL)) kan brukes til sanntidsoptimalisering av ROP. RL-rammeverket er fleksibelt, med forskjellige estimeringsteknikker og løsningsalgoritmer. A2C-algoritmen bruker parallelle instanser for å utforske tilstandsrommet på en effektiv måte. Det er en "actor-critic" metode, som bruker dype nevrale nettverk(ANNs) til å estimere verdifunksjon og "policy". Algoritmen bruker "advantage function" for å evaluere policyoppdateringen. ANN-strukturen er viktig for effektiv læring. I dette prosjektet er fire miljø med økende kompleksitet implementert for å evaluere forskjellige aspekter av RL i sanntidsoptimering. RL-agenten justerer pådrag ved å iterativt velge en retning å justere pådraget i for å maksimere ROP. RL-agentene er trent på en modellkonfigurasjon i miljøet, og evaluert på en annen konfigurasjon. ROP-modellene i miljø 1 og 2 er konvekse, paraboliske funksjoner. Her generaliserer agenten godt, og sanntidslæring er ikke nødvendig. Miljø 3 og 4 er basert på Eckels ROP-modell og Bourgoyne og Youngs ROP-modell. Agentene generaliserer dårlig på usett data. Dette løses ved sanntidslæring. Da maksimerer agentene ROP. Agentene håndterer stegvise og gradvise parameterendringer, som er viktig i optimalisering av ROP. Modellene er forenklinger av faktiske boresystemer. På grunn av dette kan man ikke definitivt konkludere med at RL med sanntidslæring er en effektiv løsning på problemet. Agentene var dog robuste innenfor rammeverket av testing, og begrensningene i modellene, og kan være en lovende løsning på boreoptimalisering. En interessant videreføring av dette prosjektet er å teste en RL-algoritme med mer nøyaktige simuleringer eller faktisk boredata.
dc.description.abstract	The process of drilling wells require substantial investment. Optimization of operational parameters to maximize rate of penetration(ROP) is therefore a natural topic of discussion. Optimization on a static ROP model in advance of operations has limited application, as modeling of drilling rate is challenging. The phenomena that affect it is not fully understood. The model parameters are location and condition specific, and historical data therefore has limited application. Real-time optimization of ROP is emerging as a feasible solution, with the development of measurement techniques and computational resources. There exists data-driven model-free approaches that optimize drilling rate in real-time. An example of this is minimization of the mechanical specific energy concept with the extremum seeking algorithm. This thesis investigates whether model-free deep reinforcement learning algorithms can act as real-time optimization algorithms for ROP. The reinforcement learning framework is flexible, with a range of varying estimation techniques and solution algorithms. The A2C algorithm is a model-free, on-policy, deep reinforcement learning algorithm that utilize parallel instances to efficiently explore the state-space. It is an actor-critc method, which utilizes artificial neural networks to maintain estimates of both the parameterized policy, and value function. The algorithm uses the advantage function to evaluate the policy update. The design of the artificial neural networks is of importance for efficient learning. In this project, four environment with increasing complexity is implemented to evaluate different aspects of applicability of reinforcement learning in real-time optimization. The reinforcement learning agent manipulates the input by choosing a direction to adjust it at each iteration to maximize output ROP. The reinforcement learning agents are trained on one configuration of the environments, and evaluated on unseen model configurations. The ROP model in environment 1 and 2 are simple parabolic functions, with one and three inputs respectively. The models are convex for all parameter configurations, and the reinforcement learning agents generalize well, so no real-time learning is required. Environments 3 and 4 are based on Eckel's ROP model and Bourgoyne and Young's ROP model. The agents generalize poorly to unseen model configurations, but when real-time learning is introduced, the agents maximizes ROP through manipulating the input. The agents handle sudden changes in model parameters. This mimics formation changes while drilling. The agents also handle parameters that vary with depth. As the models are simplifications of realistic drilling systems, one cannot definitely conclude that reinforcement learning with real-time learning is an efficient solution to solve the drilling optimization problem. The agents did handle tests within the bounds of the models, and can be a promising method for drilling optimization. An interesting extension to this project would be to utilize realistic drilling simulators to generate ROP as a measurement, and have the RL algorithm minimize the mechanical specific energy concept. Another interesting extension would be to generate models from drilling data, and analyze performance on unseen data.
dc.language	eng
dc.publisher	NTNU
dc.title	Autonomous Drilling Using Reinforcement Learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:76427839:26649 ...
Størrelse:: 11.30Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3703]

Vis enkel innførsel