Leveraging Artificial Intelligence for Analyzing and Classifying Contractual Project Changes in the Oil and Gas Industry: A Case Study Using Algorithms, Machine Learning and Natural Language Processing
Abstract
Olje- og gassindustrien, kjent for sin kompleksitet og intensive kapitalkrav, spiller en essensiell rolle i det globale energilandskapet. Uforutsette prosjektendringer er en betydelig kilde til utfordringer og kan forårsake en dominoeffekt i industrien; forstyrre prosjektplaner, øke budsjetter og kompromittere kvaliteten på operasjonene.
Denne avhandlingen tar sikte på å dra nytte av maskinlæring, NLP og avanserte algoritmer på prosjektrelaterte data i olje- og gassindustrien. Det legges spesiell vekt på å identifisere ukjente grupperinger og korrelasjoner innen tekstbeskrivelser av prosjektendringer under utføringsfasen av olje- og gassprosjekter. Målet er å kategorisere disse endringene i forhåndsdefinerte endringsårsaker, slik at bransjen kan bedre tolke og håndtere dem effektivt. I tillegg, sporer studien prosjektendringer systematisk i henhold til deres forekomst innenfor en konstruert tidsplan for hvert prosjekt, med den hensikt å avdekke kognitive skjevheter og dermed effektivisere beslutningsprosesser og forbedre prosjektresultater. Aker BP ASA, en ledende olje- og gassoperatør på den norske kontinentalsokkelen, fungerer som case i denne avhandlingen.
Språkmodellene spenner fra konvensjonelle teknikker som bag-of-words (BoW) modeller, inkludert Term Freqeuncy Vectorization og TF-IDF med one-hot kodede vektorer, til avanserte tilnærminger som 'all-MiniLM-L6-v2' SentenceTransformers modellen fra Hugging Face, som bruker word embeddings. Modellene ble først evaluert ved hjelp av cosine similarity, complete linkage og average silhouette width i agglomerative hierarchical clustering. Cluster resultatene ble deretter evaluert ved hjelp av t-distributed stochastic neighbor embeddings (t-SNE) og principal components analysis (PCA). På grunn av manglende mønstre enn det avhandlen optimalt så for seg, ble modellene evaluert gjennom similarity heatmaps ved bruk av en mindre delmengde beskrivelser for detaljert analyse.
Resultatene viser at flertallet av prosjektendringer er distribuert i de tidligere prosjektfasene i utføringsfasen, noe som antyder at starten på utføringsfasen vanligvis opplever betydelige endringer og er den mer krevende og uforutsigbare fasen. Disse resultatene demonstrerer relevans for eldre etablerte teorier og fremhever nødvendigheten for olje- og gasselskaper å forutse og forberede seg på endringer i de tidlige stadiene av utføringsfasen. I løpet av disse stadiene har prosjektendringer også en tendens til å oppleve betydelige kostnadsøkninger, mens endringer som oppstår senere i utføringsfasen er mer sannsynlige å oppleve tidsplanpåvirkninger. Det ser ut til å være liten korrelasjon mellom høye kostnader og tidsplanforsinkelser, spesielt senere i utføringsfasen, noe som kan virke motstridende ettersom olje- og gasselskaper generelt er villige til å øke midlene for å møte viktige tidsfrister. Imidlertid, som dokumentert av etablert teori og prosjektplanleggere i Aker BP, blir kostnadsøkninger generelt ikke sett på som kritiske under utføringsfasen fordi de vanligvis absorberes av reservefondet. Derfor kan man argumentere for at funnene er kompatible med etablert teori, siden kostnadsestimatets usikkerhet og innsatsnivå er høyere i de tidlige stadiene av et prosjekt, men reduseres deretter ettersom usikkerheten reduseres. Algoritmen som er utviklet gir statistikk som fremhever de kontraktsmessige risikoene knyttet til prosjekter, noe som representerer et skifte fra en reaktiv til en proaktiv ledelsesmetode. Siden beslutningstakere generelt ikke besitter slik detaljert informasjon, åpner algoritmen muligheten for økt innsikt og reduksjon i manuelt arbeid ved å automatisere gjentagende oppgaver. Som respons, har avhandlingen utviklet en foreslått prosess for automatisering, der oppgavene med datainnsamling, konstruksjon av oppdaterte prosjektplaner for hvert prosjekt, algoritme utførelse og utarbeidelse av rapporter, realiseres gjennom automatisering. Finjustering av denne prossesen representerer en fremtidig forskningsretning. Det vil minimere sjansen for menneskelige feil, samtidig som det frigjør menneskelige ressurser til andre oppgaver.
SentenceTransformers modellen fremsto som den mest effektive NLP teknikken for å avdekke korrelasjoner blant tekstbeskrivelser av prosjektendringer, men den presterer dårlig når ved møte av bransjespesifikke termer og ukjente forkortelser. Siden modellen ikke klarte å gruppere mønstre som er i stand til å identifisere endringsårsaker i fårhåndsdefinerte kategorier, var resultatene ikke i tråd med de målrettede utfallene av avhandlingen. Mens noe korrelasjon er identifisert gjennom hierarchical clustering og similarity heatmaps, antyder funnene at 'all-MiniLM-L6-v2' modellen er for generisk for problemet, og ikke tilpasset olje- og gassindustriens terminologiske landskap. Som respons utviklet avhandlingen et foreslått rammeverk for å vurdere egnetheten til NLP modeller basert på de tekstlige egenskapene til beskrivelser av prosjektendringer i olje- og gassindustrien. De tekstlige egenskapene er lange og komplekse, og inkluderer bransjespesifikke uttrykk som modellen ikke har blitt trent opp til å forstå. Mens dette representerer en begrensning, fungerer det også som en retning for fremtidig forbedring. Spesielt foreslår rammeverket et sterkt argument for å utvikle en spesifikk, forhåndstrent modell for olje- og gassindustriens språklige behov. Ved å inkludere en gruppe bestående av bransjeeksperter og datavitenskapere, kan begrensningene til 'all-MiniLM-L6-v2' modellen avdekkes, og en spesialisert fintunet, forhåndstrent modell kan fremkomme, muligens med flere dimensjoner eller setninger. Disse forbedringene forventes å forbedre ytelsen i fremtiden, slik at mer nøyaktige korrelasjoner og en potensiell evne til å kategorisere prosjektendringer etter årsaker kan oppnås. The oil and gas industry, illustrious for its complexity and intensive capital requirements, plays a essential role in the global energy landscape. Unforeseen project changes are a major source of demand and can cause a ripple effect in the industry, disrupting project timelines, inflate budgets and compromise quality of the operations.
This thesis seeks to leverage machine learning, natural language processing (NLP) and advanced algorithms on project related data in the oil and gas industry. Special emphasis is dedicated to identifying unknown subgroups and correlations within textual descriptions of contractual project changes during the execution phase of oil and gas projects. The goal is to categorize these changes into predefined change causes, enhancing the industry's ability to interpret and manage them effectively. The study also systematically tracks project changes according to their occurrence within a meticulously constructed timeline for each project, with the intention to expose cognitive biases, thereby streamlining decision-making processes and improving project outcomes. Aker BP ASA, a leading oil and gas operator on the Norwegian continental shelf, is featured as case study in this thesis.
The language models range from conventional techniques like bag-of-words (BoW) models, including Term Frequency Vectorization and TF-IDF using one-hot encoded vectors, to advanced approaches such as the 'all-MiniLM-L6-v2' SentenceTransformers model from Hugging Face, which utilizes word embeddings. The models were first evaluated using cosine similarity, complete linkage and average silhouette width in agglomerative hierarchical clustering. The cluster results were then inspected using t-distributed stochastic neighbor embeddings (t-SNE) and principal components analysis (PCA). Due to a lack of patterns sought in the thesis, the models were evaluated through similarity heatmaps using subsets for detailed analysis.
The results reveal that the majority of project changes are distributed during the earlier project stages in the execution phase, which suggests that the start of the execution phase typically experience significant changes and is the more demanding and unpredictable stage. These results demonstrate ongoing relevance to established theory and highlights a necessity for oil and gas companies to anticipate and prepare for changes during the early stages of the execution phase. During these stages, project changes also tend to experience significant cost increases, while changes occurring later in the execution phase are more likely to experience schedule impacts. It seems to be little correlation between high costs and schedule delays, especially later in the execution phase which may seem contradictory as oil and gas companies are generally willing to increase funds to meet important deadlines. However, as evidenced by established theory and project planners in Aker BP, cost increases are generally not viewed as critical during the execution phase because they are typically absorbed by the contingency fund. Thus, one can argue that the findings are compatible with established theory, seeing that cost estimate uncertainty and level of effort is higher during the earlier stages of a project, but subsequently decreases as uncertainty is reduced. The algorithm provides statistics that highlights the contractual risks involved in projects, which represents a shift from a reactive to a proactive management approach. As decision-makers generally do not possess this level of detailed information, the algorithm opens the door for increased insights and reduced manual effort by automating repetitive tasks. As a response, a proposed process for robotic automation is suggested, in which the tasks of data dumping, constructing updated project timelines for each project, algorithm execution and report making are realized through automation. Fine-tuning this process represents a future research direction as it minimizes the chance for human errors while also liberating human resources for other tasks.
The SentenceTransformers model emerged as the most effective NLP technique for uncovering correlations among textual descriptions of project changes, but underperforms when encountering domain specific terminology and unfamiliar abbreviations. As the model failed to yield cluster patterns capable of categorizing project changes into causes of change, the results were not aligned with the targeted outcomes of the thesis. While some correlation is identified through hierarchical clustering and similarity heatmaps, the findings suggest that the 'all-MiniLM-L6-v2' model is too generic for the task, and not attuned to the oil and gas industry's terminological landscape. In response, a proposed framework is developed to assess the suitability of NLP models based on the textual characteristics of project changes in the oil and gas industry. The textual characteristics are lengthy and complex, and include industry specific expressions in which the model has not been trained to understand. While this is shortcoming that represents a limitation, it also serves as a direction for future improvement. Specifically, the framework suggests a compelling case for creating a fine-tuned, pre-trained word embedding space tailored to the linguistic needs of the oil and gas industry. By including a panel of domain experts and data scientists, the limitations of the 'all-MiniLM-L6-v2' can be uncovered, and a specialized, fine-tuned, pre-trained embedding space can emerge, possibly with more dimensions or sentence pairs. These enhancements are expected to improve performance in the future, enabling more accurate correlations and the potential capability of categorizing project changes by their causes of change.