Quantifying performance variation in a deep learning model for wind turbine blade degradation
Abstract
Det å utføre vedlikehold på vindturbinblader til riktig tid er ikke en enkel oppgave. Slitasje på materialet er vanskelig å oppdage, og simuleringer som kan estimere dette er vanskelige å innstille og for krevende til å kunne kjøres i samtid. Turbinene befinner seg ofte på fjerne områder, så vi vil gjerne bare utføre vedlikehold når det er nødvendig.
Nylig har en dyplæringsmodell blitt utviklet for å adressere deler av dette problemet. Den gjør dette ved å predikere kreftene som virker på turbinbladene basert på data vi vanligvis kan måle basert på sensorer som ligger inne i huset på turbinen. Denne modellen er trent på simulerte data, men målet er å til slutt sette den til verks på virkelige målinger. For å gjøre dette må vi undersøke hvor godt den kan overføres til data som vi vet er fravikende fra simulasjonene. Denne oppgaven bruker et simulert datasett til å undersøke variasjoner i modellens nøyaktighet basert på variasjoner i karakteristikkene til data den blir gitt som input, og forsøker å relatere dette til iboende forskjeller i dataene. Dette gjøres med motivasjonen av å kunne forutsi hvor godt en modell vil kunne operere når den settes til verks på turbiner under værforhold som ikke er fullstendig representerte i treningsdataene.
I denne oppgaven presenterer vi vårt søk for gode kandidater for avstandsmål som kan representere de iboende forskjellene i data som får modellen til å bli mindre nøyaktig i sine predikasjoner. Vi finner at vindturbulens rundt turbinen er så langt den beste kandidaten for et slikt mål. Dette er noe som er vanskelig, om ikke umulig, å måle i praksis. Vi konkluderer derfor at videre utforskning, og en sterkere forståelse av datasettet, er nødvendige for å identifisere avstandsmål som baserer seg kun på verdier som er målbare i praksis, og som i beste tenkelige scenario også kan anvendes på andre typer datasett. Performing maintenance on wind turbine blades at the right time is not an easy task. Material degradation is difficult to detect, and simulations that can estimate the degradation are difficult to tune and computationally too demanding to run in real time. The turbines are often situated in remote locations, so we only really want to perform maintenance on them when necessary.
Recently, a deep learning model has been developed to address part of this issue. It does this by predicting the forces acting on the turbine blades based on data we can normally measure using sensors mounted inside the turbine's nacelle. This model is trained on simulated data, but the goal is to eventually deploy it on real data. To do this we need to investigate how well it can be transferred to data that we know differs from the simulations. This thesis uses a simulated data set to investigate variations in the model's performance based on characteristics of the data it is given as input, and attempts to relate this to inherent differences within the data. The motivation of this is to be able to say something about how well a model will perform when deployed under conditions which are not fully represented in the training data.
We present our search for feasible candidate distance measures that can accurately represent the inherent differences in the data that cause the model to drop in performance. We find that wind turbulence around the turbine is so far the best candidate for such a measure. This is difficult, if impossible, to measure in practice. We therefore conclude that further exploration, and a stronger understanding of the data set, is needed to identify distance measures based entirely on quantities that are measurable in practice, and in the ideal case also be applied to other types of data.