Oppdagelse av Feil i Sensordata for for Ikke-Veiledet Lange Tidsserier
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2624514Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Å vedlikeholde stort maskineri, er noen av de største kostnadene som fører med til drift av store maskiner. Med den stadig økende populæriteten til Maskinlæring, har vi de siste årene sett stadig nye metoder for å finne feil i sensor data. Likevel, har det vært mangel på ikke-veildet algoritmer som kan brukes for å finne feil i tidsserier av sensordata. I denne avhandlingen bruker vi et Long Short-Term Memory nettverk for å forutsi verdiene til sensorene i det nåværende tidstrinnet.
Dataen som er brukt i denne avhandlingen er lange tidsserier fra en av Equinor sine turbiner. Hvilke sensorer som skal brukes som input i nettverket er testet med både Tilfeldige Skoger for Regresjon (Random Forest Regression) og Hierarisk Klyngeanalyse (Hierarchical Agglomerative Clustering), hvor Tilfeldige Skoger for Regresjon konsekvent gir best forutsetninger.
Nettverket er i stand til å lære sammenhenger mellom sensorverdiene som er valgt og den som skal spås. De gjennomførte eksperimentene viser lovende resultater, med en gjennomsnittlig Mean Absolute Percentage Error på 0.558 for sensorene valgt med Tilfeldige Skoger for Regresjon. The maintenance conducted on large-scale machinery, amount to one of the machinery’s main costs, which is why the machines are fitted with a large number of sensors. With the rise of Machine Learning, there have been a lot of implementations trying to detect anomalies in time-series data of sensors. However, there has been a lack of unsupervised methods used in time-series sensor anomaly detection. In this thesis, a Long Short-Term Memory network is used to predict the values of the sensors at the current timestep in an unsupervised manner.
The data used for this thesis is long time-series data from one of Equinor’s turbines. As input for the network, feature selection is used with both Random Forest Regression and Hierarchical Agglomerative Clustering (HAC), with Random Forest Regression consistently resulting in better prediction.
In most cases, the network is able to learn correlations between the feature selected sensors and the one we want to predict. The experiments conducted show promising results, with an average Mean Absolute Percentage Error of 0.558 when selecting sensors with Random Forest Regression.