Exploring a Convolutional Autoencoder with LSTM on E-commerce Time-Series Forecasting
Abstract
Denne masteroppgaven utforsker bruk av en convolutions-autoencoder og LSTM modell for å gjennomføretidsserie prediksjon av produkt kategori trend data fra ``Prisguiden.no''.Denne masteroppgaven arbeider mot å utvide den teoretiske kunnskapen om bruk av denne CNN-AE-LSTM modellenved å lage modeller som er både lokale og globale, samt ved bruk av en univariabel og multivariabel modell.Resultatene fra disse eksperimentene er sammenlignet med resultater fra LSTM modeller av samme type, globale og lokale, univariable og multivariabel modeller.I tillegg er disse modellene sammenlignet med en statistisk "baseline" ved bruk av den statistiske modellen SARIMA.
Resultatene fra disse eksperimentene viser at bruk av en lokal multivariabel LSTM modell er det som er best egnet for å gjennomføreprediksjoner på dataen fra ``Prisguiden.no''.Eksperimentene indikerer at CNN-AE-LSTM modellene er sterkt avhengig av type data som som skal predikeres,og er spesielt egnet til bruk på data med store mengder støy.Ved bruk av et datasett med mye støy indikerer eksperiment resultatene at CNN-AE-LSTM modellene utkonkurrerer LSTM modellen.CNN-AE-LSTM modellen gjør det hakket bedre på data med mye støy, men er svært mye dårligere enn LSTM modellen på datasett med lite eller ingen datastøy.
CNN-AE-LSTM modellen er ikke velegnet for bruk til tidsserie prediksjoner på data fra ``Prisguiden.no''.En lokal multivariabel LSTM modell er derimot bedre egnet for slike prediksjoner. This thesis explores the use of a convolutional autoencoder and LSTM model for making time seriesforecasts on product category trend data supplied by ``Prisguiden.no''.The use of the CNN-AE-LSTM model is expanded by applying a local univariate, global univariate, local multivariate and global multivariate model.Results are compared with a LSTM baseline model applying the same model types as the CNN-AE-LSTM model.Additionally, a SARIMA model is used as a statistical baseline for forecasting.
The experiment results show that with the E-commerce data from ``Prisguiden.no'',the local multivariate LSTM model is the most accurate.The results indicate that the CNN-AE-LSTM performance is conditionally dependent on datasets with high levels of noise in order to outperform the LSTM.The model achieves a small performance increase on datasets with high noise, but predictions will sufferon data with low levels of noise.
The CNN-AE-LSTM model is not well suited for applications with the use of trend data from ``Prisguiden.no'',while the local multivariate LSTM is the model best suited for such predictions.