Evaluation of Multi-step Forecasting Models: An Empirical Deep Learning Study
Abstract
Denne masteroppgaven omhandler evaluering av metoder for flerperiodeprediksjon av tidsserier ved å gjennomføre en empirisk studie med dype læringsmodeller. I dag blir modeller for flerperiodeprediksjon evaluert ved at en bruker en eller flere evalueringsmetrikker og aggregerer resultatene for å få ett enkelt tall på hvor god en modell er. Denne metoden kan føre til at informasjon som er viktig for modellutviklere og industri faller bort i aggregeringsprosedyren. For å gi bedre informasjon til utviklere som skal evaluere modeller foreslår vi fire nye evalueringsmetrikker: 1) en metrikk som rangerer modeller basert på antall serier modellen er best og dårligst på i et datasett. 2) en variansvektet metrikk som hensyntar forskjeller i varians over sesongperioder. 3) en delta-horisont metrikk som måler hvor mye hver modell endrer på sin prognose over prediksjonsperioden. 4) en dekomponert metrikk som relaterer evalueringen av prediksjoner til tidsseriekonseptene trend, sesong, støy og tid. For å vise hvordan de foreslåtte metrikkene kan anvendes implementerer vi fire dype læringsmodeller og gjennomfører eksperimenter på fem datasett. Resultatene viser hvordan den nåværende metoden for å evaluere prediksjoner via aggregering skjuler viktig informasjon, og vi viser viktigheten av å hensynta sesongvariasjoner samt evaluering per tidsserie. Vi viser også hvordan de foreslåtte metrikkene kan brukes i flere sammenhenger, og diskuterer anvendbarheten av metrikkene i lys av de empiriske resultatene. This thesis addresses the evaluation of multi-step point-forecasting models by conducting an empirical deep learning study. Currently, deep learning models for multi-step forecasting are evaluated on datasets by selecting one or several error metrics and aggregating errors across the time series and the forecast horizon. This approach hides insights that would otherwise be useful for practitioners and industry when evaluating and selecting the best forecasting models. We propose four novel metrics to provide additional insights when evaluating models: 1) a win-loss ranking metric that shows how models perform across time series in the dataset. 2) a variance weighted metric that accounts for differences in variance across the seasonal period. 3) a delta horizon metric measuring how much models update their estimates over the forecast horizon. 4) decomposed errors that relate the forecasting error to trend, seasonality, noise, and time. To show the applicability of proposed metrics, we implement four recent deep learning architectures and conduct experiments on five benchmark datasets. Our results show how the current approach of aggregating metrics neglects valuable information and we show the importance of considering seasonality and errors on individual time series. Lastly, we highlight several use cases for the proposed metrics and discuss the applicability in light of the empirical results.