Vis enkel innførsel

dc.contributor.advisorRuocco, Massimiliano
dc.contributor.advisorAune, Erlend
dc.contributor.authorHaugsdal, Espen
dc.date.accessioned2021-10-21T18:20:35Z
dc.date.available2021-10-21T18:20:35Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:31766262
dc.identifier.urihttps://hdl.handle.net/11250/2824728
dc.descriptionFull text not available
dc.description.abstractDenne oppgaven undersøker effekten posisjons-koding (positional encoding) har på prediksjon av tidsrekker med Transformer modeller. Prediksjon av tidsrekker er et viktig problem med mange bruksområder. Nøyaktige prediksjoner om framtiden er verdifulle fordi de kan føre til bedre avgjørelser. En relativt ny type nevralt nettverk, Transformer modellen, har på kort tid blitt dominerende innen språkteknologi (Natural Language Processing). Transformer modeller kan utnytte store mengder data og regnekraft, og kan også representere et bredt spekter av datastrukturer via sin posisjons-koding. Transformer modellen har ikke bias mot data som ligger på et grid med faste intervaller, i motsetning til modeller basert på konvulsjoner eller rekurrens. Dette gjør modellen til et interessant alternativ for prediksjon av irregulære tidsrekker. Vi undersøker en rekke hyper-parameter innstillinger relatert til posisjons-kodingen, og utfører gjentatte eksperimenter for hver innstilling. Prediksjoner på data fra M4 konkurransen brukes til å sammenligne ytelse, og statistisk testing brukes til å finne signifikante ulikheter. I tillegg til statistisk testing, bruker vi også en kvalitativ metode ved å visualisere oppmerksomhets (attention) matrisene. Eksperimentene viser at initialverdiene til kodingen er viktig, mens læring av posisjons-kodingen har lite innvirkning. Kodingens initialverdi påvirker kompleksiteten til modellen, og kan føre til både over- og under-tilpasning. Modeller med tilfeldige initialverdier oppnår bedre resultater på grunn av at de er mindre tilbøyelige til overtilpasning (overfitting). Både manglende læring posisjons-koding og regulariserings-effekten, er relatert til hvordan posisjons-kodingen sendes gjennom nettverket. Vi foreslår en modifisert arkitektur som fjerner disse artifaktene, men den modifiserte arkitekturen oppnår ikke bedre ytelse.
dc.description.abstractThis thesis will investigate the effect of positional encodings on time series forecasting with Transformer models. Time series forecasting is an important problem with many real world applications. Accurate predictions of the future are valuable because they may lead to better decisions in the present. Recently a new type of neural network, the Transformer, has come to dominate the field of Natural Language Processing. The Transformer is able to to leverage large amounts of data and computing power. Additionally, the use of a positional encoding allows the models to represent a wide range of data structures. In contrast to convolutional and recurrent networks, Transformers do not have bias towards data spaced evenly on a grid, which makes them an interesting alternative for forecasting irregular time series. However, not much is known about using Transformer models for time series forecasting, let alone irregular time series forecasting. The hourly data from the M4 competition is used to compare forecasting performance. We investigate various hyper-parameter settings related to the positional encoding, and perform repeated experiments for each setting. Statistical testing is used to determine significant differences. In addition to the quantitative approach of statistical testing, we also use a qualitative approach by visualizing attention matrices. The experiments show that initialization of the encoding is important, and that learning the positional encoding is ineffective. Initialization of the positional encoding changes the complexity of the model, and can cause both over- and under-fitting. In particular, models with random initializations outperform others, due to being less prone to overfitting. Both the regularization effect, and the lack of effective learning, can be seen as an artifact of how positional information is propagated through the model. We propose a modified architecture to remove this artifact, and show that this modification addresses both issues. However, the modified architecture does improve forecasting performance compared to the regular architecture with a random encoding.
dc.languageeng
dc.publisherNTNU
dc.titleOn the effect of positional encodings in Transformer models for time series forecasting
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel