Predicting stock prices with Long ShortTerm Memory based models using a combination of data sources

Hoang, Phi Thien; Laskmoen, Jonas

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Hoang, Phi Thien
dc.contributor.author	Laskmoen, Jonas
dc.date.accessioned	2021-09-15T16:30:52Z
dc.date.available	2021-09-15T16:30:52Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:36600221
dc.identifier.uri	https://hdl.handle.net/11250/2777930
dc.description.abstract	Fokuset for denne oppgaven er prediksjon av aksjekurser ved hjelp av lett tilgjengelige informasjonskilder. De fire presenterte forskningsspørsmålene er relatert til å identifisere mønstre i de innsamlede dataene (1), sammenlikne Long Short-Term Memory (LSTM) -baserte modeller med enklere grunnmodeller (2), analysere effekten av å introdusere en ny kontekstmodul til de LSTM-baserte modellene (3) og analysere effekten av generaliserende modeller (4). Tre grupper av data ble brukt, som representerer handelsdata, sentimentdata og trendscore-data. Ytelsen til modellene ble målt i form av gjennomsnittlig absolutt prosentvis feil (MAPE), gjennomsnittlig absolutt feil (MAE), gjennomsnittlig kvadratfeil (MSE) og retningsnøyaktighet (DA). Generelt var de LSTM-baserte modellene dårligere enn grunnmodellene og syntes å konvergere til en modell som alltid forutsier at neste pris skal være den nåværende prisen. Imidlertid klarte en LSTM-konfigurasjon å forbedre seg statistisk signifikant over en tilfeldig gjetningsmodell når det gjelder DA, men bare på tidsrammen relatert til testsettet. Uoverensstemmelsene på tvers av tidsrammene førte til konklusjonen at modellen ikke syntes egnet for praktisk bruk. Flere hypoteser som forklarer hvorfor denne oppgaven er så vanskelig som observert presenteres, hovedsakelig knyttet til de forskjellige egenskapene på tvers av tidsrammene; symbolisert av prisavvik, forskjeller mellom aksjer og mengden brukbar informasjon i tilgjengelige data.
dc.description.abstract	The focus of this thesis is stock price prediction using easily available sources of information. The four research questions presented are related to identifying patterns in the gathered data (1), comparing Long Short-Term Memory (LSTM) based models to simpler baseline models (2), analyzing the effect of introducing a novel context module to the LSTM based models (3) and analyzing the effects of generalizing models (4). Three groups of data were used, representing trading data, sentiment data and trendscore data. The performance of the models were measured in terms of mean absolute percentage error (MAPE), mean absolute error (MAE), mean squared error (MSE) and direction accuracy (DA). Generally, the LSTM based models were inferior to the baseline models and seemed to converge to the naive 1-step-behind model, a model that always predicts the next price to be the current price. However, one LSTM configuration managed to improve statistically significant over a random guessing model in terms of DA, although only on the time frame related to the test set. The inconsistencies across time frames led to the conclusion that the model did not seem suitable for practical use. Multiple hypotheses explaining why this task is as hard as witnessed are presented, mainly related to the varying properties across time frames; symbolized by the price variances, differences across stocks, and the amount of usable information in the available data.
dc.language
dc.publisher	NTNU
dc.title	Predicting stock prices with Long ShortTerm Memory based models using a combination of data sources
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:36600 ...
Størrelse:: 9.978Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:57320302:36600 ...
Størrelse:: 666.9Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6788]

Vis enkel innførsel