Predicting stock prices with Long ShortTerm Memory based models using a combination of data sources
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2777930Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
Fokuset for denne oppgaven er prediksjon av aksjekurser ved hjelp av lett tilgjengelige informasjonskilder. De fire presenterte forskningsspørsmålene er relatert til åidentifisere mønstre i de innsamlede dataene (1), sammenlikne Long Short-Term Memory (LSTM) -baserte modeller med enklere grunnmodeller (2), analysere effektenav å introdusere en ny kontekstmodul til de LSTM-baserte modellene (3) og analysereeffekten av generaliserende modeller (4). Tre grupper av data ble brukt, som representerer handelsdata, sentimentdata og trendscore-data. Ytelsen til modellene ble målt iform av gjennomsnittlig absolutt prosentvis feil (MAPE), gjennomsnittlig absolutt feil(MAE), gjennomsnittlig kvadratfeil (MSE) og retningsnøyaktighet (DA). Generelt varde LSTM-baserte modellene dårligere enn grunnmodellene og syntes å konvergere tilen modell som alltid forutsier at neste pris skal være den nåværende prisen. Imidlertid klarte en LSTM-konfigurasjon å forbedre seg statistisk signifikant over en tilfeldig gjetningsmodell når det gjelder DA, men bare på tidsrammen relatert til testsettet.Uoverensstemmelsene på tvers av tidsrammene førte til konklusjonen at modellen ikkesyntes egnet for praktisk bruk. Flere hypoteser som forklarer hvorfor denne oppgavener så vanskelig som observert presenteres, hovedsakelig knyttet til de forskjellige egenskapene på tvers av tidsrammene; symbolisert av prisavvik, forskjeller mellom aksjerog mengden brukbar informasjon i tilgjengelige data. The focus of this thesis is stock price prediction using easily available sources ofinformation. The four research questions presented are related to identifying patternsin the gathered data (1), comparing Long Short-Term Memory (LSTM) based models to simpler baseline models (2), analyzing the effect of introducing a novel contextmodule to the LSTM based models (3) and analyzing the effects of generalizing models (4). Three groups of data were used, representing trading data, sentiment data andtrendscore data. The performance of the models were measured in terms of mean absolute percentage error (MAPE), mean absolute error (MAE), mean squared error (MSE)and direction accuracy (DA). Generally, the LSTM based models were inferior to thebaseline models and seemed to converge to the naive 1-step-behind model, a modelthat always predicts the next price to be the current price. However, one LSTM configuration managed to improve statistically significant over a random guessing modelin terms of DA, although only on the time frame related to the test set. The inconsistencies across time frames led to the conclusion that the model did not seem suitablefor practical use. Multiple hypotheses explaining why this task is as hard as witnessedare presented, mainly related to the varying properties across time frames; symbolizedby the price variances, differences across stocks, and the amount of usable informationin the available data.