Vis enkel innførsel

dc.contributor.advisorNæss, Arild Brandrud
dc.contributor.authorBjørgum, Mathias Grotøy
dc.contributor.authorLindtveit, Aasmund Groven
dc.date.accessioned2023-10-03T17:24:34Z
dc.date.available2023-10-03T17:24:34Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:146720057:151017741
dc.identifier.urihttps://hdl.handle.net/11250/3093950
dc.description.abstractFinansmarkeder er komplekse, og aksjedata inneholder mye støy. Etter introduksjonen av hypotesen om effisiente markeder, som sier at markedet reagerer umiddelbart på all tilgjengelig informasjon, har det blitt brukt flere datakilder enn rene aksjedata for å predikere aksjeprisbevegelser. En av disse datakildene er finansielle nyheter. Ettersom flere studier har utforsket forholdet mellom tekstdata og aksjeprisbevegelser på dagsbasis, søker vi å utforske forholdet på intradagsbasis. Vi undersøker forholdet mellom artikler publisert på NASDAQ-nettstedet og bevegelsen til aksjeprisen på aksjene som nevnes i artiklene. Målet med denne avhandlingen er ikke å slå markedet, men heller å undersøke om nyhetsartikler kan påvirke aksjeprisen i et tidsvindu på 20 minutter etter publisering. Tekstvariabler genereres fra nyhetsartiklene, som brukes sammen med kortsiktige historiske aksjeprisbevegelser. Dette samles i et feed-forward nevralt nettverk, random forest, XGBoost og logistisk regresjon for å predikere avkastningen 20 minutter etter at en artikkel har blitt publisert. Resultatene sammenlignes deretter med de samme modellene uten tekstvariabler for å se om nyhetsartiklene har betydning eller ikke. Tekstvariablene lages ved å bruke BERT-baserte språkmodeller. Vi skiller mellom overskrift og innhold i artiklene og lager de samme type variablene fra begge deler. Tekstvariablene som brukes er sentiment klassifikasjon hentet ved hjelp av FinBERT, en BERT-modell spesialtrent for å analysere sentimentet i finansiell tekst. I tillegg gjennomfører vi også en finjustert DistilBERT modell. Denne modellen er justert til å klassifisere om avkastningen til en aksje 20 minutter etter at en nyhetsartikkel ble publisert har gått opp eller ikke. Resultatene fra den rene tekstklassifikasjonen er også diskutert for å se om tekst kan hjelpe til å forklare aksjemarkedet. DistilBERT oppnår en nøyaktighet på 76,23 % på valideringssettet når vi anser en opp-prediksjon som sann når DistilBERT har gjort en riktig opp-prediksjon på enten overskrift eller innhold. Det er viktig å merke seg at denne nøyaktigheten er et teoretisk resultat, og indikerer at en klassifikator som benytter modellenes riktige opp-prediksjoner kunne oppnådd en nøyaktighet på 76,23 %. I konteksten av våre DistilBERT modeller representerer valideringssettet usett data. Resultatene fra analysen stemmer overens med resultater fra tidligere arbeid. Når tekstdata brukes sammen med historiske aksjepriser tyder evidens på at tekstdataen ikke hjelper med å predikere avkastning i et tidsvindu på 20 minutter. Den rene tekstklassifiseringen indikerer derimot at tekstdata kan bidra til å forklare deler av aksjemarkedet. Våre funn antyder dermed at aksjedata på intradagsbasis inneholder for mye støy, når det gjelder å predikere kortsiktige aksjeprisbevegelser, men at tekst kan være en forklaringsvariabel.
dc.description.abstractFinancial markets are complex, and stock data is noisy. After the introduction of the efficient market hypothesis, which states that the market reacts immediately to all available information, additional data sources have been used to predict the movement of stock prices. Financial news articles could be one of these. Several studies have explored the relationship between textual data and stock price movements on a day-to-day basis, this thesis explores the relationship on an intraday basis. We explore the relationship between news articles published on the NASDAQ website and the directional movement of the stock price on the stocks mentioned in the articles. The goal of this thesis is not to beat the market, but rather to explore whether news articles can be shown to affect the stock price in a time frame of 20 minutes after its publication. Textual features are extracted from news articles and used alongside short-term historical stock price movements. These features are combined in a feed-forward neural network, random forests, XGBoost, and logistic regression to predict the holding period return (HPR) 20 minutes after an article has been published. The results are then compared with the same models, excluding textual features, to see whether the textual data matter or not. The feature extraction from text is done by using BERT-based language models. We differentiate between the headline and the content of the articles and extract the same sort of features from both. The features extracted include sentiment classification, achieved by employing FinBERT, which is a BERT model specifically trained for analyzing sentiment in financial text. Additionally, we conduct text classification using a fine-tuned DistilBERT model. The DistilBERT model is tuned to classify whether the HPR 20 minutes after the publication of a news article went up or not. The results of the pure text classification are also discussed to see whether the text can help explain the stock market. DistilBERT achieves a validation set accuracy of 76.23% by considering an up prediction as true when DistilBERT correctly predicts an up movement on either headlines or content. It is important to note that this accuracy is a theoretical result and assumes that a classifier utilizing the model's correct up predictions could achieve an accuracy of 76.23%. In the context of our DistilBERT models, the validation set represents out-of-sample predictions. The results of our analysis are in alignment with the results of previous work. When used alongside historical stock prices, evidence suggests that textual data do not help predict HPR in a time frame of 20 minutes. However, pure text classification indicates that textual data can help explain the stock market. Our findings then suggest that intraday stock data is too noisy when predicting short-term stock price movements, but textual data could be an explanatory variable.
dc.languageeng
dc.publisherNTNU
dc.titleCleaning Up Intraday Noise: Investigating Whether Textual Data Enhances the Understanding of Intraday Stock Price Patterns
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel