Vis enkel innførsel

dc.contributor.advisorMolnár, Peter
dc.contributor.authorGran, Petter Kowalik
dc.contributor.authorHolm, August Jacob Kjellevold
dc.contributor.authorSøgård, Stian Gropen
dc.date.accessioned2019-10-17T14:01:08Z
dc.date.available2019-10-17T14:01:08Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2622891
dc.description.abstractDette studiet undersøker hvorvidt Dyp Forsterkende Læring (eng: Deep Reinforcement Learning) kan brukes til å kjøpe og selge aksjer. Vi implementerer en Dyp Deterministisk Policy Gradient (DDPG)-algoritme (eng: Deep Deterministic Policy Gradient). Algoritmen handler aksjer fra fire forskjellige indekser: DJIA (USA), TSX (Canada), JSE (Sør-Afrika) og SENSEX (India). Resultatene viser at DDPG-agenter som estimerer fremtidig avkasting basert på historisk logaritmisk avkastning (R) og handelsvolum (TV) oppnår best resultater. Disse agentene oppnår en høyere gjennomsnittlig avkastning enn en kjøp-og-hold-portefølje. Det å legge til Google søkevolum (G) som en forklaringsvariabel øker ikke modellens ytelse i velutviklede markeder (USA og Canada), men tilfører verdi i fremvoksende markeder (Sør-Afrika og India). Vi tester også algoritmen med transaksjonskostnader, der agentene er begrenset til å kun handle én gang i måneden eller én gang i kvartalet. Flere av disse agentene får høyere gjennomsnittlig avkastning enn sine referanseporteføljer. Algoritmen sammenlignes videre med en lineær regresjon. Resultatene fra sammenligningen viser at samtlige DDPG-agenter oppnår høyere gjennomsnittlig avkastning enn sin tilsvarende regresjon.
dc.description.abstractThis study investigates the viability and potential of using state of the art Deep Reinforcement Learning for stock trading. We specifically use a Deep Deterministic Policy Gradient (DDPG). The model trades stocks in four indices: DJIA (USA), TSX (Canada), JSE (South Africa) and SENSEX (India). We find that DDPG agents using past log return (R) and trading volume (TV) as predictors yield the best performance. The models outperform a buy-and-hold benchmark for all markets in terms of mean return. Adding Google search volume (G) as a predictor does not improve performance in developed markets (USA and Canada), but is valuable in emerging markets (South Africa and India). The algorithm is tested also after implementing transaction cost, where agents are restricted to only trade once every month or quarter. Several agents outperform the benchmark in terms of mean return. Results are compared to a simple linear regression. In terms of mean return, the DDPG agent always outperforms the equivalent linear regressions.
dc.languageeng
dc.publisherNTNU
dc.titleA Deep Reinforcement Learning Approach to Stock Trading
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel