A Deep Reinforcement Learning Approach to Stock Trading

Gran, Petter Kowalik; Holm, August Jacob Kjellevold; Søgård, Stian Gropen

dc.contributor.advisor	Molnár, Peter
dc.contributor.author	Gran, Petter Kowalik
dc.contributor.author	Holm, August Jacob Kjellevold
dc.contributor.author	Søgård, Stian Gropen
dc.date.accessioned	2019-10-17T14:01:08Z
dc.date.available	2019-10-17T14:01:08Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2622891
dc.description.abstract	Dette studiet undersøker hvorvidt Dyp Forsterkende Læring (eng: Deep Reinforcement Learning) kan brukes til å kjøpe og selge aksjer. Vi implementerer en Dyp Deterministisk Policy Gradient (DDPG)-algoritme (eng: Deep Deterministic Policy Gradient). Algoritmen handler aksjer fra fire forskjellige indekser: DJIA (USA), TSX (Canada), JSE (Sør-Afrika) og SENSEX (India). Resultatene viser at DDPG-agenter som estimerer fremtidig avkasting basert på historisk logaritmisk avkastning (R) og handelsvolum (TV) oppnår best resultater. Disse agentene oppnår en høyere gjennomsnittlig avkastning enn en kjøp-og-hold-portefølje. Det å legge til Google søkevolum (G) som en forklaringsvariabel øker ikke modellens ytelse i velutviklede markeder (USA og Canada), men tilfører verdi i fremvoksende markeder (Sør-Afrika og India). Vi tester også algoritmen med transaksjonskostnader, der agentene er begrenset til å kun handle én gang i måneden eller én gang i kvartalet. Flere av disse agentene får høyere gjennomsnittlig avkastning enn sine referanseporteføljer. Algoritmen sammenlignes videre med en lineær regresjon. Resultatene fra sammenligningen viser at samtlige DDPG-agenter oppnår høyere gjennomsnittlig avkastning enn sin tilsvarende regresjon.
dc.description.abstract	This study investigates the viability and potential of using state of the art Deep Reinforcement Learning for stock trading. We specifically use a Deep Deterministic Policy Gradient (DDPG). The model trades stocks in four indices: DJIA (USA), TSX (Canada), JSE (South Africa) and SENSEX (India). We find that DDPG agents using past log return (R) and trading volume (TV) as predictors yield the best performance. The models outperform a buy-and-hold benchmark for all markets in terms of mean return. Adding Google search volume (G) as a predictor does not improve performance in developed markets (USA and Canada), but is valuable in emerging markets (South Africa and India). The algorithm is tested also after implementing transaction cost, where agents are restricted to only trade once every month or quarter. Several agents outperform the benchmark in terms of mean return. Results are compared to a simple linear regression. In terms of mean return, the DDPG agent always outperforms the equivalent linear regressions.
dc.language	eng
dc.publisher	NTNU
dc.title	A Deep Reinforcement Learning Approach to Stock Trading
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:2531119.pdf
Størrelse:: 2.052Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for industriell økonomi og teknologiledelse [3030]

Vis enkel innførsel