A Deep Reinforcement Learning Approach to Stock Trading

Gran, Petter Kowalik; Holm, August Jacob Kjellevold; Søgård, Stian Gropen

Gran, Petter Kowalik; Holm, August Jacob Kjellevold; Søgård, Stian Gropen

Master thesis

Åpne

no.ntnu:inspera:2531119.pdf (2.052Mb)

Permanent lenke

http://hdl.handle.net/11250/2622891

Utgivelsesdato

2019

Metadata

Vis full innførsel

Samlinger

Institutt for industriell økonomi og teknologiledelse [3156]

Sammendrag

Dette studiet undersøker hvorvidt Dyp Forsterkende Læring (eng: Deep Reinforcement Learning) kan brukes til å kjøpe og selge aksjer. Vi implementerer en Dyp Deterministisk Policy Gradient (DDPG)-algoritme (eng: Deep Deterministic Policy Gradient). Algoritmen handler aksjer fra fire forskjellige indekser: DJIA (USA), TSX (Canada), JSE (Sør-Afrika) og SENSEX (India). Resultatene viser at DDPG-agenter som estimerer fremtidig avkasting basert på historisk logaritmisk avkastning (R) og handelsvolum (TV) oppnår best resultater. Disse agentene oppnår en høyere gjennomsnittlig avkastning enn en kjøp-og-hold-portefølje. Det å legge til Google søkevolum (G) som en forklaringsvariabel øker ikke modellens ytelse i velutviklede markeder (USA og Canada), men tilfører verdi i fremvoksende markeder (Sør-Afrika og India). Vi tester også algoritmen med transaksjonskostnader, der agentene er begrenset til å kun handle én gang i måneden eller én gang i kvartalet. Flere av disse agentene får høyere gjennomsnittlig avkastning enn sine referanseporteføljer. Algoritmen sammenlignes videre med en lineær regresjon. Resultatene fra sammenligningen viser at samtlige DDPG-agenter oppnår høyere gjennomsnittlig avkastning enn sin tilsvarende regresjon.

This study investigates the viability and potential of using state of the art Deep Reinforcement Learning for stock trading. We specifically use a Deep Deterministic Policy Gradient (DDPG). The model trades stocks in four indices: DJIA (USA), TSX (Canada), JSE (South Africa) and SENSEX (India). We find that DDPG agents using past log return (R) and trading volume (TV) as predictors yield the best performance. The models outperform a buy-and-hold benchmark for all markets in terms of mean return. Adding Google search volume (G) as a predictor does not improve performance in developed markets (USA and Canada), but is valuable in emerging markets (South Africa and India). The algorithm is tested also after implementing transaction cost, where agents are restricted to only trade once every month or quarter. Several agents outperform the benchmark in terms of mean return. Results are compared to a simple linear regression. In terms of mean return, the DDPG agent always outperforms the equivalent linear regressions.

Utgiver

NTNU