Bitcoin Trading using Reinforcement Learning: An Analysis of Q-Learning and DQN Algorithms on Daily Timeframes.
Bachelor thesis
Permanent lenke
https://hdl.handle.net/11250/3071437Utgivelsesdato
2023Metadata
Vis full innførselSamlinger
- NTNU Handelshøyskolen [1749]
Sammendrag
Denne oppgaven undersøker bruken av reinforcement learning algoritmer, nemlig Q-learning og DQN, for handel med bitcoin på en daglig tidsramme. De eksperimentelle resultatene viser at selv om alle modeller utkonkurrerer en buy-and-hold-strategi (ikke tatt transaksjonskostnader med i beregning), er de svært ustabile. De ulike Q-læringsmodellene ser ut til å ta identiske beslutninger, og vi antar at det trengs mer treningstid. På den andre siden viser en av DQN-modellene en viss rasjonell og konsistent atferd. Interessant nok klarer den akkurat å bli lønnsom. Imidlertid hevder vi at denne modellen fortsatt er langt unna å være anvendelig i en virkelig situasjon. Basert på disse funnene konkluderer vi med at ytterligere forskning er nødvendig for å utvikle mer stabile og strenge modeller. Videre anbefales det at fremtidig forskning inkluderer ting som et kontinuerlig action-space, flere features, og først og fremst mer tid og datakraft. Samlet sett fremhever oppgaven både den potensielle anvendeligheten og de utfordrende aspektene ved reinforcement learning i handel med finansielle eiendeler. This thesis investigates the use of reinforcement learning algorithms, namely Q-learning and DQN, for trading bitcoin on a daily timeframe. The experimental results demonstrates that while all models trained without transaction costs technically outperform a buy-and hold strategy, they are highly unstable. The various Q-learning models appear to be making identical decisions, and we hypothesize that more training time is needed. One of the DQN models on the other hand, appear to be exhibiting hints of some rational and consistent trading behavior. Interestingly, it also ends up just being profitable. However, we argue this model is still far away from being applicable in a real-world trading-setting. Based on these findings, we conclude that further research is needed to develop more stable and rigorous models. Furthermore, it is recommended that future research incorporates things like a continuous action space, additional features, and primarily more time and computational power. Overall, the thesis highlights both the potential applicability and the challenging aspects of reinforcement learning in the world of trading.