Portfolio Management Using Reinforcement Learning

Jacobsen, Magnus; Presthus, Markus Neupauer

dc.contributor.advisor	Becker, Denis Mike
dc.contributor.author	Jacobsen, Magnus
dc.contributor.author	Presthus, Markus Neupauer
dc.date.accessioned	2024-09-14T17:22:58Z
dc.date.available	2024-09-14T17:22:58Z
dc.date.issued	2024
dc.identifier	no.ntnu:inspera:231896303:237244979
dc.identifier.uri	https://hdl.handle.net/11250/3152374
dc.description	Full text not available
dc.description.abstract	I de senere årene har det vært økende interesse for å undersøke anvendelsen av forsterkningslæring (RL) i finansiell handel (Almahdi og Yang, 2017). Denne avhandlingen har som mål å avgjøre om RL-algoritmer kan løse utfordringer knyttet til tradisjonell porteføljeforvaltning, med et fokus på aksjene i OBX-indeksen. Gjennom denne utforskningen ønsker avhandlingen å vurdere gyldigheten til hypotesen for markedseffisiens (EMH) og avgjøre om algoritmene har evnen til å avdekke om markedet ikke er effisient. RL-algoritmene som er valgt for denne forskningen er: Trust Region Policy Optimization (TRPO), Advantage Actor-Critic (A2C), og Proximal Policy Optimization (PPO). I tillegg foreslår studien en ensemble-strategi som kombinerer de tre algoritmene i en likt vektet portefølje, med mål om å oppnå mer stabile resultater som bedre tilpasser seg til varierende markedsforhold. Agentenes læringsprosess foregår i et miljø som inkluderer aksjepriser og et utvalg tekniske indikatorer. De tekniske indikatorene som brukes er Average Directional Index (ADX), Commodity Channel Index (CCI), Relative Strength Index (RSI), og Moving Average Convergence Divergence (MACD). For å sikre en nøyaktig evaluering av hver algoritmes prestasjon, gjennomgår hver algoritme 20 forsøk. Denne metoden tar høyde for tilfeldighetene i startpunktene ved policy-iterasjoner, noe som resulterer i stor variasjon blant lærte strategier. Følgelig vurderer denne tilnærmingen om agentene konsekvent klarer å slå markedet. For å simulere realistiske handelsforhold, er ikke-lineære transaksjonskostnader inkludert i miljøet. Kostnadene inkluderte en fast prosentandel og en minstekurtasje, noe som gir en mer realistisk vurdering av algoritmenes prestasjoner. OBX-indeksen blir brukt som referanse for å evaluere porteføljene generert av RL-algoritmene. Resultatene indikerer at mens RL-algoritmer kan identifisere markedseffektivitet i fravær av transaksjonskostnader, overgår de ikke markedet signifikant når disse kostnadene tas i betraktning. Funnene støtter hypotesen for markedseffisiens (EMH), og antyder at markedet forblir effektivt, og utfordrende å konsekvent overgå med kun algoritmiske handelsstrategier. I tillegg viser den foreslåtte ensemble-strategien mer stabile og konsistente resultater sammenlignet med de individuelle algoritmene, noe som antyder at den har større potensiale som en mer pålitelig strategi for porteføljeforvaltning.
dc.description.abstract	In recent years, there has been a growing interest for researching the application of Reinforcement Learning (RL) in financial trading (Almahdi og Yang, 2017). This thesis aims to to determine whether RL-algorithms can solve challenges related to traditional portfolio management, with a focus on stocks listed on the OBX-index. Through this exploration, the thesis seeks to assess the validity of the Efficient Market Hypothesis (EMH) and determine if the algorithms has the ability to uncover inefficiencies in the market. The RL-algorithms chosen for this research are: Trust Region Policy Optimization (TRPO), Advantage Actor-Critic (A2C), and Proximal Policy Optimization (PPO). Additionally, the study proposes an ensemble strategy that combines the three algorithms into an equally weighted portfolio, aiming to achieve more stable results and better adapt to varying market conditions. The agents' learning process takes place in an environment that includes stock prices and a variety of technical indicators. The technical indicators used are the Average Directional Index (ADX), Commodity Channel Index (CCI), Relative Strength Index (RSI), and Moving Average Convergence Divergence (MACD). To ensure a accurate evaluation of each algorithm's performance, each algorithm undergoes 20 trials. This method accounts for the randomness in policy iteration starting points, resulting in a diverse range of learned strategies. Consequently, this approach assesses whether the agents can consistently outperform the market. To simulate real-world trading conditions, non-linear transaction costs are incorporated into the environment. The costs included a fixed percentage and a minimum brokerage fee, providing a more realistic assessment of the algorithms' effectiveness. The OBX index is used as the benchmark for evaluating the portfolios generated by the RL algorithms. The results indicate that while RL algorithms can identify market inefficiencies in the absence of transaction costs, they do not significantly outperform the market when these costs are considered. The findings supports the Efficient Market Hypothesis (EMH), suggesting that the market remains efficient and challenging to consistently outperform with algorithmic trading strategies alone. Additionally, the proposed ensemble strategy demonstrates more stable and consistent results compared to the individual algorithms, suggesting its potential as a more reliable strategy for portfolio management.
dc.language	eng
dc.publisher	NTNU
dc.title	Portfolio Management Using Reinforcement Learning
dc.type	Master thesis

Files in this item

Files	Size	Format	View

This item appears in the following Collection(s)

NTNU Handelshøyskolen [1717]

Show simple item record