Comparative analysis of feature selection methods in stock price prediction
Abstract
Det sammensatte miljøet i finansmarkeder gjør aksjeprisprediksjon til en utfordrende oppgave. Den store mengden aksjedata motiverer bruken av attributtutvelgelse. Selv om det finnes omfattende litteratur på bruken av maskinlæring for aksjeprisprediksjon, ser det ut til å være mangler i forskningen på attributtutvelgelse. Det er gjort sammenligningsstudier av utvelgelsesteknikker tidligere, men slike studier sammenligner ofte kun noen få teknikker. Videre benytter eksisterende studier kun et begrenset antall attributtyper og datasett, typisk kun én attributtype og ett datasett.
I denne oppgaven tar vi for oss disse manglene innen attributtutvelgelse i finans. Vi lager et rammeverk for å anvende og evaluere ulike utvelgelsesmetoder for aksjeprisprediksjon og tilgjengeliggjør rammeverket med åpen kildekode. I rammeverket vårt inkludere vi tre maskinlæringsmodeller: SVR, XGBoost og TFT, samt datasett fra tre ulike markedsregioner: USA, Japan og Nasnor. Datasettene inneholder fire typer attributter: tekniske, fundamentale, makro-økonomiske, og deskriptive. Ved hjelp av rammeverket sammenligner vi syv utvelgelsesmetoder: var filter, mRMR, SFS, SBE, PSO, GA og MGO. Så vidt vi vet, er ikke den nylig introduserte optimeringsalgoritmen MGO benyttet innen finans. Til slutt undersøker vi bruken av sammensatte attributtutvalg, hvor vi kombinerer de beste individuelle utvalgene ved bruk av mengdeoperasjonene snitt og union.
Funnene våre indikerer at det er tydelige prestasjonsfordeler ved å bruke attributtutvelgelse. Modellene som er trent på atributtutvalg presterer stort sett bedre i simuleringene enn modellene som er trent på alle attributter. SFS presterte best på tvers av alle datasett, men var også blant de mest tidkrevende utvelgelsesmetodene. MGO hadde lignende prestasjoner som PSO, men var overlegen sammenlignet med GA. Gevinsten ved sammensetning av de individuelle utvalgene var varierende, men de sammensatte utvalgene var tidvis best. Stock price prediction is a challenging problem due to the complex environment of financial markets. The large amount of available stock data motivates the use of feature selection (FS). Although there is an extensive amount of work done on applying machine learning (ML) to the stock price prediction problem, there appears to be research gaps regarding FS. Comparative studies have been done on FS techniques in finance, however the studies often include only a few FS methods. Furthermore, existing studies on FS in finance are often limited in the number of feature types and datasets, typically containing only one feature type on one dataset.
In this thesis we address the aforementioned gaps in existing financial FS research. We provide an open source framework for applying and evaluating FS methods on the stock price prediction problem.
In our framework we include three ML models: Support Vector Regression (SVR), eXtreme Gradient Boosting (XGBoost), and Temporal Fusion Transformer (TFT), as well as three datasets from different market regions: USA, Japan, and NASDAQ Nordic & Baltic (Nasnor). The datasets include four types of features: technical, fundamental, macro-economic, and descriptive. Using the framework we compare seven FS methods: Variance (var) filter, minimum Redundancy Maximum Relevance (mRMR) filter, Sequential Feature Selection (SFS), Sequential Backward Elimination (SBE), Particle Swarm Optimizer (PSO), Genetic Algorithm (GA), and Mountain Gazelle Optimizer (MGO). To our knowledge, there is no use of the newly proposed optimization algorithm MGO in the field of finance. Finally, we investigate the use of ensembles combining the top performing feature sets using the intersection and union operators.
Our findings clearly indicate performance benefits of using FS. Models trained on feature subsets mostly outperformed the models trained on all features in our simulations. Across all datasets, SFS provided the best performance, but was also among the slowest selection methods. The MGO had comparable performance with PSO, but was superior to GA. The ensemble sets showed varying performance, sometimes outperforming the individual sets.