In-game Betting and the FA English Premier League: The Contribution of Prediction Models
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2622894Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Den samlede verdien på markedet for live-betting på kamper i FA English Premier League øker raskt. For å kunne tjene penger i et slikt marked trenger man, som i alle finansielle markeder, pålitelig informasjon on fremtidige hendelser og gode investeringsstrategier. Denne oppgaven er skrevet i samarbeid med Sportradar AG, som tilbyr prediksjonstjenester til tilbydere av odds i sportsmarkeder. Med et mål om å forbedre disse prediksjonene blir et sett av prediksjonmodeller generert og evaluert.
Modeller av den bivariate scoringsdistribusjonen og HUB-distribusjonen er generert fra to ulike arkitekturer. Den første arkitekturen er basert på et long short-term memory-nettverk og den andre bygger på Weibull count-distribusjonen (McShane et al., 2008). I denne arkitekturen brukes Frank copula for å modellere avhengigheten mellom scoringsprosessene til to motstandere. Alle modellene er trent ved å minimere cross entropy, som er sammenfallende med maximum likelihood-estimering. Sammenligninger mellom modellene er gjort for å avgjøre om det er best å benytte en parametrisk distribusjon eller en kompleks black-box-metode. Dette er motivert av en hypotese om at det første alternativet medfører unødvendige restriktjoner på læringsprosessen. I tillegg sammenlignes ytelsen til scoringsmodellene og HUB-modellene for å teste om informasjon om scoringsdistribusjonen er essensiell for å modellere HUB-distribusjonen nøyaktig.
Resultatene tyder på at alle modellene har nesten lik prediksjonsevne basert på både cross entropy og accuracy score når de måles på HUB-distribusjonen. De beste resultatene som observeres er henholdsvis 0.9423 og 0.5783. Modellene som er basert på Weibull count-distribusjonen har gjennom hele kampen generelt litt bedre ytelse enn de andre modellene, når ytelsen måles ut fra cross entropy og accuracy score. Ranked probability score sier at long short-term memory-modellene er signifikant best hvis man tar hensyn til den ordinale strukturen i scoringsdistribusjonen.
Betting-resultatene for de ulike modellene er basert på gode, teoretiske investeringsstrategier. En av disse er en dynamisk Kelly-strategi foreslått av forfatterene. Den andre er en strategi som brukes for å teste den statiske ytelsen til modellene og for å være en referanse for den dynamiske strategien. De statiske resultatene indikerer at alle prediksjonsmodellene genererer positiv avkastning i enkelte tidspunkt av kampene ved bruk av partial-Kelly strategier. Den beste modellen kombinert med en risiko-avers partial-Kelly strategi genererer ofte avkastning opp mot 15 % og indikerer dermed at potensialet i prediksjonene er godt. Den dynamiske strategien gir høyere og mer volatil avkastning enn den statiske. Ved å bruke en partiell Kelly-parameter på 0.05 og sannsynligheter fra en av Weibull distribusjons-modellene ga den 30 % avkastning med en akseptabelt lav volatilitet. Det er likevel ingen kombinasjon av prediksjonmodell og strategi som konsekvent gir positiv avkastning. The in-game betting market for FA English Premier League matches is rapidly increasing in value. As in all financial markets, the ability to generate positive returns on investments in such a market is to a large extent dependent upon the quality of information about future events and a proper wealth allocation strategy. This thesis is written in collaboration with Sportradar AG, a provider of prediction services to suppliers of odds in the sports betting market. With the aim of improving these predictions, the performance of a set of generated prediction models is compared.
Models for the scoreline distribution and the 1X2 distribution are generated for two different architectures. The first architecture is based on a long short-term memory network, while the other relies on the Weibull count distribution (McShane et al., 2008) where the Frank copula is used to model dependence between the goal processes of the opposing teams. The models are trained by minimization of the cross entropy, which coincides with a maximum likelihood approach. The comparisons are conducted in an attempt to determine the relative performance of a parametric count distribution and a complex black box algorithm motivated by the hypothesis that the former is overly restrictive for the purpose at hand. Furthermore, comparisons are made between the scoreline models and their 1X2 equivalents to test the hypothesis that knowledge of the scoreline distribution is of the essence when modelling the 1X2 distribution.
The results suggest that all models perform similarly on the 1X2 distribution according to both the accuracy score and cross entropy, with the best scores obtained by any model on these metrics being 0.5783 and 0.9423 respectively. The models based on the Weibull count distribution perform slightly better than the long short-term memory networks with respect to both the accuracy score and the cross entropy when considering the overall performance during an entire match. The ranked probability score strongly indicates the opposite and the long short-term memory models have significantly better predictive performance when taking the ordinal structure of scorelines into account.
The betting performance of the generated models is also evaluated subject to theoretically sound wealth allocation strategies. One of these is a dynamic Kelly betting strategy proposed by the authors, while the other is used as a means to test the static predictive performance of the models and to serve as a benchmark for the dynamic strategy. The results from the static strategy indicate that all models are able to generate positive returns for certain partial Kelly parameters in some stages of a football match. The best model combined with the most risk-averse partial Kelly strategy frequently generate returns of up to 15 %, indicating great potential in the estimated probabilities. The dynamic strategy provides higher and more volatile results than comparable results from the static strategy, where a Kelly fraction of 0.05 combined with one of the Weibull count distribution models provides a return of 30 %. However, neither combination of strategy and predictive model was able to consistently generate positive returns.