Kan en prediksjonsmodell i engelsk Premier League generere økonomisk fortjeneste?
Abstract
Formålet med denne oppgaven er å lage et verktøy som kan bidra til kontrollert betting. Basert på dette skal oppgaven konkret ta for seg hvordan en logistisk regresjonsmodell kan benyttes til å ta informerte bettingvalg, i tillegg til å vurdere modellens evne til å skape økonomisk fortjeneste.
Oppgaven tar utgangspunkt i kampresultater fra Premier League sesongen 2018/2019 for å predikere utfall og odds. Ut ifra den tilgjengelige dataen har vi valgt variabler som kan være relevant for modellen. Disse variablene er form generelt, form på hjemme eller bortebane, resultater sist lagene møttes, resultat i ligaen forrige sesong og hjemmebanefordel. Til å starte med blir modellen trent på 280 kamper, før den blir testet på sesongens resterende 72 kamper.
Resultatene viser en presisjon på 62,5% i predikering av kampresultater. Alt i alt konkluderer vi med at modellen er et godt verktøy for betting, da modellen bidrar til en overordnet gevinst på 12 501 kroner over 72 kamper på testsettet. Likevel har modellen noen svakheter, slik som å predikere uavgjort-utfall. Grunnen til dette kan være modellens begrensede antall variabler, eller idrettens kompleksitet. I utbredelse av modellen foreslår vi derfor å inkludere flere variabler for å kunne oppnå en enda bedre modell. The purpose of this study is to develop a tool that can help betting to be controlled. Therefore, this thesis will explore how a logistic regression model can be used to make informed decisions and evaluating whether the model will generate profit.
The basis of this thesis is match results from the English Premier League 2018/2019. From this dataset, variables are defined to predict full-time match results and odds. These variables include form in general, form based on home or away court, previous match between the respective teams, league results from last season and home court advantage. The model uses 80% of the data as training, and 20% to test the model, which constitutes 280 and 72 matches.
The results from the analysis showed that the model had an accuracy of 62,5%. Therefore, the conclusion is that the model can be used as a tool to perform controlled betting. Overall, the test set generated a profit of 12 501 kroner, which makes the model successful. In addition, the model doesn’t predict any draw results, which express its weakness. Due to the limited number of variables or the complexity of the sport, the model is limited. To make the model even better, we suggest including more variables to capture the sport’s complexity.