Analyzing and Predicting Performances and Playing Styles of Football Players
Description
Full text not available
Abstract
Interessen rundt utnyttelse av dataanalyse som konkurransefortrinn i fotballen er økende, noe som gjenspeiles gjennom stadig flere publiserte artikler. Arbeidet i denne masteroppgaven er sentrert rundt modeller utviklet for objektivt å kunne beskrive prestasjonsnivået (Decroos et al., 2019) og spillestilen (Decroos and Davis, 2021) til profesjonelle fotballspillere.
Ved å analysere detaljerte ballhandlinger fra kampene til mer enn 1700 unike spillere fra ni forskjellige europeiske ligaer, vises det at både prestasjonsnivå og spillestil endres i større grad for spillere som bytter klubb, enn for dem som ikke gjør det. Videre påvises sammenhenger mellom prestasjonsnivå og spillestil ved at endringer i den ene er svakt positivt korrelert med endringer i den andre, og ved å visualisere i hvilken grad ulike typer handlinger er assosiert med høy prestasjon.
Ved å skille mellom overganger internt i samme liga og på tvers av ligaer ble en spillers prestasjonsnivå funnet til å være tilnærmet uavhengig av nivå på medspillere, men signifikant korrelert med nivå på gjennomsnittlig motstandernivå i ligaen.
Til slutt er statisiske modeller brukt for å predikere fremtidige prestasjonsnivåer basert på historiske prestasjoner, variabler knyttet til lagnivå og liganivå samt aggregert statistikk om spillernes handlinger på banen. Modellene er gradvis forbedret, først ved å bruke en genetisk algoritme til å velge ut variabler til modellene før de blir trent. Deretter, ved å inkludere historisk spillestil, samt prediksjoner for fremtidig spillestil, som variabler i treningsdataen, blir feilmarginen til prediksjonene redusert, noe som også demonstrerer at spillestil er relevant for prediksjon av fremtidig prestasjon. I siste iterasjon av prediksjoner av prestasjon består prosessen av to steg med prediksjonsmodeller. Først blir fremtidig spillestil predikert, og deretter blir disse prediksjonene lagt til som ekstra input til modellene som predikerer prestasjon. Modellene reduserer feilmarginen til prediksjonene med 58.9% sammenlignet med en naiv modell som antar at prestasjonen til en spiller i en gitt sesong er den samme som den var sesongen før. I tillegg klarer modellene med 71% treffsikkerhet å si om en spiller vil øke eller synke i prestasjonsnivå kommende sesong. In recent years, numerous advanced data-driven models have been proposed to describe the behavior of football players on the pitch, aiming to support the work of traditional scouts. The work in this thesis is centered around the performance and playing style of professional football players, where the representations of performance and playing style are based on work by Decroos et al. [2019] and Decroos and Davis [2021] , respectively.
By analyzing on-ball actions from the matches of more than 1700 unique players from nine different European leagues, players who transfer clubs are found to be more likely to experience an increased change in both performance and playing style compared to those who do not. Further investigations of performance and playing style indicate that the two are related, by observing weak positive correlations between changes in playing style and performance, and by visualizing what type of actions are, on average, associated with high performance.
Next, to explore how the level of teammates and opponents impact a player's performance, transfers both within a league and between leagues are examined. The findings suggest that players' performances depend more on their opponents' performance than their team's.
Finally, statistical models are used to predict future player performances based on historical performances, variables related to team and league levels, and aggregated statistics. The models are gradually improved, first by applying automatic feature selection as a pre-processing step by using a genetic algorithm. Then, historical, as well as predictions of future, playing styles, are added to the training data, leading to an observed reduction in the error rate of the prediction models, thus demonstrating the relevance of playing style in the predictions of future performance. Hence, the final machine learning pipeline consists of two prediction steps, before both of which automatic feature selection is applied. First, future playing style is predicted, and then those predictions are used as input to predict future player performance.The resulting models are able to reduce the error rate of the predictions by 58.9% compared to a naive baseline assuming that a player's performance in a given season is the same as the player's performance in the previous season. Moreover, the models can predict whether players' performances will increase or decrease with an accuracy of 71%.