Database Systems in Relation to Sports Data
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2777726Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
Dette studiet ønsket å finne ut om relasjonelle databaser eller grafdatabaser ville være det beste alternativet når man jobber med sportsdata. Det er flere forskjellige systemer som kunne blitt sammenlignet, men for denne studien ble MySQL og Neo4j valgt. Om én av de var signifikant bedre enn den andre ble bestemt ved å kjøre en "benchmarking" prosess med forskjellige spørringer, og deretter utføre statistiske tester på resultatene for å se hvor forskjellige de var. Dataen brukt for denne studien var data fra Premier League sesong 19/20. Grunnet spredningen av Covid-19 og at Premier League ble utsatt fra midten av mars, var det mindre data enn opprinnelig planlagt. Tre forskjellige databaser ble lagd i begge databasesystemene med forskjellig struktur for å kunne teste ytelse etter forskjellige nivå og mengde data. Denne studien benyttet en ekstern server for MySQL og en lokal server for Neo4j som ga MySQL en fordel. Men siden datastrukturen var til fordel for Neo4j, da den er en grafdatabase, var det forventet at ytelsen ikke ville være mye dårligere og dermed et interessant punkt å se på i sammenligningen. Siden det ble valgt å bruke to forskjellige servere, er også temaet som omhandler ekstern vs. lokal server diskutert kort, men dette var ikke grunnlaget for studiet. Resultatet fra denne studien viser at selv om MySQL hadde en kraftigere server, er den muligens ikke signifikant bedre enn Neo4j og andre faktorer kan vurderes når man velger det beste systemet for håndtering av sportsdata. This project aims to find out whether relational databases or graph databases would be the better fit when working with sports data. There are several different systems that could be tested, but for this study, MySQL and Neo4j are the systems chosen to be compared. Whether one of them was significantly better than the other should be determined by running a benchmarking process with several different queries to see how they perform and compute statistical tests on the results to determine how much they differ. The data used are soccer data from Premier League season 19/20. However, due to the spread of Covid-19 and Premier League being postponed from middle of March 2020, there was less data than originally planned. Three different databases was created for both database systems with different structure in each to be able to test their performance on different levels of depth and amount of data. For this study an external server was used for MySQL and a local server for Neo4j, which created an advantage for MySQL. But as the structure of the data was in favor of Neo4j, being a graph database, it was expected that it should not perform much worse and hence an interesting point to look at when comparing the two systems. Due to the choice of two different types of servers, the topic of local vs. external database will be briefly discussed as well, but was not the foundation of the study. The results of this study shows that even with a more powerful server MySQL might not be significantly better than Neo4j and that other factors can be considered when choosing the best system to handle sports data.