The Hidden Information in Speedtest Data
Description
Full text not available
Abstract
En eksplosjon i antall enheter koblet til Internett åpner for nye muligheter innen crowdsourcede metoder for å teste publikums internettforbindelse i stor skala. En hastighetstest er en brukerinitiert måling laget for å estimere QoS-parametere, for eksempel gjennomstrømning og latens. Denne oppgaven analyserer to store datasett med målinger fra det norske testverktøyet Nettfart, med data samlet inn fra 2011 til 2021. Vi utforsker dataene fra ulike vinkler gjennom hele oppgaven basert på en datadrevet metodikk:
1. Vi ser på utviklingen av internetthastighet i Norge, og identifiserer langsiktige trender med en «typisk» brukerforbindelse både nasjonalt og regionalt.
2. Vi ser på forskjellen i prestasjon hos befolkningstette og tynne kommuner i Norge.
3. Deretter klassifiserer vi topper i måleaktiviteten, og ser etter samtidige topper i ulike geografiske områder som en metode for hendelsesdeteksjon.
4. Til slutt sammenligner vi hastighetstestdataene med to supplementerende datakilder: endring i fast bredbåndskapasitet over tid og kontrollerte målingsnoder koblet til 4G-mobilnettet.
Resultatene av denne oppgaven gir et bilde av en økende opplevd internetthastighet for den typiske brukeren, men også et raskt økende gap mellom de tregeste og raskeste forbindelsene. Av alle de norske fylkene kommer Oslo dårligst ut når det gjelder gjennomstrømning. De regionale latensmålingene er sterkt påvirket av avstanden til test-serveren, mens kommunene med lav befolkningstetthet presterer dårligst på tvers av alle målinger for både 4G- og WLAN-målinger. Topper i måleaktivitet er identifisert, og to sett med topper kan sannsynligvis være knyttet til COVID-19 nedstengingen og tjenesteproblemer hos en nasjonal bredbåndsleverandør An explosion in the number of devices connected to the Internet opens up new avenues in crowdsourced methods for testing the public's Internet connection on a large scale. A speedtest is a user-initiated measurement built for estimating QoS metrics, such as throughput and latency. This thesis analyzes two large datasets of measurements from the Norwegian speedtest tool Nettfart collected from 2011 until 2021. We explore the data from different angles throughout the thesis based on a data-driven methodology:
1. We look at the development of Internet speed in Norway, identifying long-term trends of a "typical" user connection both nationally and regionally.
2. We look at the difference in performance in population-dense and sparse municipalities in Norway.
3. Then we classify peaks in the measurement activity, looking for concurrent peaks in different geographical areas as a method for event detection.
4. Finally, we compare the speedtest data to two additional data sources: change in fixed broadband capacity over time and controlled measurement nodes connected to the 4G mobile network.
The results of this thesis give a picture of an increasing experienced Internet speed for the typical user, but also a rapidly increasing gap between the slowest and fastest connections. Out of all the Norwegian counties, Oslo performs the worst in terms of throughput. The regional latency measurements are heavily influenced by the distance to the testing server, while the municipalities with low population density perform worst across all metrics for both 4G and WLAN measurements. Peaks in measurement activity have been identified, and two sets of peaks can likely be connected to the COVID-19 lockdown and ISP service problems.