A prototype of a precise delay prediction system for buses based on machine learning
Description
Full text not available
Abstract
Mange busser er i dag koblet til internett, som en del av IoT-trenden for forretning-brukstilfeller. En av brukstilfellene som GNSS-mottagere og internettoppkobling legger til rette for er systemer for forsinkelsesprediksjoner. I motsetning til rutetabeller kan disse produsere prediksjoner for ankomsttid dynamisk. Sofistikerte prediksjoner kan gjøres ved å benytte det fremvoksende feltet, maskinlæring.
Denne masteroppgaven presenterer en prototype for et system for forsinkelsesprediksjoner, basert på maskinlæring, for bussruten, Værnesekspressen i Trondheim. Historisk posisjonsdata for bussene kombineres med data om miljøet bussene opererer i, for å utgjøre treningsdata for maskinlæringsalgoritmene. Forskjellige innfallsvinkler og maskinlæringsalgoritmer blir evaluert for deres evne til å produsere presise prediksjoner på forsinkelser. Særlig fokus legges på å tilnærme seg forsinkelsesprediksjoner som et regresjons- og klassifikasjonsproblem. Hver maskinlæringsmodell blir nøye justert for å produsere nøyaktige resultater.
Den beste regresjonsalgoritmen kan produsere reisetidsprediksjoner med en gjennomsnittlig feilmargin på under 20 sekunder for et segment. Den beste klassifikasjonsalgoritmen kan produsere 100% korrekte prediksjoner på om et segment vil bli forsinket eller ikke. Today, many buses are connected to the internet, following the IoT trend for business use cases. One of the use cases for which GNSS receivers and internet connectivity enables are delay prediction systems. In contrast to timetables, these systems can produce arrival time predictions dynamically. Sophisticated predictions can be made by utilizing the emerging field of ML.
This master thesis presents a prototype of a delay prediction system based on ML for the bus line Værnesekspressen in Trondheim. Historical data bus position data are combined with data about the operation environment, such as weather and traffic, to form a training data set for the ML algorithms. Different approaches and ML algorithms are evaluated for their ability to make accurate delay predictions. Most notably, delay predictions are approached as both a regression problem and a classification problem. Each ML model is carefully tuned to produce accurate results.
The best regression algorithm can produce travel time predictions with average errors below 20 seconds for a segment. The best classification algorithms can produce 100% correct predictions of whether a driven segment will be delayed or not.