Modeling Passenger Count Data Based on Automatic Counting

Liabø, Simon

Liabø, Simon

Master thesis

Åpne

no.ntnu:inspera:142441053:27335857.pdf (3.961Mb)

Permanent lenke

https://hdl.handle.net/11250/3092522

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for matematiske fag [2530]

Sammendrag

Moderne offentlige transportkjøretøy er utstyrt med en rekke sensorer og genererer store mengder data, som Automatisk Kjøretøy Lokalisering (Automatic Vehicle Location, AVL) og Automatisk Passasjertelling (Automatic Passenger Counts, APC). Feil i disse dataene er en utfordring, og samarbeisprosjektet APT-R har som mål å realisere potensialet i automatisk sensordata fra kollektivsystemet, gjennom utvikling av innovative metoder og verktøy.

Denne masteroppgaven tar for seg APC-data levert av AtB, kollektivtransportselskapet i Trondheim. Målet er å bedre forstå hvordan APC-dataene gjenspeiler den virkelige passasjertellingen (PC), og å lage modeller for å bedre ta i bruk denne dataen. Vi utvikler probabilistiske modeller for den sanne tellingen av påstigende passasjerer på dørnivå, ved bruk av APC-data. Til dette formålet ble to modelleringsmetoder tatt i bruk.

Vi brukte først det fleksible rammeverket for generaliserte lineære modeller (GLM), med PC som respons og APC som forklarende variabel. For responsen, PC, vurderte vi først Poisson-fordelingen, og deretter double-Poisson-fordelingen for å ta hensyn til den betydelige underspredningen (underdispersion). Double-Poisson-fordelingen klarte ikke å ta hensyn til all underspredningen, dette skyldtes topper i dataene hvor APC er korrekt. Vi bruker derfor k-inflated double-Poisson-fordelingen, og foreslår en utvidelse av denne hvor inflasjonspunktet k får variere med den diskrete, forklaringsvariabelen APC. k-inflated-fordelinger har vært brukt i regresjonssammenhenger tidligere, men kun med fastsatte inflasjonspunkter.

Videre foreslår vi en modell som er basert på den data-genererende prosessen. Den data-genererende prosessen antas å være kombinasjonen av en undertellingsprosess og en overtellingsprosess, som vi modellerer med henholdsvis en binomial- og en Poisson- fordeling. For denne modellen tar vi i bruk empirisk Bayes metode for å gjøre inferens på den sanne passasjertellingen.

Modellene er tilpasset, og evaluert på, tellinger på dørnivå. I tillegg undersøker vi modellprestasjon på tellinger som er aggregert til stopp- og turnivå.

Vi ser lovende resultater for den implementerte k-inflated double Poisson GLM-en. Den er en forbedring av double-Poisson-fordelingen og viser generelt god tilpasning til tellinger på dørnivå. Den yter også bedre enn modellen som baserer seg på den data genererende prosessen, selv om denne modellen også viser god tilpasning, til tross for de relativt strenge antagelsene. Undersøkelse av aggregater på stopp- og reisenivå viser tydelig avhengighet mellom tellinger på dørnivå, noe som resulterer i dårlig usikkerhet- skvantifisering av aggregater.

Equipped with a host of sensors, modern public transport fleets generate a wealth of data, like Automatic Vehicle Location (AVL) and Automatic Passenger Counts (APC), although errors in this automatically collected data presents a challenge. The collabo- rative APT-R project seeks to realize the potential of automatic sensor data from public transport vehicles, through the development of innovative methods and tools.

This thesis considers APC data supplied by AtB, the public transport operator in Trondheim, Norway. The aim is to better understand how the APC data reflects the true passenger count (PC), and the creation of models to better utilize this data. We develop probabilistic models for the true PC of boarding passengers at door-level, using APC data. For this purpose, two modeling approaches were employed.

We first used the framework of generalized linear models (GLMs), for PC with APC as the explanatory variable. For the response, PC, we first considered the Poisson distri- bution, and then the double Poisson to account for the significant underdispersion. The double Poisson was inadequate in accounting for all the underdispersion, due to peaks in the data where APC is correct in its count of PC. Therefore, we make use of the k- inflated double Poisson distribution, and propose an extension where the inflation point k is allowed to vary with the discrete, explanatory variable APC. k-inflated distribu- tions have been employed in regression settings previously, but only with fixed inflation points.

Further, a model that is based in the data generating process is proposed. The data generating process is considered the combination of an undercounting- and an over- counting process, modeled as a Binomial and a Poisson respectively. Empirical Bayes is used to do inference on the true passenger count for this model.

The models are fitted to, and evaluated on, door-level counts. In addition we inves- tigate their performance on stop- and journey-level aggregates.

Our extension of the k-inflated double Poisson GLM shows promising results, im- proving on the double Poisson and demonstrating good fit to door-level counts. It also outperforms the model based in the data generating process, though this model also pro- vides a good fit considering the relatively strict assumptions. Investigation of stop- and journey-level aggregates show clear dependency between door-level observations within these groups. This results in non-satisfactory uncertainty quantification for aggregates.

Utgiver

NTNU