On the Transferability and Comparability of Sewer Deterioration Models - A Case Study on Norwegian Sewer Data
Abstract
Avløpssystemer er kritisk infrastruktur for kommuner, og ettersom tilstand til avløpsrørene forverres over tid, er kunnskap om deres n˚aværende og fremtidige tilstand ett viktig ledd for bedre planlegging av rehabilitering og inspeksjon. I Norge er det estimert at omtrent 114 milliarder kroner m˚a investeres i avløpssystemene de neste 20 ˚arene. Bruk av modeller for ˚a forutse tilstanden vil derfor spille en viktig rolle i planleggingen av rehabilitering og utskifting. Bruken av maskinlæring til slik modellering har vist gode resultater, men er avhengig av store mengder data, noe sm˚a kommuner ofte mangler.
Denne studien har som m˚al evaluere om en ”global” tilstandsmodell som er trent p˚a data fra flere kommuner kan brukes til ˚a forutsi tilstanden i en annen kommune. Dette gjøres ved bruk av overlevelsesmodellen Random Survival Forest og klassifiseringsmodellen Support Vector Machine. Data fra fem norske kommuner er benyttet, der fire av dem brukes til trening av modellen, og den siste brukes til testing, som gjentas for hver kommune. Resultatene fra den globale modellen sammenlignes med en lokal modell som er trent p˚a data fra den spesifikke kommunen. Videre, ettersom Random Survival Forest sjelden har blitt brukt i tilstandsmodellering av avløpsrør, blir resultatene sammenlignet p˚a nettverksniv˚a mot modellen GompitZ og p˚a rørniv˚a mot Support Vector Machine. Videre blir signifikansen til forklaringsvariablene i brukt i modellen diskutert.
Resultatene fra studien viser at en global modell trent p˚a data fra representative kommuner kan brukes til ˚a forutse tilstanden til avløpsrør i en annen kommune. Modellene er generelt sett betydelig bedre enn ren gjetting i de fleste tilfeller. Resultatene rundt sammenlignbarhet viser at overlevelseskurvene fra Random Survival Forest ligger rimelig bra plassert mellom de optimistiske og pessimistiske kurvene lagd av GompitZ. Likevel viste studien relativt store avvik i tilstandssannsynlighet for rør yngre enn 50 ˚ar, som resulterer i store avvik mellom kurvene i dette tidsrommet. Videre ga bruken av Random Survival Forest til ˚a forutse om ett rør var i god eller d˚arlig tilstand gode resultater, nesten identisk med Support Vector Machine, gitt en sannsynlighetsterskel p˚a 0.88. Til slutt viser studien at lengden p˚a avløpsrøret er den viktigste variabelen, da den sannsynligvis opptrer som en stedfortreder for en ukjent variabel. Sewer systems serves as critical infrastructure for a municipality, and as the sewer pipes deteriorates over time, knowledge about their current and future condition is an important part for better planning of rehabilitation and inspection. In Norway, the estimated investments needed for the sewer system the next 20 years is approximately 114 billion NOK. Therefore, utilizing models to predict the condition of the sewer systems will play an important role in the planning of rehabilitation and replacement. The use of machine learning for sewer deterioration modelling has shown good results, but the models requires a significant amount of data, which small municipalities often lack.
This thesis aims to evaluate if a ”Global” sewer deterioration model trained in data from several municipalities can be used to predict the sewer condition in another municipality. This is done using the survival model Random Survival Forest, and the classifier Support Vector Machine. Sewer data from five Norwegian municipalities are used, where four of them are used for training and one for testing, repeated for each municipality. The results from the global model is compared with a local model trained on data from the specific municipality. Further, as the Random Survival Forest has seldomly been used in sewer deterioration modelling, its output are compared on a network level against the GompitZ model, and on the pipe level against the Support Vector Machine. Furthermore, the feature importance of the different models are addressed and discussed.
Results from the study indicates that sewer deterioration models can be transferred between representative municipalities, and the performance scores for both models shows that they are significantly better than guessing in most cases. For the comparability, the Random Survival Forest achieved reasonable survival curves laying between the pessimistic and optimistic curves derived with the GompitZ model. Nevertheless, the curves for the transition probabilities between the good pipes differs significantly for pipes younger than 50 years due to deviation in the initial survival probability. Furthermore, using the Random Survival Forest for predicting good and bad pipes gave almost identical predictions as the Support Vector Machine, using a probability cutoff of 0.88. Lastly, the feature importance study indicates the pipe length as the most important variable, probably serving as a proxy for an unknown variable.