Site-specific probabilistic forecast for avalanches
Abstract
Formålet med denne avhandlingen er å etablere og validere en statistisk metode for stedsspesifikk probabilistisk varsling for snøskred. En probabilistisk varsling er en varsling som kombinerer prediksjoner og usikkerheten til prediksjonene til et varsel. Å kunne kvantifisere usikkerheten i prediksjonene er viktig for lokal skredvarsling. Et snøskred som treffer en åpen vei kan sette folks liv i fare. En stengt vei vil gi økonomiske kostnader og påvirke de som er avhengige av veien.
Snøskredvarsling i Norge i dag er et manuelt utstedt varsel av faregrad. Varselet er laget av en ekspert basert på observasjoner av snøkvaliteten, værobservasjoner, værvarsel og mer. Det har tidligere blitt gjort forsøk på å automatisere skredvarsler. Tidligere forskning har indikert at ulike maskinlæringsalgoritmer kan brukes til å varsle snøskred.
Denne avhandlingen foreslår og validerer ulike statistiske og maskinlæringsmetoder for en case-studie. Case-studien som er valgt, er to vintersesonger fra den skredutsatte veistrekningen Holmbuktura i Troms fylke i Nord-Norge. Holmbuktura er valgt siden det brukes en radar til å detektere snøskred ved å se på termisk aktivitet. Radaren har flere år med deteksjonsdata på skredutløsninger i flere skredløp. Værvarsler og værobservasjoner tilgjengelig dagen før varslingen brukes som forklaringsvariabler. I tillegg inkluderes daglige skreddeteksjoner fra satellitter i et nærliggende område. Målet er å etablere metoder for probabilistisk varsel av daglige skredantall basert på disse forklaringsvariablene. De foreslåtte og utforskede metodene er ulike typer generaliserte lineære modeller, trebaserte metoder og nærmeste nabo-metoden. Ensemblemetoder som kombinerer ulike varsler undersøkes også. For å validere de foreslåtte metodene beregnes mean continuous ranked probability score and root mean squared error basert på kryssvalidering. I tillegg gjøres en visuell inspeksjon basert på PIT-diagrammer. Modellene sammenlignes også med to baselinemodeller; (1) En generalisert lineær modell med faregrad som den eneste forklaringsvariabelen og (2) en generalisert lineær modell uten forklaringsvariabler.
Analysen fant at probabilistiske ensemblemodeller var best til å varsle antall skred. De presterer bedre enn begge baselinemodellene. Prediksjonene fra random forest var den viktigste forklaringsvariablen i ensemblemodellene. The aim of this research is to establish and validate a statistical method for a sitespecific probabilistic forecast for avalanche releases. A probabilistic forecast is a forecast combining both predictions and uncertainty of predictions. To be able to quantify the uncertainty of predictions is important for local avalanche forecasting.An avalanche hitting an open road could endanger the life of people in the area. A closed road can have economical and human consequences.
Avalanche forecasting in Norway today is a manual warning issued as a danger level by an expert forecaster based on observations of the snow quality and the weather, weather forecasts, and more. There has been attempts to automate avalanche warnings. Earlier research has indicated that different machine learning algorithms can be used to forecast avalanches.
In this thesis, different statistical and machine learning methods are suggested and validated for a case study. The case study chosen is two winter seasons from the avalanche-prone road stretch, Holmbuktura in Troms County, in Northern Norway. The reason for choosing Holmbuktura is the existence of a radar detecting thermal activity, which has multiple years of detection data on avalanche releases in several avalanche paths. Weather forecasts and weather observations available the day before the prediction are used as explanatory variables. In addition, daily avalanche count from satellite detection from a nearby area are included as explanatory variables. Our goal is to establish methods for probabilistic one-day-ahead daily avalanche count forecasts based on these explanatory variables. The methods suggested and explored are different types of generalized linear models, tree-based methods, and the method of nearest neighbours. Ensemble methods combining different forecasts are also explored. To validate the suggested method we calculate mean continuous ranked probability score and root mean squared error based on cross-validation and do visual inspection based on PIT-diagrams. The resulting models are compared to two baseline models; (1) A generalized linear model with danger level as the only explanatory variable and (2) a generalized linear modelwithout explanatory variables.
The analysis found that probabilistic ensemble models was best at forecasting avalanche count. It performs better than both baseline models. The predictions from the random forest are the most important input for the ensemble models.