Landslide Susceptibility MappingUsing Machine Learning A comparative study of automated machine learning and random forest for landslide susceptibility mapping in Vestland county, Norway
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3142512Utgivelsesdato
2024Metadata
Vis full innførselSamlinger
- Institutt for geografi [1115]
Sammendrag
Løsmasseskred representerer en betydelig og økende trussel mot infrastruktur og bebyggelse iNorge, med prognoser som indikerer en økning i alvorlighetsgrad grunnet klimaendringer.Denne studien har vurdert anvendeligheten av maskinlæringsalgoritmer for kartlegging avaktsomhetsområder for løsmasseskred for Vestland fylke i Norge. Et datasett med historiskeskredregistreringer, samt registreringer fra individuelle skredhendelser, ble brukt somgrunndata for klassifiseringen. Et utvalg av femten betingende faktorer ble benyttet, somomfatter morfologiske, geologiske, arealressurs-relaterte, hydrologiske og antropogenefaktorer.
To forskjellige maskinlæringsmetoder ble utforsket; den etablerte Random Forest (RF)-algoritmen og en automatisert maskinlæringsmodell (Auto-Sklearn). Maskinlæringsprosesseninkluderte variabelvalg for å redusere multikollinearitet og forbedre modellens ytelse, medfokus på å fjerne overflødige og irrelevante prediktorer. De to modellene ble trent på ettreningsområde på 6 478 km² for å klassifisere prøvene enten som skredutsatte eller ikkeskredutsatte. Dette ble definert som en binær klassifisering, hvor resultatene ble uttrykt somsannsynlighetsgrad og visualisert gjennom et aktsomhetskart. Modellene ble videre validertgjennom testdata og på et eksternt valideringsområde på 1 798 km² for å vurdere deresprediktive nøyaktighet og generaliserbarhet på usette data.Begge modellene viste høy nøyaktighet (88%) på testdata. RF-modellen oppnådde en AUCverdi på 0,96 og Auto-Sklearns flerlags perceptron nevralt nettverk hadde en AUC-verdi på0,95. Flerlags perceptron-modellen viste også færre falske positive og predikerte flere faktiskeskred enn RF-modellen. De to modellene ble testet på eksternt valideringsdata for å vurderegeneraliserbarhet; RF-modellens nøyaktighet falt til 76% med en AUC-verdi på 0,87, mensflerlags perceptron-modellen opprettholdt høyere nøyaktighet (81%) og en AUC-verdi på 0,9.Analysene i denne studien viser at automatisert maskinlæring effektivt kan optimalisere enalgoritme for det spesifikke datasettet brukt i denne studien, og overgikk den tradisjonelle RFalgoritmen. Algoritmen viser sterk robusthet og evne til å predikere skred utenfor området denble trent på.
RF-modellen identifiserte avstand til vei, topografisk ruhet, løsmassetype 130 (Bart fjell / fjellmed tynt torvdekke), gjennomsnittlig årlig nedbør og vegetasjonsindeksen som de viktigsteforklaringsvariablene. Dette funnet demonstrerer romlig bias i databasen for registrerteskredhendelser, hvor skredregistreringene er overrepresentert langs veinettverket. Fjerning avvei-assosierte forklaringsvariabler påvirket imidlertid ikke modellens prediksjonsnøyaktighetnegativt i stor grad. Videre ble en modell som fokuserte utelukkende på forklaringsvariableneskråning, plankurvatur og akkumulert overflatestrømming testet; modellen underprestertebetydelig, noe som understreker nødvendigheten av å inkludere et bredt utvalg av relevantefaktorer for robust prediksjon. Viktigheten av disse variablene må betraktes i sin kontekstuellesammenheng og kan ikke nødvendigvis generaliseres til andre regioner.Det resulterende aktsomhetskartet viser potensial for å nøyaktig identifisere områder utsatt forskred, spesielt innenfor samme området som modellen ble trent på. Metoden som ble utvikleti dette studiet viser størst potensial for prediksjon på lokalt og regionalt nivå, og kan oppnåstørre nøyaktighet i forhold til det det etablerte aktsomhetskartet av NGU. Nytteverdien tilaktsomhetskartet begrenses imidlertid av kvaliteten på det underliggende skreddataen som ertilgjengelig, noe som understreker behovet for bedre datakvalitet for å forbedre prediksjonen.
Hele samlingen av koder som støtter resultatene rapportert i denne studien er tilgjengelig i enonline GitHub-kolleksjon. Denne kolleksjonen inneholder all kode som er nevnt gjennomoppgaven og er essensiell for å kunne reprodusere de rapporterte resultatene:https://github.com/ErlendOkland/LSM-Repository.git In Norway, landslides in soil represent a significant and escalating threat to infrastructure andresidential areas, with projections indicating an increase in severity due to climate change.This study evaluated the applicability of machine learning algorithms for landslidesusceptibility mapping (LSM) for the Vestland county in Norway. A dataset of historiclandslide registries, together with event inventories, were used as the ground truth data for theclassification task. A selection of fifteen conditioning factors were employed, encompassingmorphological, geological, land cover-related, hydrological and anthropogenic factors.Two different machine learning (ML) approaches was explored; The established RandomForest (RF) algorithm and an automated machine learning algorithm (Auto-Sklearn). Themachine learning process involved feature selection to mitigate multicollinearity and enhancemodel performance, focusing on removing redundant and irrelevant predictors. The twomodels were trained on a training area of 6,478 km² to classify the data samples as landslideor non-landslide, treating the ML task as a binary classification and expressing the results inthe form of a probability in order to produce susceptibility maps. The models were alsovalidated through the test data and on an external validation area of 1,798 km² to assess theirpredictive accuracy and generalizability on unseen data.
Both models demonstrated high accuracy (88%) on test data, with the RF model achieving anAUC score of 0.96 and Auto-Sklearn’s multilayer perceptron reaching 0.95. The multilayerperceptron model also showed fewer false positives and predicted more actual landslides thanthe RF model. When tested on external validation data to assess generalizability, the RFmodel’s accuracy fell to 76% with an AUC of 0.87, while the multilayer perceptron modelmaintained higher accuracy (81%) and an AUC of 0.9. This suggests that automated machinelearning can effectively optimize algorithms for specific datasets and outperforms traditionalmodels, indicating robustness and the capability of the models to predict landslides acrossvarying geographical regions.
The RF model identified distance to roads, Topographic Ruggedness Index, surficial depositclass 130 (bare rock/thin turf cover), average annual precipitation, and Normalized DifferenceVegetation Index as key variables influencing landslide susceptibility, highlighting a spatialbias with an overrepresentation of landslide registries near roads. Despite this, removing roadassociated variables only slightly impacted model effectiveness. A model focusing solely onslope, planform curvature, and water contributing area underperformed, underscoring the necessity of incorporating a diverse array of factors for robust prediction. This variableimportance may not be generalizable to other regions with distinct characteristics.The landslide susceptibility map developed in this study demonstrates potential for accuratelyidentifying high-risk areas within trained regions, offering a detailed tool for municipalplanning over existing national maps. However, its utility is limited by the quality of theunderlying landslide inventory, emphasizing the need for improved data accuracy forenhanced prediction accuracy.
The entire collection of codes that supports the results reported in this thesis is available in theonline GitHub repository. This repository contains all the code mentioned throughout thisstudy and is essential for replicating the reported results. You can access the repository at:https://github.com/ErlendOkland/LSM-Repository.git