Landslide Susceptibility MappingUsing Machine Learning

A comparative study of automated machine learning and random forest for landslide susceptibility mapping in Vestland county, Norway

Økland, Erlend

Økland, Erlend

Master thesis

Åpne

no.ntnu:inspera:190115142:46973993.pdf (24.77Mb)

Permanent lenke

https://hdl.handle.net/11250/3142512

Utgivelsesdato

2024

Metadata

Vis full innførsel

Samlinger

Institutt for geografi [1115]

Sammendrag

Løsmasseskred representerer en betydelig og økende trussel mot infrastruktur og bebyggelse i

Norge, med prognoser som indikerer en økning i alvorlighetsgrad grunnet klimaendringer.

Denne studien har vurdert anvendeligheten av maskinlæringsalgoritmer for kartlegging av

aktsomhetsområder for løsmasseskred for Vestland fylke i Norge. Et datasett med historiske

skredregistreringer, samt registreringer fra individuelle skredhendelser, ble brukt som

grunndata for klassifiseringen. Et utvalg av femten betingende faktorer ble benyttet, som

omfatter morfologiske, geologiske, arealressurs-relaterte, hydrologiske og antropogene

faktorer.

To forskjellige maskinlæringsmetoder ble utforsket; den etablerte Random Forest (RF)-

algoritmen og en automatisert maskinlæringsmodell (Auto-Sklearn). Maskinlæringsprosessen

inkluderte variabelvalg for å redusere multikollinearitet og forbedre modellens ytelse, med

fokus på å fjerne overflødige og irrelevante prediktorer. De to modellene ble trent på et

treningsområde på 6 478 km² for å klassifisere prøvene enten som skredutsatte eller ikkeskredutsatte. Dette ble definert som en binær klassifisering, hvor resultatene ble uttrykt som

sannsynlighetsgrad og visualisert gjennom et aktsomhetskart. Modellene ble videre validert

gjennom testdata og på et eksternt valideringsområde på 1 798 km² for å vurdere deres

prediktive nøyaktighet og generaliserbarhet på usette data.

Begge modellene viste høy nøyaktighet (88%) på testdata. RF-modellen oppnådde en AUCverdi på 0,96 og Auto-Sklearns flerlags perceptron nevralt nettverk hadde en AUC-verdi på

0,95. Flerlags perceptron-modellen viste også færre falske positive og predikerte flere faktiske

skred enn RF-modellen. De to modellene ble testet på eksternt valideringsdata for å vurdere

generaliserbarhet; RF-modellens nøyaktighet falt til 76% med en AUC-verdi på 0,87, mens

flerlags perceptron-modellen opprettholdt høyere nøyaktighet (81%) og en AUC-verdi på 0,9.

Analysene i denne studien viser at automatisert maskinlæring effektivt kan optimalisere en

algoritme for det spesifikke datasettet brukt i denne studien, og overgikk den tradisjonelle RFalgoritmen. Algoritmen viser sterk robusthet og evne til å predikere skred utenfor området den

ble trent på.

RF-modellen identifiserte avstand til vei, topografisk ruhet, løsmassetype 130 (Bart fjell / fjell

med tynt torvdekke), gjennomsnittlig årlig nedbør og vegetasjonsindeksen som de viktigste

forklaringsvariablene. Dette funnet demonstrerer romlig bias i databasen for registrerte

skredhendelser, hvor skredregistreringene er overrepresentert langs veinettverket. Fjerning av

vei-assosierte forklaringsvariabler påvirket imidlertid ikke modellens prediksjonsnøyaktighet

negativt i stor grad. Videre ble en modell som fokuserte utelukkende på forklaringsvariablene

skråning, plankurvatur og akkumulert overflatestrømming testet; modellen underpresterte

betydelig, noe som understreker nødvendigheten av å inkludere et bredt utvalg av relevante

faktorer for robust prediksjon. Viktigheten av disse variablene må betraktes i sin kontekstuelle

sammenheng og kan ikke nødvendigvis generaliseres til andre regioner.

Det resulterende aktsomhetskartet viser potensial for å nøyaktig identifisere områder utsatt for

skred, spesielt innenfor samme området som modellen ble trent på. Metoden som ble utviklet

i dette studiet viser størst potensial for prediksjon på lokalt og regionalt nivå, og kan oppnå

større nøyaktighet i forhold til det det etablerte aktsomhetskartet av NGU. Nytteverdien til

aktsomhetskartet begrenses imidlertid av kvaliteten på det underliggende skreddataen som er

tilgjengelig, noe som understreker behovet for bedre datakvalitet for å forbedre prediksjonen.

Hele samlingen av koder som støtter resultatene rapportert i denne studien er tilgjengelig i en

online GitHub-kolleksjon. Denne kolleksjonen inneholder all kode som er nevnt gjennom

oppgaven og er essensiell for å kunne reprodusere de rapporterte resultatene:

https://github.com/ErlendOkland/LSM-Repository.git

In Norway, landslides in soil represent a significant and escalating threat to infrastructure and

residential areas, with projections indicating an increase in severity due to climate change.

This study evaluated the applicability of machine learning algorithms for landslide

susceptibility mapping (LSM) for the Vestland county in Norway. A dataset of historic

landslide registries, together with event inventories, were used as the ground truth data for the

classification task. A selection of fifteen conditioning factors were employed, encompassing

morphological, geological, land cover-related, hydrological and anthropogenic factors.

Two different machine learning (ML) approaches was explored; The established Random

Forest (RF) algorithm and an automated machine learning algorithm (Auto-Sklearn). The

machine learning process involved feature selection to mitigate multicollinearity and enhance

model performance, focusing on removing redundant and irrelevant predictors. The two

models were trained on a training area of 6,478 km² to classify the data samples as landslide

or non-landslide, treating the ML task as a binary classification and expressing the results in

the form of a probability in order to produce susceptibility maps. The models were also

validated through the test data and on an external validation area of 1,798 km² to assess their

predictive accuracy and generalizability on unseen data.

Both models demonstrated high accuracy (88%) on test data, with the RF model achieving an

AUC score of 0.96 and Auto-Sklearn’s multilayer perceptron reaching 0.95. The multilayer

perceptron model also showed fewer false positives and predicted more actual landslides than

the RF model. When tested on external validation data to assess generalizability, the RF

model’s accuracy fell to 76% with an AUC of 0.87, while the multilayer perceptron model

maintained higher accuracy (81%) and an AUC of 0.9. This suggests that automated machine

learning can effectively optimize algorithms for specific datasets and outperforms traditional

models, indicating robustness and the capability of the models to predict landslides across

varying geographical regions.

The RF model identified distance to roads, Topographic Ruggedness Index, surficial deposit

class 130 (bare rock/thin turf cover), average annual precipitation, and Normalized Difference

Vegetation Index as key variables influencing landslide susceptibility, highlighting a spatial

bias with an overrepresentation of landslide registries near roads. Despite this, removing roadassociated variables only slightly impacted model effectiveness. A model focusing solely on

slope, planform curvature, and water contributing area underperformed, underscoring the necessity of incorporating a diverse array of factors for robust prediction. This variable

importance may not be generalizable to other regions with distinct characteristics.

The landslide susceptibility map developed in this study demonstrates potential for accurately

identifying high-risk areas within trained regions, offering a detailed tool for municipal

planning over existing national maps. However, its utility is limited by the quality of the

underlying landslide inventory, emphasizing the need for improved data accuracy for

enhanced prediction accuracy.

The entire collection of codes that supports the results reported in this thesis is available in the

online GitHub repository. This repository contains all the code mentioned throughout this

study and is essential for replicating the reported results. You can access the repository at:

https://github.com/ErlendOkland/LSM-Repository.git

Utgiver

NTNU