A Transformer-Based Approach to Detecting Impervious Surfaces in Urban Areas
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3161431Utgivelsesdato
2024Metadata
Vis full innførselSamlinger
Sammendrag
Deteksjon av ugjennomtrengelige overflater har fått økt betydning gjennom urbanisering. Denne oppgaven utforsker to tilnærminger for å detektere ugjennomtrengelige overflater: en direkte metode som retter seg mot å detektere ugjennomtrengelige overflater direkte, og en indirekte metode som identifiserer gjennomtrengelige overflater for å isolere de ugjennomtrengelige. Studien legger vekt på påvirkningen spektralsignaturer har på deteksjonsnøyaktighet og undersøker deres effekt på presisjon og resultater.
Eksperimentet benyttet Cross-Modal Fusion transformer-modellen, som integrerer RGB-bilder og NDVI-indeksen for å lage semantiske kart. Resultatene viser ytelsesforskjeller mellom de direkte og indirekte metodene, hvor den direkte metoden oppnådde en høyere total Intersection over Union (IoU) på 84,31\% sammenlignet med 48,05\% for den indirekte metoden. Visuell inspeksjon indikerer imidlertid at begge metodene sammenlignes relativt likt, der den direkte metoden underestimerer ugjennomtrengelige overflater og den indirekte metoden overvurderer ugjennomtrengelige overflater. For å støtte denne forskningen ble et nytt datasett som dekker 180 kvadratkilometer i Trondheim-regionen opprettet. Både manuell annotering og en NDVI ble brukt for å forbedre datasettet utover det FKB ga. En økning på 2\% i treningsdata gjennom manuell annotering forbedret resultatene med 7\%, noe som viser en betydelig effekt. Eksperimentet indikerte også en økning på 18\% i IoU sammenlignet med kun å bruke RGB-bilder for å oppdage ugjennomtrengelige overflater.
Studien identifiserer vedvarende utfordringer, som å skaffe tilstrekkelige og nøyaktige treningsdata, og viser forbedringene som oppnås ved å inkludere NDVI som et fjerde bånd. Denne inkluderingen fremhever hvordan tilleggsinformasjon fra spektraldata kan forbedre modellens ytelse, og gir en mer omfattende forståelse og nøyaktig påvisning av ugjennomtrengelige overflater. Detection of impervious surfaces has gained increased importance with urbanization. This thesis explores two approaches for detecting impervious surfaces: a direct method that targets impervious surfaces directly, and an indirect method that identifies pervious surfaces to isolate impervious ones. The study emphasizes the influence of spectral signatures on detection accuracy and examines their effect on precision and results.
The experiment employed the Cross-Modal Fusion transformer model, integrating RGB images and the NDVI index to create semantic maps. Results reveal performance differences between the direct and indirect methods, with the direct method achieving a higher overall Intersection over Union (IoU) of 84.31\% compared to 48.05\% for the indirect method. However, visual inspection indicates that both methods compare relatively similarly, where the direct method underestimates impervious surfaces and the indirect overestimates impervious surfaces. To support this research, a new data set covering 180 square kilometers in the Trondheim region was created. Both manual labeling and an NDVI threshold method were used to enhance the data set beyond what FKB alone provided. A 2\% increase in training data through manual labeling improved results by 7\%, demonstrating a significant impact. The experiment also indicated an increase of 18\% in IoU compared to only using RGB images to detect impervious surfaces.
The study identifies persistent challenges, such as acquiring sufficient and accurate training data, and shows the improvements achieved by incorporating NDVI as a fourth band. This inclusion highlights how additional spectral information can enhance the model's performance, providing a more comprehensive understanding and accurate detection of impervious surfaces.