• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for ingeniørvitenskap (IV)
  • Institutt for vareproduksjon og byggteknikk
  • View Item
  •   Home
  • Fakultet for ingeniørvitenskap (IV)
  • Institutt for vareproduksjon og byggteknikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Gjenkjenning av anleggsobjekter fra ortofoto med dyplæring

Wilthil, William; Wojcinski, Olaf; Nissen-Sollie, Herman
Bachelor thesis
Thumbnail
View/Open
no.ntnu:inspera:301413854:356323684.pdf (20.21Mb)
URI
https://hdl.handle.net/11250/3203898
Date
2025
Metadata
Show full item record
Collections
  • Institutt for vareproduksjon og byggteknikk [1196]
Abstract
Denne oppgaven er utført på oppdrag fra Skanska Norge, som ønsker en effektiv metode for å auto-

matisere kontrollarbeid i sine prosjekter. Spesielt når det gjelder lokalisering og klassifisering av

anleggsobjekter i ortofoto. Arbeidet er avgrenset til tre objekttyper: kumlokk, lyktestolper og trekke-

kummer.

For å løse denne oppgaven er det valgt å benytte dyplæringsmodeller. Arbeidet har omfattet

innhenting av bildedata fra ortofoto, annotering av bilder, trening og evaluering av modeller, samt

implementering og testing i fjernmålingsanalyse. Målet har vært å undersøke hvorvidt dagens dy-

plæringsmodeller egner seg til deteksjon av anleggsobjekter i ortofoto og om de kan brukes i praktisk

analyse.

Det ble testet syv ulike deteksjonsmodeller med forskjellige skaleringer. Fem av modellene er

CNN-baserte versjoner av YOLO (versjon 5, 8, 9, 10 og 11), og det ble kjørt fem ulike skaleringer

for hver. I tillegg ble to transformerbaserte, DETR-inspirerte modeller testet: Deformable DETR og

DINO-DETR, med to skaleringer hver.

Resultatene viser at det er mulig å trene ulike dyplæringsmodeller til å oppnå god ytelse på or-

tofoto og at de kan brukes direkte i GIS-programvare. Den beste modellen, YOLOv5x, oppnådde en

mAP@0.5 på 0,738, med gjennomsnittlig presisjon rundt 0,92 for både kumlokk og trekkekummer.

Lyktestolper viste seg å være mer utfordrende grunnet støy og «spøkelser» i datagrunnlaget, og opp-

nådde en AP@0.5 på kun 0,38 med YOLOv5x. Likevel ble denne modellen valgt for implementering i

GIS-programvare. Ytelsen ble lavere ved implementering, men YOLO-modellene utmerker seg med

rask trening, lav inferenstid og enkel validering. Dette gjør dem spesielt godt egnet for praktisk bruk.

Blant de transformerbaserte modellene var DINO-DETR med ResNet-50 best, og selv om den

totalt sett presterte marginalt svakere enn YOLOv5x, leverte den noe bedre resultater på lyktestolper

med en AP@0.5 på 0,4.

Gruppen mener at ytterligere justeringer og modelloptimalisering kan gi enda bedre resultater.

Det vises allerede at enkelte typer objekter, som kumlokk og trekkekummer, kan detekteres med høy

presisjon. Derfor konkluderes det med at dyplæringsmodeller egner seg godt til deteksjon av flere

typer anleggsobjekter i dronebaserte ortofotoer, selv i komplekse anleggsmiljøer.
 
This thesis was carried out on behalf of Skanska Norway, which seeks an efficient method to auto-

mate inspection processes in its projects. Specifically for the localization and classification of con-

struction objects in orthophotos. The work has been limited to three types of construction objects:

manhole covers, streetlights, and cable vaults.

To solve this task, deep learning models were selected. The work involved extracting image data

from orthophotos, annotating images, training and evaluating models, as well as implementing and

testing in remote sensing analysis. The goal has been to assess whether current deep learning models

are suitable for detecting construction objects in orthophotos and whether they can be applied in

practical analysis.

Seven different detection models with various scaling configurations were tested. Five of these

are CNN-based YOLO models (versions 5, 8, 9, 10, and 11), each tested with five different scales.

Additionally, two transformer-based DETR-inspired models were evaluated: Deformable DETR and

DINO-DETR, each tested with two scale variants.

The results show that it is possible to train different deep learning models to achieve good per-

formance on orthophotos, and that they can be applied directly in GIS software. The best-performing

model, YOLOv5x, achieved a mAP@0.5 of 0.738, with a precision of around 0.92 for both manhole

covers and cable vaults. Streetlights proved to be more challenging due to noise and ghost artifacts

in the dataset, resulting in an AP@0.5 of only 0.38 for YOLOv5x. Despite this, YOLOv5x was chosen

for implementation in GIS software. The model performed slightly worse during implementation,

but YOLO models excel in training time, inference speed, and ease of validation, making them par-

ticularly well-suited for practical use.

Among the transformer-based models, DINO-DETR with ResNet-50 was the best performer. Alt-

hough it had a lower overall performance compared to YOLOv5x, it showed slightly better results

for streetlights, with an AP@0.5 of 0.4.

The group believes that with the right adjustments and further optimization, even better per-

formance can be achieved. In this work, it has been shown that some types of objects, such as

manholes and cable vaults, can be detected with a high level of precision. The group concludes that

deep learning models are well-suited for detecting many types of construction objects in drone-based

orthophotos, even in complex environments.
 
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit