Gjenkjenning av anleggsobjekter fra ortofoto med dyplæring
Abstract
Denne oppgaven er utført på oppdrag fra Skanska Norge, som ønsker en effektiv metode for å auto-matisere kontrollarbeid i sine prosjekter. Spesielt når det gjelder lokalisering og klassifisering avanleggsobjekter i ortofoto. Arbeidet er avgrenset til tre objekttyper: kumlokk, lyktestolper og trekke-kummer.For å løse denne oppgaven er det valgt å benytte dyplæringsmodeller. Arbeidet har omfattetinnhenting av bildedata fra ortofoto, annotering av bilder, trening og evaluering av modeller, samtimplementering og testing i fjernmålingsanalyse. Målet har vært å undersøke hvorvidt dagens dy-plæringsmodeller egner seg til deteksjon av anleggsobjekter i ortofoto og om de kan brukes i praktiskanalyse.Det ble testet syv ulike deteksjonsmodeller med forskjellige skaleringer. Fem av modellene erCNN-baserte versjoner av YOLO (versjon 5, 8, 9, 10 og 11), og det ble kjørt fem ulike skaleringerfor hver. I tillegg ble to transformerbaserte, DETR-inspirerte modeller testet: Deformable DETR ogDINO-DETR, med to skaleringer hver.Resultatene viser at det er mulig å trene ulike dyplæringsmodeller til å oppnå god ytelse på or-tofoto og at de kan brukes direkte i GIS-programvare. Den beste modellen, YOLOv5x, oppnådde enmAP@0.5 på 0,738, med gjennomsnittlig presisjon rundt 0,92 for både kumlokk og trekkekummer.Lyktestolper viste seg å være mer utfordrende grunnet støy og «spøkelser» i datagrunnlaget, og opp-nådde en AP@0.5 på kun 0,38 med YOLOv5x. Likevel ble denne modellen valgt for implementering iGIS-programvare. Ytelsen ble lavere ved implementering, men YOLO-modellene utmerker seg medrask trening, lav inferenstid og enkel validering. Dette gjør dem spesielt godt egnet for praktisk bruk.Blant de transformerbaserte modellene var DINO-DETR med ResNet-50 best, og selv om dentotalt sett presterte marginalt svakere enn YOLOv5x, leverte den noe bedre resultater på lyktestolpermed en AP@0.5 på 0,4.Gruppen mener at ytterligere justeringer og modelloptimalisering kan gi enda bedre resultater.Det vises allerede at enkelte typer objekter, som kumlokk og trekkekummer, kan detekteres med høypresisjon. Derfor konkluderes det med at dyplæringsmodeller egner seg godt til deteksjon av fleretyper anleggsobjekter i dronebaserte ortofotoer, selv i komplekse anleggsmiljøer. This thesis was carried out on behalf of Skanska Norway, which seeks an efficient method to auto-mate inspection processes in its projects. Specifically for the localization and classification of con-struction objects in orthophotos. The work has been limited to three types of construction objects:manhole covers, streetlights, and cable vaults.To solve this task, deep learning models were selected. The work involved extracting image datafrom orthophotos, annotating images, training and evaluating models, as well as implementing andtesting in remote sensing analysis. The goal has been to assess whether current deep learning modelsare suitable for detecting construction objects in orthophotos and whether they can be applied inpractical analysis.Seven different detection models with various scaling configurations were tested. Five of theseare CNN-based YOLO models (versions 5, 8, 9, 10, and 11), each tested with five different scales.Additionally, two transformer-based DETR-inspired models were evaluated: Deformable DETR andDINO-DETR, each tested with two scale variants.The results show that it is possible to train different deep learning models to achieve good per-formance on orthophotos, and that they can be applied directly in GIS software. The best-performingmodel, YOLOv5x, achieved a mAP@0.5 of 0.738, with a precision of around 0.92 for both manholecovers and cable vaults. Streetlights proved to be more challenging due to noise and ghost artifactsin the dataset, resulting in an AP@0.5 of only 0.38 for YOLOv5x. Despite this, YOLOv5x was chosenfor implementation in GIS software. The model performed slightly worse during implementation,but YOLO models excel in training time, inference speed, and ease of validation, making them par-ticularly well-suited for practical use.Among the transformer-based models, DINO-DETR with ResNet-50 was the best performer. Alt-hough it had a lower overall performance compared to YOLOv5x, it showed slightly better resultsfor streetlights, with an AP@0.5 of 0.4.The group believes that with the right adjustments and further optimization, even better per-formance can be achieved. In this work, it has been shown that some types of objects, such asmanholes and cable vaults, can be detected with a high level of precision. The group concludes thatdeep learning models are well-suited for detecting many types of construction objects in drone-basedorthophotos, even in complex environments.