Enhancing Model Performance in Deep Learning for MLS Point Cloud Classification
Description
Full text not available
Abstract
For sikker navigasjon i automatisk kjøring kreves nøyaktig informasjon om veien og dens omgivelser. 3D-punktskyer gir detaljert romlig informasjon og nøyaktige avstandsmålinger fra kjøretøyet til objekter i veimiljøet. Det finnes få tilgjengelige datasett som inneholder skannede objekter. Modeller trent på datagenererte objekter kan ha problemer med å klassifisere skannede objekter riktig. Derfor utvikles det i denne masteroppgaven et nytt datasett egnet for trening av CNN-er, kalt TR7, som består av MLS-punktskyer av veimiljø i Trondheim kommune. Dynamic Graph CNN (DGCNN) utmerker seg blant ulike modeller for dyp læring, og viser lovende resultater. DGCNN har imidlertid noen svakheter, deriblant at modellen hovedsakelig fokuserer på punkter innenfor lokale nabolag og bruker en enkel tilnærming for å aggregere egenskaper til en global representasjon. For å forbedre disse svakhetene introduserer denne masteroppgaven DGCNN med Spatial Attention og Pyramid Pooling (SAPP-DGCNN). Spatial Attention assisterer modellen med å fokusere på de mest relevante romlige egenskapene hos objekter, og er god til å oppdage relasjoner mellom egenskaper utenfor lokale nabolag. I tillegg implementeres det en multi-skala pooling-operasjon med lærbare vekter for å oppnå mer informative globale egenskaper på ulike nivå og samtidig tillate modellen å dynamisk justere viktigheten av de ulike pooling-operasjonene. Eksperimentelle resultater viser at SAPP-DGCNN oppnår en nøyaktighet på 95,86 %, noe som resulterer i en økt nøyaktighet på 0,92 % sammenlignet med DGCNN når modellene er trent på TR7-datasettet. SAPP-DGCNN er samtidig mer stabil og generaliserer bedre til nye data, noe som gjør denne modellen mer robust og pålitelig for bruk i praktiske applikasjoner. Autonomous driving requires accurate information about the road and the road surroundings for safe navigation. 3D point clouds provide detailed spatial information with precise distance measurements from the vehicle to different objects in the road environment. There are limited datasets available containing scanned, real-world objects, and models trained on computer-generated data struggle to generalise to real-world objects. Therefore, this thesis develops a new dataset suitable for training a CNN, named TR7, consisting of MLS point clouds of the road environment in Trondheim municipality. Dynamic Graph CNN (DGCNN) stands out among various deep learning models developed for object classification, demonstrating promising results. However, some weaknesses of DGCNN are that it mainly focuses on points within local regions and the use of a simple approach for aggregating features to a global representation. To address these shortcomings, this thesis introduces DGCNN with Spatial Attention and Pyramid Pooling (SAPP-DGCNN). The Spatial Attention mechanism assists the model in focusing on the most relevant features and captures long-range dependencies between points and thereby incorporating global information in features. To obtain more informative global features, a multi-scale pooling operation with learnable weights is incorporated to extract features at different scales and allow the model to dynamically adjust the importance of each pooling operation. Experimental results show that SAPP-DGCNN achieves an overall accuracy of 95.86%, resulting in an increased overall accuracy of 0.92% compared to DGCNN when trained on the TR7 dataset. Results also demonstrate that SAPP-DGCNN is more stable and generalises better to new data, making it more robust and reliable for use in practical applications.