Show simple item record

dc.contributor.advisorStahl, Annette
dc.contributor.authorVik, Paul
dc.date.accessioned2021-09-23T18:10:30Z
dc.date.available2021-09-23T18:10:30Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:20798138
dc.identifier.urihttps://hdl.handle.net/11250/2780944
dc.description.abstractOmfanget av denne oppgaven er å lage en strømlinjet dyp lærings prosess med mål om å oppdage marinefartøyer fra luftfoto. Prosessen innebærer å lage et tilpasset datasett ved å samle bilder fra NSMs Seahunter-system og markere fartøy i dem. Det genererte datasettet blir deretter brukt til å trene dype nevrale nettverk. Instans-segmenteringsarkitekturer (eng: instance segmentation architectures) ble brukt til dette formålet. Imidlertid ble deres ytelse bare evaluert ved gjennomsnittspoeng for omkretsbokser i stedet for segmenteringsmasker. Denne avgjørelsen ble tatt slik at de individuelle modellene ville være sammenlignbare med tidligere arbeid innen objektdeteksjon. Prosessen med å markere fartøy i bilder med masker er tidkrevende. Denne oppgaven tar for seg dette ved å foreslå initiell automatisk markering for å akselerere denne prosessen. Denne metoden bruker en COCO-forhåndsopplært modell for å generere forslag til markeringer for å redusere antall manuelle markering. Prosessen reduserte den manuelle markeringsbelastningen med 24,16 % på de ekstra bildene som kompletterte det eksisterende datasettet. Totalt ble et treningssett med 3,941 bilder og 4,693 objekter merket med masker. To instans-segmenteringsarkitekturer, Mask-RCNN og Cascade-RCNN, ble valgt for denne oppgaven. Valget ble først og fremst basert på deres nøyaktighet og tilgjengelighet i Detectron2-biblioteket. To hovedtreningsstrategier ble benyttet, overføring av læring og trening fra bunnen av, dvs. full trening av nettverket. En hybrid tilnærming av de to ble foreslått, som var å trene nettverket med ImageNet ferdig trente initialiserte vekter. Hybridtilnærmingen overrasker med bedre ytelse enn både overførte lærte og fullt trente modeller. Mask-RCNN med Resnet50 som ryggrad og trent med hybridtilnærmingen får en avgrensningsboks-AP-poengsum på 44,5 på et testsett med 1 516 bilder. Resultatene indikerer at det er mulig å trene dype nevrale nettverk på mindre datasett ned til 4000 treningsbilder. De indikerer også at fullt trente nettverk er et effektivt alternativ til overføringslæring (eng: transfer learning) -paradigmet innen datasyn.
dc.description.abstractThe scope of this thesis is to create a deep learning pipeline with the aim of detecting naval vessels from aerial imagery. The pipeline involves creating a custom dataset by gathering images from NSMs Seahunter system and annotating them. The generated dataset is subsequently used to train deep convolutional neural networks. Instance segmentation architectures were utilized for this purpose. However, their performance was only evaluated by bounding box average precision scores rather than segmentation scores. This decision was made such that the individual performances would be comparable with previous work within object detection. The process of annotating images with masks is time-consuming. This thesis addresses this by proposing initial automatic annotation to accelerate this process. This method utilizes a COCO pre-trained model to generate annotation proposals to reduce the number of manual annotations. The process reduced the manual annotation load with 24.16 % on the additional images that supplemented the existing dataset. In total, a training set of 3,941 images and 4,693 objects were annotated with masks. Two instance segmentation architectures, Mask-RCNN and Cascade-RCNN, were selected for this thesis. The choice was made primarily based on their widely proven accuracy and accessibility within the Detectron2 library. Two main training strategies were utilized, transfer learning and training from scratch, i.e. fully training the network. A hybrid approach of the two was proposed, which was to fully train the network initialized with ImageNet pre-trained weights. The hybrid approach surprisingly outperforms both the transfer learned and the default, fully trained models. Mask-RCNN with Resnet50 as backbone trained with the hybrid approach gains a bounding box AP score of 44.5 on a test set of 1,516 images. The results indicate that it is viable to fully train deep convolutional networks on smaller datasets down to 4,000 training images. They also indicate that fully trained networks are an effective alternative to the transfer learning paradigm within computer vision.
dc.language
dc.publisherNTNU
dc.titleDetection of Naval Vessels using Deep Learning and Aerial Images
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record