Detection of Naval Vessels using Deep Learning and Aerial Images

Vik, Paul

dc.contributor.advisor	Stahl, Annette
dc.contributor.author	Vik, Paul
dc.date.accessioned	2021-09-23T18:10:30Z
dc.date.available	2021-09-23T18:10:30Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:56990118:20798138
dc.identifier.uri	https://hdl.handle.net/11250/2780944
dc.description.abstract	Omfanget av denne oppgaven er å lage en strømlinjet dyp lærings prosess med mål om å oppdage marinefartøyer fra luftfoto. Prosessen innebærer å lage et tilpasset datasett ved å samle bilder fra NSMs Seahunter-system og markere fartøy i dem. Det genererte datasettet blir deretter brukt til å trene dype nevrale nettverk. Instans-segmenteringsarkitekturer (eng: instance segmentation architectures) ble brukt til dette formålet. Imidlertid ble deres ytelse bare evaluert ved gjennomsnittspoeng for omkretsbokser i stedet for segmenteringsmasker. Denne avgjørelsen ble tatt slik at de individuelle modellene ville være sammenlignbare med tidligere arbeid innen objektdeteksjon. Prosessen med å markere fartøy i bilder med masker er tidkrevende. Denne oppgaven tar for seg dette ved å foreslå initiell automatisk markering for å akselerere denne prosessen. Denne metoden bruker en COCO-forhåndsopplært modell for å generere forslag til markeringer for å redusere antall manuelle markering. Prosessen reduserte den manuelle markeringsbelastningen med 24,16 % på de ekstra bildene som kompletterte det eksisterende datasettet. Totalt ble et treningssett med 3,941 bilder og 4,693 objekter merket med masker. To instans-segmenteringsarkitekturer, Mask-RCNN og Cascade-RCNN, ble valgt for denne oppgaven. Valget ble først og fremst basert på deres nøyaktighet og tilgjengelighet i Detectron2-biblioteket. To hovedtreningsstrategier ble benyttet, overføring av læring og trening fra bunnen av, dvs. full trening av nettverket. En hybrid tilnærming av de to ble foreslått, som var å trene nettverket med ImageNet ferdig trente initialiserte vekter. Hybridtilnærmingen overrasker med bedre ytelse enn både overførte lærte og fullt trente modeller. Mask-RCNN med Resnet50 som ryggrad og trent med hybridtilnærmingen får en avgrensningsboks-AP-poengsum på 44,5 på et testsett med 1 516 bilder. Resultatene indikerer at det er mulig å trene dype nevrale nettverk på mindre datasett ned til 4000 treningsbilder. De indikerer også at fullt trente nettverk er et effektivt alternativ til overføringslæring (eng: transfer learning) -paradigmet innen datasyn.
dc.description.abstract	The scope of this thesis is to create a deep learning pipeline with the aim of detecting naval vessels from aerial imagery. The pipeline involves creating a custom dataset by gathering images from NSMs Seahunter system and annotating them. The generated dataset is subsequently used to train deep convolutional neural networks. Instance segmentation architectures were utilized for this purpose. However, their performance was only evaluated by bounding box average precision scores rather than segmentation scores. This decision was made such that the individual performances would be comparable with previous work within object detection. The process of annotating images with masks is time-consuming. This thesis addresses this by proposing initial automatic annotation to accelerate this process. This method utilizes a COCO pre-trained model to generate annotation proposals to reduce the number of manual annotations. The process reduced the manual annotation load with 24.16 % on the additional images that supplemented the existing dataset. In total, a training set of 3,941 images and 4,693 objects were annotated with masks. Two instance segmentation architectures, Mask-RCNN and Cascade-RCNN, were selected for this thesis. The choice was made primarily based on their widely proven accuracy and accessibility within the Detectron2 library. Two main training strategies were utilized, transfer learning and training from scratch, i.e. fully training the network. A hybrid approach of the two was proposed, which was to fully train the network initialized with ImageNet pre-trained weights. The hybrid approach surprisingly outperforms both the transfer learned and the default, fully trained models. Mask-RCNN with Resnet50 as backbone trained with the hybrid approach gains a bounding box AP score of 44.5 on a test set of 1,516 images. The results indicate that it is viable to fully train deep convolutional networks on smaller datasets down to 4,000 training images. They also indicate that fully trained networks are an effective alternative to the transfer learning paradigm within computer vision.
dc.language
dc.publisher	NTNU
dc.title	Detection of Naval Vessels using Deep Learning and Aerial Images
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:56990118:20798 ...
Size:: 24.00Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for teknisk kybernetikk [3669]

Show simple item record