Vis enkel innførsel

dc.contributor.advisorLudvigsen, Martin
dc.contributor.authorSkjølsvik, Fabian
dc.date.accessioned2019-10-17T14:05:35Z
dc.date.available2019-10-17T14:05:35Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2622932
dc.description.abstractDenne masteroppgaven tar sikte på å utnytte en etablert Convolutional Neural Network (CNN) basert detekteringsmetode for å undersøke dens ytelse når det kommer til å automatisk klassifisere og lokalisere strukturer og komponenter på havdypet. Modellen vil be trent på bildedata av en datamodellert struktur og testet på virkelig bildedata av den samme strukturen. Dette er gjort ved å implementere, trene og teste modellen YOLOv3 til å detektere top delen og ventilkomponenter av en Pig Loop Modul (PLM), lokalisert på ca 100m dybde i Trondheimsfjorden. Resultatet vil være en detekteringsmodell som automatisk kan klassifisere og lokalisere objekter av interesse på havbunnen uten behov for tid og ressursbruken det vil kreve å samle omfattende mengde av ekte bildedata. Ved ytterligere testing kan metoden potensielt bidra til en høyere grad av autonomi ved inspeksjon-, vedlikehold- og reparasjons-operasjoner under vann. Datasettet som brukes til å trene detekteringsmodellen ble laget ved å modellere toppdelen av PLM-strukturen ved hjelp av CAD-programvare. Modellen ble deretter animert for å simulere en ubemannet undervanns farkost som inspiserer strukturen fra forskjellige vinkler og i ulike scenarioer. Treningsbildene ble deretter hentet fra disse animasjonene. YOLOv3-modellen ble trent på to forskjellige sammensetninger av treningssettet. Først ved å bruke et treningssett bestående av 2790 bilder av bare CAD-data fra 3D-modellen. For det andre, på et treningssett bestående av 138 ekte bilder fjernet fra valideringsdatasettet og lagt til det eksisterende treningssettet av computer generert bildedata. Dette treningssettet besto av totalt 2928 bilder, med en sammensetning på 96% CAD-bildedata og 4% ekte bildedata. Modellen ble for begge treningssettene testet på verifikasjonsbilder ved tre forskjellige bildeoppløsninger; 608x608,416x415 og 220x220 piksler. I tillegg ble gjennomsnittlig nøyaktighet beregnet over IoU-tersklene 25%, 50% og 75% for hver inngangsoppløsning. Den høyeste treffsikkerheten ble oppnådd for modellen trent på hybriddatasettet, ved bruk av 608x608 pikseloppløsning på verifikasjonsbildene. Modellen registrerte en total gjennomsnittlig treffsikkerhet på 68,3% med en hastighet på 42,71 bilder per sekund. Ved detektering på samme inngangsoppløsning, men med modell trent på det første treningssettet, oppnådd gjennomsnittlig treffsikkerhet var 29,6% med en detekteringshastighet på 46,34 bilder per sekund. Dette viste at det å legge til ekte bildedata til treningssettet, økte total nøyaktigheten betraktelig over de to målklassene, spesielt for detektering av PLM topp mål. PLM topp treffsikkerhet kan derimot være urealistisk høy i dette tilfellet på grunn av at ekte bildedata lagt til treningssettet kom fra nøyaktig samme miljø som verifiseringsbildene. Derfor bør ytterligere testing gjøres på nye virkelige bildedata for å undersøke modellens tilpasningsevne. Å senke bildeoppløsningen på verifiseringssettet, viste en forventet nedgang i treffsikkerhet, og tilsvarende øking i detekteringshastighet. Den raskeste modellen som fortsatt var å anse som nokså treffsikker, detekterte 66.02 bilder per sekund med en treffsikkerhet på 40.8\% med 416x416 pikseloppløsning. Dersom treffsikkerhet og hastighets kompromisset blir tatt i betrakting, viste resultater fra bounding box prediksjoner og gjennomsnittlig treffsikkerhet av de separate klassene at modellen dekteterte ventiler med høy treffsikkerhet ved alle tre bildeoppløsninger. Med det formål å automatisk detektere ventil-mål på en PLM, YOLOv3 er forventet å automatisk klassifisere og lokalisere slike komponenter når presentert for ny bildedata. Kilden til at ventil prediksjon totalt sett anses som mer stabil enn PLM top prediksjoner over de ulike bildeoppløsningene kommer av det faktum at modellen var trent på bildedata som inneholdt et betydelig høyere antall ventil-mål enn PLM topp-mål. Denne masteroppgaven konkluderer med at den CNN baserte detekteringsmodellen YOLOv3 viser lovende resultater mtp detektering av en undervannsstruktur og dens komponenter på ca 100m havdyp. Resultatene viser videre potensialet for en modell som YOLOv3 til å bli brukt i inspeksjons-, vedlikeholds- og reparasjons operasjoner til å automatisk klassifisere og lokalisere objekter av interesse under vann.
dc.description.abstractThis master thesis aims to utilize an established Convolutional Neural Network (CNN) based detection method to investigate its performance on detecting structures and components at deep sea. The model will be trained on data from a computer aided design (CAD) of the structure, and tested on real pixel images of the same structure. This is done by implementing, training and testing the detection model YOLOv3 to detect the top part and valve components of a Pig Loop Module (PLM), located at approximately 100m depth in Trondheimsfjorden. The result will be a detection model able to automatically classify and localize objects of interest at deepsea without the need of time and resources to collect an extensive amount of real pixel image data of the structure. With further testing, the method can potentially contribute to a higher degree of autonomy in underwater inspections, maintenance and repair (IMR) operations. The dataset used to train the detection model was obtained by modeling the top part of the PLM structure using CAD software. The model was then animated to simulate an UUV inspecting the structure from different angles and in different scenarios. Finally, the training set images were retrieved from the animation frames. The YOLOv3 model was trained on two different compositions of the training set. First by using a training set consisting of 2790 images of only computer generated image data from the 3D model. Secondly, on a training set were 138 real pixel images were removed from the validation dataset and added to the training set. Making up a final training set of 2928 images, split in 96% computer generated data and 4% real image data of the structure. The model for both training cases were tested on verification images using three different input resolutions; 608x608, 416x415 and 220x220 pixels. In addition, mean Average Precision was calculated over IoU thresholds 25%, 50% and 75% for each input resolution. The highest accuracy was obtained for model trained on the hybrid dataset, detecting on verification image resolution of 608x608 pixels. The model recorded a total mAP of 68.3% while detecting at a rate of 42.71 frames per second (FPS). Detecting at at the same input resolution while trained on the first training set, the model achieved an accuracy of 29.6% in mAP detecting at 46.34 FPS. This showed adding real pixel data to the training set, significantly increased the total accuracy over the two target classes, but especially for detection of PLM top targets. However, the PLM top accuracy could be unrealistically high when trained on the hybrid dataset, due to real pixel training images coming from the same environment as the verification images. Therefore, further testing should be done on new real image data to investigate the models adaptability detecting top targets. Lowering image input resolution showed an expected accuracy-speed trade off. The fastest model still deemed fairly accurate for both classes, detected at 66.02 FPS at 40.8% mAP using a 416x416 resolution. For the separate classes, bounding box predictions and mAP showed accurate results detecting valve targets for all input resolutions, taking the speed-accuracy trade off into consideration. For the purpose of automatically detecting valve targets on a PLM, YOLOv3 trained on either of the training sets used in this thesis is expected to classify and localize such targets in real time when presented new data. The source of valve-target predictions overall being more stable than PLM top predictions over input resolutions comes from the fact that the model was trained on data containing a significantly higher number of valve targets than PLM top targets. The thesis concludes with the CNN based detection model YOLOv3 showing promising results detecting an underwater structure and components at approximately 100m depth. The results indicates further potential of a model such as YOLOv3 to be used in IMR operations for automatically classifying and localizing underwater objects of interest.
dc.languageeng
dc.publisherNTNU
dc.titleUndervanns Objektdetektering ved bruk av en Convolutional Neural Network Basert Deteksjons Modell
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel