Vis enkel innførsel

dc.contributor.advisorLekkas, Anastasios
dc.contributor.authorAngelsen, Lars Mansåker
dc.date.accessioned2021-09-23T18:07:39Z
dc.date.available2021-09-23T18:07:39Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:20978023
dc.identifier.urihttps://hdl.handle.net/11250/2780929
dc.description.abstractDenne oppgaven utvider funksjonaliteten til instans-segmenterings arkitekturen "Mask RCNN" ved å inkludere en modul for retningsestimering. Senere blir modifiserte versioner av "Integrated Gradients" og LIME brukt til å generere kjennetegn-attribusjoner for retningsestimatene. Det tredje eksperimentet forsøker å øke arkitekturens ytelse ved å inkludere dybdeinformasjon sammen med bildene. Disse eksperimentene er motivert av et ønske om å forbedre situasjonsforståelsen tilbudt av datasyn-systemer brukt i maritime applikasjoner. Denne oppgaven kan bli oppsummert i fire punkter. Den fortsatte utviklingen av programmet for syntetisk marimt datasett generering legger fundamentet for de tre eksperimentene i denne oppgaven. Den endelige versjonen kan generere cirka 600 syntetiske bilder i timen uten å behøve menneskelig arbeid. Bildene inkluderer nå dybdekart nøyaktige på pikselnivå, som kan brukes til å simulere forskjellige sensorsystemer, samt mer informasjon om objektene i bildet. Det syntetiske datasettet brukt i eksperimentene var generert med 150 3D modeller av maritime fartøy og besto av 22000 bilder. Det første eksperimentet basert på det syntetiske datasettet diskutert overfor utforsker hvordan "Mask RCNN"-arkitekturen kan bli modifisert for å predikere retningen på oppdagede objekter i tillegg til dens normale prediksjoner. Tre metoder blir implementert og sammenlignet med hverandre. En som predikerer retningen som en enslig enhetsvektor, en som predikerer en enhetsvektor per definerte klasse og senere velger den som passer med klassifikasjonsresultatet, og en som omformulerer problemet til et sett med klassifikasjonsproblerer og senere produserer den endelige retningen gjennom en "mean shift"-grupperingsalgoritme. Under testingen oppnådde metoden basert på klassifikasjonsomformuleringen den høyeste ytelsen med en medianAE på 10.46 grader. Sammenlignet med mennesker (N = 29), presterer de tre modellene på et tilsvarende nivå. Det andre eksperimentet presenterer to modifiserte algorimer for kjennetegn-attribusjon, basert på "Integrated Gradients" og LIME. Disse utfører kjennetegn-attribusjon for retningsprediksjoner laget av metoden som produserer en enslig enhetsvektor. Disse metodene blir første validert på et enkelt datasett, som begge yter bra på, før de blir brukt til på prediksjoner laget for det syntetiske maritime datasettet. I denne siste applikasjonen oppnår metoden basert på LIME merkbart dårligere ytelse enn metoden basert på "Integrated Gradients". Kjennetegn-attribusjonen indikerer at Mask RCNN modellen bruker en miks av kjennetegn med høy semantisk verdi samt et par med lavere semantisk verdi i sine prediksjoner. Det tredje og siste eksperimentet sjekker hvordan tilgang til dybdeinformasjon påvirker ytelsen til Mask RCNN arkitekturen gjennom å inkludere dybdekart som en fjerde bildekanal i tillegg til de eksisterende RGB-kanalene. Eksperimentet implementerer også en lærbar teknikk for inklusjon av dybdeinformasjon hvor dybdekartene blir gradvis kombinert med nettverket internt i "Mask RCNN"-modellen. Ingen av de to metodene med tilgang til dybdeinformasjon oppnådde en særlig bedre ytelse enn modellen uten tilgang. Denne oppgaven fortsetter arbeidet i Explainability of Instance Segmentation Models Trained on Synthetic Datasets, prosjektoppgaven fra 2019 som er forgjengeren til denne masteroppgaven.
dc.description.abstractThis thesis expands the functionality of the instance segmentation architecture Mask RCNN by including a heading estimation module. Later, modified versions of the Integrated Gradients and LIME methods are used to generate feature attributions for the heading predictions. The third experiment tries to improve the architecture's performance by including depth information along with its normal visual input. These experiments are motivated by the desire to improve the situational awareness offered by computer vision systems when used in maritime applications. The thesis can be summarized in four points. The continued development of the synthetic maritime dataset generation software lays the foundation for the three experiments in this thesis. The final version can generate about 600 synthetic samples per hour without the need for human labour. The samples include pixel-accurate depth maps, which can be used to simulate various sensor systems, along with more information about the objects in the image. The synthetic datasets featured in the experiments were created using 150 3D models of maritime vessels and consisted of 22000 samples. The first experiment explores how the Mask RCNN architecture can be modified to predict the heading of detected objects in addition to its normal predictions. Three methods are implemented and compared to each other. One that predicts the heading as a single unit vector, one that predicts one heading vector per defined class and later selects the vector corresponding to the classification result, and one that reformulates the problem to a set of classification problems and produces the final heading through the mean shift clustering algorithm. During testing, the method based on the classification reformulation achieved the highest performance with a medianAE of 10.46 degrees. When compared to humans (N = 29), the three models performed within the bounds of human performance. The second experiment presents two modified feature attribution algorithms, based on Integrated Gradients and LIME. These perform feature attributions for the heading predictions made by the heading estimation method utilizing a single vector. These methods are first validated on a simple toy dataset, on which they both perform fine, before they are used on heading predictions made for the synthetic maritime dataset. In this last application, the LIME based method performs notably worse than the Integrated Gradients based method. The feature attributions indicate that the Mask RCNN model uses a mix of highly semantic features and a few more basic features in its predictions. The third and final experiment checks how access to depth information impacts the performance of the Mask RCNN architecture by passing depth maps as a fourth image channel along with the preexisting RGB channels. It also implements a learnable depth-information fusion technique in which the depth maps are gradually combined with the feature maps internally in the feature extractor of the Mask RCNN model. In the end, neither of the modifications yielded an appreciable performance increase. This thesis furthers the work started in Explainability of Instance Segmentation Models Trained on Synthetic Datasets, the project thesis from 2019 preceding this master's thesis.
dc.language
dc.publisherNTNU
dc.titleExperiments on the Mask RCNN Architecture with Synthetic Maritime Datasets
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel