Vis enkel innførsel

dc.contributor.advisorGravdahl, Jan Tommy
dc.contributor.authorAschehoug, Christian Peter Bech
dc.date.accessioned2019-10-31T15:01:24Z
dc.date.issued2019
dc.identifierno.ntnu:inspera:35771502:18129778
dc.identifier.urihttp://hdl.handle.net/11250/2625663
dc.description.abstractMaskinsyn er en stadig viktigere del av moderne industri og . Den overordnede maskinvisjonsprosessen bestar av bildetakning, analyse av bilder og informasjonshenting. Dype ˚ læringsteknikker, spesielt konvolusjonelle nevrale nettverk, er toppmoderne metoder i bildeanalyse og sceneforstaelse. De har vist imponerende resultater i oppgaver som objek- ˚ tklassifisering, objektdeteksjon og bildesegmentering. Denne oppgaven kombinerer maskinlæring med 3D-datasyn for a evaluere hvordan dype ˚ nevrale nettverk kan segmentere og estimere posisjon og orientering i 3D-data. RGBbilder henter fra 3D-data tatt med Zivid-kamera, brukes som input til to dype nevrale nettverk, LinkNet og Mask R-CNN, for segmentering. LinkNet utfører binær segmentering, mens Mask R-CNN segmenterer hver instanse for seg. De genererte maskene fra de to nevrale nettverkene brukes til a segmentere 3D-dataene. Segmenterte 3D-data fra Mask ˚ R-CNN brukes videre til a estimere posisjon og orientasjon for objekter i scenen. ˚ Resultater fra ekpserimenter viser at segmentering og posisjonsestimering pa data tatt med ˚ Zivid kamera er oppnaelig. Binær segmentering var bare i stand til delvis segmentere ˚ dataen, mens Mask R-CNN klarte a segmenterte de ulike objektene i dataen. Trenings- ˚ data og syntetiske data gir numeriske og visuelle bekreftelse pa gode segmenteringer, som ˚ brukes til a underbygge resultater fra data tatt med Zivid-kamera. Pose estimering er ˚ gjort ved hjelp av fast global registrering. Uten a optimalisere registreringsmetoden er ˚ resultatene overraskende gode, med mindre feil i translasjon og orientering for de fleste tilfellene
dc.description.abstractMachine vision has become an increasingly important part of modern industry. The overall machine vision process often includes imaging, analysis of images, and information extraction. Deep learning techniques, especially convolutional neural networks (CNNs), is the state-of-the-art in image analysis and scene understanding. They have shown impressive results in tasks such as object classification, detection, and segmentation. This thesis combines machine learning with 3D computer vision by evaluating how deep neural networks can segment and estimate the pose of 3D data. Extracted RGB images from 3D data captured by Zivid camera, is used as input to two deep neural networks, namely LinkNet34 and Mask R-CNN, for segmentation. LinkNet34 performs binary segmentation, and Mask R-CNN computes instance segmentation. The outputted mask from these two networks is used to segment the 3D data. Segmented 3D data from instance segmentation is used in pose estimation of objects in the scene. Experiment results prove that segmentation and pose estimation on data captured by Zivid camera is achievable. Binary segmentation was only able to partially segment data, while Mask R-CNN successfully segmented the different objects in the input image. Training data and synthetic data gives numerically and visually verification of performance. This is used to substantiate results from data captured by Zivid camera. Pose estimation is done using fast global registration. Without optimizing the registration method, the results are surprisingly good, with small errors in translation and rotation for most cases.
dc.languageeng
dc.publisherNTNU
dc.titleSegmentation and pose estimation of objects in RGB-D data using deep learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel