Segmentation and pose estimation of
objects in RGB-D data using deep
learning

Aschehoug, Christian Peter Bech

dc.contributor.advisor	Gravdahl, Jan Tommy
dc.contributor.author	Aschehoug, Christian Peter Bech
dc.date.accessioned	2019-10-31T15:01:24Z
dc.date.issued	2019
dc.identifier	no.ntnu:inspera:35771502:18129778
dc.identifier.uri	http://hdl.handle.net/11250/2625663
dc.description.abstract	Maskinsyn er en stadig viktigere del av moderne industri og . Den overordnede maskinvisjonsprosessen bestar av bildetakning, analyse av bilder og informasjonshenting. Dype ˚ læringsteknikker, spesielt konvolusjonelle nevrale nettverk, er toppmoderne metoder i bildeanalyse og sceneforstaelse. De har vist imponerende resultater i oppgaver som objek- ˚ tklassifisering, objektdeteksjon og bildesegmentering. Denne oppgaven kombinerer maskinlæring med 3D-datasyn for a evaluere hvordan dype ˚ nevrale nettverk kan segmentere og estimere posisjon og orientering i 3D-data. RGBbilder henter fra 3D-data tatt med Zivid-kamera, brukes som input til to dype nevrale nettverk, LinkNet og Mask R-CNN, for segmentering. LinkNet utfører binær segmentering, mens Mask R-CNN segmenterer hver instanse for seg. De genererte maskene fra de to nevrale nettverkene brukes til a segmentere 3D-dataene. Segmenterte 3D-data fra Mask ˚ R-CNN brukes videre til a estimere posisjon og orientasjon for objekter i scenen. ˚ Resultater fra ekpserimenter viser at segmentering og posisjonsestimering pa data tatt med ˚ Zivid kamera er oppnaelig. Binær segmentering var bare i stand til delvis segmentere ˚ dataen, mens Mask R-CNN klarte a segmenterte de ulike objektene i dataen. Trenings- ˚ data og syntetiske data gir numeriske og visuelle bekreftelse pa gode segmenteringer, som ˚ brukes til a underbygge resultater fra data tatt med Zivid-kamera. Pose estimering er ˚ gjort ved hjelp av fast global registrering. Uten a optimalisere registreringsmetoden er ˚ resultatene overraskende gode, med mindre feil i translasjon og orientering for de fleste tilfellene
dc.description.abstract	Machine vision has become an increasingly important part of modern industry. The overall machine vision process often includes imaging, analysis of images, and information extraction. Deep learning techniques, especially convolutional neural networks (CNNs), is the state-of-the-art in image analysis and scene understanding. They have shown impressive results in tasks such as object classification, detection, and segmentation. This thesis combines machine learning with 3D computer vision by evaluating how deep neural networks can segment and estimate the pose of 3D data. Extracted RGB images from 3D data captured by Zivid camera, is used as input to two deep neural networks, namely LinkNet34 and Mask R-CNN, for segmentation. LinkNet34 performs binary segmentation, and Mask R-CNN computes instance segmentation. The outputted mask from these two networks is used to segment the 3D data. Segmented 3D data from instance segmentation is used in pose estimation of objects in the scene. Experiment results prove that segmentation and pose estimation on data captured by Zivid camera is achievable. Binary segmentation was only able to partially segment data, while Mask R-CNN successfully segmented the different objects in the input image. Training data and synthetic data gives numerically and visually verification of performance. This is used to substantiate results from data captured by Zivid camera. Pose estimation is done using fast global registration. Without optimizing the registration method, the results are surprisingly good, with small errors in translation and rotation for most cases.
dc.language	eng
dc.publisher	NTNU
dc.title	Segmentation and pose estimation of objects in RGB-D data using deep learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:2508054.pdf
Størrelse:: 32.06Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:2508054.zip
Størrelse:: 24.59Kb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3663]

Vis enkel innførsel

Segmentation and pose estimation of objects in RGB-D data using deep learning

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)