Segmentation and pose estimation of
objects in RGB-D data using deep
learning

Aschehoug, Christian Peter Bech

Aschehoug, Christian Peter Bech

Master thesis

Åpne

no.ntnu:inspera:2508054.pdf (32.06Mb)

no.ntnu:inspera:2508054.zip (24.59Kb)

Permanent lenke

http://hdl.handle.net/11250/2625663

Utgivelsesdato

2019

Metadata

Vis full innførsel

Samlinger

Institutt for teknisk kybernetikk [3787]

Sammendrag

Maskinsyn er en stadig viktigere del av moderne industri og . Den overordnede maskinvisjonsprosessen bestar av bildetakning, analyse av bilder og informasjonshenting. Dype ˚

læringsteknikker, spesielt konvolusjonelle nevrale nettverk, er toppmoderne metoder i

bildeanalyse og sceneforstaelse. De har vist imponerende resultater i oppgaver som objek- ˚

tklassifisering, objektdeteksjon og bildesegmentering.

Denne oppgaven kombinerer maskinlæring med 3D-datasyn for a evaluere hvordan dype ˚

nevrale nettverk kan segmentere og estimere posisjon og orientering i 3D-data. RGBbilder henter fra 3D-data tatt med Zivid-kamera, brukes som input til to dype nevrale

nettverk, LinkNet og Mask R-CNN, for segmentering. LinkNet utfører binær segmentering, mens Mask R-CNN segmenterer hver instanse for seg. De genererte maskene fra de

to nevrale nettverkene brukes til a segmentere 3D-dataene. Segmenterte 3D-data fra Mask ˚

R-CNN brukes videre til a estimere posisjon og orientasjon for objekter i scenen. ˚

Resultater fra ekpserimenter viser at segmentering og posisjonsestimering pa data tatt med ˚

Zivid kamera er oppnaelig. Binær segmentering var bare i stand til delvis segmentere ˚

dataen, mens Mask R-CNN klarte a segmenterte de ulike objektene i dataen. Trenings- ˚

data og syntetiske data gir numeriske og visuelle bekreftelse pa gode segmenteringer, som ˚

brukes til a underbygge resultater fra data tatt med Zivid-kamera. Pose estimering er ˚

gjort ved hjelp av fast global registrering. Uten a optimalisere registreringsmetoden er ˚

resultatene overraskende gode, med mindre feil i translasjon og orientering for de fleste

tilfellene

Machine vision has become an increasingly important part of modern industry. The overall machine vision process often includes imaging, analysis of images, and information

extraction. Deep learning techniques, especially convolutional neural networks (CNNs),

is the state-of-the-art in image analysis and scene understanding. They have shown impressive results in tasks such as object classification, detection, and segmentation.

This thesis combines machine learning with 3D computer vision by evaluating how deep

neural networks can segment and estimate the pose of 3D data. Extracted RGB images

from 3D data captured by Zivid camera, is used as input to two deep neural networks,

namely LinkNet34 and Mask R-CNN, for segmentation. LinkNet34 performs binary segmentation, and Mask R-CNN computes instance segmentation. The outputted mask from

these two networks is used to segment the 3D data. Segmented 3D data from instance

segmentation is used in pose estimation of objects in the scene.

Experiment results prove that segmentation and pose estimation on data captured by Zivid

camera is achievable. Binary segmentation was only able to partially segment data, while

Mask R-CNN successfully segmented the different objects in the input image. Training

data and synthetic data gives numerically and visually verification of performance. This is

used to substantiate results from data captured by Zivid camera. Pose estimation is done

using fast global registration. Without optimizing the registration method, the results are

surprisingly good, with small errors in translation and rotation for most cases.

Utgiver

NTNU