dc.contributor.advisor | Gravdahl, Jan Tommy | |
dc.contributor.author | Aschehoug, Christian Peter Bech | |
dc.date.accessioned | 2019-10-31T15:01:24Z | |
dc.date.issued | 2019 | |
dc.identifier | no.ntnu:inspera:35771502:18129778 | |
dc.identifier.uri | http://hdl.handle.net/11250/2625663 | |
dc.description.abstract | Maskinsyn er en stadig viktigere del av moderne industri og . Den overordnede maskinvisjonsprosessen bestar av bildetakning, analyse av bilder og informasjonshenting. Dype ˚
læringsteknikker, spesielt konvolusjonelle nevrale nettverk, er toppmoderne metoder i
bildeanalyse og sceneforstaelse. De har vist imponerende resultater i oppgaver som objek- ˚
tklassifisering, objektdeteksjon og bildesegmentering.
Denne oppgaven kombinerer maskinlæring med 3D-datasyn for a evaluere hvordan dype ˚
nevrale nettverk kan segmentere og estimere posisjon og orientering i 3D-data. RGBbilder henter fra 3D-data tatt med Zivid-kamera, brukes som input til to dype nevrale
nettverk, LinkNet og Mask R-CNN, for segmentering. LinkNet utfører binær segmentering, mens Mask R-CNN segmenterer hver instanse for seg. De genererte maskene fra de
to nevrale nettverkene brukes til a segmentere 3D-dataene. Segmenterte 3D-data fra Mask ˚
R-CNN brukes videre til a estimere posisjon og orientasjon for objekter i scenen. ˚
Resultater fra ekpserimenter viser at segmentering og posisjonsestimering pa data tatt med ˚
Zivid kamera er oppnaelig. Binær segmentering var bare i stand til delvis segmentere ˚
dataen, mens Mask R-CNN klarte a segmenterte de ulike objektene i dataen. Trenings- ˚
data og syntetiske data gir numeriske og visuelle bekreftelse pa gode segmenteringer, som ˚
brukes til a underbygge resultater fra data tatt med Zivid-kamera. Pose estimering er ˚
gjort ved hjelp av fast global registrering. Uten a optimalisere registreringsmetoden er ˚
resultatene overraskende gode, med mindre feil i translasjon og orientering for de fleste
tilfellene | |
dc.description.abstract | Machine vision has become an increasingly important part of modern industry. The overall machine vision process often includes imaging, analysis of images, and information
extraction. Deep learning techniques, especially convolutional neural networks (CNNs),
is the state-of-the-art in image analysis and scene understanding. They have shown impressive results in tasks such as object classification, detection, and segmentation.
This thesis combines machine learning with 3D computer vision by evaluating how deep
neural networks can segment and estimate the pose of 3D data. Extracted RGB images
from 3D data captured by Zivid camera, is used as input to two deep neural networks,
namely LinkNet34 and Mask R-CNN, for segmentation. LinkNet34 performs binary segmentation, and Mask R-CNN computes instance segmentation. The outputted mask from
these two networks is used to segment the 3D data. Segmented 3D data from instance
segmentation is used in pose estimation of objects in the scene.
Experiment results prove that segmentation and pose estimation on data captured by Zivid
camera is achievable. Binary segmentation was only able to partially segment data, while
Mask R-CNN successfully segmented the different objects in the input image. Training
data and synthetic data gives numerically and visually verification of performance. This is
used to substantiate results from data captured by Zivid camera. Pose estimation is done
using fast global registration. Without optimizing the registration method, the results are
surprisingly good, with small errors in translation and rotation for most cases. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Segmentation and pose estimation of
objects in RGB-D data using deep
learning | |
dc.type | Master thesis | |