Segmentation and pose estimation of objects in RGB-D data using deep learning
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2625663Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Maskinsyn er en stadig viktigere del av moderne industri og . Den overordnede maskinvisjonsprosessen bestar av bildetakning, analyse av bilder og informasjonshenting. Dype ˚læringsteknikker, spesielt konvolusjonelle nevrale nettverk, er toppmoderne metoder ibildeanalyse og sceneforstaelse. De har vist imponerende resultater i oppgaver som objek- ˚tklassifisering, objektdeteksjon og bildesegmentering.Denne oppgaven kombinerer maskinlæring med 3D-datasyn for a evaluere hvordan dype ˚nevrale nettverk kan segmentere og estimere posisjon og orientering i 3D-data. RGBbilder henter fra 3D-data tatt med Zivid-kamera, brukes som input til to dype nevralenettverk, LinkNet og Mask R-CNN, for segmentering. LinkNet utfører binær segmentering, mens Mask R-CNN segmenterer hver instanse for seg. De genererte maskene fra deto nevrale nettverkene brukes til a segmentere 3D-dataene. Segmenterte 3D-data fra Mask ˚R-CNN brukes videre til a estimere posisjon og orientasjon for objekter i scenen. ˚Resultater fra ekpserimenter viser at segmentering og posisjonsestimering pa data tatt med ˚Zivid kamera er oppnaelig. Binær segmentering var bare i stand til delvis segmentere ˚dataen, mens Mask R-CNN klarte a segmenterte de ulike objektene i dataen. Trenings- ˚data og syntetiske data gir numeriske og visuelle bekreftelse pa gode segmenteringer, som ˚brukes til a underbygge resultater fra data tatt med Zivid-kamera. Pose estimering er ˚gjort ved hjelp av fast global registrering. Uten a optimalisere registreringsmetoden er ˚resultatene overraskende gode, med mindre feil i translasjon og orientering for de flestetilfellene Machine vision has become an increasingly important part of modern industry. The overall machine vision process often includes imaging, analysis of images, and informationextraction. Deep learning techniques, especially convolutional neural networks (CNNs),is the state-of-the-art in image analysis and scene understanding. They have shown impressive results in tasks such as object classification, detection, and segmentation.This thesis combines machine learning with 3D computer vision by evaluating how deepneural networks can segment and estimate the pose of 3D data. Extracted RGB imagesfrom 3D data captured by Zivid camera, is used as input to two deep neural networks,namely LinkNet34 and Mask R-CNN, for segmentation. LinkNet34 performs binary segmentation, and Mask R-CNN computes instance segmentation. The outputted mask fromthese two networks is used to segment the 3D data. Segmented 3D data from instancesegmentation is used in pose estimation of objects in the scene.Experiment results prove that segmentation and pose estimation on data captured by Zividcamera is achievable. Binary segmentation was only able to partially segment data, whileMask R-CNN successfully segmented the different objects in the input image. Trainingdata and synthetic data gives numerically and visually verification of performance. This isused to substantiate results from data captured by Zivid camera. Pose estimation is doneusing fast global registration. Without optimizing the registration method, the results aresurprisingly good, with small errors in translation and rotation for most cases.