Show simple item record

dc.contributor.advisorMisimi, Ekrem
dc.contributor.advisorTheoharis, Theoharis
dc.contributor.authorSundt, Peder Bergebakken
dc.date.accessioned2021-09-15T16:52:22Z
dc.date.available2021-09-15T16:52:22Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:20585179
dc.identifier.urihttps://hdl.handle.net/11250/2778094
dc.description.abstractVi undersøker i denne oppgaven rekonstruksjon av fullstendige volumetriske 3D modeller fra et enkelt synspunkt, for å gi en robotarm utstyrt med 3D syn ferdigheten til å antyde fasongen til objekter og derav håndtere dem. Dette er en av de grunnleggende utfordringene for robotisert manipulasjon: visuell forståelse. Objektene kan være kun delvis synlig fra et enkelt synspunkt, ettersom de kan være tildekket av andre objekter eller fysiske barrierer. Sådan er det uklarheter løse opp i før robotagenter kan bygge fullstendige 3D modeller av objekter og analysere disse for å gripe dem. Vi tok i bruk den nye maskinlæringsmetoden kjent som nevrale felt, og undersøkte implisitte overflater. Denne læringsparadigmen håndterer fasonger av vilkårlig genus og bruker færre systemresurser enn tidligere toppmoderne metoder basert på eksplisitte fasongrepresentasjoner og konvolusjon. Vår metode for å fullføre 3D fasonger er basert på å søke etter fasonger bedt i et latentrom som best anpasser seg til sensordata. Vi trente dype nevrale nettverk til å representere fasongen til objekter i latentrom ved å approksimere deres fortegnede avstandsfunksjon (SDF): en 3D koordinatfunksjon. Vi eksperimenterte med størrelsen til disse nettverkene, med LReLU og sinus ikke-lineæriterer, og med hvordan å best trene nettverkene på 3D modellene fra YCB datasettet med forskjellige nye regulariseringsmetoder og tapsfunksjoner. Vi oppdaget at det å trene nettverkene med data fra flere forskjellige objekter i hver treningsbunt førte til en økt konvergeringsrate. Vi demonstrerte at det å trene sinusbaserte nettverk med trunkerte avstander og deres romslige deriverte fører til de beste fasonsrekonstruksjonene scoret med Camfer avstand, earth movers distance, mesh cosinussimilærhet og F-score. Vårt hovedbidrag i denne oppgaven var å konstruere et latentrom av ikke bare et bredt utvalg av fasonger, men av kontinuerlig orienterbare fasonger, som effektivt kombinerer fasongrekonstruksjonen med stillingsestimering. Dette motiverte nettverkene til å lære rotasjonsmessig uavhengige fasongtrekk. Vi analyserte hvordan nære fasonger klynget seg sammen og gled mellom hverandre i latentrommene formet av auto-dekodere. Vi foreslo en ny metode for å fordele treningseksemplene gjennom en treningsepoke, for å øke konvergeringsraten. Vi foreslo også en ny metode for å beregne fortegnede avstander fra dybdesensordata tatt fra et enkelt synspunkt i virkeligheten. Vi viste frem hvordan vår modell klarer å fullføre fasonger fra forurenset og bedekket sensordata tatt fra et enkelt synspunkt. Basert på disse resultatene er vår metode et verdifullt bidrag til robotisert visuell forståelse.
dc.description.abstractIn this thesis we investigate 3D shape completion and reconstruction of volumetric objects from a single view, to enable a robot arm controller to make inference of the 3D object's shape during the manipulation stage when equipped with 3D vision. It deals with one of the fundamental problems in robotic object manipulation: perception. Objects may from a single viewpoint be only partially observable by a visual sensor due to various occlusions. As such there are many perception ambiguities to solve before building 3D models of objects, and consequently gripping them, becomes possible. We investigated a machine learning approach based on implicit surfaces, leveraging the novel study of neural fields which has recently become popular. This data-driven learning paradigm handles arbitrary shape topologies and reduce the system requirements by an order of magnitude compared to previous state-of-the-art methods typically based on convolution. Our shape completion method is based on searching for the shape embedded in latent space that best conforms to the single-view observation data, using stochastic gradient decent. We trained deep neural networks, whose input is a single continuous 3D Cartesian coordinate, to represent implicit surfaces in latent space by approximating their signed distance function (SDF). We experimented with the size of these networks, with LReLU and sinusoidal nonlinearities, and with how to best train the networks on the 3D models of the YCB dataset using various novel regularization techniques and loss functions. We showed that supervising sinusoidal networks with a truncated SDF signal and its spatial derivative yield better shape reconstructions, scored with Chamfer distance, earth movers distance, mesh cosine similarity and F-score. The aim and primary contribution of this thesis was to construct a latent space of not only a wide selection of shapes, but of shapes over a continuous space of orientations, effectively combining shape completion with pose estimation. This had the benefit of promoting learning rotationally invariant shape features. We analyzed how similar shapes cluster and transition between each other in latent spaces learned by auto-decoders. We discovered that including multiple objects in each training batch drastically improved the convergence rate. We additionally proposed a method to sample SDF values from real-world depth sensor data. We showcased the ability of our model to perform shape completion on partial and noisy 3D data in a single-view real-world context. Based on these results, our methodology is a valuable contribution to the robotic based single-view 3D shape completion.
dc.languageeng
dc.publisherNTNU
dc.titleSingle-View 3D Shape Completion for Robotic Grasping of Objects via Deep Neural Fields
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record