Vis enkel innførsel

dc.contributor.advisorStahl, Annette
dc.contributor.advisorMisimi, Ekrem
dc.contributor.authorKongsgård, Sondre Bø
dc.date.accessioned2019-10-31T15:07:35Z
dc.date.issued2019
dc.identifierno.ntnu:inspera:35771502:14848067
dc.identifier.urihttp://hdl.handle.net/11250/2625706
dc.description.abstractEnkelt-vis formfullføring omhandler problemet hvor målet er å estimere den komplette geometrien fra delvise observasjoner av objekter, noe som er essensielt i mange applikasjoner innen datasyn og robotikk. Denne oppgaven kan anses som en prosess som oppjusterer oppløsningen til den gitte dataen. Siden den manglende dataen ikke kan finnes direkte må den istedet finnes implisitt ved å sammenligne den delvise observasjonen med lignende geometrier i et datasett. Nåværende formfullføringsmetoder bruker strukturelle antakelser om den underliggende formen, men dette begrenser de potensielle bruksområdene og generaliserbarheten til det resulterende persepsjonssystemet. I de senere år har dyp læring forbedret ytelsen betydelig av mange applikasjoner innen datasyn, inkludert 3D maskinlæring anvendt på formfullføring. Selv om populariteten til dyp læring har økt markant, så er det ikke alltid lett å anvende disse metodene til applikasjoner i den virkelige verden. Relatert arbeid innen dyp læring for formfullføring har foreløpig gitt særdeles begrensede resultater for overføring av de lærte metodene til den virkelige verden. Enten er den resulterende geometrien ganske grov (dvs. svært lav oppløsning) eller så passer den ikke helt med den gitte delvise observasjonen. I denne avhandlingen undersøker jeg om det å dele opp formfullførings-oppgaven til flere dype læringsarkitekturer kan være gunstig for å tilpasse de læringsbaserte metodene til den virkelige verden. Ved å definere problemet som en serie med komponenter (semantisk forekomstsegmentering, punktskyregistrering og isolert formfullføring) kan jeg fullt utnytte de siste fremskrittene innen hvert felt. Dermed vil inngangs- og utgangsdataen for hver komponent være mer lik den dataen som er brukt under treningen, og som er tilpasset hver komponent, og dermed minke gapet mellom treningsmiljøet og virkelige anvendelser. Denne tilnærmingen danner også et grunnlag for et rammeverk som kan påbygges videre. Hver komponent i det resulterende persepsjonssystemet kan byttes ut med framtidige utbedrede metoder. Det foreslåtte persepsjonssystemet kan forutsi 3D-formen til de utvalgte objektene i en scene. Siden prediksjonene kommer direkte fra nevrale nettverk uten bruk av noen optimeringsmetoder, så kan hele formfullføringen gjøres på omtrent ett sekund, noe som betyr at systemet kan brukes i sanntidsapplikasjoner. Videre kan treningen av modellene gjøres i et simuleringsmiljø, slik at datagenerering forenkles og kostnader vedrørende tilpassing av systemet til nye anvendelser reduseres. Disse fordelene er iboende til den nevnte metoden, og motiverer derfor sterkt framtidig forskning på det foreslåtte persepsjonssystemet.
dc.description.abstractSingle-view shape completion entails the problem of estimating the complete geometry of objects from a single partial observation, and is at the core of many vision and robotics applications. This task could be considered an upsampling process, as the goal is to introduce new data that cannot be directly inferred from the given data, but which can be implied by comparing the partial scan to similar geometries in a prior dataset. Existing shape completion methods use structural assumptions about the underlying shape, but this limits the potential usage and the generalization of the resulting perception system. In recent years, deep learning has significantly improved the performance of many applications in computer vision, including 3D machine learning problems such as shape completion. Even though its popularity has escalated, it is not always easy to apply deep learning to real-world problems. Especially in the related work for deep learning on shape completion there has so far only been limited results in successfully transferring the final agents from inferring complete shapes of the objects used in the training dataset to those found in depth scans of the real world. Either the resulting geometries are very coarse (i.e. considerably low resolution) or they do not fully match the given partial observations. In this thesis, I investigate whether splitting the shape completion agent into multiple deep learning architectures might be helpful in adapting the learning-based methods to the real-world domain. By defining the problem as a series of components including semantic instance segmentation, point cloud registration, and shape completion in isolation, I am able to fully utilize the latest advances in the state-of-the art of the respective fields. Consequently, the input and output from each component is made more similar to the data used during training (which is customized for each component) and thus narrows the gap between the training environment and real-world applications. This approach also constitutes a framework which can be further built upon. In particular, each component in the perception system can be exchanged for future improved methods in the literature. The proposed perception system predicts the 3D shape of the objects of interest in a scene. Since predictions are inferred directly from neural networks and no optimization methods are used, shape completion is done in the order of about a second, which means that the system can be used for online processing applications. Furthermore, training of the models can be done using a simulation environment, which simplifies the generation of data and reduces cost of adapting the system to new applications. These advantages are inherent to the presented approach, and thus strongly motivates future research on the proposed framework.
dc.languageeng
dc.publisherNTNU
dc.titleA Deep Learning-Based 3D Vision Pipeline for Shape Completion of 3D Objects
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel