Regressing 6D Pose Using a Symmetry-Aware Intermediate Representation

Gjertsen, Adrian

dc.contributor.advisor	Egeland, Olav
dc.contributor.author	Gjertsen, Adrian
dc.date.accessioned	2023-10-03T17:21:42Z
dc.date.available	2023-10-03T17:21:42Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:146977797:35324541
dc.identifier.uri	https://hdl.handle.net/11250/3093892
dc.description.abstract	I denne masteroppgaven utforskes muligheten for å gjøre registrerings metoden SurfEmb raskere ved bruk av dyp læring, inspirert av den mest moderne metoden GDRNPP. GDRNPP er en oppgradering av en tidligere metode ved navn GDR-Net, og av de to finnes det kun en artikkel om GDR-Net. SurfEmb bruker dyp læring til å lage en unik og nyskapende måte å representere korrespondanser ved å transformere piksler og punkter på objektet til et felles vektorrom. Med dette finner de en sannsynlighetsfordeling over overflaten til et objekt for en gitt piksel, som gjør at de kan representere symmetriene til et objekt. De bruker så PnP-RANSAC for å finne translasjon og rotasjon, som tar lang tid i forhold til et nøyralt nettverk. GDR-Net bruker dyp læring til å finne mer tradisjonelle en-til-en korrespondanser, og løser problemet med symmetrier ved å lage et separat symmetri-bevisst bilde som kartlegger symmetriene. Dette er en mindre kompakt måte å representere symmetrier på enn SurfEmbs. De mater begge disse til et annet nettverk som kan estimere posisjon og rotasjon, som går mye raskere enn SurfEmbs PnP-RANSAC metode. I denne oppgaven utforskesen kombinasjon av SurfEmb og GDR-Net ved å bruke dyp læring til å finne rotasjon og translasjon direkte fra SurfEmb sin representasjon, som så vidt jeg vet ikke har blitt gjort før. Resultatene tilsier at det er omtrent 20 ganger raskere enn SurfEmb, men 2-4 ganger mer unøyaktig enn SurfEmb og GDR-Net. Treningen og arkitekturen av modellene mine har sannsynligvis flere mangeler som kan fikses, og det vil sannsynligvis øke nøyaktigheten. Intern testing på egne modeller indikerer at det ikke er noen forskjell på om man bruker GDR-Net sine korrespondanser eller SurfEmb sine. Om dette fortsatt stemmer når modellene forbedres er uavklart.
dc.description.abstract	In this masters thesis the possibility of speeding up a pose estimation method called SurfEmb by using deep learning is investigated, inspired by another method, the current state of the art GDRNPP. GDRNPP is an improvement of an earlier method called GDR-Net, and of the two only GDR-Net has a paper available. SurfEmb uses deep learning to find a novel correspondence representation by embedding pixels and object points to a shared embedded space, enabling them to represent symmetries of the object. From the embeddings they build correspondences as probability distributions and use a PnP-RANSAC scheme to find a pose, the latter of which is very time consuming. GDR-Net regresses a more traditional one-to-one correspondence representation, and solves the issue of symmetries by also regressing a separate symmetry map. The symmetry map is a less compact way of representing symmetries than SurfEmbs embeddings. It uses these two as input in a pose regression model to find a pose, which is orders of magnitude faster than SurfEmbs PnP-RANSAC scheme. In this thesis, a combination of the two methods is tested by regressing a pose from SurfEmbs embeddings, which to the best of my knowledge has not been done before. The results indicate that my method is a 20x speedup over SurfEmb, but the average rotation and translation error are between 2-4x greater than SurfEmb and GDR-Net. The training process and model architecture in this thesis likely has multiple short-comings that when fixed will increase the accuracy. Internal testing on a self-made model indicated that regressing a pose from SurfEmbs representation performs equally to regressing from traditional dense correspondences like used in GDR-Net. Whether this holds true for better tuned and trained models is not clear.
dc.language	eng
dc.publisher	NTNU
dc.title	Regressing 6D Pose Using a Symmetry-Aware Intermediate Representation
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:146977797:3532 ...
Størrelse:: 7.948Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:146977797:3532 ...
Størrelse:: 1.218Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for maskinteknikk og produksjon [4013]

Vis enkel innførsel