Adaptive Robust Loss Functions in 6DOF Camera Pose Estimation by Inverting Gaussian Splats
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3154909Utgivelsesdato
2024Metadata
Vis full innførselSamlinger
Sammendrag
I dette verket presenterer me integreringa av eit allerie eksisterande rammeverk for estimering av kameraorientering i seks grader av fridom ved å invertera Gaussiske flekk-modellar saman med adaptive og robuste kostnadsfunksjonar. Så vidt me veit, er dette det fyrste rammeverket som innlemar ei slik løysing. Kameraorienteringsestimeringa samanliknar den noverande framstillinga av eit bilete frå modellen med søkebiletet og reknar ut differansen mellom desse. Denne feilestimeringa består av to modular. Den fyrste nyttar samsvarande punkt frå særdrag på tvers av bileta og reknar ut den euklidske lengda mellom dei. Den andre modulen, samanliknar pikselverdiar direkte ved å sjå på feil frå piksel til piksel. Ved å invertera den Gaussiske flekk-prosessen kan me rekna ut gradienten til kostnadsfunksjonen med omsyn til kameraorienteringa. Ved å nytta gradientinformasjonen kan me utføra gradientnedstiging for å utføra optimeringsprosessen. Ettersom det til ein stor grad er eit nærvær av uteliggande verdiar, nyttar me adaptive og robuste kostnadsfunksjonar på kostnadsfunksjonen til prosessen.
Med dette kan me presentera funna våre på ein kort og konsis måte. For det fyrste viser me at det å leggja til adaptive og robuste kostnadsfunksjonar gjer prosessen meir fleksibel og kompleks. Me kan med dette øka konvergensen til estimeringsproblemet. Denne ytelsesforbedringa er sterkt avhengig av gode initialvilkår på initialverdiane på robusthetsparameterane. Me kan uansett sjå at den auka kompleksiteten fører til eit aukande tidsbruk i prosessen, samt at det ikkje er trivielt å finna gode initialvilkår på verdiane.
For det andre viser me at robusthetsparameterane kan båe identifisera og tilpassa seg vidt ulike fordelingar av uteliggande verdiar på tvers av datasett og forskjellige steg av optimeringa. I tillegg viser me at forskjellige datasett har forskjellige slike fordelingar.
For det tredje viser me at initialvilkåra til robusthetsparameterane er i stand til å påvirka ytinga til optimeringsprosessen. Ettersom optimeringsproblemet er ikkje-konvekst, kan dårlege initialvilkår på robusthetsparameterane indusera feil i dei andre parameterane. Denne feila kan føra til at optimeringa konvergerer til eit lokalt minimum i staden for det globale. Me viser òg at å leggja til forskjellige robusthetsparametere på dei forskjellige modulane gjer oss i stand til å identifisera dei varierande fordelingane mellom modulane. Denne endringa kan auka ytinga, men legg til ein ekstra kompleksitet slik at eit kompromiss mellom kompleksitet og auka yting må takast omsyn til. This work presents the integration of an already existing 6 degrees of freedom camera pose estimation framework by inverting Gaussian Splatting models with adaptive robust loss functions, which to the best of our knowledge is the first instance of its kind. The camera pose estimation compares a currently rendered image with the query image to calculate the difference between these. The loss function comprises two modules. The matching module matches features between the images and calculates the Euclidean distance between them, whereas the render module calculates the direct pixel-to-pixel error. By inverting the Gaussian Splatting process we can find the gradient of the loss function with respect to the camera pose. Through the Gaussian Splatting models the gradient information from the loss is available, such that gradient descent can be performed. To further adjust for different outlier distributions in the data, we apply adaptive robust loss functions to the loss.From this, we can summarize our findings. First of all, we show that adding an adaptive robust kernel makes the pipeline more flexible and complex. It can indeed enhance the convergence of the camera pose estimation pipeline. However, this performance depends on proper initialization values of the robustness parameters. Still, the added complexity induces a longer computation time and these initialization values can be nontrivial to find.Secondly, we see that the robustness parameters can identify and adapt to different outlier distributions from scene to scene, iteration to iteration. We clearly show that the different datasets show different outlier distributions.Thirdly, we show that the initial values of the robustness parameters can affect the performance of the pipeline. As the problem is non-convex, the induction of errors in the other parameters from the badly initialized robustness parameters can make the pipeline converge to local minima. Also, we show that adding different robustness parameters to the different modules can better discern the varying outlier distributions between them. Although this addition is novel and can increase performance, a compromise between added complexity and slightly better performance should be taken into consideration. Keywords: adaptive robust kernels, camera pose estimation, Gaussian Splatting.