Recognition and Motion Tracking of 3D Objects
Abstract
I denne oppgaven presenteres en anvendelig løsning for både gjenkjenning og tracking av objekter. Basert på en litteraturstudie og erfaring fra den innledende prosjektoppgaven blir en oppdatert løsning først foreslått. Denne løsningen består blant annet av en LineMOD-detektor og en påfølgende klyngeanalyse for å bestemme posisjonen til potensielt samsvarende objekter. Kombinert med en unik strategi for å finne korrekt rotasjon er deteksjon-løsningen i stand til å bestemme objektets stilling med økt presisjon. Den oppdaterte løsningen foreslår også en ny "state-of-the-art" regionbasert Gaussisk tracker (RBGT) for å estimere stillingen til oppdagede objekter. Til tross for noen veldig lovende resultater kan denne fargebaserte trackeren likevel streve i enkelte tilfeller som følge av utilstrekkelige fargemodeller og tvetydige konturer. På bakgrunn av dette foreslås flere tilleggsstrategier for å forbedre den totale ytelsen. Dette inkluderer en glissen, men likevel effektiv fremgangsmåte for å utnytte dybdedata. I tillegg presenteres en løsning for å detektere og korrigere unøyaktige rotasjonsestimater. Resultatet av disse tilleggsstrategiene er vist fram i flere eksperimenter, og viser en generell forbedring i ytelse for trackeren. In this thesis, a highly viable framework solution is presented for both object recognition and motion tracking. Based on a literature study and experience from the preliminary project thesis, a revised solution is first proposed. This solution includes the multi-modality LineMOD detector and a subsequent translation clustering for determining the position of potential object matches. Combined with a unique strategy for finding the correct object rotation, the detector solution is able to provide initial object poses with increased precision. The revised solution furthermore proposes a novel state-of-the-art region-based Gaussian tracker (RBGT) for estimating the pose of detected objects. Despite showing some very promising results, the RBGT still struggles in some cases due to inadequate appearance models and contour ambiguity. Consequently, some additional strategies are suggested in order to improve the overall performance of the framework. This includes a sparse, yet efficient approach for utilizing depth image information, complementing the color-only RBGT. In addition, a solution for drift detection and correction is proposed, which further improves the robustness and precision of the tracker. The results of these additions are showcased in multiple experiments, demonstrating an overall improvement in tracking performance.