Semantic SLAM for Dynamic Environments
Abstract
For ti år siden var det høye forventninger til bruk av mobile roboter i kommersiell og industriell virksomhet. Imidertidig, vil mange si at antallet mobile roboter i bruk i virksomhet er skuffende. Vi tror en av hovedårsakene er vanskeligheten i å designe robuste SLAM-systemer med høy ytelse i virkelige omgivelser.
I dag fungerer mange visuelle SLAM-algoritmer godt i ideelle omgivelser, men sliter med å generalisere til mangfoldige virkelige omgivelsene. Det har vært sterk innovasjon innenfor SLAM feltet, men langsiktig kjøring av SLAM er fortsatt en utfordring. Robust ytelse i dynamiske omgivelser er spesielt utfordrende, og slike omgivelser er svært vanlig i både komersiell og industriell virksomhet. Denne oppgaven undersøker hvorfor dynamiske omgivelser er utfordrende for visuell inertial SLAM og hvilke metoder som kan brukes for å forbedre ytelsen.
Hovedbidraget til denne oppgaven er Semantic-Kimera-VIO, en modifisert versjon av Kimera-VIO. Semantic-Kimera-VIO er en stereo inertiell SLAM algoritme med åpen kildekode, designet for dynamiske omgivelser. Vår versjon bruker semantiske segmenteringsbilder for å klassifisere og forkaste visuelle feature punkter fra dynamiske objekter. Vi demonstrerer at vår versjon har en lavere Relativ Posisjon Error (RPE) enn Kimera-VIO på det svært dynamiske VIODE datasettet. There was a strong expectation ten years ago for the adaptation of mobile robots in commercial and industrial applications. Yet, many would say that the number of deployed mobile robots in these settings is disappointing. We believe a significant cause is the difficulty in designing robust SLAM systems capable of high performance in real-world environments.
Today, many visual SLAM algorithms perform well in ideal cases but fail to generalize to diverse real-world scenarios. There have been significant innovations within the field of SLAM, but long-term operations remain difficult. Robust performance in dynamic environments is particularly challenging, and these settings are common in both commercial and industrial applications. This thesis explores the challenges visual inertial SLAM faces in dynamic scenes and methods to improve their performance in these settings.
The main contribution of this thesis is the proposal of Semantic-Kimera-VIO, a modified version of Kimera-VIO. Semantic-Kimera-VIO is an open-source stereo inertial SLAM system designed for dynamic scenes. Our system uses semantic segmentation images to classify and discard image feature points from dynamic objects. We demonstrate that our version outperforms the original Kimera-VIO in terms of Relative Position Error (RPE) on the highly dynamic VIODE datasets.