Maritime Tracking-by-Detection Using Camera and Lidar
Abstract
I tråd med bilindustrien har autonomi blitt et fremragende forskningsfelt også innen maritim sektor. Bilindustrien har gjort betydelige fremskritt innen målfølging ved hjelp av offentlig tilgjengelige datasett som KITTI. Denne oppgaven utforsker flere tilnærminger for målfølging innen visuell målfølging, målfølging i bilindustrien og målfølging i marin autonomi. To forskjellige løsninger for målfølgning for marin autonomi utvikles. I tillegg utvikles en lidarbasert løsning for målfølgning som bruker Joint Integrated Probabilistic Data Association (JIPDA) til dataassosiasjon, for å sammenligne arbeidet.
Den første løsningen støtter bruk av enten stereo kamera eller lidar. Vi omtaler de to konfigurasjonene som Visual Stereo Multi-Object Tracker (VSMOT) og Visual Lidar Multi-Object Tracker (VLMOT). Disse ble utviklet i sammenheng med en akseptert konferanseartikkel som ansees som en del av denne oppgaven. Dataassosiasjonen gjøres i bildedomenet ved bruk av en kjent algoritme for målfølging i bildet. Videre brukes stereo- eller lidardybde med objektmasker fra et nevralt nettverk for å regne ut objektenes posisjoner i et fast verdenskoordinatsystem.
I tillegg utvikles Visual Lidar Simple Online and Realtime Tracking (VLSORT), som har som mål å løse mange av begrensningene til VSMOT og VLMOT. Her fusjoneres kamera- og lidardata, og dataassosiasjon gjøres med verdenskoordinater. Den samme kjente målfølgningsalgoritmen modifiseres til å støtte dataassosiasjon med verdenskoordinater, objekttilstander og okklusjonshåndtering. Rekkevidden og synsfeltet er forbedret, og det skilles mellom irrelevante og relevante objekter å følge. De ulike løsningene testes på data fra et reelt scenario og sammenlignes mot hverandre. Resultatene indikerer at VLSORT faktisk er en forbedring fra de foregående løsningene, men den JIPDA-baserte løsningen presterer på et konkuransedyktig nivå når det gjelder nøyaktighet. Imidlertid har VLSORT ingen falske mål på grunn av dens evne til å filtrere vekk irrelevante objekter. I tillegg sammenligner resultatene stereo og lidar som sensor for målfølging. Resultatene indikerer at stereo kan være sammenlignbart på nært hold, men at lidar er overlegen totalt sett. In line with the automotive community, autonomy has become a growing research field within the maritime domain. The automotive community has made significant research progress in the field of Multi-Object Tracking (MOT) with the help of publicly available benchmarking datasets such as KITTI. This thesis explores several MOT approaches in visual tracking, tracking in the automotive industry, and tracking in marine autonomy. Two different tracking pipelines for marine autonomy are developed, alongside a lidar-based baseline pipeline using Joint Integrated Probabilistic Data Association (JIPDA), which is developed for benchmarking purposes.
The two configurations of the first pipeline are named Visual Stereo MultiObject Tracker (VSMOT) and Visual Lidar Multi-Object Tracker (VLMOT). This pipeline was developed for an accepted conference paper which is a part of this thesis. The tracking pipeline tracks in the world frame by associating data in the image domain, with the use of a well-established visual tracking method. Furthermore, the pipeline fuses either stereo information or lidar data with object masks from a deep learning-based object detector.
The second pipeline, named Visual Lidar Simple Online and Realtime Tracking (VLSORT), aims to solve many of the limitations of VSMOT and VLMOT. This tracking pipeline fuses camera and lidar information and is a modified implementation of the same well-established visual tracking method, which incorporates data association in the world frame, track states, and occlusion handling. The pipeline has improved range and field of view and can distinguish between irrelevant and relevant objects to track. The pipelines are tested on data from a real-world scenario and benchmarked against each other and the baseline. The results indicate that VLSORT is indeed an improvement, but the JIPDA baseline performs at a similar level in terms of accuracy. However, VLSORT has no false tracks due to its ability to track only relevant objects. In addition, the results compare stereo and lidar as a range modality and indicate that stereo may be comparable in close quarters, but that lidar is superior overall.