Sensor fusion of radar data with deep learning based detection and tracking of ships in camera images
Abstract
De metodene med høyest ytelse på objektgjenkjennelse og -sporing i bilder og videoer er nå beggebasert på dyp læring og konvolusjonelle nevrale nettverk CNN [7]. Mye forskning blir investert i dissemetodene, som antas å være avgjørende i den kommende autonome revolusjonen. Ute til sjøs i et kol-lisjonsunngålese (COLAV) scenario kan kameraer gi verdifull informasjon ved å komplimentere andresensorer som RADAR og LiDAR. Kameraene har utmerket vinkel-oppløsning og oppdateringsfrekvens,men mangler all informasjon om dybde eller avstand.For å oppnå robuste og sikre autonome fartøyer er det nødvendig å ha flere sensorer som reduserersannsynligheten for feilaktige eller manglende detekteringer. Ved å bruke forskjellige typer sensorer kanman kombinere de beste egenskapene til et sensorsystem bedre enn noen enkeltsensor kan gi.Denne oppgaven beskriver en modulær sensorfusjonsmetode, bygd ved bruk av ROS, for å kombinereRADAR spor med bildedata sanket med omnidireksjonelle (360°) kamerasystemer. RADAR-trackerenfra Autosea prosjektet som brukes i denne oppgaven, utfører all nødvendig behandling av RADAR-dataene. Den gir ut posisjon og usikkerhet samt en unik ID for hvert sporet object. All denne infor-masjonen er brukt for å initialisere forfatterens Extended Kalman Filter (EKF)-baserte tracker som tarinn målinger fra RADAR og kamera. Mottatte posisjoner fra AIS systemet tas også inn som målingerhvis tilgjengelige. Andre sensorer som gir ut målinger i Kartesiske koordinater kan enkelt legges til ialgoritmen.Bildedata i retning av det detekterte fartøyet behandles gjennom en CNN-basert objektdetektor. Objekt-detektoren er komplementert av en CNN-basert objektracker, og trackeren initialiseres fra deteksjonenesom er gjort i objektdetektoren. Målinger fra både trackeren og detektoren slås sammen med RADAR-dataene i den EKF-baserte sensorfusjonsalgoritmen.Testene demonstrerer at den EKF-baserte algoritmen klarer å følge et allerede initialisert spor ganske braved bare bruk av kameradata, spesielt hvis ASVen utfører noen manøvre. Kameraene hjelper videre til åredusere usikkerheten på det sporede objektet sammenlignet med RADAR alene. I testene som er gjort,gir den visuelle trackeren begrenset forbedring sammenlignet med objekt detektoren alene. Årsaken erserialisering på GPU bruk og svak bildestabilisering. Separat GPU til trackeren og strengere fokus påsynkronisering mellom sensorer er nødvendig for gode resultater.Det overordnede målet med Autosea-prosjektet og denne oppgaven er et robust, sanntids COLAV systemfor å øke sikkerheten til sjøs. Det er ikke noe enkelt korrekt svar på hvordan problemet skal løses ogdenne oppgaven tar en praktisk og ukomplisert tilnærming, som demonstrerer mulighetene i aktiv-passivsensorfusjon. Deep learning Convolutional Neural Network (CNN) based detection and tracking methods for imagesand videos are currently the highest performing methods available [7]. Much research is being investedin these methods, which are predicted to be vital in the upcoming autonomous revolution. Out at sea ina collision avoidance (COLAV) scenario cameras can provide valuable information to aid other sensorssuch as RADAR and LiDAR. The cameras have excellent angular resolution and update frequency, butlacks any information on depth or distance.To reliably achieve robust and safe autonomous vessels it is necessary to have multiple sensors whichreduce the likelihood of erroneous or missed detections. Using different types of sensors one can combinethe best characteristics into a sensory system better than any single sensor could provide.This thesis describes a modular sensor fusion pipeline, built using ROS, for combining RADAR trackswith image data captured using omnidirectional (360°) camera systems. The Autosea RADAR trackerused in this thesis performs all necessary handling of the RADAR data. It outputs position and uncer-tainty as well as an unique ID for each tracked target. All of this information is used to initialize theauthor’s Extended Kalman Filter (EKF) based tracker which takes in measurements from the RADARand camera. Received positions from the AIS system is also implemented as possible measurementsfor when they are available. Other sensors outputting measurements in Cartesian coordinates are easilyadded in the algorithm.Image data in the direction of the detected vessel is processed through a CNN based object detector. Theobject detector is complimented by a CNN based object tracker, and the tracker is initialized from thedetections made in the object detector. Measurements from both the tracker and detector is merged withthe RADAR data in the EKF based sensor fusion algorithm.The tests demonstrates that the EKF is able to track an already initiated track quite well using only cameradata, especially if the ASV performs some maneuvers. The cameras further help reduce the uncertaintyof the targets position from RADAR alone. In the tests done, the visual object tracker provide limitedenhancement on the object detector due to serialization on GPU usage and imperfect image stabilization.Separate GPUs and more stringent synchronization between sensors will be necessary for better results.The overall aim of the Autosea project and this thesis is a robust, real-time COLAV system to enhancesafety at sea. There are no ”one true” answer on how the problem should be solved and this thesis takesa practical and straightforward approach, demonstrating the possibilities in active-passive sensor fusion.