Sensor fusion of radar data with deep learning based detection and tracking of ships in camera images

Olsen, Runar André

Olsen, Runar André

Master thesis

View/Open

no.ntnu:inspera:2525083.pdf (107.8Mb)

no.ntnu:inspera:2525083.zip (75.38Mb)

URI

http://hdl.handle.net/11250/2625695

Date

2019

Metadata

Show full item record

Collections

Institutt for teknisk kybernetikk [3703]

Abstract

De metodene med høyest ytelse på objektgjenkjennelse og -sporing i bilder og videoer er nå begge

basert på dyp læring og konvolusjonelle nevrale nettverk CNN [7]. Mye forskning blir investert i disse

metodene, som antas å være avgjørende i den kommende autonome revolusjonen. Ute til sjøs i et kol-

lisjonsunngålese (COLAV) scenario kan kameraer gi verdifull informasjon ved å komplimentere andre

sensorer som RADAR og LiDAR. Kameraene har utmerket vinkel-oppløsning og oppdateringsfrekvens,

men mangler all informasjon om dybde eller avstand.

For å oppnå robuste og sikre autonome fartøyer er det nødvendig å ha flere sensorer som reduserer

sannsynligheten for feilaktige eller manglende detekteringer. Ved å bruke forskjellige typer sensorer kan

man kombinere de beste egenskapene til et sensorsystem bedre enn noen enkeltsensor kan gi.

Denne oppgaven beskriver en modulær sensorfusjonsmetode, bygd ved bruk av ROS, for å kombinere

RADAR spor med bildedata sanket med omnidireksjonelle (360°) kamerasystemer. RADAR-trackeren

fra Autosea prosjektet som brukes i denne oppgaven, utfører all nødvendig behandling av RADAR-

dataene. Den gir ut posisjon og usikkerhet samt en unik ID for hvert sporet object. All denne infor-

masjonen er brukt for å initialisere forfatterens Extended Kalman Filter (EKF)-baserte tracker som tar

inn målinger fra RADAR og kamera. Mottatte posisjoner fra AIS systemet tas også inn som målinger

hvis tilgjengelige. Andre sensorer som gir ut målinger i Kartesiske koordinater kan enkelt legges til i

algoritmen.

Bildedata i retning av det detekterte fartøyet behandles gjennom en CNN-basert objektdetektor. Objekt-

detektoren er komplementert av en CNN-basert objektracker, og trackeren initialiseres fra deteksjonene

som er gjort i objektdetektoren. Målinger fra både trackeren og detektoren slås sammen med RADAR-

dataene i den EKF-baserte sensorfusjonsalgoritmen.

Testene demonstrerer at den EKF-baserte algoritmen klarer å følge et allerede initialisert spor ganske bra

ved bare bruk av kameradata, spesielt hvis ASVen utfører noen manøvre. Kameraene hjelper videre til å

redusere usikkerheten på det sporede objektet sammenlignet med RADAR alene. I testene som er gjort,

gir den visuelle trackeren begrenset forbedring sammenlignet med objekt detektoren alene. Årsaken er

serialisering på GPU bruk og svak bildestabilisering. Separat GPU til trackeren og strengere fokus på

synkronisering mellom sensorer er nødvendig for gode resultater.

Det overordnede målet med Autosea-prosjektet og denne oppgaven er et robust, sanntids COLAV system

for å øke sikkerheten til sjøs. Det er ikke noe enkelt korrekt svar på hvordan problemet skal løses og

denne oppgaven tar en praktisk og ukomplisert tilnærming, som demonstrerer mulighetene i aktiv-passiv

sensorfusjon.

Deep learning Convolutional Neural Network (CNN) based detection and tracking methods for images

and videos are currently the highest performing methods available [7]. Much research is being invested

in these methods, which are predicted to be vital in the upcoming autonomous revolution. Out at sea in

a collision avoidance (COLAV) scenario cameras can provide valuable information to aid other sensors

such as RADAR and LiDAR. The cameras have excellent angular resolution and update frequency, but

lacks any information on depth or distance.

To reliably achieve robust and safe autonomous vessels it is necessary to have multiple sensors which

reduce the likelihood of erroneous or missed detections. Using different types of sensors one can combine

the best characteristics into a sensory system better than any single sensor could provide.

This thesis describes a modular sensor fusion pipeline, built using ROS, for combining RADAR tracks

with image data captured using omnidirectional (360°) camera systems. The Autosea RADAR tracker

used in this thesis performs all necessary handling of the RADAR data. It outputs position and uncer-

tainty as well as an unique ID for each tracked target. All of this information is used to initialize the

author’s Extended Kalman Filter (EKF) based tracker which takes in measurements from the RADAR

and camera. Received positions from the AIS system is also implemented as possible measurements

for when they are available. Other sensors outputting measurements in Cartesian coordinates are easily

added in the algorithm.

Image data in the direction of the detected vessel is processed through a CNN based object detector. The

object detector is complimented by a CNN based object tracker, and the tracker is initialized from the

detections made in the object detector. Measurements from both the tracker and detector is merged with

the RADAR data in the EKF based sensor fusion algorithm.

The tests demonstrates that the EKF is able to track an already initiated track quite well using only camera

data, especially if the ASV performs some maneuvers. The cameras further help reduce the uncertainty

of the targets position from RADAR alone. In the tests done, the visual object tracker provide limited

enhancement on the object detector due to serialization on GPU usage and imperfect image stabilization.

Separate GPUs and more stringent synchronization between sensors will be necessary for better results.

The overall aim of the Autosea project and this thesis is a robust, real-time COLAV system to enhance

safety at sea. There are no ”one true” answer on how the problem should be solved and this thesis takes

a practical and straightforward approach, demonstrating the possibilities in active-passive sensor fusion.

Publisher

NTNU