3D Object Detection for Autonomous Driving Using Real and Simulated Data

Brekke, Åsmund; Vatsendvik, Fredrik

Brekke, Åsmund; Vatsendvik, Fredrik

Master thesis

Åpne

no.ntnu:inspera:2542564.pdf (63.39Mb)

no.ntnu:inspera:2542564.zip (68.11Mb)

Permanent lenke

http://hdl.handle.net/11250/2625794

Utgivelsesdato

2019

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6778]

Sammendrag

Selvkjørende biler har blitt et populært tema det siste tiåret, både grunnet bredere offentlig interesse i

kunstig intelligens og imponerende resultater oppnådd av forskninsinstitusjoner og private selskaper som

Google, Uber og Tesla. Et system for autonom kjøring må kunne utføre mange krevende oppgaver, blant

annet å lokalisere seg selv nøyaktig i omverdenen, detektere og tilpasse seg oppføreselen til aktører i

omgivelsene, og planlegging av hvorden det skal komme seg punkt A til punkt B.

Hver av disse oppgavene innebærer en rekke utfordringer og må utføres effektivt og i sanntid. For

å kunne generalisere til en stor variasjon med scenarier krever disse systemene store mengder annotert

data, som kan være dyrt å anskaffe og annotere. Typisk kreves menneskelig ekspertise for å enten manuelt

merke data eller overåke og korrigere automatisk generering av merket data.

I denne oppgaven undersøker vi hvordan uovervåket generering av merket data fra simulering kan bli

brukt for å redusere nødvendigheten for data fra den virkelige verden og øke hastigheten for konvergens

hos systemer for 3D objektdeteksjon. I tillegg utfører vi flere eksperimenter for ulike representasjoner av

LIDAR punktskyer projisert til fugleperspektiv (BEV) for å undersøke potensialet for forbedringer innen

kjøretid eller presisjon med sensor fusjon mellom kamera og LIDAR.

Først presenterer vi verktøyet Carla Automated Dataset Extraction Tool (CADET) – et nytt verktøy

for å generere treningsdata fra simulatoren CARLA [Dosovitskiy et al., 2017] for selvkjørende biler.

Dette verktøyet benyttes for å generere et datasett på 10,000 datapunkter, inkludert 3D avgrensingsbokser

for biler og fotgjengere. Videre følger en statistisk analyse av distribusjonen av klasser, størrelse på

avgrensingsbokser, objekter per datapunkt og orienteringer sammenlignet med datasettet KITTI [Geiger

et al., 2013]. CADET datasettet brukes for å pretrene et sett med modeller for 3D objektdeteksjon ved

bruk av modellene AVOD-FPN [Ku et al., 2018] og SECOND [Yan et al., 2018], etterfulgt av finjustering

på KITTI-datasettet. Modellene blir trent i konfigurasjoner for enkeltklassifisering og multiklassifisering

og brukt for å evaluere potensielle forbedringer i treffsikkerhet, hastighet for konvergens og reduksjon i

behovet for data fra den virkelige verdenen etter simulert pretrening. I tillegg blir AVOD-FPN modifisert

og teset med flere nye BEV konfigurasjoner trent på både KITTI og CADET, hvor ytelse sammenlignes

med standardkonfigurasjonen. Til slutt blir et utvalg multiklassemodeller brukt for å utføre inferens

på et datasett i arktiske omgivelser samlet inn av NTNU Autonomous Perception (NAP) i Trondheim.

Inferensresultatene fra modellene blir visuelt evaluert ved å sammenligne deres evne til å generalisere til

usette omgivelser med og uten simulert pretrening.

Våre funn indikerer at bruken av simulert data for pretrening av 3D objektdetektorer kan bidra til økt

treffsikkerhet, spesielt når data fra den virkelige verden er begrenset. Resultatene presentert i denne oppgaven viser også at pretrening kan tilby langt raskere konvergens under trening på ny data. Vi merker oss

også at simulert data can hjelpe generalisering, særlig for SECOND-modellen som kun bruker LIDAR.

Vi har til slutt introdusert to nye BEV konfigurasjoner som viser en relativ forbedring i 3D deteksjon av

fotgjengere på 12-19% når sammenlignet med standardkonfigurasjonen for AVOD-FPN. En annen konfigurasjonviser lignende ytelse på biler med 4-5% raskere inferens, men med betydelig lavere ytelse på

fotgjengere.

Autonomous driving has gained increasing attention in the past decade, both due to the broadening public

interest in artificial intelligence and astounding results achieved by research institutions and companies

such as Google, Uber and Tesla. An autonomous driving system needs to perform many challenging tasks

such as localizing itself precisely in the world, detecting and adapting to the behavior of other actors in

the environment, and planning how it will get from point A to B.

Each of these tasks pose a number of challenges and need to be performed efficiently and concurrently

in real-time. In order to generalize to a large variety of scenarios, these systems often require a large

amount of labeled training data, which can be very expensive to obtain and annotate. Commonly, human

expertise is required to either manually label the data or to supervise and correct automatic generation of

labels.

In this thesis, we investigate how unsupervised generation of labeled data from simulation can be used

to lessen the requirement for real-world data and speed up convergence for object detection architectures.

In addition, we perform several experiments with LIDAR feature map representations projected to a

Bird’s Eye View (BEV) in order to investigate potentials for improvements in run-time or accuracy with

sensor fusion between camera and LIDAR.

We first present the Carla Automated Dataset Extraction Tool (CADET) – a novel tool for generating

training data from the autonomous vehicle simulator CARLA [Dosovitskiy et al., 2017]. This tool is used

to generate a dataset of 10,000 samples, including 3D bounding box labels for cars and pedestrians, followed

by a statistical evaluation on the distribution of classes, bounding box sizes, number of objects per

sample and orientations with comparison to the KITTI dataset [Geiger et al., 2013]. The CADET dataset

is used to pre-train a number of 3D object detection models using the AVOD-FPN [Ku et al., 2018] and

SECOND [Yan et al., 2018] architectures, followed by fine-tuning on the KITTI dataset. Models are

trained in single-class and multi-class variations and used to evaluate potential improvements to model

accuracy, convergence speed and reduction in the required amount of real-world training data following

simulated pre-training. Additionally, AVOD-FPN is modified and tested with multiple novel BEV configurations

trained on both KITTI and CADET, comparing performance to the default configuration. Finally,

a selection of multi-class models is used to perform inference on a locally collected dataset in arctic environments,

curated by NTNU Autonomous Perception (NAP). The inference results from a collection of

models are visually evaluated, comparing their ability to generalize to the unseen environment with and

without simulated pre-training.

Our findings indicate that the use of simulated data for pre-training 3D object detectors can contribute

to improving accuracy, especially when real-world data is limited, as well as offering significantly

faster convergence during training on new data. We also find that simulated data can aid generalization,

especially for the SECOND architecture which only uses LIDAR. Lastly, two of our introduced BEV

configurations show a relative improvement in 3D detection of pedestrians of 12-19% when compared to

the default configuration for AVOD-FPN. Another configuration shows similar performance on cars, with

4-5% faster inference, however with considerably worse performance on pedestrians.

Utgiver

NTNU