dc.description.abstract | Selvkjørende biler har blitt et populært tema det siste tiåret, både grunnet bredere offentlig interesse i
kunstig intelligens og imponerende resultater oppnådd av forskninsinstitusjoner og private selskaper som
Google, Uber og Tesla. Et system for autonom kjøring må kunne utføre mange krevende oppgaver, blant
annet å lokalisere seg selv nøyaktig i omverdenen, detektere og tilpasse seg oppføreselen til aktører i
omgivelsene, og planlegging av hvorden det skal komme seg punkt A til punkt B.
Hver av disse oppgavene innebærer en rekke utfordringer og må utføres effektivt og i sanntid. For
å kunne generalisere til en stor variasjon med scenarier krever disse systemene store mengder annotert
data, som kan være dyrt å anskaffe og annotere. Typisk kreves menneskelig ekspertise for å enten manuelt
merke data eller overåke og korrigere automatisk generering av merket data.
I denne oppgaven undersøker vi hvordan uovervåket generering av merket data fra simulering kan bli
brukt for å redusere nødvendigheten for data fra den virkelige verden og øke hastigheten for konvergens
hos systemer for 3D objektdeteksjon. I tillegg utfører vi flere eksperimenter for ulike representasjoner av
LIDAR punktskyer projisert til fugleperspektiv (BEV) for å undersøke potensialet for forbedringer innen
kjøretid eller presisjon med sensor fusjon mellom kamera og LIDAR.
Først presenterer vi verktøyet Carla Automated Dataset Extraction Tool (CADET) – et nytt verktøy
for å generere treningsdata fra simulatoren CARLA [Dosovitskiy et al., 2017] for selvkjørende biler.
Dette verktøyet benyttes for å generere et datasett på 10,000 datapunkter, inkludert 3D avgrensingsbokser
for biler og fotgjengere. Videre følger en statistisk analyse av distribusjonen av klasser, størrelse på
avgrensingsbokser, objekter per datapunkt og orienteringer sammenlignet med datasettet KITTI [Geiger
et al., 2013]. CADET datasettet brukes for å pretrene et sett med modeller for 3D objektdeteksjon ved
bruk av modellene AVOD-FPN [Ku et al., 2018] og SECOND [Yan et al., 2018], etterfulgt av finjustering
på KITTI-datasettet. Modellene blir trent i konfigurasjoner for enkeltklassifisering og multiklassifisering
og brukt for å evaluere potensielle forbedringer i treffsikkerhet, hastighet for konvergens og reduksjon i
behovet for data fra den virkelige verdenen etter simulert pretrening. I tillegg blir AVOD-FPN modifisert
og teset med flere nye BEV konfigurasjoner trent på både KITTI og CADET, hvor ytelse sammenlignes
med standardkonfigurasjonen. Til slutt blir et utvalg multiklassemodeller brukt for å utføre inferens
på et datasett i arktiske omgivelser samlet inn av NTNU Autonomous Perception (NAP) i Trondheim.
Inferensresultatene fra modellene blir visuelt evaluert ved å sammenligne deres evne til å generalisere til
usette omgivelser med og uten simulert pretrening.
Våre funn indikerer at bruken av simulert data for pretrening av 3D objektdetektorer kan bidra til økt
treffsikkerhet, spesielt når data fra den virkelige verden er begrenset. Resultatene presentert i denne oppgaven viser også at pretrening kan tilby langt raskere konvergens under trening på ny data. Vi merker oss
også at simulert data can hjelpe generalisering, særlig for SECOND-modellen som kun bruker LIDAR.
Vi har til slutt introdusert to nye BEV konfigurasjoner som viser en relativ forbedring i 3D deteksjon av
fotgjengere på 12-19% når sammenlignet med standardkonfigurasjonen for AVOD-FPN. En annen konfigurasjonviser lignende ytelse på biler med 4-5% raskere inferens, men med betydelig lavere ytelse på
fotgjengere. | |
dc.description.abstract | Autonomous driving has gained increasing attention in the past decade, both due to the broadening public
interest in artificial intelligence and astounding results achieved by research institutions and companies
such as Google, Uber and Tesla. An autonomous driving system needs to perform many challenging tasks
such as localizing itself precisely in the world, detecting and adapting to the behavior of other actors in
the environment, and planning how it will get from point A to B.
Each of these tasks pose a number of challenges and need to be performed efficiently and concurrently
in real-time. In order to generalize to a large variety of scenarios, these systems often require a large
amount of labeled training data, which can be very expensive to obtain and annotate. Commonly, human
expertise is required to either manually label the data or to supervise and correct automatic generation of
labels.
In this thesis, we investigate how unsupervised generation of labeled data from simulation can be used
to lessen the requirement for real-world data and speed up convergence for object detection architectures.
In addition, we perform several experiments with LIDAR feature map representations projected to a
Bird’s Eye View (BEV) in order to investigate potentials for improvements in run-time or accuracy with
sensor fusion between camera and LIDAR.
We first present the Carla Automated Dataset Extraction Tool (CADET) – a novel tool for generating
training data from the autonomous vehicle simulator CARLA [Dosovitskiy et al., 2017]. This tool is used
to generate a dataset of 10,000 samples, including 3D bounding box labels for cars and pedestrians, followed
by a statistical evaluation on the distribution of classes, bounding box sizes, number of objects per
sample and orientations with comparison to the KITTI dataset [Geiger et al., 2013]. The CADET dataset
is used to pre-train a number of 3D object detection models using the AVOD-FPN [Ku et al., 2018] and
SECOND [Yan et al., 2018] architectures, followed by fine-tuning on the KITTI dataset. Models are
trained in single-class and multi-class variations and used to evaluate potential improvements to model
accuracy, convergence speed and reduction in the required amount of real-world training data following
simulated pre-training. Additionally, AVOD-FPN is modified and tested with multiple novel BEV configurations
trained on both KITTI and CADET, comparing performance to the default configuration. Finally,
a selection of multi-class models is used to perform inference on a locally collected dataset in arctic environments,
curated by NTNU Autonomous Perception (NAP). The inference results from a collection of
models are visually evaluated, comparing their ability to generalize to the unseen environment with and
without simulated pre-training.
Our findings indicate that the use of simulated data for pre-training 3D object detectors can contribute
to improving accuracy, especially when real-world data is limited, as well as offering significantly
faster convergence during training on new data. We also find that simulated data can aid generalization,
especially for the SECOND architecture which only uses LIDAR. Lastly, two of our introduced BEV
configurations show a relative improvement in 3D detection of pedestrians of 12-19% when compared to
the default configuration for AVOD-FPN. Another configuration shows similar performance on cars, with
4-5% faster inference, however with considerably worse performance on pedestrians. | |