3D Object Detection for Autonomous Driving Using Real and Simulated Data

Brekke, Åsmund; Vatsendvik, Fredrik

dc.contributor.advisor	Lindseth, Frank
dc.contributor.author	Brekke, Åsmund
dc.contributor.author	Vatsendvik, Fredrik
dc.date.accessioned	2019-10-31T15:16:27Z
dc.date.available	2019-10-31T15:16:27Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2625794
dc.description.abstract	Selvkjørende biler har blitt et populært tema det siste tiåret, både grunnet bredere offentlig interesse i kunstig intelligens og imponerende resultater oppnådd av forskninsinstitusjoner og private selskaper som Google, Uber og Tesla. Et system for autonom kjøring må kunne utføre mange krevende oppgaver, blant annet å lokalisere seg selv nøyaktig i omverdenen, detektere og tilpasse seg oppføreselen til aktører i omgivelsene, og planlegging av hvorden det skal komme seg punkt A til punkt B. Hver av disse oppgavene innebærer en rekke utfordringer og må utføres effektivt og i sanntid. For å kunne generalisere til en stor variasjon med scenarier krever disse systemene store mengder annotert data, som kan være dyrt å anskaffe og annotere. Typisk kreves menneskelig ekspertise for å enten manuelt merke data eller overåke og korrigere automatisk generering av merket data. I denne oppgaven undersøker vi hvordan uovervåket generering av merket data fra simulering kan bli brukt for å redusere nødvendigheten for data fra den virkelige verden og øke hastigheten for konvergens hos systemer for 3D objektdeteksjon. I tillegg utfører vi flere eksperimenter for ulike representasjoner av LIDAR punktskyer projisert til fugleperspektiv (BEV) for å undersøke potensialet for forbedringer innen kjøretid eller presisjon med sensor fusjon mellom kamera og LIDAR. Først presenterer vi verktøyet Carla Automated Dataset Extraction Tool (CADET) – et nytt verktøy for å generere treningsdata fra simulatoren CARLA [Dosovitskiy et al., 2017] for selvkjørende biler. Dette verktøyet benyttes for å generere et datasett på 10,000 datapunkter, inkludert 3D avgrensingsbokser for biler og fotgjengere. Videre følger en statistisk analyse av distribusjonen av klasser, størrelse på avgrensingsbokser, objekter per datapunkt og orienteringer sammenlignet med datasettet KITTI [Geiger et al., 2013]. CADET datasettet brukes for å pretrene et sett med modeller for 3D objektdeteksjon ved bruk av modellene AVOD-FPN [Ku et al., 2018] og SECOND [Yan et al., 2018], etterfulgt av finjustering på KITTI-datasettet. Modellene blir trent i konfigurasjoner for enkeltklassifisering og multiklassifisering og brukt for å evaluere potensielle forbedringer i treffsikkerhet, hastighet for konvergens og reduksjon i behovet for data fra den virkelige verdenen etter simulert pretrening. I tillegg blir AVOD-FPN modifisert og teset med flere nye BEV konfigurasjoner trent på både KITTI og CADET, hvor ytelse sammenlignes med standardkonfigurasjonen. Til slutt blir et utvalg multiklassemodeller brukt for å utføre inferens på et datasett i arktiske omgivelser samlet inn av NTNU Autonomous Perception (NAP) i Trondheim. Inferensresultatene fra modellene blir visuelt evaluert ved å sammenligne deres evne til å generalisere til usette omgivelser med og uten simulert pretrening. Våre funn indikerer at bruken av simulert data for pretrening av 3D objektdetektorer kan bidra til økt treffsikkerhet, spesielt når data fra den virkelige verden er begrenset. Resultatene presentert i denne oppgaven viser også at pretrening kan tilby langt raskere konvergens under trening på ny data. Vi merker oss også at simulert data can hjelpe generalisering, særlig for SECOND-modellen som kun bruker LIDAR. Vi har til slutt introdusert to nye BEV konfigurasjoner som viser en relativ forbedring i 3D deteksjon av fotgjengere på 12-19% når sammenlignet med standardkonfigurasjonen for AVOD-FPN. En annen konfigurasjonviser lignende ytelse på biler med 4-5% raskere inferens, men med betydelig lavere ytelse på fotgjengere.
dc.description.abstract	Autonomous driving has gained increasing attention in the past decade, both due to the broadening public interest in artificial intelligence and astounding results achieved by research institutions and companies such as Google, Uber and Tesla. An autonomous driving system needs to perform many challenging tasks such as localizing itself precisely in the world, detecting and adapting to the behavior of other actors in the environment, and planning how it will get from point A to B. Each of these tasks pose a number of challenges and need to be performed efficiently and concurrently in real-time. In order to generalize to a large variety of scenarios, these systems often require a large amount of labeled training data, which can be very expensive to obtain and annotate. Commonly, human expertise is required to either manually label the data or to supervise and correct automatic generation of labels. In this thesis, we investigate how unsupervised generation of labeled data from simulation can be used to lessen the requirement for real-world data and speed up convergence for object detection architectures. In addition, we perform several experiments with LIDAR feature map representations projected to a Bird’s Eye View (BEV) in order to investigate potentials for improvements in run-time or accuracy with sensor fusion between camera and LIDAR. We first present the Carla Automated Dataset Extraction Tool (CADET) – a novel tool for generating training data from the autonomous vehicle simulator CARLA [Dosovitskiy et al., 2017]. This tool is used to generate a dataset of 10,000 samples, including 3D bounding box labels for cars and pedestrians, followed by a statistical evaluation on the distribution of classes, bounding box sizes, number of objects per sample and orientations with comparison to the KITTI dataset [Geiger et al., 2013]. The CADET dataset is used to pre-train a number of 3D object detection models using the AVOD-FPN [Ku et al., 2018] and SECOND [Yan et al., 2018] architectures, followed by fine-tuning on the KITTI dataset. Models are trained in single-class and multi-class variations and used to evaluate potential improvements to model accuracy, convergence speed and reduction in the required amount of real-world training data following simulated pre-training. Additionally, AVOD-FPN is modified and tested with multiple novel BEV configurations trained on both KITTI and CADET, comparing performance to the default configuration. Finally, a selection of multi-class models is used to perform inference on a locally collected dataset in arctic environments, curated by NTNU Autonomous Perception (NAP). The inference results from a collection of models are visually evaluated, comparing their ability to generalize to the unseen environment with and without simulated pre-training. Our findings indicate that the use of simulated data for pre-training 3D object detectors can contribute to improving accuracy, especially when real-world data is limited, as well as offering significantly faster convergence during training on new data. We also find that simulated data can aid generalization, especially for the SECOND architecture which only uses LIDAR. Lastly, two of our introduced BEV configurations show a relative improvement in 3D detection of pedestrians of 12-19% when compared to the default configuration for AVOD-FPN. Another configuration shows similar performance on cars, with 4-5% faster inference, however with considerably worse performance on pedestrians.
dc.language	eng
dc.publisher	NTNU
dc.title	3D Object Detection for Autonomous Driving Using Real and Simulated Data
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:2542564.pdf
Size:: 63.39Mb
Format:: PDF

View/Open

Name:: no.ntnu:inspera:2542564.zip
Size:: 68.11Mb
Format:: application/zip

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6822]

Show simple item record