3D Object Detection for Autonomous Driving Using Real and Simulated Data
Abstract
Selvkjørende biler har blitt et populært tema det siste tiåret, både grunnet bredere offentlig interesse ikunstig intelligens og imponerende resultater oppnådd av forskninsinstitusjoner og private selskaper somGoogle, Uber og Tesla. Et system for autonom kjøring må kunne utføre mange krevende oppgaver, blantannet å lokalisere seg selv nøyaktig i omverdenen, detektere og tilpasse seg oppføreselen til aktører iomgivelsene, og planlegging av hvorden det skal komme seg punkt A til punkt B.Hver av disse oppgavene innebærer en rekke utfordringer og må utføres effektivt og i sanntid. Forå kunne generalisere til en stor variasjon med scenarier krever disse systemene store mengder annotertdata, som kan være dyrt å anskaffe og annotere. Typisk kreves menneskelig ekspertise for å enten manueltmerke data eller overåke og korrigere automatisk generering av merket data.I denne oppgaven undersøker vi hvordan uovervåket generering av merket data fra simulering kan blibrukt for å redusere nødvendigheten for data fra den virkelige verden og øke hastigheten for konvergenshos systemer for 3D objektdeteksjon. I tillegg utfører vi flere eksperimenter for ulike representasjoner avLIDAR punktskyer projisert til fugleperspektiv (BEV) for å undersøke potensialet for forbedringer innenkjøretid eller presisjon med sensor fusjon mellom kamera og LIDAR.Først presenterer vi verktøyet Carla Automated Dataset Extraction Tool (CADET) – et nytt verktøyfor å generere treningsdata fra simulatoren CARLA [Dosovitskiy et al., 2017] for selvkjørende biler.Dette verktøyet benyttes for å generere et datasett på 10,000 datapunkter, inkludert 3D avgrensingsbokserfor biler og fotgjengere. Videre følger en statistisk analyse av distribusjonen av klasser, størrelse påavgrensingsbokser, objekter per datapunkt og orienteringer sammenlignet med datasettet KITTI [Geigeret al., 2013]. CADET datasettet brukes for å pretrene et sett med modeller for 3D objektdeteksjon vedbruk av modellene AVOD-FPN [Ku et al., 2018] og SECOND [Yan et al., 2018], etterfulgt av finjusteringpå KITTI-datasettet. Modellene blir trent i konfigurasjoner for enkeltklassifisering og multiklassifiseringog brukt for å evaluere potensielle forbedringer i treffsikkerhet, hastighet for konvergens og reduksjon ibehovet for data fra den virkelige verdenen etter simulert pretrening. I tillegg blir AVOD-FPN modifisertog teset med flere nye BEV konfigurasjoner trent på både KITTI og CADET, hvor ytelse sammenlignesmed standardkonfigurasjonen. Til slutt blir et utvalg multiklassemodeller brukt for å utføre inferenspå et datasett i arktiske omgivelser samlet inn av NTNU Autonomous Perception (NAP) i Trondheim.Inferensresultatene fra modellene blir visuelt evaluert ved å sammenligne deres evne til å generalisere tilusette omgivelser med og uten simulert pretrening.Våre funn indikerer at bruken av simulert data for pretrening av 3D objektdetektorer kan bidra til økttreffsikkerhet, spesielt når data fra den virkelige verden er begrenset. Resultatene presentert i denne oppgaven viser også at pretrening kan tilby langt raskere konvergens under trening på ny data. Vi merker ossogså at simulert data can hjelpe generalisering, særlig for SECOND-modellen som kun bruker LIDAR.Vi har til slutt introdusert to nye BEV konfigurasjoner som viser en relativ forbedring i 3D deteksjon avfotgjengere på 12-19% når sammenlignet med standardkonfigurasjonen for AVOD-FPN. En annen konfigurasjonviser lignende ytelse på biler med 4-5% raskere inferens, men med betydelig lavere ytelse påfotgjengere. Autonomous driving has gained increasing attention in the past decade, both due to the broadening publicinterest in artificial intelligence and astounding results achieved by research institutions and companiessuch as Google, Uber and Tesla. An autonomous driving system needs to perform many challenging taskssuch as localizing itself precisely in the world, detecting and adapting to the behavior of other actors inthe environment, and planning how it will get from point A to B.Each of these tasks pose a number of challenges and need to be performed efficiently and concurrentlyin real-time. In order to generalize to a large variety of scenarios, these systems often require a largeamount of labeled training data, which can be very expensive to obtain and annotate. Commonly, humanexpertise is required to either manually label the data or to supervise and correct automatic generation oflabels.In this thesis, we investigate how unsupervised generation of labeled data from simulation can be usedto lessen the requirement for real-world data and speed up convergence for object detection architectures.In addition, we perform several experiments with LIDAR feature map representations projected to aBird’s Eye View (BEV) in order to investigate potentials for improvements in run-time or accuracy withsensor fusion between camera and LIDAR.We first present the Carla Automated Dataset Extraction Tool (CADET) – a novel tool for generatingtraining data from the autonomous vehicle simulator CARLA [Dosovitskiy et al., 2017]. This tool is usedto generate a dataset of 10,000 samples, including 3D bounding box labels for cars and pedestrians, followedby a statistical evaluation on the distribution of classes, bounding box sizes, number of objects persample and orientations with comparison to the KITTI dataset [Geiger et al., 2013]. The CADET datasetis used to pre-train a number of 3D object detection models using the AVOD-FPN [Ku et al., 2018] andSECOND [Yan et al., 2018] architectures, followed by fine-tuning on the KITTI dataset. Models aretrained in single-class and multi-class variations and used to evaluate potential improvements to modelaccuracy, convergence speed and reduction in the required amount of real-world training data followingsimulated pre-training. Additionally, AVOD-FPN is modified and tested with multiple novel BEV configurationstrained on both KITTI and CADET, comparing performance to the default configuration. Finally,a selection of multi-class models is used to perform inference on a locally collected dataset in arctic environments,curated by NTNU Autonomous Perception (NAP). The inference results from a collection ofmodels are visually evaluated, comparing their ability to generalize to the unseen environment with andwithout simulated pre-training.Our findings indicate that the use of simulated data for pre-training 3D object detectors can contributeto improving accuracy, especially when real-world data is limited, as well as offering significantlyfaster convergence during training on new data. We also find that simulated data can aid generalization,especially for the SECOND architecture which only uses LIDAR. Lastly, two of our introduced BEVconfigurations show a relative improvement in 3D detection of pedestrians of 12-19% when compared tothe default configuration for AVOD-FPN. Another configuration shows similar performance on cars, with4-5% faster inference, however with considerably worse performance on pedestrians.