Training object detection models for AVs using simulated RGB and LiDAR image data
Abstract
Interesse og investering i forskning rundt autonome kjøretøy har økt kraftig det siste tiåret. En stor hindring som har fått økt oppmerksomhet er området objekt-deteksjon: få kjøretøy til å se og forstå deres omgivelser ved å bruke diverse verktøy som kameraer og dyp-læring algoritmer.
For å implementere objekt-deteksjon kan algoritmer bli trent ved å bruke annotert data. Disse algoritmene krever vanligvis store datasett for å oppnå god nok ytelse, som vanligvis er bilder hånd-annotert av mennesker. Dette er en kostbar og tidkrevende øvelse. Å bruke bilder fra et simulert miljø i stedet for ekte bilder kunne redusert kostnader og tidsbruk betydelig. Med et simulert miljø har man full kontroll over alle objekter, som gjør det mulig å automatisk annotere bilder. En slik simulator er Carla, et prosjekt med åpen kildekode som er spesifikt utviklet for forskning rundt autonome kjøretøy.
Denne avhandlingen undersøker om automatisk annotert simulert data fra Carla kan brukes for å trene objekt-deteksjon modeller som kan detektere ekte trafikk-objekter. Siden en stor del av oppgaven handler om å samle inn automatisk annotert trenings-data fra simulatoren, undersøker avhandlingen også hvor viktig tettheten til avgrensningsboksene er. I de første seks eksperimentene viser resultatene at data fra Carla alene ikke er nok til å trene de utvalgte modellene ordentlig. Å bruke noe ekte data til å finpusse en modell som hovedsakelig er trent på Carla ga lovende resultater. Resultatene fra det syvende eksperimentet indikerte at tettheten til avgrensningsboksene var viktig for å trene modellene ordentlig. Interest and investment in autonomous vehicle research has increased rapidly in the last decade. A major roadblock which has received increased attention is the area of object detection: making vehicles able to see and understand their surroundings using various tools like cameras and deep learning algorithms.
To implement object detection, algorithms can be trained using annotated data. These algorithms usually require large datasets to perform adequately, which is typically images hand-annotated by humans. This is a costly and time-consuming practice. Using images from a simulated environment in place of real images could help mediate the cost and time spent significantly. With a simulated environment one has full control over all objects, which enables automatic annotation of images. One such simulator is Carla, an open source project specifically developed for research around autonomous driving.
This thesis investigates whether automatically annotated simulator data from Carla can be used to train object detection models which can detect real life traffic objects. As a large part of the thesis revolves around collecting properly automatically annotated training data from the simulator, it also investigates whether tightness is important for the bounding boxes. In the first six experiments, the results show that Carla data alone is not sufficient to properly train the chosen models. However, fine-tuning a Carla trained model using some real data shows promising results. The results from the seventh experiment indicate that bounding box tightness is important for training the models properly.