Monocular 3D Object Detection for Volumetric Identification in the Tolling Industry

Fornes, Mia

Fornes, Mia

Master thesis

Åpne

no.ntnu:inspera:142737689:34115716.pdf (85.25Mb)

Permanent lenke

https://hdl.handle.net/11250/3093964

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6831]

Sammendrag

Forståelse av volumetriske egenskaper er avgjørende for nøyaktig identifikasjon og korrekt beslatning av kjøretøy som passerer gjennom en bomstasjon. Presise målinger av disse egenskapene kan oppnås med forskjellige sensorer, eksempelvis laserskannere og stereokameraer. Disse metodene er i imidlertid ikke optimale med tanke på kostnad og behov for krevende databehandling. Monokulær 3D objektdeteksjon er en mer kostnadseffektiv og praktisk løsning, da det kun er behov for ett enkelt bilde for å identifisere volumetriske egenskaper.

Denne oppgaven undersøker nettopp dette feltet som et initiativ fra Q-Free, en global leverandør av løsninger innenfor bomstasjoner, trafikkstyring og C-ITS. To tilnærminger for monokulær 3D objektdeteksjon benyttes i denne oppgaven. Den første tilnærmingen innebærer å utforske ytelsen til monokulær 3D objekteksjonsmodeller ved å benytte forskjellige "backbones". Konvolusjonelle nevrale nettverk (CNN) er en dominerende tilnærming i feltet innenfor kunstig intelligens som omhandler datasyn. I nyere tid har imidlertig en ny tilnærming fått mye oppmerksomhet, nemlig Vision Transformers. Denne typen nevrale nettverk benytter "self-attention"-mekanismer for behandling av bilder, og har vist imponerende resultater. På grunn av begrenset forskning på denne tilnærmingen innenfor det monokulære 3D objektdeteksjonsfeltet, ønsker denne oppgaven å undersøke ytelsen til Vision Transformer-inspirerte metoder sammenlignet med CNNbaserte metoder. Den andre tilnærmingen omhandler bruken av dataøkningsteknikker, nærmere bestem Mixup, som har vist suksess i ulike datasynsopggaver, inkluder 3D objektdeteksjonsfeltet. Inspirert av tidligere studier, er i tillegg en forbedret versjon av Mixup implementert og testet. Denne versjonen drar nytte av en terskelverdi for å bestemme når teknikken skal benyttes.

Funnene i denne oppgaven tyder på at konvolusjonelle nevrale nettverk forblir overlegne som "backbones", og indikerer at det forsatt er forbedringspotensiale for "vision transformers" for monokulær 3D objektdeteksjon. Resultatene indikerer også at bruken av Mixup-teknikker kan forbedre modellens ytelse, spesielt når "vision transformers" brukes som "backbone".

Understanding the volumetric features of vehicles in the tolling domain is crucial for accurate identification and charging. Accurate measurement of these features can be achieved through various methods, such as laser scanners or stereo cameras. These methods are, however, not optimal in terms of cost and often require a lot of data processing. Monocular 3D object detection seeks to identify volumetric features using only a single image, making it a more practical and cost-effective solution.

This thesis investigates this particular field as an initiative from Q-Free, a global provider of tolling, traffic management, and C-ITS solutions. The monocular 3D object detection task is tackled using two different approaches. The first approach includes exploring the performance of monocular 3D object detection using different backbones. Convolutional Neural Networks (CNNs) are a dominant approach in the computer vision field, including monocular 3D object detection. However, with the introduction of the Vision Transformer in 2020, the CNN dominance may be coming to an end. This type of neural network employs self-attention mechanisms to process images and has demonstrated impressive results. Due to limited research on the topic in the monocular 3D object detection field, this thesis aims to investigate the performance of vision transformers compared to CNN-based approaches. The second approach involves utilizing data augmentation techniques, specifically Mixup, which has demonstrated success in various computer vision tasks, including the 3D object detection field. Inspired by previous studies, an enhanced Mixup technique is also implemented, which uses a threshold to determine when the technique should be applied.

The findings of this thesis suggest that CNNs remain superior in terms of feature extraction in the backbone, indicating that there is still room for improvement in the application of vision transformers for monocular 3D object detection. The results also indicate that implementing Mixup techniques may enhance the model’s performance, particularly when using vision transformers as their backbone.

Utgiver

NTNU