Autonomous Vehicles: 3D Object Detection Using Dual Sensor Input of LiDAR Point Clouds and 3-channel LiDAR Images

Nilsen, Vebjørn

dc.contributor.advisor	Lindseth, Frank
dc.contributor.advisor	Kiss, Gabriel
dc.contributor.advisor	Bavirisetti, Durga
dc.contributor.author	Nilsen, Vebjørn
dc.date.accessioned	2023-11-30T18:19:41Z
dc.date.available	2023-11-30T18:19:41Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:145904930:34478744
dc.identifier.uri	https://hdl.handle.net/11250/3105497
dc.description.abstract	Autonome kjøretøy har vært en futuristisk visjon som folk har drømt om i flere tiår. De siste årene har det blitt gjort enorme fremskritt mot autonomi med introduksjonen av konvolusjonsnettverk og transformere i kombinasjon med eksponentiell forbedring av beregningskraft i maskiner. Den raske utviklingen innen datasyn har vekket interesse hos mange forskere, og er inspirasjonen bak denne oppgaven. Arbeidet i denne oppgaven dreier seg om autonome kjøretøy, og da mer spesifikt 3D-objektdeteksjon ved hjelp av bilder og LiDAR-data. Modellen Frustum-PointPillars ble valgt basert på ytelse, sanntidsinferens og mulighet for dobbel sensordatainput. Målet med prosjektet var å gjenskape state-of-the-art resultatene til skaperne av modellen og skape en modell som kan operere i sanntid, samt er tilpasset Ouster LiDAR-sensorer. I det første kapittelet blir temaet og forskningsmålene grundig forklart. Deretter blir den nødvendige bakgrunnskunnskapen beskrevet i detalj, og relatert arbeid innen state-of-the-art 3D-objektdeteksjon blir utforsket med en grundig gjennomgang av ulike grunnleggende metoder. Resultatene av denne avhandlingen viser at reproduksjonen av modellen ved å trene opp en ny modell fra bunnen av er mulig ved hjelp av en enkelt RTX 8000 GPU. Modellen fungerer bra på KITTI-dataene som ble brukt til trening, men den sliter noe med data den ikke har blitt trent på. Resultatene for biler og syklister overgår forfatterens resultater med 37,5\% færre treningsrunder. Inferenstiden til modellen er mer enn to ganger raskere enn gjennomsnittlig menneskelig reaksjonstid, noe som gjør den egnet for implementering i autonome kjøretøy. Konklusjonen om hvorfor modellen ikke presterer optimalt på Ouster-data er mangel på annoterte data. Prosessen med å annotere 2D- og 3D-data fra samme scene er tidkrevende når det er begrenset tilgang til gratis annoteringsverktøy. Resultatene ville trolig vært bedre med finjustering på mer lignende data.
dc.description.abstract	The idea of autonomous vehicles has been a futuristic vision people have dreamed about for decades. In recent years huge steps towards autonomy has been made with the introduction of CNNs and transformers in combination with exponential-like improvement in compute power. This rapid expansion within computer vision has sparked interest for many researchers, and is the inspiration for this thesis. The work in this thesis revolves around autonomous vehicles, and more specifically 3D object detection using images and LiDAR data. The model Frustum-PointPillars was chosen based on performance, real time inference and dual sensor input. The goal of the project was to reproduce the stated state of the art results and create a real-time inference pipeline adjusted for Ouster LiDAR sensors. In the first chapter, an introduction to the topic and the research goals is thoroughly explained. Then the necessary knowledge for background is described in detail and related work within state of the art 3D object detection is explored with a deep-dive into different fundamental methods. The results of this thesis show that the reproducibility of the model through training a new model from scratch is possible using a single RTX 8000 GPU. The model works well on the KITTI data used for training, but it struggles somewhat on unseen data. The results on cars and cyclists exceed the authors results with 37.5\% less training epochs. The inference time of the model is more than 2 times faster than average human reaction time, making it viable for deployment in autonomous vehicles. The conclusion as to why the model performs subpar on Ouster data is lack of annotated data. The process of annotating 2D and 3D data of the same scene is time consuming when there is limited access to free annotation tools. The results would probably be better with fine-tuning on similar data.
dc.language	eng
dc.publisher	NTNU
dc.title	Autonomous Vehicles: 3D Object Detection Using Dual Sensor Input of LiDAR Point Clouds and 3-channel LiDAR Images
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:145904930:3447 ...
Størrelse:: 32.23Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6787]

Vis enkel innførsel