Large Scene Representation with MFNeRF: Multiple Fields Neural Radiance Fields in the context of Autonomous Driving
Abstract
Neural Radiance Fields har blitt brukt til å skape 3D-scener ut fra et sett med bilder.Dette har skapt interesse rundt autonom kjøring for deres evne til å gjenskape ekte omgivelser.Et av bruksområdene for dette er å samle bildedata fra alternative kjøreruter, noe som ville vært farlig og ulovlig å teste i virkeligheten.
Målet med denne masteroppgaven er derfor å lage en NeRF-modell og et dataprosesserings pipeline for ekte data som kan brukes til opplæring og testing av autonome kjøretøy.
For å kunne ta i bruk virkelige scener i stor skala, har vi utviklet en ny NeRF-arkitektur kalt MFNeRF, som står for Multiple Fields Neural Radiance Field.Det er også utviklet en pipeline for å ta videoer fra NAPLab og konvertere dem til et datasett fra GNSS-koordinater.Data fra simulatoren CARLA er også brukt for å lage et datasett for testing uten kameraforvrengninger og perfekte posisjoner.Det er også gjort eksperimenter med å maskere ut transiente objekter i scener fra virkeligheten for å lage maskerte versjoner av NAPLab- og CARLA-datasettene.Disse datasettene ble brukt til å sammenligne modellen Nerfacto med vår egen modell, MFNeRF.
Gjennom eksperimenter har vi vist at bruk av GNSS-forsterkede NAPLab-data er mer robust enn å bare bruke Colmap på videoer.Vi har også vist at vår modell slår Nerfacto på store scener, men er mindre stabil under trening. Neural Radiance Fields are a method for constructing a 3D scene from 2D images with poses.This has generated interest in the autonomous driving domain, as it can simulate photorealistic real-world locations.One use case for this is capturing alternate driving routes, which would be dangerous and illegal to test in real life.
Therefore, the research goal of this master's thesis is to create a new NeRF architecture and develop a processing pipeline for real-world data, which will be used in testing and training autonomous vehicles.
In order to allow for large-scale real-life scenes, a novel NeRF architecture has been created called MFNeRF, which stands for Multiple Fields Neural Radiance Field.A pipeline has also been created to convert videos captured from NAPLab into a dataset augmented with GNSS coordinates.Data from the simulator CARLA is also used to create a dataset for testing without camera distortions and perfect positions.Experiments with masking out transient objects in real-life scenes have also been done to create masked versions of the NAPLab and CARLA datasets.These datasets were used to compare the state-of-the-art model Nerfacto with our model, MFNeRF.
Through experiments, we have shown that using GNSS-augmented NAPLab data is more robust than using Colmap on videos alone.We have also shown that our model outperforms Nerfacto on large scenes, with the caveat that it is less stable.