Semantic segmentation of LiDAR and RGB imagesfor autonomous terrain driving
Abstract
Selvkjørende systemer basert på prosessert informasjon fra kamera og LiDAR sensorer er et stort forskning felt innen kunstig intelligens. Omgivelsen for selvkjørende kjøretøy kan variere og er avgjørende for valg av metode for automatisering av kjøringen til et kjøretøy. Den nordiske terreng omgivelsen har noen interessante utfordringer sammenlignet med selvkjørende bilder i byer. Den naturlige terreng omgivelsen har klasser med flytende overgang til andre klasser og det er en store variasjoner av naturlig klasser.
Navigasjon i et terreng miljø krever en analyse av omgivelsene for å kunne få informasjon om terrenget og eventuelle hindringer rundt kjøretøyet. Denne oppgave utforsker derfor klassifisering av terreng landskap ved bruk av dyp læring for å utfører semantisk segmentering av sensor data. Oppgave bygger på modellen mask2former som bruker den moderne transformerer arkitekturen til å segmentere bilde. Eksperimentene i denne oppgaven avdekket at den moderne tilnærmingen til semantisk segmentering fungerte bra også i et nytt terreng landskap. Etter å trent modellen på et relativt lite egen-laget RGB terreng dataset, presterte modellen bra, ettersom den hadde en IoU på 87.44 på testsettet til RGB datasettet.
Segmenterings metoden for RGB bilder var også tilpasset til å fungere med LiDAR data for å kunne benytte seg av 360 graders synsvinkel, samt dybde informasjon fra LiDAR sensoren. Ulike pre prosessering metoder ble brukt til å få en forståelse av hvilke endringer på modellen og hvilke pre prosedering metoder som forbedrer resultatene til LiDAR modellen. Oppgaven utforsker bruken av den modifiserte RGB segmenteringen metoden på 2d LiDAR bilder. Den beste metoden for LiDAR segmentering fra denne oppgave var en modell som brukte 2d LiDAR bilder som var strekt i høyden til å være 4 gange høyere. Eksperimentene viste også at å bruke alle 4 kanalene fra LiDAR bildene var nyttig for å oppnå best mulig resultat for semantisk segmentering på LiDAR data. Rapporten utforsker også bruk av 16 bits bilder i dyp læring modellen, for å kunne bevare mest mulig av nøyaktigheten av avstandsmålingen til LiDAR sensoren. På testsettet oppnådde LiDAR segmenteringen en IoU på 76.1 som viser at den kan bidra med nytting informasjon til navigasjons moulineene av systemet.
Fler sensor metoder som utnytter flere sensorer til å segmentere omgivelsen ble også teste. Resultatene fra ulike forsøk med fler sensor metoder viste at det ikke forbedre ytelsen av det nåværende systemet, men ulike metoder for å forbedre bruken av flere sensor samtidig er diskutert i oppgaven.
Navigasjon basert på segmenterte sensor data vart implementert for å et komplette system fra sensordata inn til kjøretøys kommander ut. Navigasjons systemene som ble implementert i denne oppgave var relativt enkle, men klarte å kontrollerer kjøretøyet mot en mål posisjonen mens den valgte gunstig terreng og unngikk oppdagede hindringer.
Hele systemtest ble teste med et fysisk kjøretøy i sanntid. Testing viste lovende resultater, det var også forbedringspotensiale på det enkle navigasjonssystemet. Kjøretøyet klarte likevel å kjøre mot et mål, mens det unngår hindringer basert på semantisk segmenterte sensordata i sanntid. Koden til prosjektet er tilgjengelig her: https://github.com/atoft97/masterToft Autonomous driving systems based on processed information from data of cameras and LiDAR sensors are a wide research field in \acrfull{AI}. The environment for autonomous driving can be varied and is determining for the approach used for automating the driving of a vehicle. The Nordic terrain environment has some interesting challenges compared to autonomous driving in a city environment. This natural environment has classes without no clear boundaries and a wide variety of different natural classes.
Navigation in a terrain environment requires an analysis of the surrounding environment in order to gain information about the terrain and to detect obstacles in the area. This thesis therefore explores the classification of the environment with a deep learning approach of semantic segmentation. This thesis builds upon the work of mask2former approach, which utilizes the modern transformers architecture to segment images. The experiments of this thesis found that the modern approaches of semantic segmentation worked well in a new environment after fine tuning on a relatively small dataset, as the model had a IoU of 87.44 on a new custom RGB terrain dataset.
The segmentation approach was also adapted to work with LiDAR data in order to utilise the depth and 360 degrees information of the LiDAR sensor. Different preprocessing techniques of the LiDAR data was explored in order to gain an understanding of what modification to the data improves the performance of the semantic segmentation of LiDAR data. The thesis explored the usage of adopted modern RGB segmentation architectures on 2d spherical projections of LiDAR data. The best approach for LiDAR segmentation in this thesis was a model which used 2d spherical projections of LiDAR data which was resized to 4 times larger height and where all 4 channels of the LiDAR data was utilized. The LiDAR model can also benefit by using 16 range data, in order to utilise the depth resolution of the LiDAR. The LiDAR segmentation task had a model with 76.9,1 IoU which was shown to provide useful information for the navigation modules of the system.
Multi modal approaches to environment analysis is also a modern approach to improve the performance of the segmentation models. A multi modal approach with LiDAR and RGB data was therefore explored in this thesis, but did not exceed the performance of the LiDAR only model. Some improvements are therefore discussed to the multi model approach in this thesis.
Navigation based on the segmented sensor data was implemented in order to test a complete system from sensordata inn to actions out. The navigation systems of this project was basic, but did manage to steer towards a goal position while choosing a favorable terrain and avoiding detected obstacles.
The complete system was tested in real world scenarios in order to test the real time performance of the model. The real world testing showed promising results for the segmentations systems, and showed that the navigation system has areas of improvement. The complete systems was still able to navigate towards a goal position while avoiding obstacles based on semantic segmentation in real time. The code from the thesis can be found here: https://github.com/atoft97/masterToft