Show simple item record

dc.contributor.advisorLindseth, Frank
dc.contributor.advisorKiss, Gabriel
dc.contributor.authorMartinsen, Herman Ryen
dc.date.accessioned2022-09-20T17:21:13Z
dc.date.available2022-09-20T17:21:13Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:112046434:22535525
dc.identifier.urihttps://hdl.handle.net/11250/3019916
dc.description.abstractVision Transformers har blitt ekstremt populære innen dyp læring de seneste årene. Det hele startet i oktober 2020 da den aller første Vision Transformer-modellen ble lansert. Modellen hentet inspirasjon fra Transformer-modellen innen naturlig språkbehandling (NLP), men benyttet den på visuelle data isteden. Ved å bytte ut de tradisjonelle konvolusjonelle lagene med lag med "self-attention", oppnådde Vision Transformer-modellen imponerende resultater. Siden den gang har det blitt lansert mange nye Vision Transformers som utkonkurrerer tidligere toppmodeller innen en rekke visuelle oppgaver. Denne oppgaven undersøker hvordan Vision Transformers kan brukes til å prosessere og forstå visuelle data knyttet til selvkjørende biler. Mer spesifikt utforskes det hvordan segmentering og dybdeestimering kan gjøres ved å kun benytte enkeltbilder som inndata. Først presenteres toppmodeller av typen Vision Transformers for segmentering og dybdeestimering, med fokus på modellenes bidrag til feltet. Deretter velges det ut to modeller som kombineres til en multitask-modell for begge oppgavene. Til slutt evalueres den foreslåtte multitask-modellen gjennom en rekke eksperimenter på fire ulike datasett bestående av gatebilder. Eksperimentene viser at bruk av en multitask-modell senker den totale inferenstiden betraktelig, samtidig som nøyaktigheten holdes høy. I tillegg viser eksperimentene at ulike "backbone"-størrelser kan benyttes for å regulere mellom høy inferenshastighet og høy nøyaktighet. Innsamling og annotering av reelle data til prediksjonsoppgaver på piksel-nivå er en møysommelig og kostbar oppgave. Syntetiske data kan derimot enkelt genereres i store mengder ved hjelp av simulerte miljøer. Motivert av dette undersøker et av eksperimentene hvordan bruk av ekstra syntetiske data påvirker modellens nøyaktighet. Resultatene indikerer at trening på syntetiske datasett øker modellens nøyaktighet når det er lite reelle data tilgjengelig.
dc.description.abstractVision Transformers have become extremely popular in the deep learning community in recent years. It all started back in October 2020 with the release of the very first Vision Transformer. This deep learning architecture was inspired by the Transformer model from the natural language processing (NLP) field, but applied the model to visual data instead. By replacing the commonly used convolutional layers with layers of self-attention, the Vision Transformer was able to achieve impressive results. Since then, many new Vision Transformers have been proposed that outperforms previous state-of-the-art models in a wide range of vision tasks. This thesis investigates how Vision Transformers can be used to process and understand visual data in an autonomous driving setting. More specifically, it explores how segmentation and depth estimation can be done using only a single image as input. First, state-of-the-art Vision Transformers for semantic segmentation and monocular depth estimation are presented, focusing on their contribution to the field. Then, two of these models are selected and combined into a multitask model that is able to perform both tasks. Finally, the proposed multitask model is evaluated through multiple experiments on four different street image datasets. The experiments show that the multitask approach significantly reduces the total inference time, while maintaining a high accuracy for both tasks. Additionally, the experiments show that changing the size of the Transformer-based backbone can be used as a trade-off between inference speed and accuracy. Collecting and labelling real-world data for dense prediction tasks is a tedious and expensive task. Synthetic data, on the other hand, can easily be generated in large quantities from simulated environments. Motivated by this, one of the experiments investigates how the use of additional synthetic data affects model performance. The results indicate that pre-training on a synthetic dataset effectively increases the accuracy of the model when there is little real-world data available.
dc.languageeng
dc.publisherNTNU
dc.titleAutonomous Driving: Vision Transformers for Dense Prediction Tasks
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record