Towards creating a map layer of road intersections by information extraction from Mapillary images

Saastad, Kristoffer

dc.contributor.advisor	Fan, Hongchao
dc.contributor.author	Saastad, Kristoffer
dc.date.accessioned	2021-09-20T16:15:32Z
dc.date.available	2021-09-20T16:15:32Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:55924330:31177250
dc.identifier.uri	https://hdl.handle.net/11250/2779424
dc.description.abstract	Geografisk data er viktig for å forstå romlige relasjoner. Mange av dagens open-source databaser for GPS og romlige spørringer inneholder lite, til ingen data om den romlige konteksten i vegkryss. Ved å øke informasjonen i et vegkryss kan man i stede for å prosessere omgivelsene on-the-fly gjennom objektgjenkjenning, bruke ferdig prosessert data knyttet til hvert vegkryss og potensielt redusere behovet for enorme beregningsressurser, ettersom feltet innenfor objektgjenkjenning og enorme databaser konstant gjøres mer og mer kompleks. Denne oppgaven fremlegger et forslag på et rammerverk som kan brukes til å beregne posisjonen til objekter funnet i bilder fra en av verdens største romlige street-view bildedatabaser Mapillery. Rammeverket fremlegger først en analyse av dagens state-of-the-art teknologier for bildegjenkjenning, og velger den beste av disse for å trene opp et nettverk for å kjenne igjen traffikskilter i bilder. I tillegg brukes et ferdid trent nettverk for å lokalisere traffiklysene i bilder. Utifra disse objektene, utføres en monokulær dybdeestimasjon gjennom et trent nettverk, som brukes til å beregne en dybdeforskjell i pixelrommet. Videre fremstilles det antagelser for størrelser for kjente objekter for å beregne en pixel-til-meter algoritme for å kalkulere posisjonen til det gjenkjente objektet. Når bildet er ferdig prosessert og objektene er gitt en posisjon, plasseres det i et enten eksisterende vegkryss, eller det opprettes et nytt vegkryss ved å benytte seg av informasjon fra open-source vegdatabase APIer. Informasjonen innhentet igjennom rammeverket returneres som et kartlag i form av et GeoJSON objekt.
dc.description.abstract	Geographical data is important to understand spatial relations. Many of today’s open-source databases for GPS and spatial queries contains little to no information of the spatial context in an intersection. By increasing the information in an intersection, one can replace the need to process the surrounding environment one-the-fly through object detection by using preprocessed data stored in each intersection. This can reduce the limiting factor of computational resources, as the field of object detection and enormous databases constantly are made more and more complex. This paper proposes a framework that can be used to estimate the position of detected objects in images from one of the worlds largest spatial streetview image database Mapillary. The framework first proposes an overview of the current state-of-the-art technologies for object detection, and the chooses the best suited network architecture to train a network to recognize traffic signs in images. From these detected object, a monocular depth estimation is performed on the image using a pretrained network, which is used to calculate the depth disparity in the pixel space. In addition, several assumptions about the sizes of known objects, in order to propose a pixel-per-meter algorithm for calculating the position of the detected objects. One an image is processed and given a position, the image is either placed in an existing intersection, or a new intersection is made by exploiting the information available in open-source spatial database APIs. The information retrieved through this framework is return as a map layer in the form of a GeoJSON object.
dc.language
dc.publisher	NTNU
dc.title	Towards creating a map layer of road intersections by information extraction from Mapillary images
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:55924330:31177 ...
Størrelse:: 2.982Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for bygg- og miljøteknikk [4705]

Vis enkel innførsel