Investigation of Vision Transformers for Visual Place Recognition

Mjølhus, Øyvind Wormdal

dc.contributor.advisor	Egeland, Olav
dc.contributor.author	Mjølhus, Øyvind Wormdal
dc.date.accessioned	2021-10-13T17:28:03Z
dc.date.available	2021-10-13T17:28:03Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:78072783:16684521
dc.identifier.uri	https://hdl.handle.net/11250/2799890
dc.description	Full text not available
dc.description.abstract	Fremskritt innen autonom robotikk kan ha store konsekvenser for samfunnet som helhet i fremtiden. Et av de største hindrene som forhindrer virkelig autonome roboter er utfordringen med å skulle kunne sikkert lokalisere seg selv, et problem omtalt innenfor robotikk som place recognition. Innenfor dette mer omspennende problemet finner man visual place recognition (VPR), hvor problemet må løses bare ved hjelp av visuell informasjon. I løpet av de siste årene har VPR som felt opplevd en stor tilstrømming av nye teknikker, hvor de nylige fremskrittene innenfor dyp læring tas i bruk. De fleste VPR-teknikker bygd på dyp læring bruker Convolutional Neural Networks (CNN), som i en årrekke har vært selve gullstandarden for oppgaver som involverer visuell informasjon. Nylig har vision transformers oppnådd svært gode prestasjoner på oppgaver som bildeklassifisering, der de har prestert å utkonkurrere CNNs på flere evalueringsmål. I dette arbeidet har vision transformere fått deres bruksområde utvidet, og blitt utprøvd for oppgaver innen VPR. Flere forskjellige tilnærminger til det å skulle trene vision transformers for VPR, samt flere nylige forbedringer på den orginale arkitekturen har blitt utforsket. Gjennom omfattende eksperimentering og sammenligning med nåværende høytytende teknikker, har arkitekturen bak vision transformer vist seg til å være et lovende nytt paradigme av nevrale netterk, også for VPR.
dc.description.abstract	Advances in autonomous robotics could have profound implications on all of society in the future. One of the greatest hurdles prohibiting truly autonomous robots is the challenge of being able to reliably localize itself, a problem known as place recognition. Within the broader problem of place recognition lies that of visual place recognition (VPR), wherein the problem must be solved relying solely on visual information. In the past few years, the field of VPR have experienced a large influx of novel techniques taking advantage of the recent advances seen within deep learning. Most VPR-techniques building on deep learning use Convolutional Neural Networks (CNN), which for several years have been the gold standard architecture for tasks involving visual information. Recently, vision transformers have shown outstanding performance in image classification, having managed to out compete CNNs in a number of metrics. In this work, the vision transformer is extended and investigated for the task of VPR. A number of different approaches for training vision transformers for VPR, and several newer improvements on the original architecture have been explored. Through extensive experimentation and comparison with current state-of-the-art techniques, the vision transformer is shown to be a promising new paradigm of neural networks, also for VPR.
dc.language	eng
dc.publisher	NTNU
dc.title	Investigation of Vision Transformers for Visual Place Recognition
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for maskinteknikk og produksjon [4024]

Vis enkel innførsel