Vis enkel innførsel

dc.contributor.advisorEgeland, Olav
dc.contributor.authorMjølhus, Øyvind Wormdal
dc.date.accessioned2021-10-13T17:28:03Z
dc.date.available2021-10-13T17:28:03Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:78072783:16684521
dc.identifier.urihttps://hdl.handle.net/11250/2799890
dc.descriptionFull text not available
dc.description.abstractFremskritt innen autonom robotikk kan ha store konsekvenser for samfunnet som helhet i fremtiden. Et av de største hindrene som forhindrer virkelig autonome roboter er utfordringen med å skulle kunne sikkert lokalisere seg selv, et problem omtalt innenfor robotikk som place recognition. Innenfor dette mer omspennende problemet finner man visual place recognition (VPR), hvor problemet må løses bare ved hjelp av visuell informasjon. I løpet av de siste årene har VPR som felt opplevd en stor tilstrømming av nye teknikker, hvor de nylige fremskrittene innenfor dyp læring tas i bruk. De fleste VPR-teknikker bygd på dyp læring bruker Convolutional Neural Networks (CNN), som i en årrekke har vært selve gullstandarden for oppgaver som involverer visuell informasjon. Nylig har vision transformers oppnådd svært gode prestasjoner på oppgaver som bildeklassifisering, der de har prestert å utkonkurrere CNNs på flere evalueringsmål. I dette arbeidet har vision transformere fått deres bruksområde utvidet, og blitt utprøvd for oppgaver innen VPR. Flere forskjellige tilnærminger til det å skulle trene vision transformers for VPR, samt flere nylige forbedringer på den orginale arkitekturen har blitt utforsket. Gjennom omfattende eksperimentering og sammenligning med nåværende høytytende teknikker, har arkitekturen bak vision transformer vist seg til å være et lovende nytt paradigme av nevrale netterk, også for VPR.
dc.description.abstractAdvances in autonomous robotics could have profound implications on all of society in the future. One of the greatest hurdles prohibiting truly autonomous robots is the challenge of being able to reliably localize itself, a problem known as place recognition. Within the broader problem of place recognition lies that of visual place recognition (VPR), wherein the problem must be solved relying solely on visual information. In the past few years, the field of VPR have experienced a large influx of novel techniques taking advantage of the recent advances seen within deep learning. Most VPR-techniques building on deep learning use Convolutional Neural Networks (CNN), which for several years have been the gold standard architecture for tasks involving visual information. Recently, vision transformers have shown outstanding performance in image classification, having managed to out compete CNNs in a number of metrics. In this work, the vision transformer is extended and investigated for the task of VPR. A number of different approaches for training vision transformers for VPR, and several newer improvements on the original architecture have been explored. Through extensive experimentation and comparison with current state-of-the-art techniques, the vision transformer is shown to be a promising new paradigm of neural networks, also for VPR.
dc.languageeng
dc.publisherNTNU
dc.titleInvestigation of Vision Transformers for Visual Place Recognition
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel