Vis enkel innførsel

dc.contributor.advisorSu, Xiaomeng
dc.contributor.advisorHolt, Alexander
dc.contributor.authorBerger-Nilsen, Eivind
dc.contributor.authorBråten, Lars-Håvard Holter
dc.contributor.authorEide, Mats Sollid
dc.date.accessioned2022-07-16T17:21:26Z
dc.date.available2022-07-16T17:21:26Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:111604085:111608664
dc.identifier.urihttps://hdl.handle.net/11250/3006198
dc.descriptionFull text not available
dc.description.abstractEvent-kamera er en ny type kamerateknologi med lovende tekniske aspekter, som høyere tidsmessig oppløsning, høyere dynamisk rekkevidde og lavt strømforbruk. Men selv om event-kamera har mange fordeler, har de også en del tekniske begrensninger. På grunn av færre piksler har de lavere romlig oppløsning, en høyere forekomst av hvit støy og de har lavere per-piksel kontrast og lysstyrke-treffsikkerhet. Dette er alle begrensninger som mest sannsynlig vil forsvinne etterhvert som teknologien utvikler seg, men per nå er det noe man må ta hensyn til når man jobber med event kamera. Event-kameraer skiller seg fra vanlige bildebaserte kameraer ved at de reagerer på endringer i lysstyrke, og ikke lysstyrken i seg selv. Pikslene i et event-kamera opererer asynkront, og sender uavhengig av hverandre ut signal når endringen i lysstyrke overstiger en viss terskel. Disse signalene kalles eventer og inneholder informasjon om deres posisjon, aktiveringstid og polaritet. Data fanget med denne typen kamera kan bli rekonstruert til vanlige, menneskelig tolkbare, gråskala bilder, og de kan gjennom dette brukes i maskinlæring til for eksempel klassifikasjon. Det finnes flere lovende tilnærminger til dette problemet, men de enkle og naive implementasjonene viser seg å være upålitelige. Maskinlæring har i senere år produsert stabile resultat innenfor feltet, men mer direkte metoder er også mulig å anvende. I denne oppgaven vil vi sammenligne tre forskjellige løsninger for å rekonstruere event data, inkludert vår egen, integrasjonsbaserte løsning. Vi foreslår en enkel maskinlæringsmodell basert på konvolusjonelle og gjentagende nevrale nettverk. I tillegg til dette vil vi presentere vår egen metode for å konvertere konvensjonell video til en syntetisk eventstrøm som igjen kan brukes til rekonstruksjon. På denne måten har man alltid tilgang til en ordentlig fasit å sammenligne med. Kvaliteten av en videorekonstruksjon kan bli evaluert gjennom synsoppfatning, eller ved hjelp av en matematisk målestokk dersom en fasit er tilgjengelig. Resultatene våre var ikke entydige i følge de matematiske metrikkene, men gjennom alminnelig visuell tolkning av en rekke videoer, er det klart at de avanserte eksisterende flerlagede maskinglæringsmodellene produserer mer stabile og naturlige resultat. Forskjellene i resultatene er spesielt merkbare i tilfeller med få eventer i deler av bildet, hvor maskinlæring briljerer ved å fremkalle detaljer basert på mønstre i resten av bildet. Disse modellene er dog ikke perfekte, og er sårbare for enkelte typer feil som mer direkte metoder er i stand til å unngå.
dc.description.abstractEvent cameras are a new camera technology with promising technical aspects, such as higher temporal resolution, greater dynamic range and low power consumption. But with all its perks, it is unfortunately also subjected to some technical limitations, such as a lower spatial resolution due to fewer pixels, higher occurrence of white noise, and less per-pixel contrast and brightness accuracy. However, these limitations will likely diminish as the technology advances. Event cameras differ from conventional frame-based cameras by reacting to changes in light intensity, rather than the intensity itself. Pixels in an event camera operate asynchronously, and independently emit signals when the change in light intensity reaches a certain threshold. These signals are known as events, and carry information about their position, activation time and polarity. Data captured with these cameras can be reconstructed into normal, humanly interpretable grayscale images, which allows for use of machine learning disciplines such as classification on the reconstructed event data. There are multiple promising approaches to this problem, but the simple and naive implementations turn out to be flawed. Machine learning has in recent years produced stable results in the field, but more direct methods are also applicable. In this thesis, we will compare three different methods of reconstruction, including our own integral based reconstruction method. Additionally, a proposal for a simple machine learning model will be presented, based on convolutional and recurrent neural networks. We will also present our own method for deconstruction of video into events in order to create synthetic event data with a real-world ground truth. The quality of a video reconstruction can be evaluated perceptually, or by the use of a mathematical error metric, provided that a ground truth is present. Our results were inconclusive according to the mathematical evaluation, but through common visual interpretation across a range of videos, it is clear that the advanced pre-existing multi-layered machine learning models produce more stable and nature-like results. The differences in results are particularly noticeable in the case of few events in certain areas of the frame, where machine learning triumphs by inferring details from patterns in the rest of the image. These models are however not perfect, and are prone to certain errors which a more direct approach towards the problem is able to bypass.
dc.languageeng
dc.publisherNTNU
dc.titleVideo Reconstruction From Neuromorphic Event Data
dc.typeBachelor thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel