Show simple item record

dc.contributor.advisorHelgesen, Håkon Hagen
dc.contributor.advisorHelgesen, Øystein Kaarstad
dc.contributor.authorØie, Andreas
dc.date.accessioned2023-09-29T17:22:22Z
dc.date.available2023-09-29T17:22:22Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:140443607:35847891
dc.identifier.urihttps://hdl.handle.net/11250/3093214
dc.description.abstractDenne masteroppgaven undersøker anvendelsen av uparede bilde-til-bilde oversettelsesteknikker og generative modeller for å generere syntetiske data for å forbedre milliAmpere 2's autonome systemer. Arbeidet fokuserer eksplisitt på å generere infrarøde (IR) bilder fra elektro-optiske (RGB) bilder, noe som muliggjør forbedret deteksjon og gjenkjenning av maritime objekter. En omfattende litteraturgjennomgang og eksperimentell evaluering av eksisterende toppmoderne uparede bildeoversettelsesmetoder og relevante strategier ble utført, noe som førte til valget av CycleGAN som den mest egnede modellen. En betydelig mengde tid ble viet til testing og implementering av flere ulike modeller og utforsking av konfigurasjoner for å oppnå optimal ytelse. Opprettelsen av et nytt datasett involverte å håndtere utfordringene som oppstod fra datautforskningen og tidligere funn fra forprosjektet. Referansemodellene, CycleGAN, CUT, GcGAN og StarGAN-v2, ble implementert og evaluert ved hjelp av den kvantitative Fréchet Inception Distance (FID) metrikken og et kvalitativt tilpasset visuelt evalueringsskjema. CycleGAN fremsto som den beste modellen, og genererte de beste bildene basert på realisme og bildekvalitet for dette datasettet. Resultatene fra de ulike tuningseksperimentene indikerte at en modifisert CycleGAN-modell med en ResNet-basert arkitektur i generatoren, Xavier vektinitialisering, ReLU som ulineær aktiveringen, og en læringsrate på $1e^{-4}$ som den beste konfigurasjonen. Denne modifiserte modellen genererte de mest realistiske infrarøde bildene, og oppnådde en visuell evalueringsscore på 3,75/5 og en FID-score på 135. Disse resultatene viser til en direkte forbedring sammenlignet med forprosjektet, der en FID-score på 195 ble oppnådd. Imidlertid var modellens ytelse fortsatt begrenset av utfordringer med datasettet, som skjevfordeling av objekttyper, antall tilgjengelige bilder, bildeoppløsning og ulikheter i synsfelt mellom de elektro-optiske og infrarøde kameraene. Avslutningsvis viser funnene gjennomførbarheten av å utnytte syntetiske data for å forbedre autonomisystemets ytelse i maritime applikasjoner, samtidig som det kaster lys over potensielle forskningsretninger. Fremtidig arbeid bør fokusere på å utvide mengden på datasettet, håndtere utfordringene i datasettet, utforske nyere trender innen generative modeller og undersøke evalueringsmetrikker som passer bedre for bilder i gråskala. Denne oppgaven har lagt grunnlaget for videre forbedringer av uparede bilde-til-bilde oversettelsesmetoder, noe som kan bidra til å optimalisere bruken av infrarøde kameraer i milliAmpere 2's autonomisystem og dermed forbedre fartøyets evne til å navigere og oppfatte omgivelsene under nattlige og utfordrende værforhold.
dc.description.abstractThis thesis investigates the application of unpaired image-to-image translation techniques and generative models for generating synthetic data to enhance the milliAmpere 2's autonomous systems. The study focuses explicitly on generating infrared (IR) images from electro-optical (RGB) images, enabling improved maritime object detection and recognition. A comprehensive literature review and experimental evaluation of existing state-of-the-art unpaired image translation methods and relevant strategies were performed, leading to the selection of CycleGAN as the most suitable model for this task. An extensive amount of time was devoted to testing and implementing different types of generative models, as well as exploring configurations to achieve optimal performance. The dataset creation process involved addressing the challenges arising from the data exploration and previous discoveries from the Specialization Report. The baseline models, CycleGAN, CUT, GcGAN, and StarGAN-v2, were implemented and evaluated using the quantitative Fréchet Inception Distance (FID) metric and a qualitative custom visual evaluation scheme. CycleGAN emerged as the top-performing model, generating the best images based on visual quality for this dataset. The results from the various tuning experiments showed a modified CycleGAN model with a ResNet-based architecture in the generator, Xavier weight initialization, ReLU as the non-linear activation, and a learning rate of $1e^{-4}$ to be the best configuration. This modified model generated the most realistic infrared images, reaching a visual evaluation score of 3.75/5 and an FID score of 135. These results indicate a direct improvement compared to the Specialization Report, where an FID score of 195 was reached. However, the model's performance was still limited by object imbalances and inherent dataset challenges, such as object imbalance, available images, resolution, and the field-of-view difference between the electro-optical and infrared camera outputs. In conclusion, the findings demonstrate the feasibility of leveraging synthetic data for improving autonomy system performance in maritime applications while shedding light on potential research directions. Future work should focus on expanding the dataset, addressing the challenges within the dataset, exploring recent trends within the space of generative models, and investigating evaluation metrics suitable for infrared imagery. The research conducted in this thesis provides a foundation for further improvements and refinements to the unpaired image-to-image translation methods, which could become a valuable tool for incorporating infrared cameras into the milliAmpere 2's autonomy system, improving the vessel's situational awareness during nighttime and in poor weather conditions.
dc.languageeng
dc.publisherNTNU
dc.titleUnsupervised RGB-to-Infrared Image Translation with Generative Models
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record