Generative AI through Latent Modeling: The Theoretical Foundations of Diffusion Models

Dalheim, William

dc.contributor.advisor	Strümke, Inga
dc.contributor.advisor	Langseth, Helge
dc.contributor.author	Dalheim, William
dc.date.accessioned	2023-10-10T17:21:21Z
dc.date.available	2023-10-10T17:21:21Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:34602588
dc.identifier.uri	https://hdl.handle.net/11250/3095628
dc.description.abstract	I løpet av de siste årene har diffusjonsmodeller (DMer) gjennomgått en rekke forbedringer, som har ført til bedre resultater enn andre anerkjente dype generative modeller innen bildesyntese. Modellene har også demonstrert at syntetisert fotorealisme er oppnåelig gjennom tekst-til-bilde anvendelser. DMer tar inspirasjon fra termodynamikk, ved at de lærer seg å gradvis gjenopprette data som er påvirket av støy. Når denne prosessen startes fra komplett støy, kan realistiske data bli syntetisert. De imponerende resultatene har ført til flere bidrag til feltet. "Denoising Diffusion Probabilistic Model" (DDPM) anses å være det mest innflytelsesrike rammeverket, og danner grunnlaget for mange av forbedringene man ser i dagens storskala DMer. Videre er "Denoising Diffusion Implicit Model" (DDIM) en omformulering av genereringsprosessen, som tillater deterministisk og mer effektiv generering av data. I likhet med andre dype generative modeller, er det en mangel på verktøy til bruk i tolkning av DMer for å avdekke logikken som inngår i generering av data. Imidlertid har det blitt oppdaget at DDIM lærer en transformasjon mellom støy og data som samsvarer med den optimale transportruten. I praksis betyr det at modellen forsøker å minimere endringene i de individuelle dimensjonene på veien fra støy til data, noe som gir en viss forutsigbarhet i genereringsprosessen. Eksperimenter på både lav- og høydimensjonale data antyder at optimal transport gir verdifull innsikt i hvordan DMer fungerer, og tillater bedre kontroll over genereringsprosessen. Dette muliggjør manipulasjon av bestemte egenskaper ved dataen gjennom en metode denne masteroppgaven kaller "latent manipulasjon". I et eksperiment blir grupper av latente dimensjoner flyttet mot bestemte fargeintensiteter som samsvarer med den ønskede egenskapen, for å øke sannsynligheten for at den oppstår. I et annet eksperiment kopieres latent informasjon fra et datapunkt til et annet for å få frem en bestemt egenskap. "Latent manipulasjon" muligjør en flyt mellom lokale og globale kontekster, og krever ikke finjustering eller trening av en ny modell. Dette gjør det til et fleksibelt alternativ til eksisterende redigeringsmetoder, som for eksempel "inpainting".
dc.description.abstract	In recent years, Diffusion Models (DMs) have undergone rapid advancements, surpassing renowned deep generative models on image synthesis, and demonstrating that photorealism is achievable with text-to-image applications. Inspired by thermodynamics, DMs learn to gradually recover data that has undergone diffusion. Starting from pure noise, coherent data can be synthesized. The impressive performance and perceived novelty of DMs have led to several contributions in the field. Found to be the most influential work is the Denoising Diffusion Probabilistic Model (DDPM) framework, serving as the basis for many improvements implemented in today's large-scale DMs. Second to that, the Denoising Diffusion Implicit Model (DDIM) is a reformulation of the sampling procedure that allows for deterministic and more efficient generation. As with other deep generative models, DMs lack interpretability on the rationale that affects data synthesis. However, the mapping between noise and the data distribution learned by DDIM has been found to align with the optimal transport map. In essence, changes to individual dimensions on the path from pure noise to clean data are minimized by the model, giving a certain degree of predictability in the data generation process. Experiments on both low- and high-dimensional data show that optimal transport serves as a valuable interpretation of the behavior of DMs, enabling control of the sampling process. This allows for manipulating certain features through a scheme this thesis terms "latent manipulation". In one experiment, groups of latent dimensions are translated toward specific color intensities that coincide with the desired feature, increasing the likelihood for it to appear. Through another experiment, latent information is copied from one sample to another for a targeted feature to emerge. "Latent manipulation" allows local and global contexts to interweave and does not require retraining, making it a more flexible alternative to existing editing methods, such as inpainting.
dc.language	eng
dc.publisher	NTNU
dc.title	Generative AI through Latent Modeling: The Theoretical Foundations of Diffusion Models
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142737689:3460 ...
Størrelse:: 22.14Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6579]

Vis enkel innførsel