Vis enkel innførsel

dc.contributor.advisorGambäck, Björn
dc.contributor.authorKristiansen, Magnus
dc.contributor.authorVågen, Magnus Morud
dc.date.accessioned2023-11-23T18:20:29Z
dc.date.available2023-11-23T18:20:29Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:34562830
dc.identifier.urihttps://hdl.handle.net/11250/3104441
dc.description.abstractDenne avhandlingen utforsker krysningen mellom dype generative modeller og forsterkningslæring, med søkelys på tilpasningen av diffusjonsbaserte tekst-til-bilde-modeller ved hjelp av forsterkningslæring fra menneskelige tilbakemeldinger (RLHF). Tekst-til-bilde-modeller har fått betydelig oppmerksomhet på grunn av deres potensiale til å generere høyoppløselige og semantisk sammenhengende bilder fra naturlige språkbeskrivelser. Til tross for deres imponerende egenskaper, er dagens modellers ytelse begrenset av deres manglende evne til fullt modellere menneskelige preferanser, da de blir trent ved å maksimere sannsynligheten for treningsdataene, heller enn brukervennligheten til menneskelige interaksjoner med modellene eller de forventede eller foretrukne resultatene fra brukerne. Motivert av den nylige suksessen med å tilpasse store språkmodeller ved hjelp av RLHF, utvikler vi en tilsvarende metodikk for tekst-til-bilde-modeller basert på diffusjonsmodeller. Vi omformulerer den reverserte diffusjonsprosessen som et Markov-beslutningsproblem, noe som tillater at gradientbaserte metoder optimaliserer modellen ved hjelp av belønningssignaler fra menneskelige tilbakemeldinger. Ved å trene en belønningsmodell for å fungere som en proxy for menneskelige preferanser under forsterkningslæring, gjør vi det mulig å tilpasse toppmoderne tekst-til-bilde-modeller til menneskelige verdier og preferanser. Videre utvikler vi en ny belønningsmodell ved å gjenbruke deler av diffusjonsmodellen selv, for å sikre en felles forståelse av den underliggende datadistribusjonen mellom modellen som blir optimalisert og modellen som veileder optimaliseringen. Våre hovedbidrag er firedelte. For det første foreslår vi en systematisk metodikk for å tilpasse diffusjonsmodeller til menneskelige preferanser ved hjelp av forsterkningslæring fra menneskelig tilbakemelding. For det andre validerer vi effektiviteten av vår tilnærming gjennom en serie eksperimenter som viser forbedringen i bildekvalitet og tekst-bilde-sammenheng. For det tredje gir vi innsikt i utfordringene og begrensningene ved vår tilnærming, noe som informerer fremtidig forskning på dette området. Til slutt demonstrerer vi den reelle anvendeligheten av vår metode, da den med hell tilpasser en toppmoderne tekst-til-bilde-modell til generelle menneskelige preferanser, og understreker dens mulige betydning i en rekke ulike felt, som kunst, pedagogikk og underholdning. Gjennom utvikling og validering av denne nye RLHF-metoden for tekst-til-bilde-modeller, baner denne avhandlingen vei for mer brukersentrerte og sikrere modeller, forbedrer deres ytelse og frigjør deres fulle potensial for en rekke virkelige applikasjoner.
dc.description.abstractThis thesis explores the intersection of deep generative models and reinforcement learning, focusing on the alignment of diffusion-based text-to-image models using reinforcement learning from human feedback (RLHF). Text-to-image models have attracted significant attention due to their potential to generate high-fidelity and semantically coherent images from natural language descriptions. Despite their impressive capabilities, current models' performance is limited by their inability to fully capture human preferences, as they are trained using objectives that merely maximize the likelihood of training data, rather than the ease-of-use of human users’ interactions with the models or the users’ expected or preferred outputs. Motivated by the recent success of aligning large language models using RLHF, we develop a corresponding methodology for text-to-image models based on diffusion models. We frame the reverse diffusion process as a Markov decision problem, allowing policy gradient methods to optimize the model using reward signals from human feedback. By training a reward model to serve as a proxy for human preferences during reinforcement learning, we enable the alignment of state-of-the-art text-to-image models with human values and preferences. Furthermore, we develop a novel reward model by repurposing parts of the diffusion model itself, ensuring a common understanding of the underlying data distribution between the model being optimized and the model guiding the optimization. Our key contributions are fourfold. Firstly, we propose a systematic methodology for aligning diffusion models with human preferences using reinforcement learning from human feedback. Secondly, we validate the effectiveness of our approach through a series of experiments that showcase the improvement in image quality and image-text alignment. Thirdly, we provide insights into the challenges and limitations of our approach, informing future research in this domain. Lastly, we demonstrate the real-world applicability of our method, as it successfully aligns a state-of-the-art text-to-image model with general human preferences, underscoring its potential impact across various fields, such as art, education, and entertainment. Through the development and validation of this novel RLHF methodology for text-to-image models, this thesis paves the way for more user-centric and safer models, enhancing their performance and unlocking their full potential in numerous real-world applications.
dc.languageeng
dc.publisherNTNU
dc.titleAligning Diffusion-Based Text-to-Image Models using Reinforcement Learning from Human Feedback
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel