Text-to-Image Synthesis with a Pre-Trained Deep Learning Language Model

Dalan, Camilla Marie

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Dalan, Camilla Marie
dc.date.accessioned	2023-05-15T17:27:10Z
dc.date.available	2023-05-15T17:27:10Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:25644162
dc.identifier.uri	https://hdl.handle.net/11250/3068075
dc.description.abstract	Dagens beste modeller innen tekst-til-bilde-generering (T2I) er basert på Generative Adverserielle Nettverk (GAN). Disse modellene gjør en god jobb nå de er trent på begrensede datasett som kun inneholder bilder og korresponderende bildetekst innen én klasse eller kategori, slik som fugler eller blomster. Når de er trent på slike datasett, klarer disse modellene å generere realistiske bilder av rimelig god kvalitet (256 x 256 piksler). På den andre siden mislykkes de i å generere bilder av høy kvalitet om de er trent på et mer komplekst datasett med et høyere antall klasser og mer komplekse scener. Modeller for naturlig språkbehandling, slik som BERT --- Bidirectional Encoder Representations from Transformers --- har gode forutsetninger til å forbedre slike T2I-modeller. Denne masteroppgaven integrerer MirrorGAN, en nylig fremtredende GAN-basert T2I-modell, med BERT. Dette gjøres gjennom MirrorGANs submodul for regenerering av bildetekst. Ytelsen til denne nye kombinasjonen ble evaluert gjennom både kvantitative og kvalitative metoder. De kvantitative metodene inkluderer Bilingual Evaluation Understudy (BLEU) for å sammenligne de to versjonene av submoduler for regenerering av bildetekst, og Fréchet Inception Distance (FID) for å sammenligne den originale og den nye T2I-modellen. I tillegg ble det utført en kvalitativ spørreundersøkelse med 33 deltakere for å videre sammenligne de to modellene. Sammenligningen av de to versjonene av modulene for regenerering av bildetekst viser at den nye versjonen helt avgjort utkonkurrerer den originale versjonen. På en annen side, ved sammenligning av de to endelige T2I-modellene gjennom FID-målingen, viser den originale versjonen å gjøre det bedre enn den nye. Dette er også støttet av resultatene fra den utførte spørreundersøkelsen. I tillegg kan man se at den nye versjonen utkonkurrerer den originale i det siste epokesteget; ikke fordi den nye versjonen ble bedre, men heller fordi den originale ble verre. Videre inspeksjon av resultatene indikerer at begge modellene lider av vanlige problemer som oppstår under trening av GANs. Disse problemene inkluderer forsvinnende gradienter og moduskollaps. I tillegg kan de genererte bildene i noen tilfeller være visuelt tilfredsstillende, noe som kan indikere at et T2I-system har verdi utenom å generere realistiske bilder. Resultatene indikerer at med videre modelloptimalisering og benyttelse av strategier for å begrense treningsproblemene som ble møtt, kan den nye kombinerte modellen produsere overlegne bilder. Dette er derfor et tema som bør utforskes videre.
dc.description.abstract	Current state-of-the-art text-to-image (T2I) synthesis models are based on the architecture of Generative Adversarial Networks (GAN). These models perform well on limited datasets that contain images and corresponding image captions within one class or category, like birds, in that the images generated are realistic and of reasonably high resolution (256 x 256 pixels). However, they fail to generate high quality images when trained on more complex datasets containing a higher number of classes and complex scene compositions. Natural language processing models, such as the Bidirectional Encoder Representations from Transformers (BERT), hold great promise in improving T2I synthesis models. This Master's Thesis integrates a recent GAN-based T2I synthesis model, MirrorGAN, with BERT, through MirrorGAN's sub-module for re-generation of image captions. The performance of this novel model is assessed through quantitative measures such as the Bilingual Evaluation Understudy (BLEU) for comparing the two versions of the image captioning module and the Fréchet Inception Distance (FID) for comparing the performance of the resulting T2I synthesis models. Additionally, a qualitative survey involving 33 participants was conducted to further compare the two models. The comparison of the two versions of the image captioning module indicates that the novel version clearly outperforms the original. However, comparing the two versions of the final model through the Fréchet Inception Distance metric yields greater results for the original version for all epoch steps but the last. This is supported by the results from the conducted survey. Moreover, the novel version outperforms the original in the last epoch step not due to the novel version improving, but rather the deterioration of the original model. Further inspection indicates that both models suffer from commonly faced problems when training GANs, such as vanishing gradients and mode collapse. Furthermore, the images can in some cases be fairly visually pleasing, which might propose that a T2I system could have other value apart from generating realistic images. With further model optimisation and mitigation strategies for the problems encountered, the results indicate that this new combined model could produce superior images and should be the subject of further research.
dc.language	eng
dc.publisher	NTNU
dc.title	Text-to-Image Synthesis with a Pre-Trained Deep Learning Language Model
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:25644 ...
Størrelse:: 40.92Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6828]

Vis enkel innførsel