Information Maximizing and Pattern-Producing Generative Adversarial Networks
Abstract
En rekke teknologiske fremskritt og innovasjoner har dukket opp innenfor forskningsområdet rundt generative modeller i løpet av de siste årene. Denne typen modeller benytter seg ofte av kunstige nevrale nettverk som et verktøy for å trene en modell til å tilnærme seg en sannsynlighetsfordeling definert av referansedata som f. eks. bilder, musikk, tekst, osv. Fremskrittene innenfor dette området har vært spesielt synlige i bildedomenet, hvor nye modeller klarer å generere bilder som er så realistiske og detaljerte at det nesten er umulig å se at bildene er laget av en datamaskin.
De fleste slike modeller bruker samme fremgangsmåte når det kommer til generering av bilder, nemlig å generere hele bildet om gangen. Det finnes en annen metode som istedenfor genererer bare én bildepiksel om gangen, noe som gir mulighet for å generere bilder av uendelig høy oppløsning. En type nevrale nettverk som baserer seg på denne metoden er kalt Mønster-Genererende Nevrale Nettverk (CPPN). Etter at et slikt nettverk er ferdig trent, kan det generere nye bilder av vilkårlig oppløsning --- uavhengig av oppløsningen på treningsdataene. Dessuten kan disse syntetiske bildene vise ulike visuelle egenskaper på ulike oppløsninger, alt avhengig av hvordan nettverket er konfigurert.
En av de vanligste måtene å trene generative modeller på er ved å bruke det adverserielle rammeverket som tilbys av Generative Adverserielle Nettverk (GAN). Dette rammeverket setter to nevrale nettverk opp mot hverandre, hvor det ene, diskriminatoren, prøver å gjenkjenne genererte ("falske") bilder, mens det andre, generatoren, prøver å generere bilder som diskriminatoren forhåpentligvis vil tro kommer fra treningsdataene ("ekte"). Etter vellykket trening av en GAN vil generatoren være en implisitt tilnærming av sannsynlighetsfordelingen som underligger treningsdataene, og vil dermed være i stand til å generere nye bilder som er veldig like bildene som ble brukt under treningen.
Mens nye arkitekturer og teknikker stadig forbedrer den visuelle kvaliteten av bildene som blir generert av GAN-er, fører den tradisjonelle tilnærmingen til bildegenerering til at det stilles stadig større krav til datakraft og tilgang til store sett treningsdata med høyoppløselige bilder.
Denne avhandlingen dreier seg i hovedsak om å etablere nøkkelegenskapene til CPPN-er, undersøke hvordan denne alternative tilnærmingen til bildegenerering kan brukes i sammenheng med GAN-er, og hvordan en slik tilnærming kan ha fordeler både når det kommer til kreativitet og effektivitet. Lignende arbeid finnes, men arbeidet som legges frem i denne avhandlingen introduserer eksperimenter på tidligere uprøvde sett med treningsdata, så vel som de beste resultatene når det gjelder visuell kvalitet og realisme i de genererte bildene.