Few-shot Font Style Transfer with Extraction of Partial Style
Abstract
Tekst er en sentral verktøy for å formidle ideer og følelser, og er en svært vanlig forekomst i våre liv. Som representasjon av tekst spiller skrifttype en viktig rolle i formidlingen. Skrifttyper viser om en tekst er alvorlig eller uformell, skummel eller leken. De kan påvirke kvaliteten på en vits, eller gjøre setninger mer minneverdige. Design av skrifttyper kan imidlertid være svært tidkrevende, spesielt for språk med høyere tegnantall. En teknikk kalt skriftstiloverføring kan brukes til å automatisere denne prosessen ved å bruke bare noen få eksempler som referanse. Skriftstiloverføring utføres ved å ekstrahere tegnet fra et bilde og ekstrahere skrifttypen fra referansebilder, og blande disse ekstrasjonene sammen for å lage et bilde av samme tegn og skrifttype som de respektive kildene.
Denne rapporten foreslår en ny metode for skriftstiloverføring, kalt few-shot font style transfer with Extraction of Partial Style (EPS-Font). Metoden forsøker å løse problemet annerledes enn en typisk måte, som er å bruke samme kodearkitekturen for ekstrasjon av tegnet og for ekstrasjon av skrifttypen, med en koderarkitektur som istedet behandler referansebildene av skrifttypen som delvis referansebilder. Det er vist at denne måten å ekstraktere skrifttypen i stor grad øker resultatene fremfor den typiske måten, og at EPS-Font er i stand til å utkonkurrere state-of-the-art metoder i både kvantitative og kvalitative evalueringer. I tillegg utføres eksperimenter med å bruke Deep Metric Learning (DML) for skriftstiloverføring. Resultatene av disse eksperimentene tyder på at DML ikke forbedrer ytelsen til modellen, og at dette er fordi modellen påvirkes negativt av DML når datasettene har mange like skrifttyper. Til slutt presenteres en modifikasjon som kan brukes i problemet, kalt Deformation and Texture Separation (DTS). Denne modifikasjonen deler skriftstiloverføringsoppgaven i to deler: gjette utformingen til bokstaven, så gjette teksturen ved hjelp av utformingen. DTS viser interessante resultater og er en potensiell retning for nye metoder. Text is a prominent visual element for conveying ideas and emotions, and common occurrence in our daily lives. As the representation of texts, fonts play an essential role. Fonts show whether a text is serious or casual, scary or playful. They can impact the quality of a joke, or make sentences more memorable. However, designing fonts can be very time consuming, especially for languages with higher character count. Few-shot font style transfer is able to automate this process, using only a few samples as reference.
This report proposes a novel font style transfer method, named few-shot font style transfer with Extraction of Partial Style (EPS-Font). The method attempts to solve font style transfer differently than a typical way, which is using the same encoder architecture for content feature extraction and style feature extraction, with an encoder architecture that focuses on treating the style reference images as partial style reference images. It is shown that this way of extracting style features greatly increases the results over the typical way, and that EPS-Font is able to outperform state-of-the-art methods in both quantitative and qualitative evaluations. Additionally, experiments on using Deep Metric Learning (DML) for font style transfer are conducted. The results of these experiments suggest that DML does not improve the performance of the model, and that this is because the model is affected negatively by DML when the datasets have many similar fonts. Lastly, a modification that can be applied into a font style transfer method, named Deformation and Texture Separation (DTS) is presented. This modification separates the task of font style transfer into two parts: predicting the deformation and predicting the texture using the deformation. DTS shows interesting results and is a potential approach for new font style transfer methods.