Surrounding Dialogue Generation using Deep Learning with Adapters

Chang, Ellen Zhang

Chang, Ellen Zhang

Master thesis

View/Open

no.ntnu:inspera:112046434:30923232.pdf (12.65Mb)

URI

https://hdl.handle.net/11250/3034872

Date

2022

Metadata

Show full item record

Collections

Institutt for datateknologi og informatikk [6772]

Abstract

Tekstgenerering er et aktivt forskningsområde som angår mange problemer, inkludert maskinoversettelse og responsgenerering. Disse problemene gjelder imidlertid bare generering av etterfølgende tekst til en tekstsnutt, ikke tekst i forkant av en tekstsnutt, etter vår beste kunnskap. Vi presenterer det nye omliggende dialoggenereringsproblemet som består av å legge til uttalelser i forkant og etterkant av en dialogsnutt. Omliggende dialoggenerering har mange applikasjoner, inkludert innholdsskaping for underholdningsformål og pedagogiske formål. For eksempel kan menneskelige innholdsskapere skrive en dialogsnutt, utvide snutten ved å bruke en omliggende dialoggenereringsarkitektur og gjøre justeringer på den utvidede dialogen til de er fornøyde. Den justerte dialogen kan endelig publiseres til forbrukeren som spesialisert innhold i form av kommunikasjonsøvelser eller underholdende, historiedrevne spill, for eksempel. På denne måten blir innholdsskapingsprosessen effektivisert slik at flere forbrukere, med ulike interesser og behov, kan motta relevant innhold.

For å løse det omliggende dialoggenereringsproblemet forslår vi en dyplærings-\\arkitektur med adaptere som utvider dialogsnutter ved å legge til uttalelser i forkant og etterkant av dialogsnutten i iterasjoner. Den bruker den forhåndstrente språkmodellen med åpen kildekode og toppmoderne ytelse, Generative Pre-trained Transformer 2. Vi fokuserer også på å utvikle en effektiv løsning, ettersom nyere trender innen naturlig språkbehandlingsfeltet har skapt bekymringer for bærekraft og skalerbarhet av språkmodeller. Gjennom brukerstudier og maskinlæringsstudier finner vi at arkitekturen vår er gunstig som et kreativt verktøy for innholdsskapere. Innen fem minutter kan innholdsskaperne forbedre de utvidede dialogene til en tilfredsstillende kvalitet. Vår adapterbaserte fremgangsmåte er også mer effektiv når det gjelder treningstid, lagringsplass og minnebruk under trening, sammenlignet med finjustering.

Text generation is an active research area concerning many problems, including machine translation and response generation. However, these problems only concern the generation of following text, not preceding, to the best of our knowledge. We present the novel surrounding dialogue generation problem, which consists of adding preceding and following utterances to a snippet of a dialogue. Surrounding dialogue generation has many applications, including content creation for entertainment and educational purposes. For instance, human content creators can write a dialogue snippet, extend the snippet using a surrounding dialogue generation architecture, and make adjustments to the extended dialogue until satisfied. The adjusted dialogue can finally be released to the consumer as specialized content in the form of communication exercises or entertaining, story-driven games, for instance. This way, the content creation process is streamlined so a bigger audience of consumers, with different interests and needs, can receive relevant content.

We also present an approach for solving the surrounding dialogue generation problem. Specifically, we propose a deep learning architecture with adapters that extends dialogues by adding preceding and following utterances to a snippet of a dialogue in iterations. It uses the open-source pre-trained language model with state-of-the-art performance, the Generative Pre-trained Transformer 2. We also focus on developing an efficient solution, as recent trends within the Natural Language Processing field have brought concerns for the sustainability and scalability of language models. Through user studies and machine learning studies, we find that our architecture is beneficial as a creative tool for content creators. Within five minutes, the content creators can improve the extended dialogues to a satisfactory quality. Our adapter-based tuning approach is also more efficient in terms of training time, storage space, and memory usage during training, compared to fine-tuning.

Publisher

NTNU