TOBIAS: Topic-Oriented Bias In Abstractive Summarization
Abstract
Med den store mengden informasjon som omgir oss i dag, har det blitt mer vanlig å søke etter og tilegne seg informasjon fra tekstsammendrag, uten å måtte lese gjennom lange tekster. Oppblomstringen av språkprosessering og store språkmodeller har bidratt til at maskingenererte oppsummeringer nærmer seg et menneskelig nivå. En begrensning med flere oppsummeringsteknikker er imidlertid at de lager generiske oppsummeringer og brukeren kan ikke selv definere kriteriene for oppsummeringene. En måte å innarbeide brukerkontroll på, er å styre en oppsummering mot et spesifikt emne. Flere eksisterende kontrollerbare tekstgenererings- og oppsummeringsmetoder bruker enten eksterne emnemodeller til å vekte språkmodellers interne representasjon eller bruker kontrollord og fraser som prefiks til dokumentet. I denne masteroppgaven prøver vi å forbedre nåværende emnekontrollerbare oppsummeringsmodeller gjennom å vekte modellens interne representasjon, uten å bruke eksterne modeller.
Vi presenterer en ny arkitektur for emne-kontrollerbar oppsummering, TOBIAS: Topic Oriented Bias In Abstractive Summarization. Denne arkitekturen bruker emnespørringer med et sammenhengende sett med ord for å beskrive et emne. TOBIAS bruker denne emnespørringen til å påvirke cross-attention-mekanismen i transformerbaserte sekvens-til-sekvens-modeller for å styre oppsummeringen mot det ønskede emnet. Ved å bruke modellens interne dokumentrepresentasjon, vekter vi hvert ord med avstanden til emnespørringen i embedding-rommet. I tillegg reproduserer vi en emnestyrt oppsummeringsmodell, CONFORMER, fra bunnen av og foreslår en modifisert versjon av en emnefokusmetrikk, Topic Focus, for å ta hensyn til hele oppsummeringen ved evaluering av emnefokuset. Vi kaller metrikken Topic Focus*, som er en mer nyansert metrikk for emnestyrt oppsummering. Resultatene våre viser at TOBIAS-arkitekturen kan utkonkurrere emnefokuset til tidligere metoder, gjennom kun å bruke allerede eksisterende interne mekanismer fra transformermodellen.
Kildekoden for oppgavens eksperimenter er tilgjengelig på github.com/hhtjo/TOBIAS. Koden inneholder vår TOBIAS-modell, den reproduserte CONFORMER-modellen og den modifiserte Topic Focus-metrikken, Topic Focus*. With the vast amounts of information surrounding us in today's information age, summarization has become increasingly beneficial when searching for and acquiring relevant information without reading through long texts. As a result of the boom in Natural Language Processing (NLP) and Large Language Models (LLMs), machine-generated summaries are nearing a human level. However, many summarization techniques' limitations are that they create generic summaries and cannot be controlled based on user-defined criteria. One possible way to incorporate user control is to be able to steer the summary toward a specific topic. Currently, many topic-controllable text-generation and summarization approaches either use externally trained topic models to weigh the internal representations of the language models or prefix the input documents with a set of topic-related words or phrases. Therefore, this master's thesis seeks to improve the current topic-controllable summarization models by weighting the internal representation of language models without using external models.
We present a novel architecture for topic-controllable summarization, TOBIAS: Topic Oriented Bias In Abstractive Summarization. Our architecture uses simple user-selected topic prompts consisting of cohesive words to describe a topic. Using this topic prompt, TOBIAS influences the cross-attention mechanism of transformer-based sequence-to-sequence models to steer the summaries toward the given topic. By utilizing the model's internal representations of the document, we weigh each embedded token in the input document according to its distance to the given topic prompt in the embedding space. Additionally, we reproduce a topic-controllable summarization model from the ground up, the CONFORMER, and propose a modified version of a topic-focus metric, Topic Focus, to consider the whole summary when evaluating the topic focus. We label the improved metric Topic Focus*, a more nuanced performance metric for topic-focused summaries. Our results show that the TOBIAS architecture can outperform the topic focus of previous approaches by only leveraging existing intrinsic mechanisms of the transformer model.
The source code for the experiments in this thesis is available at github.com/hhtjo/TOBIAS. The code contains our presented TOBIAS model, our replicated CONFORMER model, and the modified Topic Focus metric, Topic Focus*.