• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for datateknologi og informatikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Assessing Generative AI for Text Summarization of Domain-specific Documents

Haugli, Andreas Leon Djønne
Master thesis
Thumbnail
View/Open
no.ntnu:inspera:187264004:47749046.pdf (3.259Mb)
URI
https://hdl.handle.net/11250/3161710
Date
2024
Metadata
Show full item record
Collections
  • Institutt for datateknologi og informatikk [7357]
Abstract
Forskning på oppsummering av tekst har kommet langt siden det startet på 1950-tallet. Over årene har forskere stadig forsøkt å forbedre teknikker for å generere sammendrag som tett samsvarer med menneskeskapte sammendrag [1, 2]. Nylig har store språkmodeller (LLM-er) gjort betydelige fremskritt. Dette er modeller som er trent på store mengder tekst for å forstå og generere menneskelignende språk. Ved å bruke LLM-er til oppsummering av tekst, er det nå mulig å generere sammendrag som har en bedre forståelse av semantiske relasjoner mellom ord, noe som resulterer i at de genererte sammendragene er nærmere menneskeskapte sammendrag [3].

Denne oppgaven skal vurdere bruken av generativ KI for å oppsummere domenespesifikt innhold, spesifikt av dokumenter som omhandler norske kompliserte lover og regelverk. Hensikten med forskningsprosjektet er å gjennomføre et eksperiment som bruker forskjellige versjoner av GPT-modeller, GPT-3.5 Turbo og GPT-4, og generere sammendrag med unike instruksjoner. Disse sammendragene vil bli evaluert ved hjelp av ulike teknikker, inkludert beregning av “cosine similarity” og gjennomgå menneskelig evaluering av fageksperter innenfor et tilpasset evalueringssystem. Resultatene sikter på å gi innsikt i kvaliteten og nøyaktigheten av de genererte sammendragene, og avgjøre om det er en forskjell mellom sammendrag generert av en domenespesifikk “persona” eller ikke.

Resultatene av evalueringen viste høye verdier for “cosine similarity”, der de genererte sammendragene hadde en gjennomsnittsverdi på 0.9419 og en medianverdi på 0.9431. Dette indikerte en stor likhet mellom de genererte sammendragene og referansesammendragene skrevet av fageksperter. Til tross for at sammendragene ble vurdert til å være nøyaktige innenfor den domenespesifikke konteksten, ble omtrent 13% av GPT-genererte sammendrag godkjent av fagekspertene, mens utrolige 87% ble vurdert til å trenge ytterligere redigering før publisering. Av de 13% godkjente sammendragene, viser det seg overraskende at GPT-4 presterer dårligere, og GPT-3.5 Turbo hadde det beste resultatet i dette eksperimentet. I tillegg, var sammendrag generert med en domenespesifikk “persona” best egnet for å generere sammendrag av domenespesifikke dokumenter.
 
The research of text summarization has come a long way since it began in the 1950s. Over the years, researchers have continuously tried to enhance techniques for generating summaries that closely align with human-made summaries [1, 2]. Recently, Large Language Models (LLMs) have made significant advancements. These are models trained on large amounts of textual data to understand and generate human-like language. By utilizing LLMs in text summarization, it is now possible to generate summaries that have a greater understanding of semantic relationships between words, resulting in them being closer to human-made summaries [3].

This thesis aims to assess the use of generative AI for summarizing domain-specific content, particularly Norwegian documents encompassing complicated laws and regulations. The research project intend to conduct an experiment that employs different versions of GPT models, specifically GPT-3.5 Turbo and GPT-4, to generate summaries given unique instructions. These summaries will be evaluated using various techniques, including calculating their cosine similarity scores and undergo examination by domain experts within a customized human evaluation framework. The results aim to provide insights into the quality and accuracy of the generated summaries, and determine whether there is a difference between summaries generated by a domain-specific persona or not.

The results of the evaluation demonstrated high scores for cosine similarity, with the generated summaries scoring an average of 0.9419 and having a median score of 0.9431. This indicates a high similarity between the generated summary and the reference summary written by the domain experts. Although the summaries were determined to be accurate within the domain-specific context, approx 13% of the GPT-generated summaries were approved by the experts, while a staggering 87% were determined to need further editing before publishing to customers. Out of the 13% of approved summaries by the experts, it shows surprisingly that GPT-4 under-performs, and GPT-3.5 Turbo had the best outcome of this experiment. Additionally, summaries generated with a personalized domain-specific persona were best suited for generating the summaries of domain-specific documents.
 
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit