A Hybrid Multi-document Summarization System for Biomedical Articles

Stang, Helene Janine; Sollid, Ingeborg Sætersdal

dc.contributor.advisor	Ramampiaro, Heri
dc.contributor.author	Stang, Helene Janine
dc.contributor.author	Sollid, Ingeborg Sætersdal
dc.date.accessioned	2021-10-03T16:37:56Z
dc.date.available	2021-10-03T16:37:56Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:33107449
dc.identifier.uri	https://hdl.handle.net/11250/2787243
dc.description.abstract	Hovedmålet med dette arbeidet er å undersøke hvordan tekstsammendrag kan brukes til å støtte beslutningsprosesser i det biomedisinske domenet, spesielt for diagnostisering cerebral parese. Maskinlæring har vist et stort potensiale for tidlig diagnostisering av CP. For at medisinske eksperter skal forstå systemets prediksjoner bedre vil artikler relatert til algoritmens funn bli hentet ut. Automatisk oppsummering av disse artiklene kan hjelpe medisinske eksperter med å spare verdifull tid og gi viktig informasjon for å støtte beslutningen av den endelige diagnosen. De siste årene har naturlig språkprosessering (NLP) sett betydelige fremskritt i bruken av nevrale nettverksbaserte metoder. Tilgjengeligheten av forhåndstrente språkmodeller har resultert i en betydelig forbedring i automatisk tekstoppsummering. Det er imidlertid fortsatt utfordrende å lage tekstsammendrag av flere lange dokumenter innen det biomedisinske domenet som er nær hvordan mennesker ville ha skrevet dem. Vi presenterer et nytt system for oppsummering av flere biomedisinske dokumenter som består av en ekstraktiv-abstraktiv oppsummerer. Det ekstraktive steget benytter forskjellige teknikker innen text mining, mens det abstraktive trinnet benytter en forhåndstrent språkmodell. Vårt hovedfokus er den ekstraktive delen, da den muliggjør oppsummering av flere dokumenter ved å redusere mengden tekst som sendes inn til den forhåndstrente modellen. Systemet skal håndtere overflødig og motstridende informasjon innenfor det biomedisinske domenet og produsere konsise og konsistente sammendrag. For å finne det optimale oppsummeringssystemet gjennomfører vi et ablasjonsstudie. Dette studiet involverer eksperimenter med ulike teknikker innen representasjon, gruppering, scoring og utvelging av setninger. Evalueringen av det foreslåtte systemet vårt viser et stort potensiale for å støtte beslutningsprosesser innen det biomedisinske domenet og validere prediksjoner fra maskinlæringsmodeller. Oppsummeringene som genereres ser generelt bra ut, men lider imidlertid fortsatt av overflødig og motstridende informasjon, så disse gjenværende utfordringene må løses i fremtidig arbeid.
dc.description.abstract	The main objective of this work is to investigate how text summarization can be used to support decision-making in the biomedical domain, especially in the diagnosis of cerebral palsy. Machine learning has shown great potential for the early diagnosis of CP. For the medical experts to better understand the system’s predictions, articles related to the algorithm’s findings will be retrieved. Automatic summarization of these articles can help medical experts save valuable time and provide essential information to support the decision of the final diagnosis. In recent years, natural language processing has seen significant advances in the use of neural-network-based methods. The availability of pre-trained language models has resulted in a significant improvement in automatic text summarization. However, it remains challenging to create text summaries of multiple long documents in the biomedical domain close to how humans would have written them. We propose a novel biomedical multi-document summarization system consisting of an extractive-abstractive summarizer. The extractive step utilizes various text mining techniques, while the abstractive step employs a pre-trained language model. Our main focus is the extractive part, as it enables the summarization of multiple documents by reducing the input text of the pre-trained model. The system should handle redundant, complementary, and conflicting information within the biomedical domain and produce concise and consistent summaries. In order to find the optimal summarization pipeline, we conduct an ablation study. This study involves experiments with different techniques within representation, clustering, scoring, and selection of sentences. The evaluation of our proposed approach system shows great potential for supporting decision-making within the biomedical domain and validating predictions from machine learning models. The generated summaries look generally good, although they still suffer from some redundancy and conflicting information, so the remaining challenges need to be solved in future work.
dc.language	eng
dc.publisher	NTNU
dc.title	A Hybrid Multi-document Summarization System for Biomedical Articles
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:74730513:33107 ...
Størrelse:: 8.672Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6808]

Vis enkel innførsel