dc.contributor.advisor | Ramampiaro, Heri | |
dc.contributor.author | Stang, Helene Janine | |
dc.contributor.author | Sollid, Ingeborg Sætersdal | |
dc.date.accessioned | 2021-10-03T16:28:27Z | |
dc.date.available | 2021-10-03T16:28:27Z | |
dc.date.issued | 2021 | |
dc.identifier | no.ntnu:inspera:74730513:27143267 | |
dc.identifier.uri | https://hdl.handle.net/11250/2787231 | |
dc.description.abstract | Hovedmålet med dette arbeidet er å undersøke hvordan tekstsammendrag kan brukes
til å støtte beslutningsprosesser i det biomedisinske domenet, spesielt for diagnostisering
cerebral parese. Maskinlæring har vist et stort potensiale for tidlig diagnostisering
av CP. For at medisinske eksperter skal forstå systemets prediksjoner bedre
vil artikler relatert til algoritmens funn bli hentet ut. Automatisk oppsummering
av disse artiklene kan hjelpe medisinske eksperter med å spare verdifull tid og gi
viktig informasjon for å støtte beslutningen av den endelige diagnosen. De siste
årene har naturlig språkprosessering (NLP) sett betydelige fremskritt i bruken av
nevrale nettverksbaserte metoder. Tilgjengeligheten av forhåndstrente språkmodeller
har resultert i en betydelig forbedring i automatisk tekstoppsummering. Det er
imidlertid fortsatt utfordrende å lage tekstsammendrag av flere lange dokumenter
innen det biomedisinske domenet som er nær hvordan mennesker ville ha skrevet
dem.
Vi presenterer et nytt system for oppsummering av flere biomedisinske dokumenter
som består av en ekstraktiv-abstraktiv oppsummerer. Det ekstraktive steget
benytter forskjellige teknikker innen text mining, mens det abstraktive trinnet benytter
en forhåndstrent språkmodell. Vårt hovedfokus er den ekstraktive delen, da den
muliggjør oppsummering av flere dokumenter ved å redusere mengden tekst som
sendes inn til den forhåndstrente modellen. Systemet skal håndtere overflødig og
motstridende informasjon innenfor det biomedisinske domenet og produsere konsise
og konsistente sammendrag. For å finne det optimale oppsummeringssystemet
gjennomfører vi et ablasjonsstudie. Dette studiet involverer eksperimenter med ulike
teknikker innen representasjon, gruppering, scoring og utvelging av setninger. Evalueringen
av det foreslåtte systemet vårt viser et stort potensiale for å støtte beslutningsprosesser
innen det biomedisinske domenet og validere prediksjoner fra
maskinlæringsmodeller. Oppsummeringene som genereres ser generelt bra ut, men
lider imidlertid fortsatt av overflødig og motstridende informasjon, så disse gjenværende
utfordringene må løses i fremtidig arbeid. | |
dc.description.abstract | The main objective of this work is to investigate how text summarization can be used
to support decision-making in the biomedical domain, especially in the diagnosis of
cerebral palsy. Machine learning has shown great potential for the early diagnosis
of CP. For the medical experts to better understand the system’s predictions, articles
related to the algorithm’s findings will be retrieved. Automatic summarization of
these articles can help medical experts save valuable time and provide essential information
to support the decision of the final diagnosis. In recent years, natural language
processing has seen significant advances in the use of neural-network-based
methods. The availability of pre-trained language models has resulted in a significant
improvement in automatic text summarization. However, it remains challenging
to create text summaries of multiple long documents in the biomedical domain close
to how humans would have written them.
We propose a novel biomedical multi-document summarization system consisting
of an extractive-abstractive summarizer. The extractive step utilizes various
text mining techniques, while the abstractive step employs a pre-trained language
model. Our main focus is the extractive part, as it enables the summarization of
multiple documents by reducing the input text of the pre-trained model. The system
should handle redundant, complementary, and conflicting information within
the biomedical domain and produce concise and consistent summaries. In order
to find the optimal summarization pipeline, we conduct an ablation study. This
study involves experiments with different techniques within representation, clustering,
scoring, and selection of sentences. The evaluation of our proposed approach
system shows great potential for supporting decision-making within the biomedical
domain and validating predictions from machine learning models. The generated
summaries look generally good, although they still suffer from some redundancy
and conflicting information, so the remaining challenges need to be solved in future
work. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | A Hybrid Multi-document Summarization System for Biomedical Articles | |
dc.type | Master thesis | |