Vis enkel innførsel

dc.contributor.advisorRamampiaro, Heri
dc.contributor.authorStang, Helene Janine
dc.contributor.authorSollid, Ingeborg Sætersdal
dc.date.accessioned2021-10-03T16:37:56Z
dc.date.available2021-10-03T16:37:56Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:33107449
dc.identifier.urihttps://hdl.handle.net/11250/2787243
dc.description.abstractHovedmålet med dette arbeidet er å undersøke hvordan tekstsammendrag kan brukes til å støtte beslutningsprosesser i det biomedisinske domenet, spesielt for diagnostisering cerebral parese. Maskinlæring har vist et stort potensiale for tidlig diagnostisering av CP. For at medisinske eksperter skal forstå systemets prediksjoner bedre vil artikler relatert til algoritmens funn bli hentet ut. Automatisk oppsummering av disse artiklene kan hjelpe medisinske eksperter med å spare verdifull tid og gi viktig informasjon for å støtte beslutningen av den endelige diagnosen. De siste årene har naturlig språkprosessering (NLP) sett betydelige fremskritt i bruken av nevrale nettverksbaserte metoder. Tilgjengeligheten av forhåndstrente språkmodeller har resultert i en betydelig forbedring i automatisk tekstoppsummering. Det er imidlertid fortsatt utfordrende å lage tekstsammendrag av flere lange dokumenter innen det biomedisinske domenet som er nær hvordan mennesker ville ha skrevet dem. Vi presenterer et nytt system for oppsummering av flere biomedisinske dokumenter som består av en ekstraktiv-abstraktiv oppsummerer. Det ekstraktive steget benytter forskjellige teknikker innen text mining, mens det abstraktive trinnet benytter en forhåndstrent språkmodell. Vårt hovedfokus er den ekstraktive delen, da den muliggjør oppsummering av flere dokumenter ved å redusere mengden tekst som sendes inn til den forhåndstrente modellen. Systemet skal håndtere overflødig og motstridende informasjon innenfor det biomedisinske domenet og produsere konsise og konsistente sammendrag. For å finne det optimale oppsummeringssystemet gjennomfører vi et ablasjonsstudie. Dette studiet involverer eksperimenter med ulike teknikker innen representasjon, gruppering, scoring og utvelging av setninger. Evalueringen av det foreslåtte systemet vårt viser et stort potensiale for å støtte beslutningsprosesser innen det biomedisinske domenet og validere prediksjoner fra maskinlæringsmodeller. Oppsummeringene som genereres ser generelt bra ut, men lider imidlertid fortsatt av overflødig og motstridende informasjon, så disse gjenværende utfordringene må løses i fremtidig arbeid.
dc.description.abstractThe main objective of this work is to investigate how text summarization can be used to support decision-making in the biomedical domain, especially in the diagnosis of cerebral palsy. Machine learning has shown great potential for the early diagnosis of CP. For the medical experts to better understand the system’s predictions, articles related to the algorithm’s findings will be retrieved. Automatic summarization of these articles can help medical experts save valuable time and provide essential information to support the decision of the final diagnosis. In recent years, natural language processing has seen significant advances in the use of neural-network-based methods. The availability of pre-trained language models has resulted in a significant improvement in automatic text summarization. However, it remains challenging to create text summaries of multiple long documents in the biomedical domain close to how humans would have written them. We propose a novel biomedical multi-document summarization system consisting of an extractive-abstractive summarizer. The extractive step utilizes various text mining techniques, while the abstractive step employs a pre-trained language model. Our main focus is the extractive part, as it enables the summarization of multiple documents by reducing the input text of the pre-trained model. The system should handle redundant, complementary, and conflicting information within the biomedical domain and produce concise and consistent summaries. In order to find the optimal summarization pipeline, we conduct an ablation study. This study involves experiments with different techniques within representation, clustering, scoring, and selection of sentences. The evaluation of our proposed approach system shows great potential for supporting decision-making within the biomedical domain and validating predictions from machine learning models. The generated summaries look generally good, although they still suffer from some redundancy and conflicting information, so the remaining challenges need to be solved in future work.
dc.languageeng
dc.publisherNTNU
dc.titleA Hybrid Multi-document Summarization System for Biomedical Articles
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel