Vis enkel innførsel

dc.contributor.advisorMengshoel, Ole Jakob
dc.contributor.authorLazreg, Lotfi Amin
dc.date.accessioned2023-10-17T17:20:47Z
dc.date.available2023-10-17T17:20:47Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:145904930:35331336
dc.identifier.urihttps://hdl.handle.net/11250/3097127
dc.description.abstractEmnemodellering er prosessen med å identifisere abstrakte begreper i en samling av dokumenter. Det er en mye brukt teknikk for å ekstrahere meningsfull informasjon fra tekstdata. I denne masteroppgaven undersøker vi effektiveten til en rekke emneodelleringsarkitekturer: BERTopic, Top2Vec og LDA. Arkitekturene blir testet på en samling med transkriberte parlamentariske taler fra det norske Stortinget. Vi utforsker ulike aspekter ved emnemodellering, inkludert forbehandlingstrinn som fjerning av stoppord og valg av passende innlemningsmodeller. Evaluering av resultater er avgjørende for å kunne anvende emnemodelleringsteknikker på en effektiv måte. Imidlertid har de to primære metoder for evaluering, brukertesting og automatiske metrikker, klare begrensninger. Brukertesting er tidkrevende og har en lang tilbakemeldingsløkke på grunn av kravet om brukerdeltakelse. Automatiske metrikker er begrenset i forhold til deres forbindelse til menneskelig tolkningsevne. For å overvinne disse begrensningene, foreslår avhandlingen et nytt evalueringsrammeverk kalt TopicEval, som utnytter domenekunnskap for å kvalitativt analysere eksempler på emner ved bruk av ordskyrepresentasjoner. Dette rammeverket gjør det mulig for domeneeksperter å systematisk vurdere kvaliteten og tolkbarheten til emner innen ulike kategorier. Vi anvendte evalueringsrammeverket på praktiske bruksområder i de gjennomførte eksperimentene. Som inkluderer analysen av et stort tekstbasert datasett (NPL). Gjennom eksperimentene observerte vi nytten av evalueringsrammeverket for å vurdere kvaliteten på temaene generert av modellene. Videre sammenligner vi to metoder for automatisk emne tittel generering, NETL og BERTopic. Vi undersøker deres styrker og svakheter, med tanke på faktorer som relevans til dokumenter og domenekunnskap.
dc.description.abstractTopic modelling is the process of identifying abstract concepts in a collection of documents. It is a widely used technique for extracting meaningful information from textual data. This thesis focuses on investigating the effectiveness of topic modelling architectures, namely BERTopic, Top2Vec, and LDA, in the context of Norwegian transcribed parliamentary speeches. The study explores various aspects of topic modelling, including preprocessing steps such as stopword removal and the selection of appropriate embedding models. Evaluating the performance of topic modelling techniques is crucial for their effective application. However, the two current primary methods in user testing and automatic metrics, have clear limitations. User testing has the limitation of requiring users, hence being time-consuming and having a long feedback loop. Automatic metrics have their limitations connected to their relation to human interpretability. To overcome these limitations, the thesis proposes a novel evaluation framework (TopicEval), that leverages expert domain knowledge to qualitatively analyse samples of topics using wordcloud representations. This framework enables domain experts to systematically assess the quality and interpretability of topics across a variety of categories. We applied the evaluation framework to practical use cases in the experiments conducted, including the analysis of a large-scale textual dataset (NPL). Through the experiments, we observed the usefulness of the evaluation framework in assessing the quality of topics generated by models. Moreover, we address the challenge of automatic topic labelling and compare two methods, NETL and BERTopic, for generating topic labels. We examine their strengths and weaknesses, considering factors such as coherence, relevance to documents, and domain knowledge.
dc.languageeng
dc.publisherNTNU
dc.titleTopic Modelling for Metadata Extraction and Generation from Norwegian Parliamentary Texts
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel