Viewpoints Detection in Political Speeches
Abstract
English abstract
Politics has significant impacts on our daily lives. It influences laws, policies, and resources allocation. The Internet and social media confront readers with an overwhelming amount of political texts. Readers struggle to analyze the information and increasingly rely on efficient processing methods. This thesis aims at automatically analyzing political texts by leveraging Large Language Models (LLMs). Our research investigates political party affiliations in Norwegian politics, studying the effectiveness of applying LLMs in political tasks. We explore ways to automatically identify political viewpoints in speeches and to what extent training LLMs on extensive resources is an effective strategy. A set of LLMs are fine-tuned and tailored to Scandinavian politics—namely SP-BERT, SP-T5, and SP-T5-keyword. The multi-feature data set called nor-pvi, comprises political viewpoints, stances and summaries of speeches in Norwegian Parliament. Our findings show that employing LLMs improves political party affiliations identification by up to 10.35% over the Naïve Bayes baseline for Norwegian. The SP-T5 model with opinion keywords masking enhances the identification of political viewpoints compared to no keyword masking, resulting in marginal increase of 4.3/5.3/4.5 in ROUGE-1/2/L respectively. Domain-specific LLMs with limited resources achieves comparable performance to large scale generic LLMs. The results are part of a work towards a broader understanding of automated political discourse analysis, particularly in underrepresented languages. Norsk sammendrag
Politikk har betydelige innvirkninger på våre daglige liv. Den påvirker lover, politikk og ressursallokering. Internett og sosiale medier konfronterer lesere med en overveldende mengde politiske tekster. Lesere sliter med å analysere informasjonen og stoler i økende grad på effektive prosesseringsmetoder. Denne avhandlingen har som mål å automatisk analysere politiske tekster ved å dra nytte av store språkmodeller (SSM). Vår forskning undersøker politiske partitilknytninger i norsk politikk, og studerer effektiviteten av å anvende SSM-er i politiske oppgaver. Vi utforsker hvordan man automatisk kan identifisere politiske synspunkter i taler og i hvilken grad trening av SSM-er på omfattende ressurser er en effektiv strategi. En serie med SSM-er er fintilpasset og tilpasset til skandinavisk politikk – nærmere bestemt SP-BERT, SP-T5 og SP-T5-nøkkelord. Det flerfunksjonelle datasettet kalt nor-pvi, som omfatter politiske synspunkter, ståsteder og sammendrag av taler i det norske parlamentet. Våre funn viser at bruk av SSM-er forbedrer identifiseringen av politiske partitilknytninger med opptil 10.35% over Naïve Bayes-grunnlinjen for norsk. SP-T5-modellen med maske for meningsfulle nøkkelord forbedrer identifiseringen av politiske synspunkter sammenlignet med ingen nøkkelordsmaske, og resulterer i en marginal økning på 4.3/5.3/4.5 i ROUGE-1/2/L. Domenespesifikke SSM-er med begrensede ressurser oppnår sammenlignbar ytelse med store generiske SSMer. Resultatene er del av et arbeid mot en bredere forståelse av automatisert analyse av politisk diskurs, spesielt i underrepresenterte språk.