Augmenting Entity-level Sentiment Analysis with Coreference Resolution

Jørgensen, Tollef Emil

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Jørgensen, Tollef Emil
dc.date.accessioned	2021-09-15T16:11:16Z
dc.date.available	2021-09-15T16:11:16Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:21520297
dc.identifier.uri	https://hdl.handle.net/11250/2777800
dc.description.abstract	Utbredelsen av nettbaserte medier er allerede omfattende og utviklingen skjer raskt. Denne utviklingen innebærer også at følelsesbetonte oppfatninger, sentimenter, som omhandler personer, bedrifter og andre entiteter, spres i høyt tempo over hele verden. I kontekst av naturlig språkprosessering er Entitetsnivå Sentimentanalyse den foretrukne metoden for å kategorisere hvilke sentimenter som blir uttrykt overfor entiteter. Mangel på data har imidlertidig ført til begrenset forskningsaktivitet på dette feltet. Ved å endre tilnærmingen til Entitetsnivå Sentimentanalyse, vil denne masteroppgaven involvere koreferansebestemmelse - oppgaven å gjenkjenne og koble sammen uttrykk i en tekst som refererer til en unik entitet. Nåværende systemer for koreferansebestemmelse utfører kun evalueringer på ett enkelt datasett, med konsekvens at bruksområdet blir innskrenket. For å forbedre evalueringskvaliteten, defineres her et enhetlig format. Flere datasett er konvertert til det samme, enhetlige formatet, som muliggjør omfattende evalueringer på tvers av domener. Et rammeverk for koreferansebestemmelse er utviklet, med mål om å etablere en generaliserbar modell ved å teste domeneoverførbarheten til fire modellarkitekturer: en deterministisk, regelbasert modell, en statistisk modell og to modeller basert på kunstige nevrale nettverk. Den mest egnede modellen vil brukes til å omgjøre data ved hjelp av en entitetssentrisk segmenteringsalgoritme. Et separat rammeverk for Entitetsnivå Sentimentanalyse er brukt til å predikere sentimenter i disse omgjorte dataene. Dette rammeverket omfatter fire isolerte maskinlæringssystemer: to basert på det veletablerte Long Short-Term Memory, et basert på hukommelsesmekanismer og et siste på den nyere Transformer-arkitekturen. Resultatene viser at ved å omgjøre større tekster ved hjelp av koreferansebestemmelse og en segmenteringsalgoritme, kan modeller mer nøyaktig utføre sentimentprediksjoner rettet mot entiteter. Disse resultatene kan komme til nytte for systemer som omhandler tekstanalyse, særlig innen domener der det er viktig å skille mellom positive og negative sentimenter, som for eksempel i nyheter.
dc.description.abstract	As online media become more prevalent than ever, sentiments towards persons, businesses and other entities spread throughout the world at an increasingly rapid rate. In context of Natural Language Processing, Entity-level Sentiment Analysis is the leading approach to categorize the sentiments expressed towards these entities. Due to the lack of available data, however, research within the field has been left in a stale environment. Therefore, in an attempt to augment the task, this Master's Thesis incorporates Coreference Resolution - the detection and resolving of mentions that refer to a unique entity in a text. Current systems for Coreference Resolution merely perform evaluations on a single, widely used dataset. Consequently, the usability for Coreference Resolution on other tasks and domains is highly limited. To improve the quality of evaluations, a unified format has been defined. Several datasets are converted into the same, unified format, enabling comprehensive evaluations across domains. A developed framework for Coreference Resolution aims to establish the most generalizable model by evaluating the domain transferability of four model architectures: a deterministic, rule-based model, a statistical model and two based on neural networks. The resulting best model is employed to augment data using an entity-centric segmentation algorithm. A separate framework for Entity-level Sentiment Analysis is used to predict sentiments in the augmented data. This framework comprises four isolated machine learning classifiers: two involving the well established Long Short-Term Memory, an Attention-based neural network, and finally an implementation of the novel Transformer architecture. Results show that by augmenting larger texts with the help of Coreference Resolution and a segmentation algorithm, models can more accurately predict sentiment towards entities. These results may prove helpful for systems concerning text analytics, especially within domains where distinguishing between positive and negative sentiments is essential, such as for news.
dc.language
dc.publisher	NTNU
dc.title	Augmenting Entity-level Sentiment Analysis with Coreference Resolution
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:21520 ...
Størrelse:: 10.91Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6828]

Vis enkel innførsel