Explaining fake news

Ulvund, Leif

Ulvund, Leif

Master thesis

Åpne

no.ntnu:inspera:80718798:30157205.pdf (7.876Mb)

Permanent lenke

https://hdl.handle.net/11250/2826386

Utgivelsesdato

2021

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6556]

Sammendrag

Dagens nyhetsbilde står forran en stor utfordring på grunn av mengden falske nyheter som florerer. Selv om en nyhetsartikkel kan bli automatisk detektert som falsk er det fremdeles vanskelig å forklare forskjellen mellom ekte og falske nyheter. En måte de kan skille seg på er semantikken i teksten. Disse endringene kan visualiseres og øke vår forståelse av hva som gjør falske nyheter falsk. Denne oppgaven evaluerer bruken av kontekstualiserte språkmodeller på to oppgaver om semantisk endring og analyserer ekte of falske nyheter for å detektere semantiske forskjeller mellom dem.

For å evaluere ytelsen deres blir de tre språkmodellene BERT, GPT-2 og XLNet testet ved å bruke et rammeverk for semantisk endring. Dette består av en rangerings- og en binær klassifiseringsoppgave og et diakronisk korpus av tekst. Modellene er evaluert etter hvor bra rangeringene av ord som endrer seg mest korrelerer med mennesker, og nøyaktigheten deres i å klassifisere ord som er markert som endret. Den modellen som yter best blir valgt til å analysere nyhetsdataen etter typer av semantiske endringer og for hvilke ord disse endringene er synlige.

Hovedresultatene viser at det er en stor forskjell i ytelsen til kontekstualiserte språkmodeller på disse oppgavene. BERT oppnår en korrelasjon på 0.646 etter videre trening, noe som er litt bedre enn tidligere forsøk med BERT, og høyere enn tilsvarende metoder fra litteraturen. Modellen oppnår også en korrelasjon på 0.547 uten videre trening om man fjerner ordklassetaggen tilknyttet hvert ord som testes. GPT-2 og XLNet klarer å slå grunnlinje-testene, men er ikke bedre enn tilsvarende metoder. Brukt til å analysere nyheter viser resultatene at flere typer semantiske endringer kan observeres, men påpeker også områder der fremtidig arbeid er vikig for å redusere nivået av støy i dataen. Dette innebærer å fjerne mange av de veldig like setningene som repeteres ofte i nyheter, og som er spesifikke til kilden som publiserer dem.

The current news ecosystem faces a significant challenge due to the amount of fake news being published. Even if a news article can be automatically detected as fake, it is still challenging to explain the difference between real and fake news. One avenue that can differ is the semantics of the text. These differences can be visualized and help create an understanding of what makes fake news fake. This thesis evaluates the use of contextualized language models on two semantic change tasks and analyses real and fake news to detect lexical semantic change between them.

To evaluate their performance, the three language models BERT, GPT-2 and XLNet are assessed using a semantic change framework that consists of a graded and a binary change detection task, and a diachronic corpus of text. The models are evaluated on how well their ranking of which words have changed the most correlate with those of human annotators, and their accuracy in detecting words that are marked as changed. The best performing model is chosen to analyse news data for types of semantic change undergone and for which words these changes are prevalent.

The main results show that there is a large difference in how contextual language models perform on these tasks. BERT achieves a correlation of 0.646 after fine-tuning, which is slightly higher than previous usages of BERT, and higher than comparable methods used in the literature. It is also able to achieve a correlation of 0.547 pre-trained after removing the part-of-speech tag appended to every target word. GPT-2 and XLNet are able to beat the baselines, but do not perform better than comparable methods. When used to analyze news, the findings show that multiple types of semantic change are present, but also pinpoints areas where further work is important to reduce the level of noise in the data. These are areas such as removing many of the very similar sentences that are repeated often in news, and that are specific to the source that published the article.

Utgiver

NTNU