Fake News Detection by Weakly Supervised Learning: A Content-Based Approach

From, Anja Rosvold; Netland, Ingvild Unander

dc.contributor.advisor	Özgöbek, Özlem
dc.contributor.author	From, Anja Rosvold
dc.contributor.author	Netland, Ingvild Unander
dc.date.accessioned	2022-02-01T18:27:22Z
dc.date.available	2022-02-01T18:27:22Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:32866694
dc.identifier.uri	https://hdl.handle.net/11250/2976464
dc.description.abstract	Økt bruk av sosiale medier til lesing og deling av nyheter i kombinasjon med COVID-19-pandemien har resultert i en infodemi, som gjør utfordringen ved å oppdage falske nyheter mer relevant enn noen gang. Falske nyheter er her definert som "publisering av falsk informasjon, enten utilsiktet eller med overlegg, for å bedra eller gjøre skade." Tidligere forskning har brukt maskinlæring for å detektere falske nyhetsartikler, noe som har gitt lovende resultater. Imidlertid fokuserer det meste av den tidligere forskningen på å bruke veiledet læring, noe som krever manuelt merket opplæringsdata for å oppnå tilstrekkelige resultater, som er ressurskrevende å samle inn. For å løse dette problemet foreslår vi en metode som tilegner svake merker til et umerket datasett ekstrahert fra NELA-GT-2019, som deretter brukes til å svakt veilede en klassifiseringsmodell. Ytelsen til tre svake merkesystemer basert på rammeverkene Snorkel og Snuba, og de fem klassifiseringsmodellene Logistisk Regresjon, XGBoost, ALBERT, XLNet og RoBERTa, ble evaluaert i forbindelse med nøyaktighet og F1 poengsum. Modellene er trent på svakt merket data i to datascenarier: ett med en begrenset mengde merket data og ett med betydelig mer merket data. En veiledet ekvivalent med kun merket data blir trent for hver modell for å måle effekten av å utvide andelen treningsdata ved å legge til den svakt merkede dataen. Av de tre evaluerte svake merkesystemene, hadde det automatiske Snuba-systemet høyest ytelse, og klassifiserte 76,5% av alle instanser i et kildebasert testsett korrekt. Dette resultatet viser at en innholds-basert tilnærming for merking av falske nyheter bør basere seg på komplekse heuristikker for å skape svake etiketter med høy nøyaktighet. Klassifiseringsmodellene ble evaluert på et manuelt merket testsett som ble samlet i denne masteroppgaven. For scenariet med begrenset mengde merket data, var RoBERTa-modellen den beste av de fem svakt veiledede modellene, med en F1-score på 0,798, noe som overgikk den veiledede tilsvarende modellen med 1,9 F1-poeng. For scenariet med mer merket data, overgikk den veiledede modellen den beste svakt veiledede modellen. Disse resultatene viser at en svakt veiledet tilnærming er gunstig i scenarier der tilgjengeligheten til merket data er begrenset, men at bruken av svakt merket data kan svekke modellens ytelse i scenarier der det merkede datasettet allerede er tilstrekkelig stort.
dc.description.abstract	An increased use of social media for reading and sharing news articles coupled with the COVID-19 pandemic has resulted in an infodemic, and the challenge of detecting fake news is more relevant than ever. Fake news is here defined as "the publication of false information, either unintentional or with the intent to deceive or harm." Previous research has applied machine learning to automatically detect fake news articles, and promising results have been obtained. However, most research has focused on applying supervised learning that requires manually labeled training data to obtain adequate results, which is expensive to acquire. This thesis aims to efficiently assign noisy, or weak labels, to news articles extracted from the NELA-GT-2019 dataset to train a weakly supervised machine learning model to distinguish between fake and real news articles. The performance of two weak labeling systems based on the Snorkel and Snuba frameworks, and five machine learning models, namely Logistic Regression, XGBoost, ALBERT, XLNet and RoBERTa, are evaluated on this task in terms of accuracy and F1 score. The models are trained on the weakly labeled data in two data scenarios: one with limited labeled data and one with considerably more labeled data. A supervised equivalent is trained for each model to measure the effect of expanding the labeled training data with weakly labeled data. Of the three weak labeling systems evaluated, the Snuba system performed best and achieved an accuracy of 0.765 on a source-based test set. This result shows that a content-based approach for labeling fake news should rely on complex heuristics to create high confidence weak labels. The end models were evaluated on a manually labeled test set gathered as part of this work. For the limited labeled data scenario, RoBERTa was the best of the five weakly supervised models, with an F1 score of 0.798, outperforming the supervised approach by 1.9 F1 points. For the scenario with more labeled data, the supervised model outperformed the best weakly supervised model. These results show that a weakly supervised approach is favorable in scenarios where the availability of labeled data is limited, but may degrade the model's performance in scenarios where the labeled dataset is sufficiently large.
dc.language	eng
dc.publisher	NTNU
dc.title	Fake News Detection by Weakly Supervised Learning: A Content-Based Approach
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:74730513:32866 ...
Size:: 8.103Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6772]

Show simple item record