Show simple item record

dc.contributor.advisorÖzgöbek, Özlem
dc.contributor.authorFrom, Anja Rosvold
dc.contributor.authorNetland, Ingvild Unander
dc.date.accessioned2022-02-01T18:27:22Z
dc.date.available2022-02-01T18:27:22Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:74730513:32866694
dc.identifier.urihttps://hdl.handle.net/11250/2976464
dc.description.abstractØkt bruk av sosiale medier til lesing og deling av nyheter i kombinasjon med COVID-19-pandemien har resultert i en infodemi, som gjør utfordringen ved å oppdage falske nyheter mer relevant enn noen gang. Falske nyheter er her definert som "publisering av falsk informasjon, enten utilsiktet eller med overlegg, for å bedra eller gjøre skade." Tidligere forskning har brukt maskinlæring for å detektere falske nyhetsartikler, noe som har gitt lovende resultater. Imidlertid fokuserer det meste av den tidligere forskningen på å bruke veiledet læring, noe som krever manuelt merket opplæringsdata for å oppnå tilstrekkelige resultater, som er ressurskrevende å samle inn. For å løse dette problemet foreslår vi en metode som tilegner svake merker til et umerket datasett ekstrahert fra NELA-GT-2019, som deretter brukes til å svakt veilede en klassifiseringsmodell. Ytelsen til tre svake merkesystemer basert på rammeverkene Snorkel og Snuba, og de fem klassifiseringsmodellene Logistisk Regresjon, XGBoost, ALBERT, XLNet og RoBERTa, ble evaluaert i forbindelse med nøyaktighet og F1 poengsum. Modellene er trent på svakt merket data i to datascenarier: ett med en begrenset mengde merket data og ett med betydelig mer merket data. En veiledet ekvivalent med kun merket data blir trent for hver modell for å måle effekten av å utvide andelen treningsdata ved å legge til den svakt merkede dataen. Av de tre evaluerte svake merkesystemene, hadde det automatiske Snuba-systemet høyest ytelse, og klassifiserte 76,5% av alle instanser i et kildebasert testsett korrekt. Dette resultatet viser at en innholds-basert tilnærming for merking av falske nyheter bør basere seg på komplekse heuristikker for å skape svake etiketter med høy nøyaktighet. Klassifiseringsmodellene ble evaluert på et manuelt merket testsett som ble samlet i denne masteroppgaven. For scenariet med begrenset mengde merket data, var RoBERTa-modellen den beste av de fem svakt veiledede modellene, med en F1-score på 0,798, noe som overgikk den veiledede tilsvarende modellen med 1,9 F1-poeng. For scenariet med mer merket data, overgikk den veiledede modellen den beste svakt veiledede modellen. Disse resultatene viser at en svakt veiledet tilnærming er gunstig i scenarier der tilgjengeligheten til merket data er begrenset, men at bruken av svakt merket data kan svekke modellens ytelse i scenarier der det merkede datasettet allerede er tilstrekkelig stort.
dc.description.abstractAn increased use of social media for reading and sharing news articles coupled with the COVID-19 pandemic has resulted in an infodemic, and the challenge of detecting fake news is more relevant than ever. Fake news is here defined as "the publication of false information, either unintentional or with the intent to deceive or harm." Previous research has applied machine learning to automatically detect fake news articles, and promising results have been obtained. However, most research has focused on applying supervised learning that requires manually labeled training data to obtain adequate results, which is expensive to acquire. This thesis aims to efficiently assign noisy, or weak labels, to news articles extracted from the NELA-GT-2019 dataset to train a weakly supervised machine learning model to distinguish between fake and real news articles. The performance of two weak labeling systems based on the Snorkel and Snuba frameworks, and five machine learning models, namely Logistic Regression, XGBoost, ALBERT, XLNet and RoBERTa, are evaluated on this task in terms of accuracy and F1 score. The models are trained on the weakly labeled data in two data scenarios: one with limited labeled data and one with considerably more labeled data. A supervised equivalent is trained for each model to measure the effect of expanding the labeled training data with weakly labeled data. Of the three weak labeling systems evaluated, the Snuba system performed best and achieved an accuracy of 0.765 on a source-based test set. This result shows that a content-based approach for labeling fake news should rely on complex heuristics to create high confidence weak labels. The end models were evaluated on a manually labeled test set gathered as part of this work. For the limited labeled data scenario, RoBERTa was the best of the five weakly supervised models, with an F1 score of 0.798, outperforming the supervised approach by 1.9 F1 points. For the scenario with more labeled data, the supervised model outperformed the best weakly supervised model. These results show that a weakly supervised approach is favorable in scenarios where the availability of labeled data is limited, but may degrade the model's performance in scenarios where the labeled dataset is sufficiently large.
dc.languageeng
dc.publisherNTNU
dc.titleFake News Detection by Weakly Supervised Learning: A Content-Based Approach
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record