From Uni-Modal to Multi-Modal Fake News Detection: The Impact of Visual Cues on Detection Performance

Nilsen, Øystein Løndal

dc.contributor.advisor	Özgöbek, Özlem
dc.contributor.author	Nilsen, Øystein Løndal
dc.date.accessioned	2023-10-17T17:20:46Z
dc.date.available	2023-10-17T17:20:46Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:91982459
dc.identifier.uri	https://hdl.handle.net/11250/3097126
dc.description.abstract	Spredningen av misinformasjon, også kjent som falske nyheter, på sosiale medier utgjør en alvorlig trussel. Det kan påvirke avgjørende hendelser som valg og globale kriser. Eksisterende metoder for deteksjon av falske nyheter fokuserer hovedsakelig på individuelle nyhetsegenskaper, som for eksempel tekstinnhold, og overser i mange tilfeller betydningen av å integrere flere informasjonsformer. Det er spesielt verdt å merke seg at visuelle elementer har vist seg å være effektive for å skille mellom ekte og falske nyheter gjennom tidligere forsking. Denne masteroppgaven utforsker dette relativt uutforskede området ved å introdusere et omfattende flermodalt rammeverk kalt Image-enhanced Knowledge-Aware Hierarchical Attention Network (I-KAHAN), som bygger videre på et sofistikert unimodalt system for å oppdage falske nyheter. Dette rammeverket tar i bruk både tekstlige og visuelle elementer fra nyheter, med mål om å overgå det unimodale systemets klassifiseringsytelse. For en optimal integrering av visuelle elementer, ble det utført omfattende eksperimentering med ulike teknikker for numerisk bilderepresentasjon, dimensjonalitetsreduksjon, og aggregering av elementer. Gjennom eksperimenteringen identifiserte vi en rekke lovende metoder, inkludert CLIP for bildeinnkapsling og en egenutviklet dimensjonalitetsreduksjonsmetode kalt IHAN. Eksperimentene viste at bildeinnkapsling basert på CLIP, dimensjonalitetsreduksjon via pooling, og aggregering via konkatinering resulterte i den best ytelsen. IHAN demonstrerte dessuten utmerket ytelse, noe som antyder dens store potensial. Videre sammenlignet vi den originale nevrale nettverksbaserte klassifikatoren med en modifisert versjon med et ekstra skjult lag. Målet med denne endringen var å forbedre representasjonsevnen og håndtere den økte kompleksiteten fra introduksjonen av et ekstra nyhetsattributt. Imidlertid overgikk den grunnleggende klassifikatoren den mer komplekse varianten i de fleste tilfellene. Datakvalitet var en stor bekymring, så det ble i tillegg implementert forbedringer i datainnsamlingsprosessen for datasettene. Dette utgjorde merkbare forbedringer, hvor den forbedrede prosessen, kalt for FakeNewsNet+, førte til en betydelig ytelsesøkning med opptil 10% i enkelte tilfeller. I-KAHAN overgår det grunnleggende unimodale systemet på alle metrikker og viser en forbedring på omtrent 1% og 3% for henholdsvis GossipCop og PolitiFact datasettene. Disse resultatene støtter tidligere forskningsfunn som understreker viktigheten av visuelle attributter. Selv om denne studien bidrar betydelig til feltet for deteksjon av falske nyheter gjennom en innovativ modell og omfattende eksperimentering, fins det viktige begrensninger å anerkjenne. Bekymringer rundt modellens generaliserbarhet og etiske implikasjoner, som potensielle skjevheter og misbruk, understreker behovet for forsiktig bruk og kontinuerlige forbedringer. Til tross for disse utfordringene, fremhever denne studien den lovende fremtiden for flermodal nyhetsklassifisering, og poengterer samtidig behovet for vedvarende forskning i kampen mot misinformasjon.
dc.description.abstract	The proliferation of misinformation, popularly known as fake news, on social media is a pressing concern due to its potential impact on crucial events like elections and global emergencies. Existing detection methods primarily focus on text-based news, often neglecting the value of integrating multiple modes of information, particularly visual cues, which previous studies have found to be highly effective. This thesis delves into this relatively unexplored domain by introducing a sophisticated multi-modal framework called the Image-enhanced Knowledge-Aware Hierarchical Attention Network (I-KAHAN), which builds upon a state-of-the-art uni-modal fake news detection system. This framework effectively combines textual and visual attributes to enhance the detection of fake news. To effectively incorporate visual elements, various techniques were experimented with to determine the optimal combination of image embedding, dimensionality reduction, and feature combination techniques. The most promising methods, determined through experimentation, include the use of CLIP for image embedding and a novel dimensionality reduction method called IHAN. The experiments revealed that CLIP-based image embeddings, pooling-based dimensionality reduction, and concatenation-based feature fusion yielded the best performance. Additionally, the novel dimensionality reduction method IHAN showed excellent performance, indicating its significant potential. Furthermore, the baseline neural network classifier was compared to a version with an additional hidden layer, aiming to enhance representational power to accommodate the complexity introduced by adding the visual feature. Surprisingly, the shallow classifier outperformed its more complex counterpart in almost all the cases, providing unexpected insights. To address concerns regarding data quality, enhancements were implemented in the FakeNewsNet dataset collection process, leading to noticeable improvements. These enhancements, collectively known as FakeNewsNet+, significantly boosted the performance, with as much as 10% in some circumstances. I-KAHAN outperformed the baseline uni-modal model across all metrics, demonstrating an improvement of approximately 1% and 3% on the GossipCop and PolitiFact datasets, respectively. These results reinforce the findings of previous research, which emphasize the significance of visual attributes as crucial cues for distinguishing between real and fake news. While this study significantly advances the field of fake news detection by introducing an innovative model and uncovering valuable insights, it acknowledges certain limitations. Concerns regarding the model's generalizability and ethical implications, such as potential biases and misuse, emphasize the need for careful application and ongoing refinements. Despite these challenges, this study sheds light on the promising future of multi-modal fake news detection and underscores the necessity for continued research in the ongoing battle against misinformation.
dc.language	eng
dc.publisher	NTNU
dc.title	From Uni-Modal to Multi-Modal Fake News Detection: The Impact of Visual Cues on Detection Performance
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142737689:9198 ...
Størrelse:: 36.17Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6829]

Vis enkel innførsel