How to Catch a Far-Right Radical
Abstract
Sosiale medier er på vei til å bli den nye arenaen for høyreekstreme. Ekstremistene kommuniserer, planlegger angrep og radikaliserer nye brukere via internett. Etter hvert som antallet brukere som blir med på disse plattformene øker, har det blitt en utfordring å oppdage høyreekstreme radikale brukere. Radikalisering av høyreekstreme brukere er nå digitalt og farligere enn noen gang. Målet med denne masteroppgaven er å utforske oppdagelsesmetoder fra andre typer radikalisering og forsøke å tilpasse og skreddersy disse metodene for å oppdage høyreekstreme radikaliseringer.
Hovedmålet med oppgaven har vært delt inn i oppgaver og forskningsspørsmål. Det første forskningsspørsmålet fokuserer på å finne en potensiell metode for å oppdage høyreekstremistisk radikalisering. Denne metoden er den primære metoden i studien. Det andre forskningsspørsmålet fokuserer på å lage datasett som inneholder høyreekstreme og vanlige brukere. Med vanlige brukere menes de ikke-radikale brukerne av en plattform. Det tredje forskningsspørsmålet fokuserer på å lage en metode for å trekke ut radikale termer som er relevante for høyreekstreme brukere, og dermed lage en radikal ordbok. Det fjerde forskningsspørsmålet undersøker potensielle forbedringer og dermed introduseres tre foreslåtte endringer. Den første modifikasjonen endret antall radikale termer inkludert i metoden, mens den andre endret måten å kalkulere radikalisering. Den tredje modifikasjonen la til to nye målte verdier: banneord og gjennomsnittlig lengde på poster.
Den valgte metoden har sitt utspring i oppdagelsen av islamsk radikalisering. Den ble valgt på grunn av sin utmerkede ytelse (F1 = 0,901) når den ble trent på klassifiserere, og fordi den er basert på en samfunnsvitenskapelig teori som skiller den fra andre metoder. Metoden beregner radikalisering på tre ulike nivåer: mikro (individuelt), meso (grupper) og makro (samfunn). Makro ble forkastet fordi det var for utfordrende å trekke ut tekstdata fra flere steder. Det radikale datasettet ble konstruert fra et ekstremt høyre sosialt medienettsted kalt Gab og genererte 291 brukere med 75 788 innlegg. Det vanlige datasettet ble konstruert fra Twitter og inneholdt 213 brukere med 56 299 innlegg. En eksperimentell metode for å finne radikale termer ble laget ved hjelp av høyreekstreme manifester med nøkkelordsekstraktoren KeyBERT. Metoden ga 2764 termer.
Den skreddersydde implementeringen av det første forskningsspørsmålet med datasettene og den radikale ordboken viste dårlige resultater med en gjennomsnittlig F1-score på 0,569. Testen ble utført to ganger, hvor mikro og meso ble testet hver for seg. Gjennomsnittlig F1-poengsum er resultatet av begge disse testene. De ulike modifikasjonene i det fjerde forskningsspørsmålet ga varierende resultater. Den første modifikasjonen ga enda dårligere resultater, med en gjennomsnittlig F1-score på 0,520. Den andre modifikasjonen var bedre, med en gjennomsnittlig F1-score på 0,659. Den tredje modifikasjonen ga bedre resultater med en gjennomsnittlig F1-score på 0,857.
Når man kombinerer alle verdiene og ikke skiller verdiene av radikalisering på individet og gruppe-nivå, endret resultatene seg drastisk. Den beste poengsummen kombinerte to banningsmålinger og to gjennomsnittlige lengder på innlegg sammen med mikro og meso. Resultatet som ble var 0,947 i F1. Resultatene er oppmuntrende, men ytterligere forskning er nødvendig for å oppdage radikalisering av høyreekstreme grupper. Social media platforms are becoming the new arena for far-right extremists. The extremists communicate, plan attacks, and radicalise new users through the internet. With the increasing growth of users joining these platforms, the task of detecting far-right radical users has become challenging. Far-right radicalisation is now digital and more dangerous than ever. The goal of this Master's thesis is to explore detection methods from other types of radicalisation and try to adapt and tailor these techniques for far-right radicalisation detection.
The goal was broken down into tasks and research questions. The first research question focuses on finding a potential method for the detection of far-right radicalisation. This method is the primary method in the study. The second research question focuses on creating datasets containing far-right and regular users. Regular users refer to the non-radical users of a platform. The third research question focuses on creating a method for extracting radical terms relevant to far-right users, and thereby creating a radical dictionary. The fourth research question investigates potential improvements with three suggested changes. The first modification adds more radical terms used in the method, the second changes the way radicalisation is evaluated, and the third adds two new metrics: profanities and average post length.
The selected method stems from the detection of Islamic radicalisation. It was chosen due to its excellent performance (F1=0.901) when trained on classifiers, and because it was based on a social science theory which distinguishes it from other methods. The method calculated radicalisation on three different levels: micro (individual), meso (groups), and macro (society). Macro was excluded due to the complexity of extracting textual data from multiple sites. The radical dataset was constructed from a far-right social media site called Gab and gave 291 users with 75 788 posts. The regular dataset was constructed from Twitter and contained 213 users with 56 299 posts. An experimental method retrieving radical terms was created by using far-right manifestos with the keyword extractor, KeyBERT. The method returned 2 764 terms.
The tailored implementation in the first research question with the datasets and radical dictionary showed poor results with an average F1 score of 0.569. The test was performed twice, in which micro and meso were tested separately. The average F1 score is the result of both these tests. The different modifications in the fourth research question gave varying results. The first modification got even worse results, with an average F1 score of 0.520. The second modification slightly improved the results, with an average F1 score of 0.659. The third modification returned substantially improved results with an average F1 score of 0.857.
When combining all the features and not separating the values of radicalisation on the individual and the group lever, the results changed drastically. The best score combined two profanity metrics and two average lengths of posts with micro and meso. The result achieved was 0.947 in F1.The results are encouraging, but detection of far-right radicalisation needs further research.