Vis enkel innførsel

dc.contributor.advisorGambäck, Björn
dc.contributor.authorLiahagen, Ole Jonas
dc.contributor.authorNilsen, Martin Johannes
dc.date.accessioned2024-03-23T18:20:32Z
dc.date.available2024-03-23T18:20:32Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:36966005
dc.identifier.urihttps://hdl.handle.net/11250/3123953
dc.description.abstractSosiale medier og nettbaserte forum anslås å bli brukt av milliarder hver dag, som plattformer for åpen dialog og i noen tilfeller helt umoderert diskusjon. I tillegg, viser utredninger i etterkant av skoleskytinger at mange skoleskytere etterlater seg tekst i form av enten nettbaserte poster eller håndskrevne dokumenter. I de fleste tilfeller er disse tekstene skrevet i forkant av et angrep. Samtidig, viser forskning på tekstklassifisering og sentimentanalyse at informasjon om forfatteren bak en tekst kan bli uthentet, enten i form av gjenkjennelige tegn eller mer subtile hint. Ved å forsøke å identifisere varseltegn fra tekster skrevet av skoleskytere i forkant av et tidligere angrep, kan man potensielt ta i bruk denne kunnskapen for å forhindre nye tilfeller før de finner sted. En samling av 3028 unike tekster skrevet av 26 tidligere skoleskytere har blitt samlet inn i denne masterstudien. Analyser av tekstene viser at det kan finnes psykolingvistiske og statistiske trekk som skiller tekster skrevet av skoleskytere fra tekster skrevet av ikke-skoleskytere. Med utgangspunkt i tidligere studier og denne innledende granskningen, ble karakteristiske trekk ved tekstene uthentet ved hjelp av rammeverkene Linguistic Inquiry and Word Count (LIWC) og Term Frequency-Inverse Document Frequency (TF-IDF), med begrenset grad av suksess. For å trekke ut potensiell informasjon skjult i mer subtile forskjeller i tekster skrevet av skoleskytere kontra ikke-skoleskytere, ble det tatt i bruk opptrente ordvektorer (word embeddings) som data til trening av maskinlæringsmodeller. Både klassiske modeller og nevrale nettverk ble trent og testet på ordvektorer generert av modellene Global Vectors for Word Representation (GloVe), Fast Text Encoding using a pre-trained Character-level Model (FastText) og Bidirectional Encoder Representations from Transformers (BERT). Et utvalg språkmodeller ble så anvendt for å teste deres treffsikkerhet på klassifiseringsproblemet. Avslutningsvis ble de beste modellene fra hvert eksperiment trukket ut og samlet i en ensemble-modell hvor de underliggende modellene stemmer på klassetilhørligheten til tekstene de blir presentert. Til tross for et forholdsvis lite utvalg tekster, på grunn av tilgjengeligheten på slik data, er resultatene fra vår ensemble-løsning lovende. Den endelige modellen overgår tidligere studier på deteksjon av tekster skrevet av skoleskytere, og oppnår en endelig F2-score på 0.9656.
dc.description.abstractWith the reported amount of daily users of social media and online forums being in the billions, these online platforms are host to all kinds of people. Allowing for free speech and relative anonymity, the users have, in some cases, the liberty to express themselves in any way they desire without being moderated or censored. Investigations after school shooting incidents have shown that a large number of attackers leave behind written texts in the form of online posts or handwritten documents. In most cases, these texts are produced before and leading up to the attack. Furthermore, previous work on text classification and sentiment analysis has shown that significant information about a person can be retrieved from their writings. This raises the possibility that extracting indicators from the texts of previous school shooters could aid in identifying warning signs of a potential future school shooting before it takes place. For the purposes of this study, a collection of 3028 texts written by 26 distinct school shooters leading up to their attacks has been collected and annotated. Analysis of this dataset reveals similar psycholinguistic and statistical traits between the texts of school shooters, separating them from texts written by non-shooters. This analysis, in addition to related work found in a preliminary literature review, led to the application of Linguistic Inquiry and Word Count (LIWC) and Term Frequency-Inverse Document Frequency (TF-IDF) features for classification, albeit yielding limited results. A further investigation into the more subtle linguistic cues of a school shooter was performed by utilizing globally pretrained word embeddings, with Global Vectors for Word Representation (GloVe), Fast Text Encoding using a pre-trained Character-level Model (FastText), and Bidirectional Encoder Representations from Transformers (BERT) as feature inputs to both classical and deep learning models. A host of large language models were additionally employed to test their predictive power on the school shooter dataset. Ultimately, a voting classifier based on the best performing models from each experiment was constructed. Although tested on a small number of perpetrators, the results of the application of our final voting based classifier are promising, beating previous similar studies’ performance when screening for school shooter texts and achieving an F2-score of 0.9656.
dc.languageeng
dc.publisherNTNU
dc.titleFrom Words to Weapons: Uncovering Potential School Shooters through Linguistic Cues in Written Posts
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel