Detecting Norwegian Abusive Language in Social Media with Transformer-based Models

Arntzen, Vilde Roland

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Arntzen, Vilde Roland
dc.date.accessioned	2022-04-28T17:19:25Z
dc.date.available	2022-04-28T17:19:25Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:32418964
dc.identifier.uri	https://hdl.handle.net/11250/2993293
dc.description.abstract	Fremveksten av sosiale medier og digitale plattformer har bidratt til at flere bruker ytringsfriheten sin enn tidligere. Dette har medført en økning i polariserte debatter på nett, som har en ekskluderende effekt på mange. Plattformene har derfor sett et økt behov for å moderere og fjerne uønsket innhold, en jobb som ofte gjøres ved bruk av automatiske detekteringsalgoritmer. Forskningen på slike algoritmer har økt betraktelig de siste årene, og flere gode metoder har blitt utviklet. Introduksjonen av Transformer-baserte metoder har revolusjonert hvordan modeller forstår sammenhenger i språk, og har vist lovende resultater for nesten alle språkoppgaver. Modellene brukes til å overføre kunnskap fra generell språkforståelse til spesifikke oppgaver som å detektere uønsket innhold på nett. Forskningen innenfor dette feltet på norsk har derimot vært svært begrenset på grunn av mangelen på datasett og teknologier inntil nylig. Introduksjonen av flere Transformer-baserte modeller trent på norsk språkforståelse gjør det mulig å utforske effekten av slike modeller også for norsk. Denne masteroppgaven fokuserer på detektering av krenkende og hatefulle ytringer i norske sosiale medier ved bruk av Transformer-baserte modeller. En litteraturstudie er gjennomført for å forstå forskningsfeltet og bruken av Transformer-baserte metoder, etterfulgt av tre eksperimenter. Eksperimentene tester og sammenligner fem arkitekturer basert på modellen Bidirectional Encoder Representations from Transformer (BERT). Alle modellene optimaliseres gjennom et systematisk søk og flere teknikker for datasettmanipulering er testet for å forsøke å håndtere utfordringer med datasettet. Resultatene viser at den beste modellen, NB-BERT, signifikant utkonkurrerte de eksisterende metodene for deteksjon av krenkende og hatefulle ytringer, som understreker verdien av Transformer-baserte metoder også for norsk. På tross av det indikerer resultatene at modellen blander krenkende og hatefulle ytringer, og nøytrale og krenkende ytringer. Tvetydignheten for hva som skiller hatefult, krenkende og nøytralt språk stammer fra en lav enighet blant annoterere for hva som skiller de ulike klassene fra hverandre. Funnene indikerer også at modellen overgeneraliserte ved at den ofte detekterte islamrelaterte ytringer som hatefulle, et problem som også har forplantet seg fra datasettet. Videre viser funnene at modellen slet med å forstå ustandardisert språk som skrivefeil, slang og dialekter, som er ulikt fra det den er forhåndstrent på. Funnene motiverer videre arbeid for å utvikle bedre datasett for detektering av hatefulle og krenkende ytringer og bruk av Transformer-baserte modeller for detektering av slikt innhold i norsk språk.
dc.description.abstract	Social media and digital platforms have contributed to more people using their freedom of expression than ever. As a consequence, online debates are becoming increasingly polarized, which has an excluding effect on many. Removing abusive content has become crucial for social media platforms and is often assisted using automatic detection algorithms, a field that has multiplied in interest over the past years. The recent introduction of Transformer-based approaches pre-trained on general language understanding has revolutionized models' ability to understand interdependencies in language. Models based upon the Transformer mechanism have shown promising results for nearly all language tasks so far, including abusive language detection. However, limited research has been conducted in this field for the Norwegian language due to the lack of available datasets and technologies. The recent introduction of Transformer-based models pre-trained on Norwegian corpora makes it possible to explore the successful approach also for Norwegian abusive language detection. This thesis is focused on detecting Norwegian hateful and offensive social media language using Transformer-based models. Following a literature review, three experiments explore and compare five deep learning architectures based on the Bidirectional Encoder Representations from Transformers (BERT) model. All models are optimized through an extensive hyperparameter search, and several dataset manipulation techniques are tested. The best model, NB-BERT, significantly outperformed the only existing solutions for offensive and hateful language detection, emphasizing the power of Transformer-based models also for the Norwegian language. However, the results indicate that this model also confused hate speech with offensive language and offensive with neutral language. The ambiguity between the hateful, offensive, and neutral categories originates from the dataset, which generally had a low inter-annotator agreement, a recurring problem of abusive language datasets. The findings further reveal a bias towards classifying Islam-related content as hate speech, which also propagated from the dataset used. Furthermore, an analysis of the model predictions reveals that the model struggled to understand non-standard languages such as typos, grammar mistakes, slang, and dialects, which is different from the corpus on which the model is pre-trained. The results motivate further research on developing better Norwegian abusive language datasets and using models transferring general language understanding to Norwegian abusive language detection.
dc.language	eng
dc.publisher	NTNU
dc.title	Detecting Norwegian Abusive Language in Social Media with Transformer-based Models
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:74730513:32418 ...
Størrelse:: 10.73Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6772]

Vis enkel innførsel