Detecting and Grading Hateful Messages in the Norwegian Language

Svanes, Marie Andreassen; Gunstad, Tora Seim

dc.contributor.advisor	Ramampiaro, Heri
dc.contributor.author	Svanes, Marie Andreassen
dc.contributor.author	Gunstad, Tora Seim
dc.date.accessioned	2021-09-15T16:13:46Z
dc.date.available	2021-09-15T16:13:46Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:25635527
dc.identifier.uri	https://hdl.handle.net/11250/2777836
dc.description.abstract	I dagens samfunn har det blitt stadig enklere å uttrykke sin mening gjennom utstrakt bruk av sosiale media og diskusjonsfora. Det har også blitt vanskeligere å forebygge nettmobbing og opprettholde trygghet på Internett på grunn av de store mengdene med brukergenerert data som blir publisert. Samtidig har forskning innen deteksjon av hatefulle ytringer økt betraktelig de siste årene. Hatefulle ytringer kan bli sett på som et bevisst angrep rettet mot en målgruppe basert på dens karakteristikker. Å manuelt filtrere og moderer slike ytringer vil ikke være effektivt nok, og dermed har automatisk deteksjon av hatefulle ytringer stadig blitt et viktigere forskningsområde. Det finnes flere utfordringer innen deteksjon av hatefulle ytringer, slik som mangelen på en universell definisjon av en hatefull ytring, et manglende felles datasett og at binær klassifisering, som tidligere har vært den mest brukte metoden, ikke representerer den virkelige verden på en god måte. Arbeidet i denne masteroppgaven har derfor som mål å undersøke metoder for å identifisere ytringer ved hjelp av multiklasse-klassifisering, og gradere dem basert på hvor støtende de er, i håp om å oppnå en mer saklig og nøytral tone i debatter og fora på nett. For å løse denne oppgaven har vi derfor utført et grundig litteratursøk relatert til deteksjon av hatefulle ytringer, eksisterende datasamlinger og ulike klassifiseringsmetoder for å oppnå verdifull innsikt. Basert på denne kunnskapen ble et stort datasett bestående av norske kommentarer fra ulike kilder samlet inn og annotert. Dette datasettet er et betydelig bidrag til forskningsområdet, ettersom et datasett av denne størrelsen ikke tidligere har eksistert. Både klassiske modeller og dype læringsmodeller med word embeddings har blitt brukt for å eksperimentere med datasettet i en alt-i-ett-metode og en to-stegsmetode. De eksperimentelle resultatene indikerer at to-stegsmetoden er fordelaktig når målet er å detektere så mange ikke-nøytrale kommentarer som mulig. Alle modellene slet likevel med å skille mellom de ulike kategoriene i det ubalanserte datasettet. Det beste resultatet ble oppnådd ved å kombinere klassiske og dype læringsmodeller. Basert på dette mener vi at det er et potensiale for fremtidig forskning å se på bruken av en dyp læringsmodell i første steg kombinert med en klassisk modell i andre steg. Videre er det også et behov for et mer balansert datasett som er utvidet med flere kommentarer i de groveste kategoriene.
dc.description.abstract	Today, with the widespread use of social media and discussion forums, it has become easy to express one's opinion. Also, it has become increasingly difficult to maintain safe environments online and prevent cyberbullying due to the enormous amounts of user-generated data being published. At the same time, research on the detection of hateful and offensive utterances has grown substantially over the past years. Hate speech can be seen as a deliberate attack directed towards a target group based on their characteristics. A manual approach to filter and moderate such utterances is not efficient enough, and thus the field of automatic hate speech detection is becoming increasingly more important. There are several challenges within the research field of hate speech detection, such as the lack of a universal definition of hate speech, no common dataset and that binary classification, which has been the most frequently used method recently, does not fit the real-world scenario. Therefore, the work conducted in this thesis aims at investigating methods on how to identify offensive utterances online using multiclass classification and grade them based on how offensive they are, in the hopes of achieving a more factual and neutral tone in online debates and forums. In order to solve this task, a thorough literature review related to hate speech detection, existing data collections, and various classification methods have been conducted to attain valuable insights. Based on the knowledge obtained, a large dataset consisting of Norwegian comments from various sources was collected and annotated. This dataset is a significant contribution to the field of hate speech detection in Norwegian, seeing as an annotated dataset of this size did not previously exist. Both classic models and deep learning models with word embeddings have been used to experiment with the dataset in an all-in-one approach and a two-step approach. The experimental results indicate that the two-step approach is advantageous when the goal is to detect as many non-neutral comments as possible. However, all the models struggled with distinguishing between categories and with the imbalanced dataset. The best result was achieved using a combination of classic and deep learning models. Based on this, there is a potential for future research to detect and grade offensive utterances with a deep learning model in the first step, combined with a classic model in the second step. Furthermore, there is a need for a balanced dataset that is extended with more comments in the most severe categories.
dc.language
dc.publisher	NTNU
dc.title	Detecting and Grading Hateful Messages in the Norwegian Language
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:25635 ...
Størrelse:: 6.710Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6552]

Vis enkel innførsel