Detecting hateful utterances using an anomaly detection approach

Jensen, Maria Hilmo

dc.contributor.advisor	Ramampiaro, Heri
dc.contributor.author	Jensen, Maria Hilmo
dc.date.accessioned	2021-09-15T16:14:04Z
dc.date.available	2021-09-15T16:14:04Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:31699181
dc.identifier.uri	https://hdl.handle.net/11250/2777840
dc.description.abstract	Forskning på sikkerhet i sosiale medier har vokst betydelig det siste tiåret. Med den utbredte bruken av nettbaserte tjenester og sosiale medier, har det blitt enkelt å spre hatefulle meldinger. Selv om ytringsfrihet anses som en menneskerettighet i det norske samfunn, er det flere lovbestemte begrensninger som forbyr diskriminerende og hatefulle uttalelser. Slikt innhold er med hensikt nedsettende, ydmykende eller fornærmende, og er definert som hatefulle ytringer. Mange nettmiljøer dedikerer enorme mengder ressurser til fjerning av slikt hatefullt innhold, men metodene er ofte avhengige av manuelt arbeid. En slik manuell tilnærming skalerer dårlig, og for at deteksjon av hatefulle ytringer skal være mulig i praksis, er det behov for systemer som automatisk kan oppdage hatytringer. Slik automatisk deteksjon er en utfordrende oppgave, og det meste av relevant forskning prøver å løse problemet ved å ta i bruk metoder for tekstklassifisering. Til tross for de fleste vitenskapelige studiene bruker disse tilnærmingene, har de fremdeles mange problemer og ulemper. Derfor undersøker denne oppgaven virkningene av å konseptualisere deteksjon av hatefulle ytringer som anomalideteksjon. På denne måten utgjør hatefulle ytringer en avvikende variant av vanlig tale. Denne forskningen har altså som mål å avgjøre om problemet rettmessig kan betraktes som et anomalideteksjonsproblem. Videre bruker de fleste eksisterende metoder engelske datasett, så en varig utfordring innenfor forskningsfeltet er mangelen på metoder som gir gode resultater på ikke-engelske datasett. Derfor undersøker denne oppgaven også muligheten for å lage et språkuavhengig system. For å oppnå verdifull innsikt ble en grundig litteraturgjennomgang relatert til både deteksjon av hatefulle ytringer og anomalideteksjon utført. Basert på den innhentede kunnskapen ble det foreslått en dyp anomalideteksjonsmetode basert på delvis veiledet læring til deteksjon av hatefulle ytringer. Metoden er basert på prinsippet om entropiminimering og består av forhåndstrente ord-vektorer og et konvolusjonelt nevralt nett (CNN). I tillegg ble det samlet og annotert et norsk datasett, bestående av et representativt utvalg av emner. Dette datasettet er et stort bidrag til forskningsfeltet som omhandler deteksjon av hatefulle ytringer på norsk, ettersom et slikt annotert datasett ikke eksisterte. Det utviklede systemet ble brukt til eksperimentering med både et engelsk og norsk datasett, og det oppnådde relativt god ytelse ved bruk av begge datasettene. Å benytte anomalideteksjonssystemer har flere fordeler sammenlignet med tradisjonelle klassifiseringsalgoritmer. For eksempel antar de ikke likheter mellom det ulike hatefulle innholdet og de er mer egnet for å håndtere en reell fordeling mellom nøytralt og hatefullt innhold på nett. Dette indikerer at bruk av en anomalideteksjontilnærming kan løse flere vedvarende problemer i forskningsfeltet. Funnene fra denne oppgaven antyder et enormt potensial for å oppdage hatefulle ytringer ved bruk av anomalideteksjonsteknikker, men det er fremdeles nødvendig å utføre videre forskning for at systemet skal være praktisk anvendelig.
dc.description.abstract	Research on safety in social media has grown substantially in the last decade. With the widespread use of online services and social media, it has become easy to disseminate hateful messages. Freedom of speech is considered a human right in the Norwegian society; however, several statutory restrictions are prohibiting discriminatory and hateful statement. These posts are intended to be derogatory, humiliating or insulting, and are defined as hate speech. Many online communities dedicate massive amounts of resources towards the removal of such hateful contents, but the methods often rely on manual effort. A manual approach scales poorly, and for hate speech detection to be practically feasible, there is a need for systems that can automatically detect hateful expressions. Such automatic detection is a challenging task, and the majority of the research in the field is targeting the task using text classification approaches. However, despite the emerging scientific studies using these approaches, state-of-the-art solutions still suffer many drawbacks. This thesis explores the effects of re-phrasing the problem of hate speech detection by re-conceptualising hate speech detection as anomaly detection. Hence, this research aims at discovering if the problem can rightfully be considered an anomaly detection problem. Moreover, most of the existing methods use English datasets, so an enduring challenge in the research field is the lack of methods performing well on non-English datasets. Therefore, this thesis also investigates the possibility of creating a system that is language-independent. A thorough literature review related to hate speech detection and anomaly detection was conducted to attain valuable insights. Based on the obtained knowledge, a deep semi-supervised anomaly detection approach to hate speech detection was proposed, which is based on the principle of entropy minimisation and consists of pre-trained Word Embeddings and a Convolutional Neural Network. Additionally, a Norwegian dataset, including a representative selection of topics, was collected and annotated. This dataset is a major contribution to the field of hate speech detection in Norwegian since an annotated baseline dataset did not previously exist. The developed system was used for experimentation with both an English and Norwegian dataset, and it achieved relatively good performance using both datasets. Utilising anomaly detection systems have several advantages over regular classification algorithms, such as not assuming similarities between the hateful content and being more suited for handling a real-scenario distribution between neutral and hateful content online. This indicates that using an anomaly detection approach might solve several persistent issues in the research field. The findings from this thesis suggest a huge potential for detecting hateful utterances using anomaly detection techniques, but it is still necessary to conduct more research for the system to be practically usable.
dc.language
dc.publisher	NTNU
dc.title	Detecting hateful utterances using an anomaly detection approach
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:57320302:31699 ...
Størrelse:: 8.605Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6559]

Vis enkel innførsel