Detecting Hateful and Offensive Language with Transfer-Learned Models

Vebjørn Isaksen

dc.contributor.advisor	Björn Gambäck
dc.contributor.author	Vebjørn Isaksen
dc.date.accessioned	2019-12-29T15:00:19Z
dc.date.available	2019-12-29T15:00:19Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2634455
dc.description.abstract	Sosiale internettjenester har sett en økning i uønsket innhold slik som fornærmende eller hatefulle ytringer. Som et resultat har automatisk filtrering av slikt innhold blitt en vesentlig oppgave for å redusere antallet upassende meldinger på nettplattformer. I løpet av de siste årene har feltet presentert flere avanserte språkmodeller som kan trenes opp med store mengder data for å oppnå generell språkforståelse. Disse modellene har allerede utklasset tradisjonelle metoder på flere språkoppgaver, men har foreløpig blitt lite brukt til å detektere hatytringer. Målet med forskningen i denne oppgaven var å undersøke effektene av å overføre kunnskap fra enorme, forhåndstrente språkmodeller, til klassifiserere som foretar seg oppgaven å separere språk som kan være støtende, hatefullt eller nøytralt. Å separere støtende og hatefulle ytringer på nett er sett på som en utfordrende oppgave ettersom ikke all netthat innholder støtende ord og støtende meldinger heller ikke alltid ytrer hat. Denne oppgaven fokuserer på å løse denne utfordringen gjennom tre hoveddeler. Først ble en studie av relevant litteratur gjennomført for å få innsikt i egenskaper og modeller brukt i tidligere løsninger. Deretter ble en forhåndsstudie gjennomført for å eksperimentere med ulike egenskaper og modeller, samt samle resultater fra tradisjonelle maskinlæringsalgoritmer. Til slutt ble fire systemer basert på språkmodellen Bidirectional Encoder Representations from Transformers (BERT) implementert og testet med to datasett som inneholdt tweets annotert som enten ``Hateful'', ``Normal'' og ``Offensive''. Resultatene indikerer at modellene ofte forveksler hatytringer med støtende og normalt språk. Det viste seg imidlertid at modellene er betydelig bedre til å nøyaktig klassifisere hatefulle ytringer enn systemer fra tidligere forskning. Dette funnet demonstrerer det massive potensialet som ligger i å overføre kunnskap fra språkmodeller, men det er likevel behov for mer forskning innenfor feltet for å lage et system som er brukbart i praksis.
dc.language	eng
dc.publisher	NTNU
dc.title	Detecting Hateful and Offensive Language with Transfer-Learned Models
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:36079153:36099 ...
Størrelse:: 7.498Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:36079153:36099 ...
Størrelse:: 2.707Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6772]

Vis enkel innførsel