Detecting Hateful and Offensive Language with Transfer-Learned Models
Abstract
Sosiale internettjenester har sett en økning i uønsket innhold slik som fornærmende eller hatefulle ytringer. Som et resultat har automatisk filtrering av slikt innhold blitt en vesentlig oppgave for å redusere antallet upassende meldinger på nettplattformer. I løpet av de siste årene har feltet presentert flere avanserte språkmodeller som kan trenes opp med store mengder data for å oppnå generell språkforståelse. Disse modellene har allerede utklasset tradisjonelle metoder på flere språkoppgaver, men har foreløpig blitt lite brukt til å detektere hatytringer.
Målet med forskningen i denne oppgaven var å undersøke effektene av å overføre kunnskap fra enorme, forhåndstrente språkmodeller, til klassifiserere som foretar seg oppgaven å separere språk som kan være støtende, hatefullt eller nøytralt. Å separere støtende og hatefulle ytringer på nett er sett på som en utfordrende oppgave ettersom ikke all netthat innholder støtende ord og støtende meldinger heller ikke alltid ytrer hat. Denne oppgaven fokuserer på å løse denne utfordringen gjennom tre hoveddeler. Først ble en studie av relevant litteratur gjennomført for å få innsikt i egenskaper og modeller brukt i tidligere løsninger. Deretter ble en forhåndsstudie gjennomført for å eksperimentere med ulike egenskaper og modeller, samt samle resultater fra tradisjonelle maskinlæringsalgoritmer. Til slutt ble fire systemer basert på språkmodellen Bidirectional Encoder Representations from Transformers (BERT) implementert og testet med to datasett som inneholdt tweets annotert som enten ``Hateful'', ``Normal'' og ``Offensive''. Resultatene indikerer at modellene ofte forveksler hatytringer med støtende og normalt språk. Det viste seg imidlertid at modellene er betydelig bedre til å nøyaktig klassifisere hatefulle ytringer enn systemer fra tidligere forskning. Dette funnet demonstrerer det massive potensialet som ligger i å overføre kunnskap fra språkmodeller, men det er likevel behov for mer forskning innenfor feltet for å lage et system som er brukbart i praksis.