An Applied Approach to Machine Learning for Hate Speech Management on Social Media Platforms

Aarrestad, Andreas; Shanmugam, Santhosh

dc.contributor.advisor	Yayilgan, Sule Yildirim
dc.contributor.advisor	Shaikh, Sarang
dc.contributor.author	Aarrestad, Andreas
dc.contributor.author	Shanmugam, Santhosh
dc.date.accessioned	2023-10-21T17:19:47Z
dc.date.available	2023-10-21T17:19:47Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:146715749:33654172
dc.identifier.uri	https://hdl.handle.net/11250/3097911
dc.description.abstract	Fremveksten av hatytringer på sosiale medier har ført til et økende behov for effektive automatiske systemer som kan identifisere og fatte tiltak mot hatefullt innhold. Selv om det er gjort betydelige fremskritt innen språkbehandling, er det et stort behov for videre utvikling av systemer som addresserer statlige reguleringer, nye former for hatytringer, og endrende brukeratferd. Den konfidensielle karakteren til proprietære algoritmer som brukes av sosiale medier kompliserer denne innsatsen, siden den ofte begrenser dybden av forskningsinnsikt og hindrer åpen deling av fremskritt. Samtidig har offentlig tilgjengelig forskning først og hatt et fokus på å forbedre deteksjonsalgoritmene, og ofte unnlatt å vurdere de bredere kompleksitetene, for eksempel å inkludere kontekstuell informasjon og tilpasse støttearkitekturen til deteksjonsmodellen. Som svar foreslår denne oppgaven strategier for å utvikle et system ved hjelp av maskinlæringsteknikker for å optimalisere tilpasningsevne, skalerbarhet, robusthet mot motstandsangrep, åpenhet, juridisk etterlevelse og reviderbarhet i tillegg til kun ytelse. Vi tilbyr en mangefasettert tilnærming til å utvikle et system for hatefulle ytringer, og utforsker en rekke strategier hentet fra en gjennomgang av litteratur og ved praktisk eksperimentering. Oppgaven foreslår en rekke strategier innen standardisering av input for å sikre robusthet, finjustering av språkmodeller og bruk av vedvarende overvåking med XAI-teknikker fra litteratur. Oppgaven understreker fordelene ved å bruke GPT-baserte modeller mot hatytringer, og viser til ytelsesnivåer nær menneskelig nivå samtidig som modellene reduserer tid og kostnad betydelig. Videre understreker oppgaven fordelene ved å gi modeller kontekstuell informasjon for å kunne oppdage hatefulle ytringer. I tillegg fremhever oppgaven fordelene ved å prioritere unikhet og usikkerhet ved valg av sampling for sekvensiell finjustering av modellen, noe som forbedrer ytelsen sammenlignet med tilfeldig sampling. Oppgaven foreslår også en prioriteringsstrategi som adaptivt klassifiserer instanser ved hjelp av modeller med varierende kompleksitet, avhengig av de iboende egenskapene til hver instans. Til slutt integreres alle disse strategiene i en sammenhengende systemarkitektur.
dc.description.abstract	The rise of hate speech on social media platforms has led to a growing need for effective automatic hate speech management systems that can identify and mitigate hateful content. While significant progress has been made with recent advancements in natural language processing, there is a need for continuous system improvement in response to government regulations, new forms of hate speech, and evolving user behavior. The confidential nature of proprietary algorithms used by social media companies complicates these efforts, as it often restricts the depth of research insights and hinders the open sharing of advancements. Simultaneously, contemporary publically available research has primarily been focused on improving the detection algorithms in simplified environments, often neglecting to consider the broader complexities, such as incorporating contextual information and adapting the supporting architecture surrounding the detection model. In response, this thesis analyzes strategies for developing a system using machine learning techniques to optimize adaptability, scalability, robustness against adversarial attacks, transparency, legal compliance, and auditability in addition to solely the performance. We offer a multifaceted approach to developing a hate speech management system, exploring a variety of strategies drawn from an extensive literature review and hands-on experimentation. By conducting a comprehensive literature review, the thesis formulates strategies regarding the standardization of input to ensure robustness, leveraging adversarial examples during language model fine-tuning, and employing persistent monitoring using XAI techniques. The thesis emphasizes the advantages of utilizing GPT-based models for hate speech annotation, achieving performance levels close to human annotation while significantly reducing time and cost. Moreover, we underscore the benefits of incorporating contextual information as features of a hate speech detection model. Additionally, the thesis highlights the advantages of prioritizing uniqueness and uncertainty when selecting samples for sequential fine-tuning of the model, improving the performance compared to random sampling. Finally, we introduce a triage strategy that adaptively classifies instances using models of varying complexity, depending on the inherent characteristics of each instance. Finally, the thesis integrates all these strategies into a cohesive system architecture.
dc.language	eng
dc.publisher	NTNU
dc.title	An Applied Approach to Machine Learning for Hate Speech Management on Social Media Platforms
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:146715749:3365 ...
Størrelse:: 10.61Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for informasjonssikkerhet og kommunikasjonsteknologi [2626]

Vis enkel innførsel