From Binary to Inclusive - Mitigating Gender Bias in Scandinavian Language Models Using Data Augmentation

Huso, Gunvor; Thon, Ingvild Løver

dc.contributor.advisor	Gambäck, Björn
dc.contributor.author	Huso, Gunvor
dc.contributor.author	Thon, Ingvild Løver
dc.date.accessioned	2023-12-16T18:20:01Z
dc.date.available	2023-12-16T18:20:01Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:145904930:35159146
dc.identifier.uri	https://hdl.handle.net/11250/3107897
dc.description.abstract	Prosessering av naturleg språk vart revolusjonert då Transformaren (the Transformer) vart introdusert og inspirerte både tovegs-omkodar-representasjonar frå Transformarar (BERT) og generative førehandstrena Transformarar (GPT). Ordrepresentasjonane som vert laga av desse arkitekturane fangar likevel opp meir informasjon om orda enn semantikken av ordet. Det har vorte vist at språkmodellar kan utvise sosiale skeivheiter slik som kjønnsskeivheit. Dei sosiale skeivheitene kan kome til syne i språkmodellane etter som dei vert trena på data frå blant anna aviser, bøker og nettgjennomgang. I denne masteroppgåva kan ein sjå dette av pronomenteljinga utført på eit tradisjonell norsk datasett basert på aviser og eit skandinavisk datasett basert på data frå sosiale medium. Teljinga viser at tradisjonelle datasett inneheld tre gonger fleire mannlege pronomen enn kvinnelege pronomen og 1305 gonger meir kjønna pronomen enn kjønnsnøytrale pronomen. Datasettet henta frå sosiale medium er såleis mindre kjønnsskeiv og inneheld ein nærast lik representasjon av kvinnelege og mannlege pronomen. Likevel inneheld datasettet 55 gonger meir kjønna pronomen samanlikna med kjønnsnøytrale pronomen. Kjønnsskeivheit vart påvist i norske språkmodellar publisert av Nasjonalbiblioteket og Universitet i Oslo. Dette krev at ein forskar meir på måtar å redusere eller fjerne kjønnsskeivheiten frå norsk språkteknologi. I masteroppgåva vert ei eksperimentell tilnærming nytta til å redusere kjønnsskeivheiter i norske språkmodellar gjennom teknikkar der ein gjer endringar på datasetta. For å modifisere datasetta vart det nytta ulike teknikkar som å bytte om på kjønna eller å balansere ut kjønna. Resultatet viser at korkje kjønnskeivheitene eller ytinga vert nemneverdig påverka i dei fleste av desse tilnærmingane. Dette er lovande for framtidig redusering av kjønnskeivheit ved bruk av datamanipulasjon. Vidare vart det forsøkt å bruke overføringslæring frå norske datasett til skandinaviske språkmodellar for å redusere kjønnsskeivheit. Resultatet av denne tilnærminga verkar lovande og ytinga til modellane er nærast upåverka. Kjønn vert sett på som eit flytande attributt. Likevel vert ofte den binære definisjonen nytta i forsking når ein undersøkjer kjønnsskeivheit i språkmodellar. I denne masteroppgåva vert definisjonen av kjønnsskeivheit utvida ved å inkludere kjønnsnøytrale pronomen når ein reduserer og fjernar kjønnsskeivheiter i norske språkmodellar.
dc.description.abstract	The Transformer revolutionised the field of natural language processing, including inspiring the Bidirectional Encoder Representations from Transformers (BERT) and the Generative Pre-trained Transformers (GPT). However, the word representations created by these architectures capture more information about the words than the semantics of the word. It has been shown that language models can exhibit social biases such as gender bias. These social biases can appear as the language models are trained using data from, among others, newspapers, books and web crawling. In this thesis, this is seen from a pronoun count performed on a traditional Norwegian dataset based on newspapers and a Scandinavian dataset based on social media data. The count shows that the traditional dataset contains three times more male than female pronouns and 1305 times more gendered pronouns than gender-neutral pronouns. The dataset gathered from social media is in this sense less biased and contains an almost equal representation of male and female pronouns. There are, however, 55 times more gendered pronouns compared to gender-neutral pronouns. Gender bias has been detected in Norwegian language models published by the National Library of Norway and the University of Oslo. This requires that research is to be made regarding the mitigation of gender bias in Norwegian language technology. Through an experimental approach, this Master's Thesis mitigates gender bias in Norwegian language models using data augmentation techniques such as gender-swapping and gender-balancing. The results show that neither gender bias nor performance is significantly affected by most of these approaches. This is promising for future debiasing with data augmentation. Furthermore, it was attempted to use transfer learning from Norwegian datasets to Scandinavian language models to mitigate gender bias. The results are promising for decreasing gender bias using transfer learning. Additionally, the performance of the Scandinavian models is unaffected by the transfer learning. Gender is viewed as a fluid attribute. Yet, research in the field of natural language processing often uses a binary definition of gender when investigating gender bias in language models. This thesis broadens the definition of gender bias by including gender-neutral pronouns when debiasing the Norwegian language models.
dc.language	eng
dc.publisher	NTNU
dc.title	From Binary to Inclusive - Mitigating Gender Bias in Scandinavian Language Models Using Data Augmentation
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:145904930:3515 ...
Størrelse:: 7.640Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6556]

Vis enkel innførsel