You Shall Know a Female Word by the Company It Does Not Keep
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3030019Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Språkmodeller som implementerer transformer-nettverk som en del av sin arkitektur for å representere ord i distribuerte vektorrom har revolusjonert feltet for naturlig språkprossessering. De har vist seg å inneholde mer informasjon om et ord enn noen annen teknikk i feltet. Desverre har mange studier vist den betydelige baksiden av å bruke slike avanserte språkmodeller i teknologi, hvor historiske stereotyper som at ``mann er til dataprogrammerer det kvinne er til hjemmeværende'' er gjemt i slike modeller. Med økt fokus og forsøk på å skape språkteknologi som fungerer på norsk, truer denne problemstillingen likestilling og den lovfestede retten til likebehandling innenfor våre landegrenser. Denne masteroppgaven er den første studien som oppdager, måler og fjerner kjønnsskjevhet i norske språkmodeller for å unngå og videreføre diskriminering gjennom digitaliseringen av Norge. Ved en eksperimentell metodikk oppdages kjønnsskjevhet i de toppmoderne norske språkmodellene som nylig har blitt utgitt av Universitetet i Oslo, Nasjonalbiblioteket og Google.
Først blir ulike tilnærminger for å kvantifisere kjønnskjevheter i modellene prøvd ut. Resultatene fra disse viser at dataen som brukes til å trene norske språkmodeller inneholder mer enn tre ganger så mange mannlige pronomen som kvinnelige. Gjennom en tilpasset oppgave viser vi at mellom 76\% og 100\% av alle norske adjektiver er sterkere assosiert med mann enn kvinne i de ulike modellene, og at flertallet av alle adjektiv til og med har en sterkere tilknytning til mann enn det ordet 'kvinnelig' har til kvinne. Adjektiver som brukes for å beskrive kvinner er relatert til reproduksjon, skjønnhet, omsorg og sårbarhet. Modellene vurderer indetiske beskrivelser av en mann og kvinne ulikt, hvor nesten alle setningene er nærmere et manns navn i vektorromemet. Modellene reflekterer flere samfunnsmessige kjønnsskjevheter i resultatene sine, ofte så sterke at det overskygger en ekstrem mangel på evne til å produsere meningsfulle resultater på kvinnerelaterte eksempler. Ved å konstruere en realistisk oppgave fra virkeligeten hvor modellene vurderer søknader om finansiering basert på deres likhet med et sett vurderingskriterier, viser vi at modellene favoriserer mannlige søkere på en måte som resulterer i ulovlig diskriminering mot kvinnelige gründere.
Videre er to teknikker for å fjerne kjønnsskjevhet i modellene testet ut og demonstrerer at fjerning av skjevheten er både mulig og nødvendig for norske språkmodeller. Den første teknikken identifiserer et underrom i vektorrommet som beskriver kjønn i modellen og fjerner dette ved å utføre ortogonal projeksjon. Dette viser seg å være en vellykket teknikk som fjerner deler av skjevheten. Den andre teknikken produserer en ny språkmodell ved å finjustere en av modellene på et datasett der mannlige ord er byttet ut med kvinnelige ord. Denne teknikken fungerte ikke for å fjerne skjevhet, og resulterte heller i at skjevheten ble tippet mot det kvinnelig kjønn. Resultatene viser imidlertid at en drastisk endring i kjønnsrepresentasjon i treningsdataen fører til en forskjell i skjevhet i modellen, noe som taler sterkt for at modellene burde mitigeres gjennom ny trening eller finjustering på rettferdige datasett. Begge resultatene indikerer at eksperimentene er bedre egnet for de enspråklige norske modellene enn en flerspråklig modell utgitt av Google, da denne gir tilsynelatende tilfeldige resultater gjennom hele oppgaven. Language models implementing the transformer mechanism as neural network architecture for producing word representations have revolutionized the field of natural language processing. They are shown to capture more information about the meaning of words than any other technique. However the opportunities, many studies have proven the significant drawback of blindly applying language models in downstream tasks where historical stereotypes such as ``man is to computer programmer what woman is to homemaker'' are hidden in digital word representations. With an increased focus and attempt to create technology that works in the Norwegian language, this issue threatens gender equality and the statutory right to equal treatment within our borders. This Master's Thesis stands out as the first study that measures and mitigates gender bias in Norwegian language models to avoid introducing discrimination through the digitization of Norway. Through an experimental methodology, gender bias is detected in the state-of-the-art Norwegian language models that have been published by the University of Oslo, the National Library of Norway, and Google.
First, different approaches to quantify bias in the models are tried out. The results show that the data used to train Norwegian language models contain more than three times as many male pronouns as female ones. Through a masked language modeling task, we show that between 76% and 100% of all Norwegian adjectives are associated more strongly with male than female in the different models and that the majority of all adjectives have a more substantial male bias than the word 'kvinnelig' (English: 'female' in adjective form) has to female. Adjectives used to describe women are related to reproduction, beauty, caretaking, and vulnerability. The models consider similar descriptions of a man and a woman differently, as almost all sentences are closer to a male than a female name in the vector space. The models reflect several societal biases in the results, often so strong that it overshadows an overall extreme disability to produce meaningful results on female entities. By creating a realistic downstream task that automatically evaluates funding applications based on their similarity to evaluation criteria, we show that the models favor male applicants in a way that results in real-life discrimination made by Norwegian technology.
Further, two mitigating techniques are applied and demonstrate that debiasing is possible and necessary for Norwegian language models. The first identifies a gender subspace and removes it from the models by performing orthogonal projection that successfully decreases the bias found in the models. The second debiasing technique creates a new language model by fine-tuning one of the models on a corpus where male words are changed with female words. This technique did not work as a debiasing technique as the model came out as highly female-biased. However, the results show that a drastic change in gender representation in training data leads to a difference in bias, which speaks for bias to be mitigated through retraining or fine-tuning on fair datasets. Both results indicate that the experiments are better suited for the monolingual Norwegian language models than a multilingual one published by Google as it creates somewhat random results throughout the whole thesis.