Fine-Tuning Large Language Models to Enable Translation Between Norwegian Bokmål and Nynorsk
Abstract
Offentlig sektor i Norge bruker hvert eneste år mye tid og ressurser på oversetting mellom bokmål og nynorsk. Nevrale maskinoversettelsesmodeller og GPT-modeller har de siste årene blitt bedre og bedre, og vi ønsker å kunne bruke denne teknologiske fremgangen til å redusere bruken av ressurser på feltet. Denne masteroppgaven utforsker de ulike utfordringene og løsningene tilknyttet maskinoversetting mellom bokmål og nynorsk. Vi undersøker ulike modellarkitekturer og evalueringsteknikker med et overordnet mål om å kunne forbedre oversettelseskvaliteten mellom de to norske skriftspråkene.
Flere av våre fin-tunede modeller oppnår resultater som både tilsvarer og til og med utkonkurrerer kjente oversettelsesmodeller i oversetting mellom bokmål og nynorsk. Dette gjelder både regelbaserte og nevrale modeller. Det viser seg at ulike modeller er best på de ulike oversettelsesretningene. Den fin-tunede NB-GPT-J-6B er best på oversetting fra bokmål til nynorsk, med en BLEU på 0.864, SacreBLEU på0.775, METEOR på 0.949, BERTScore på 0.984 og en COMET på 0.965. Når det gjelder oversetting fra nynorsk til bokmål, er det den fin-tunede NorwAI-Llama-7B-modellen som presterer best. Denne får en BLEU på 0.892, SacreBLEU på 0.789, METEOR på 0.959, BERTScore på 0.987 og en COMET på 0.968. De aller fleste modellene presterer bedre jo flere setningspar de blir fin-tunet på. Translating Norwegian Bokmål and Nynorsk is something that the Norwegian government spends a lot of time and resources doing every year. With multi-task NMT and GPT models increasing in capabilities each passing year, we believe this technological progress can be leveraged to ease the expenditure of resources on Bokmål and Nynorsk translation through machine translation. This master’s thesis explores the challenges and solutions in Machine Translation between Norwegian Bokmål and Nynorsk. We have examined various model architectures and evaluation metrics, aiming to enhance translation accuracy between the two Norwegian written languages.
Several of our fine-tuned models achieve evaluation scores on par or even higher than baseline models in translation between Norwegian Bokmål and Nynorsk, both neural-based and rule-based. It turns out that different models perform best in different translation directions. The fine-tuned NB-GPT-J-6B performs best in Bokmål to Nynorsk translation, with a BLEU of 0.864, SacreBLEU of 0.775, METEOR of 0.949, BERTScore of 0.984 and COMET of 0.965. On the other hand, the fine-tuned NorwAI-Llama-7B performs best in Nynorsk to Bokmål translation, with a BLEU of 0.892, SacreBLEU of 0.789, METEOR of 0.959, BERTScore of 0.987 and COMET of 0.968. Most models perform better when more sentence pairs are provided during fine-tuning.