Active Learning in Norwegian Natural Language Processing

Aabol, Simen Tvete; Dragsten, Marcus Klomsten

dc.contributor.advisor	Eidheim, Ole Christian
dc.contributor.author	Aabol, Simen Tvete
dc.contributor.author	Dragsten, Marcus Klomsten
dc.date.accessioned	2023-11-02T18:20:21Z
dc.date.available	2023-11-02T18:20:21Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:145904930:34648596
dc.identifier.uri	https://hdl.handle.net/11250/3100363
dc.description.abstract	Denne avhandlingen undersøker bruken av aktiv læring i norske naturlig språkbehandlingsmodeller for å adressere utfordringen med kostbar merking av data. Med økende etterspørsel etter større datasett innen kunstig intelligens, har finjustering av språkmodeller blitt avgjørende for ulike applikasjoner. Imidlertid kan generering av merket data for finjustering være tidkrevende og kostbart. Aktiv læring tilbyr en løsning ved å iterativt velge de mest verdifulle datapunktene for menneskelig merking, og reduserer dermed mengden merket data som kreves. Denne studien fokuserer på sammenligning av ulike finjusteringsmetoder for norske naturlig språkbehandlingsmodeller med hensyn til nøyaktighet og treningstid, samtidig som aktiv læring inkorporeres. Tre velkjente aktiv læring-utvalgsmetoder evalueres og sammenlignes med tradisjonelt tilfeldig utvalg for å fastslå deres effektivitet i valg av informative datapunkter for merking i en norsk naturlig språkbehandlingsmodell. Språkmodellen vil evalueres ved en sentiment klassifiseringsoppgave. Forskningsspørsmålene tar for seg forskjellene i nøyaktighetsmålinger, hvor mange datapunkter man slipper å merke, ytelsen til aktiv læring-metodene og deres innvirkning på treningstid og treningstap. Resultatene viser fordelene ved aktiv læring i norske naturlig språkbehandlingsmodeller og gir innsikt for forskere, bedrifter og organisasjoner som ønsker å trene maskinlæringsmodeller mer effektivt og kostnadseffektivt. Avhandlingen avsluttes med en diskusjon av resultatene, besvarer forskningsspørsmålene og foreslår videre forskningsmuligheter.
dc.description.abstract	This thesis examines the use of active learning in Norwegian natural language processing models to address the challenge of expensive data labeling. With the growing demand for larger datasets in artificial intelligence, fine-tuning language models has become crucial for various applications. However, creating labeled data for fine-tuning can be time-consuming and costly. Active learning offers a solution by iteratively selecting the most valuable data points for human labeling, thereby reducing the amount of labeled data required. This paper focuses on comparing different fine-tuning methods for Norwegian natural language processing models in terms of accuracy and training time while incorporating active learning. Three well-known active learning sampling methods are evaluated and compared to traditional random sampling to determine their effectiveness in selecting informative samples for labeling for a Norwegian natural language processing model. The model will be evaluated while doing a sentiment classification task. The research questions address the differences in accuracy metrics, how many samples one can save using active learning, the performance of active learning methods, and their impact on training time and training loss. The findings demonstrate the benefits of active learning in the context of natural language processing and provide insights for researchers, businesses, and organizations seeking to train machine learning models more efficiently and cost-effectively. The paper concludes with a discussion of the results, answering the research questions, and suggesting further research avenues.
dc.language	eng
dc.publisher	NTNU
dc.title	Active Learning in Norwegian Natural Language Processing
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:145904930:3464 ...
Size:: 7.585Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6592]

Show simple item record