Show simple item record

dc.contributor.advisorEidheim, Ole Christian
dc.contributor.authorAabol, Simen Tvete
dc.contributor.authorDragsten, Marcus Klomsten
dc.date.accessioned2023-11-02T18:20:21Z
dc.date.available2023-11-02T18:20:21Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:145904930:34648596
dc.identifier.urihttps://hdl.handle.net/11250/3100363
dc.description.abstractDenne avhandlingen undersøker bruken av aktiv læring i norske naturlig språkbehandlingsmodeller for å adressere utfordringen med kostbar merking av data. Med økende etterspørsel etter større datasett innen kunstig intelligens, har finjustering av språkmodeller blitt avgjørende for ulike applikasjoner. Imidlertid kan generering av merket data for finjustering være tidkrevende og kostbart. Aktiv læring tilbyr en løsning ved å iterativt velge de mest verdifulle datapunktene for menneskelig merking, og reduserer dermed mengden merket data som kreves. Denne studien fokuserer på sammenligning av ulike finjusteringsmetoder for norske naturlig språkbehandlingsmodeller med hensyn til nøyaktighet og treningstid, samtidig som aktiv læring inkorporeres. Tre velkjente aktiv læring-utvalgsmetoder evalueres og sammenlignes med tradisjonelt tilfeldig utvalg for å fastslå deres effektivitet i valg av informative datapunkter for merking i en norsk naturlig språkbehandlingsmodell. Språkmodellen vil evalueres ved en sentiment klassifiseringsoppgave. Forskningsspørsmålene tar for seg forskjellene i nøyaktighetsmålinger, hvor mange datapunkter man slipper å merke, ytelsen til aktiv læring-metodene og deres innvirkning på treningstid og treningstap. Resultatene viser fordelene ved aktiv læring i norske naturlig språkbehandlingsmodeller og gir innsikt for forskere, bedrifter og organisasjoner som ønsker å trene maskinlæringsmodeller mer effektivt og kostnadseffektivt. Avhandlingen avsluttes med en diskusjon av resultatene, besvarer forskningsspørsmålene og foreslår videre forskningsmuligheter.
dc.description.abstractThis thesis examines the use of active learning in Norwegian natural language processing models to address the challenge of expensive data labeling. With the growing demand for larger datasets in artificial intelligence, fine-tuning language models has become crucial for various applications. However, creating labeled data for fine-tuning can be time-consuming and costly. Active learning offers a solution by iteratively selecting the most valuable data points for human labeling, thereby reducing the amount of labeled data required. This paper focuses on comparing different fine-tuning methods for Norwegian natural language processing models in terms of accuracy and training time while incorporating active learning. Three well-known active learning sampling methods are evaluated and compared to traditional random sampling to determine their effectiveness in selecting informative samples for labeling for a Norwegian natural language processing model. The model will be evaluated while doing a sentiment classification task. The research questions address the differences in accuracy metrics, how many samples one can save using active learning, the performance of active learning methods, and their impact on training time and training loss. The findings demonstrate the benefits of active learning in the context of natural language processing and provide insights for researchers, businesses, and organizations seeking to train machine learning models more efficiently and cost-effectively. The paper concludes with a discussion of the results, answering the research questions, and suggesting further research avenues.
dc.languageeng
dc.publisherNTNU
dc.titleActive Learning in Norwegian Natural Language Processing
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record