Vis enkel innførsel

dc.contributor.advisorMengshoel, Ole Jakob
dc.contributor.advisorTong, Yu
dc.contributor.authorHenriksbø, Marcus Tiedemann Økland
dc.date.accessioned2023-10-28T17:19:59Z
dc.date.available2023-10-28T17:19:59Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:142737689:21514457
dc.identifier.urihttps://hdl.handle.net/11250/3099259
dc.description.abstractFremskrittet til store språkmodeller har vært merkbare ikke bare for forskere, men også for allmennheten i nyere tid [56]. Vi ser utviklingen av store språkmodeller i sammenheng med visuelle modeller slik at multimodale modeller kan være interessante for forskning fordi man kan håndtere mer informasjon når man bruker flere typer data. I vårt arbeid prøver vi utnytte noen offentlige store språkmodeller og multimodale modeller for den ganske etablerte språkbehandlingsoppgaven navngitt entitetsgjenkjenning. Ved å bruke nye tilnærminger utforsker vi hvordan tilpasse oppgaven til generative modeller via spørsmål, for å kunne utnytte mulighetene til slike modeller uten å måtte endre arkitekturen eller trene vekter. Videre utnytter vi de multimodale modellene i forbindelse med multimodale datasett for navngitt entitetsgjenkjenning for å eksperimentere med modellens evne til å utnytte visuelle elementer for bedre ytelse. Vår tilnærming passer inn i den større spørringstrenden, men utnytter den for en tradisjonell oppgave gjennom en ny tilnærming som bruker spørsmåls-svar med generative modeller, og viser state-of-the-art eller høy ytelse i tilfeller med null eller svært få treningseksempler.
dc.description.abstractThe advances in large language models have been noticeable to researchers and the general public in recent times [56]. We see the development of large language models in conjunction with vision models and multimodal models becoming an exciting research space because of the ability to process more information from additional modalities. In our work, we leverage publicly available large language and multimodal models for the quite established natural language processing task of named entity recognition. Using novel approaches, we explore adapting the task to generative models through prompting to leverage the capabilities of such models without modifying the architecture or training weights. Further, we use the multimodal models with multimodal named entity recognition datasets to experiment with the model's ability to leverage visuals for better performance. Our approach fits into the larger prompting trend but leverages it for a traditional classification task through a novel approach using question-answering prompting with generative models, demonstrating state-of-the-art or competitive performance in the case of zero or very few training examples.
dc.languageeng
dc.publisherNTNU
dc.titlePrompting generative models for named entity recognition using language and visuals
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel