Prompting generative models for named entity recognition using language and visuals

Henriksbø, Marcus Tiedemann Økland

dc.contributor.advisor	Mengshoel, Ole Jakob
dc.contributor.advisor	Tong, Yu
dc.contributor.author	Henriksbø, Marcus Tiedemann Økland
dc.date.accessioned	2023-10-28T17:19:59Z
dc.date.available	2023-10-28T17:19:59Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:21514457
dc.identifier.uri	https://hdl.handle.net/11250/3099259
dc.description.abstract	Fremskrittet til store språkmodeller har vært merkbare ikke bare for forskere, men også for allmennheten i nyere tid [56]. Vi ser utviklingen av store språkmodeller i sammenheng med visuelle modeller slik at multimodale modeller kan være interessante for forskning fordi man kan håndtere mer informasjon når man bruker flere typer data. I vårt arbeid prøver vi utnytte noen offentlige store språkmodeller og multimodale modeller for den ganske etablerte språkbehandlingsoppgaven navngitt entitetsgjenkjenning. Ved å bruke nye tilnærminger utforsker vi hvordan tilpasse oppgaven til generative modeller via spørsmål, for å kunne utnytte mulighetene til slike modeller uten å måtte endre arkitekturen eller trene vekter. Videre utnytter vi de multimodale modellene i forbindelse med multimodale datasett for navngitt entitetsgjenkjenning for å eksperimentere med modellens evne til å utnytte visuelle elementer for bedre ytelse. Vår tilnærming passer inn i den større spørringstrenden, men utnytter den for en tradisjonell oppgave gjennom en ny tilnærming som bruker spørsmåls-svar med generative modeller, og viser state-of-the-art eller høy ytelse i tilfeller med null eller svært få treningseksempler.
dc.description.abstract	The advances in large language models have been noticeable to researchers and the general public in recent times [56]. We see the development of large language models in conjunction with vision models and multimodal models becoming an exciting research space because of the ability to process more information from additional modalities. In our work, we leverage publicly available large language and multimodal models for the quite established natural language processing task of named entity recognition. Using novel approaches, we explore adapting the task to generative models through prompting to leverage the capabilities of such models without modifying the architecture or training weights. Further, we use the multimodal models with multimodal named entity recognition datasets to experiment with the model's ability to leverage visuals for better performance. Our approach fits into the larger prompting trend but leverages it for a traditional classification task through a novel approach using question-answering prompting with generative models, demonstrating state-of-the-art or competitive performance in the case of zero or very few training examples.
dc.language	eng
dc.publisher	NTNU
dc.title	Prompting generative models for named entity recognition using language and visuals
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:142737689:2151 ...
Størrelse:: 11.20Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6772]

Vis enkel innførsel