Topic Modeling With Text and Images Using Pretrained Embeddings

Halleland, Martin

dc.contributor.advisor	Mengshoel, Ole Jakob
dc.contributor.author	Halleland, Martin
dc.date.accessioned	2023-12-04T18:19:43Z
dc.date.available	2023-12-04T18:19:43Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:142737689:35330888
dc.identifier.uri	https://hdl.handle.net/11250/3105888
dc.description.abstract	Mengden data som blir skapt er økende, og det å finne nye måter å analysere denne dataen blir stadig et viktigere problem. Videre kan denne dataen fremkomme med flere modaliteter, som tekst og bilde. Et forskningsområde som utforsker dette problemet er det som omhandler emnemodellering. Denne rapporten undersøker en utvidelse av bruken av forhåndstrente representasjonsmodeller på multimodale domener. Vi sammenligner en ny tilnærming til tradisjonelle emnemodelleringsmetoder samt variasjoner av den foreslåtte metoden. Vi viser at den nye metoden klarer å finne sammenhengende og varierte emner. Disse emnene er sammenlignbare med andre metoder, om litt dårligere på noen metrikker når man sammenligner kvantitativt, men har også noen interessante kvalitative egenskaper. Vi konkluderer med at denne metoden kan være nyttig for multimodal emnemodellering, men vektlegger behovet for videre forskning på metrikk, spesielt med tanke på metrikker som tar hensyn til flere modaliteter, samt utforskning av nye muligheter i et fagfelt med mange nye endringer.
dc.description.abstract	The amount of data that is created and used is increasing, and finding new ways of analyzing data is becoming an increasingly more important problem. Additionally this data can appear in multiple modalities, including text and images. One research area that explores this problem is that of topic modeling. This paper explores extending the use of pretrained embedding models to multimodal domains. We compare a new approach to traditional topic modeling methods as well as variations of the proposed method. We show that this method is capable of finding coherent and diverse topics. These topics are comparable to other methods if slightly worse on some metrics when comparing quantitatively, but also produce interesting qualitative results. We conclude that the approach could be useful for multimodal topic modeling, but emphasize the need for further research in metrics, including metrics that looks at more modalities, as well as exploring opportunities in a rapidly evolving field.
dc.language	eng
dc.publisher	NTNU
dc.title	Topic Modeling With Text and Images Using Pretrained Embeddings
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:142737689:3533 ...
Size:: 10.86Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for datateknologi og informatikk [6704]

Show simple item record