Image Captioning with Deep Learning:
The value of multiple reference captions, and using paraphrases as refrence captions

Turkerud, Ingrid Ravn

dc.contributor.advisor	Mengshoel, Ole Jakob
dc.contributor.author	Turkerud, Ingrid Ravn
dc.date.accessioned	2021-09-15T16:13:23Z
dc.date.available	2021-09-15T16:13:23Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:57320302:33411281
dc.identifier.uri	https://hdl.handle.net/11250/2777833
dc.description	Full text not available
dc.description.abstract	Automatisk bildetekst generering er et felt innenfor datateknologi som har utviklet seg mye de siste årene. Feltet ligger i snittet av maskinsyn of naturlig språk prosessering. De mest populære datasettene som brukes i automatisk bildetekst generering har minst 5 bildetekster per bilde, men de som har det er som regel relativt små dataset sammenlignet med bildeklassifisering og maskinoversettelse dataset. Større dataset eksisterer, men de har som regel bare 1 bildetekst per bilde, siden å samle inn bildetekster en en veldig resurss- og tidskrevende prosess. I denne oppgaven utforsker vi hvordan antall bildeteskter per bilde i treningsdatasettet påvirker modellenes prestasjon. Det ville vært gunstig å kunne bekrefte om modellene trenger å trene på dataset som har mer enn 1 bildetekst per bilde. Vi bruker MS COCO [1] datasettet for Automatisk bildetekst generering. I tillegg utvider vi datasettet vårt med parafraser, omskrivinger av originale bildetekster, for å lage datasett som har mer enn 5 bildetekster per bilde. Resultatene våres viser at modellenes prestasjon øker når det er flere bildetekster per bilde i treningsdatasettet. Vi ser små økninger i prestasjon når modellene trener på dataset med mer enn 5 bildetekster per bilde. Resultatene våres viser også at modellene gjør det også bedre når de trener på mindre dataset som er utvidet med parafraser, doblet dataset størrelse, men ikke nok til å si at menneske genererte bildetekster kan bli erstattet av parafraser. Å utforske viktigheten av å ha flere bildetekster per bilde i treningsdataset for automatisk bildetekst generering har blitt utforsket litt før, men ikke i denne skalaen og ikke på MS COCO [1]. Og bruken av parapfraser i automatisk bildetekst generering er for alt vi vet helt nytt.
dc.description.abstract	Image Captioning is a field within computer science that have seen a lot of interest in recent years. The field is in the intersection of Computer Vision and Natural Language Processing. The most popular datasets used for image captioning contains at least 5 captions per image, though those who do are relatively small compared to Image classification and machine translation datasets. Larger datasets exist, but they usually only have 1 caption per image, because collecting more captions is a very resource intensive and time consuming process. In this thesis we explore how deep learning image captioning models perform when are trained on datasets with varying number of captions per image, in an attempt to confirm whether the models need to be trained on datasets with multiple captions per image. We use the MS COCO [1] dataset for Image Captioning. Additionally, we extend our dataset with paraphrases, to make datasets with more than 5 captions per image. Our results show that the models performance increase significantly when they have been trained on datasets with more captions per image. We see little improvement when training on datasets with more than 5 captions per image. Our results also show that the models improve when training on smaller datasets that have been extended with paraphrases, doubling the dataset size, but not enough to say that human generated captions can be replaced by paraphrases. Exploring the value of multiple reference captions in the training set have been explored before, but not on MS COCO [1] and not on this scale. And utilizing paraphrases in Image Captioning is to the best of our knowledge completely novel.
dc.language
dc.publisher	NTNU
dc.title	Image Captioning with Deep Learning: The value of multiple reference captions, and using paraphrases as refrence captions
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6553]

Vis enkel innførsel

Image Captioning with Deep Learning: The value of multiple reference captions, and using paraphrases as refrence captions

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)