Vis enkel innførsel

dc.contributor.advisorMengshoel, Ole Jakob
dc.contributor.authorTurkerud, Ingrid Ravn
dc.date.accessioned2021-09-15T16:13:23Z
dc.date.available2021-09-15T16:13:23Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:57320302:33411281
dc.identifier.urihttps://hdl.handle.net/11250/2777833
dc.descriptionFull text not available
dc.description.abstractAutomatisk bildetekst generering er et felt innenfor datateknologi som har utviklet seg mye de siste årene. Feltet ligger i snittet av maskinsyn of naturlig språk prosessering. De mest populære datasettene som brukes i automatisk bildetekst generering har minst 5 bildetekster per bilde, men de som har det er som regel relativt små dataset sammenlignet med bildeklassifisering og maskinoversettelse dataset. Større dataset eksisterer, men de har som regel bare 1 bildetekst per bilde, siden å samle inn bildetekster en en veldig resurss- og tidskrevende prosess. I denne oppgaven utforsker vi hvordan antall bildeteskter per bilde i treningsdatasettet påvirker modellenes prestasjon. Det ville vært gunstig å kunne bekrefte om modellene trenger å trene på dataset som har mer enn 1 bildetekst per bilde. Vi bruker MS COCO [1] datasettet for Automatisk bildetekst generering. I tillegg utvider vi datasettet vårt med parafraser, omskrivinger av originale bildetekster, for å lage datasett som har mer enn 5 bildetekster per bilde. Resultatene våres viser at modellenes prestasjon øker når det er flere bildetekster per bilde i treningsdatasettet. Vi ser små økninger i prestasjon når modellene trener på dataset med mer enn 5 bildetekster per bilde. Resultatene våres viser også at modellene gjør det også bedre når de trener på mindre dataset som er utvidet med parafraser, doblet dataset størrelse, men ikke nok til å si at menneske genererte bildetekster kan bli erstattet av parafraser. Å utforske viktigheten av å ha flere bildetekster per bilde i treningsdataset for automatisk bildetekst generering har blitt utforsket litt før, men ikke i denne skalaen og ikke på MS COCO [1]. Og bruken av parapfraser i automatisk bildetekst generering er for alt vi vet helt nytt.
dc.description.abstractImage Captioning is a field within computer science that have seen a lot of interest in recent years. The field is in the intersection of Computer Vision and Natural Language Processing. The most popular datasets used for image captioning contains at least 5 captions per image, though those who do are relatively small compared to Image classification and machine translation datasets. Larger datasets exist, but they usually only have 1 caption per image, because collecting more captions is a very resource intensive and time consuming process. In this thesis we explore how deep learning image captioning models perform when are trained on datasets with varying number of captions per image, in an attempt to confirm whether the models need to be trained on datasets with multiple captions per image. We use the MS COCO [1] dataset for Image Captioning. Additionally, we extend our dataset with paraphrases, to make datasets with more than 5 captions per image. Our results show that the models performance increase significantly when they have been trained on datasets with more captions per image. We see little improvement when training on datasets with more than 5 captions per image. Our results also show that the models improve when training on smaller datasets that have been extended with paraphrases, doubling the dataset size, but not enough to say that human generated captions can be replaced by paraphrases. Exploring the value of multiple reference captions in the training set have been explored before, but not on MS COCO [1] and not on this scale. And utilizing paraphrases in Image Captioning is to the best of our knowledge completely novel.
dc.language
dc.publisherNTNU
dc.titleImage Captioning with Deep Learning: The value of multiple reference captions, and using paraphrases as refrence captions
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel