Vis enkel innførsel

dc.contributor.advisorAamo, Ole Morten
dc.contributor.advisorAarsnes, Ulf Jakob Flø
dc.contributor.authorWaitz, Simen Myhre
dc.date.accessioned2024-08-14T17:19:52Z
dc.date.available2024-08-14T17:19:52Z
dc.date.issued2024
dc.identifierno.ntnu:inspera:181457231:47694411
dc.identifier.urihttps://hdl.handle.net/11250/3146366
dc.description.abstractMålet med prosjektet er å utivkle et automatisert system for å generere nøyaktig bildetekst med naturlig norskt språk for bilder i boligannonser. Forskningen benytter transformere, med fokus på Bootstrapping Language-Image Pre-Training (BLIP)-modellen, for å oppnå dette målet. Kriteriene for produktet er at modellen som tas i bruk har offentlig kildekode, samt være tids- og energieffektiv sammenlignet med andre KI-modeller eller å manuelt skrive bildebeskrivelsene. Datasettet består av bilder og tilhørende bildetekster fra boligannonser skrevet av meglere. Forskningen innebærer omfattende forbehandling av datasettet, inkludert bildeklassifisering, filtrering av språk og tekstklassifisering ved bruk av bilde- og tekst transformatorer, og balansering av data ved hjelp av K-means clustering. Deretter finjusteres forskjellige modellstørrelser av BLIP på forhåndsbehandlede datasett bestående av kjøkkenbilder som et bevis på at prosjektets oppgave er gjennomførbart. Videre blir modellene som er trent på forskjellige datasett og hyperparametre evaluert ved hjelp av automatisk utregnede og menneskelige evalueringsmetrikker. En sentral komponent er å undersøke og utvikle en egnet evalueringsramme for oppgaven. Løsningen fokuserer på å undersøke metoder for å automatisk beregne kvalitet på ordforråd og likhet med meglerskrevet beskrivelser. I tillegg ble en undersøkelse og brukertest gjennomført for å samle kvalitativ tilbakemelding på de genererte bildetekstene sammenlignet med de som er skrevet av meglere og GPT-4. Rapporten viser at BLIP kan finjusteres til å generere bildetekster på norsk med tilsvarende kvalitet som de som er skrevet av eiendomsmeglere og referansemodellen GPT-4. Konklusjonen er at dette prosjektet gir en energi- og tidsbesparende løsning for å redusere arbeidsmengden som kreves for å skrive boligannonser.
dc.description.abstractThis project aims to develop an automated system for generating accurate captions in a natural Norwegian language for images in real estate listings. The research employs transformers, specifically utilizing the Bootstrapping Language-Image Pre-Training (BLIP) model, to achieve this objective. The criteria for the product is that it need to be open-sourced, as well as being time and energy efficient compared to manually writing or generating with other state-of-the-art image captioning models. The dataset comprised images and corresponding captions from real estate advertisements written by realtors. The research involves extensive data preprocessing. This includes image classification, language cleaning, and caption classification using vision and sentence transformers as key components, and then balancing the data with K-means clustering. BLIP of different model sizes is then fine-tuned on preprocessed datasets consisting of kitchen images as a proof of concept. Moreover, the models that are trained on different datasets and hyperparameters are evaluated using automatic and human evaluation metrics. A key component is to investigate and develop a suited evaluation framework for this open-ended generative task. The solution focuses on automatically calculating lexical diversity and textual similarity metrics on a test set. Additionally, a survey and user test were conducted to gather qualitative feedback on the generated captions compared to the ones written by realtors and GPT-4. The research proves that with a suited dataset and optimal hyperparameters, BLIP can be fine-tuned to generate captions with similar quality as real estate agents. Concluding that this project provides an energy- and time-efficient solution to reduce the workload demanded in writing real estate advertisements.
dc.languageeng
dc.publisherNTNU
dc.titleAutomated Image Captions for Norwegian Real Estate Advertisements
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel