From Listings to Valuations: Integrating LLM-Based Feature Extraction into Automated Valuation Models

Johnsen, Håvard Faxvaag

dc.contributor.advisor	Aamo, Ole Morten
dc.contributor.advisor	Aarsnes, Ulf Jakob Flø
dc.contributor.author	Johnsen, Håvard Faxvaag
dc.date.accessioned	2024-07-12T17:20:06Z
dc.date.available	2024-07-12T17:20:06Z
dc.date.issued	2024
dc.identifier	no.ntnu:inspera:181457231:119978304
dc.identifier.uri	https://hdl.handle.net/11250/3140762
dc.description.abstract	Bruken av automatiserte verdsettingsmodeller for prisestimering er et viktig verktøy i eiendomsbransjen, men nøyaktige estimeringer har vist seg å være en utfordrende oppgave. Tradisjonelt har verdsettingsmodeller benyttet strukturerte data fra boligannonser for å estimere boligpriser, men disse annonsene inneholder også mye nyttig informasjon i tekstbeskrivelsene av boligene. Dette prosjektet har som mål å bruke språkmodeller til å hente ut nyttige parametere fra tekstbeskrivelsene av boligannonser. Videre skal denne informasjonen kunne brukes sammen med de strukturerte dataene for å øke treffsikkerheten til verdiestimeringen av boligen. Det viser seg at språkmodellen returnerer data av høy kvalitet fra tekstbeskrivelser, men med noe variasjon basert på hvilken informasjon som ønskes å hentes ut. Undersøkelser viser imidlertid at på grunn av formuleringer og innholdet i tekstbeskrivelser i boligannonser er det en del informasjon som ikke er tilgjengelig i alle annonser. Selv med noe varierende data viser det seg at nøyaktigheten til verdsettingsmodellen øker med 20.14 % for RMSE og 17.46 % for MAPE når man bruker parametere hentet ut av språkmodeller, sammenlignet med uten. Dette viser det store potensialet språkmodeller har for å hente ut informasjon fra tekstbeskrivelser som kan brukes å øke presisjonen til verdsettingsmodeller.
dc.description.abstract	The use of automated valuation models for price estimation in the real estate industry is a valuable and important asset, but precise predictions remain a challenging task. Traditional valuation models are mainly based on structured data from housing advertisements to predict housing prices. However, these advertisements also have listing texts that hold important information about a housing unit's condition and attractiveness. This thesis aims to utilize large language models to extract valuable features from the textual part of the housing advertisement. Furthermore, by combining the extracted features with the structured information, it is possible to develop a new automated valuation model that might offer enhanced price predictions. It was found that the large language model's ability to return accurate feature values from the listing text was overall high, but could vary based on what information that were extracted. Further observations revealed that the listing text's contents varied considerably from one housing advertisement to another, making a substantial amount of information unavailable for the language model resulting in features with low variation in the data. Despite this, the valuation model improved by 20.14 % for RMSE and 17.46 % for MAPE when the features extracted by the large language model were included, compared to the model without these features. This shows significant potential for implementing large language models for feature extraction to enhance the accuracy of valuation models used in the real estate industry.
dc.language	eng
dc.publisher	NTNU
dc.title	From Listings to Valuations: Integrating LLM-Based Feature Extraction into Automated Valuation Models
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:181457231:1199 ...
Størrelse:: 10.26Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3789]

Vis enkel innførsel