Using historical sales data to enhance the accuracy of AVMs in real estate finance
Abstract
I denne avhandlingen har vi utviklet automatiserte verdsettelsesmodeller (AVM) for boligsektoren. I studien har vi spesielt fokusert på hvordan tilføyelsen av historiske salgsdata kan forbedre ytelsen til disse modellene. Målet vårt er å ytterligere forbedre ytelsen ved å inkludere nye variabler som utnytter et bredere spekter av historiske salgsdata i datasettet vårt.
Datasettet består av 353 997 transaksjonsobservasjoner av leiligheter i Oslo fra ja- nuar 1991 til september 2023. Modellene som brukes som sammenligningsmodeller er: Least Absolute Deviation (LAD), Case-Shiller Repeated Sales Indeks (CSRS), XGBoost (XGB) og K-Nearest Neighbour (KNN). Disse genererer ut-av-tid predik- sjoner på dataene fra 01.01.2023, til slutten av datasettet, noe som gir et grunnlag for å vurdere modellenes ytelse i virkelige scenarioer. En betydelig forskjell i modellenes ytelse ble observert blant sammenligningsmodellene. Vi valgte dermed å konsentrere resten av analysen på å utbedre XGBoost-modellen.
For å forbedre nøyaktigheten til modellene våre, inkluderte vi historiske salgsdata gjennom variabler som antall dager siden forrige salg, prediksjoner på tidligere salgs- priser og avviket mellom den predikerte og faktiske salgsprisen fra tidligere salg. Tanken bak dette var å forbedre modellens prediktive ytelse ved å integrere mer detaljert informasjon om tidligere salg av boligene. Denne integreringen ga lovende resultater, med vår beste modell som oppnådde en MAPE på 6,681 %, sammenlignet med den opprinnelige XGBoost-modellen på 7,26 %. Studien konkluderer med at ved å inkludere ytterligere historiske salgsdata, forbedres ytelsen til AVM-ene. In this thesis, we have developed Automated Valuation Models (AVMs) for the res- idential real estate sector. In our study, we have specifically focused on how the addition of historical sales data can enhance the performance of these models. Our objective is to further enhance the performance accuracy by incorporating novel vari- ables that utilize a broader range of historical sales data in our dataset.
The dataset consists of 353 997 transactional observations of apartments in Oslo from January 1991 to September 2023. The models employed as our baselines are: Least Absolute Deviation (LAD), Case Shiller Repeated Sales Index (CSRS), XGBoost (XGB) and K-Nearest Neighbour (KNN). These generate out-of-time predictions on the data from 01.01.2023, through the end of the dataset, providing a basis to assess model performance in real-world scenarios. A significant discrepancy in model perfor- mance was noted among the baselines. As a result, we concentrated our subsequent efforts on refining the XGBoost model.
To improve the accuracy of our model, we integrated historical sales data that in- cluded variables such as the number of days since previous sales, predictions on previous sales prices, and the deviation between the predicted and actual sales prices from past sales. The reasoning behind this incorporation was to enhance the model’s predictive performance by integrating more detailed information about prior sales of the dwellings. This integration yielded promising results, with our best performing model achieving a MAPE of 6,681%, compared to the baseline XGBoost model’s 7,26%. The study concludes that by incorporating additional historical sales data the performance of the AVMs enhances.