Using historical sales data to enhance the accuracy of AVMs in real estate finance
Abstract
I denne avhandlingen har vi utviklet automatiserte verdsettelsesmodeller (AVM) forboligsektoren. I studien har vi spesielt fokusert på hvordan tilføyelsen av historiskesalgsdata kan forbedre ytelsen til disse modellene. Målet vårt er å ytterligere forbedreytelsen ved å inkludere nye variabler som utnytter et bredere spekter av historiskesalgsdata i datasettet vårt.
Datasettet består av 353 997 transaksjonsobservasjoner av leiligheter i Oslo fra januar 1991 til september 2023. Modellene som brukes som sammenligningsmodellerer: Least Absolute Deviation (LAD), Case-Shiller Repeated Sales Indeks (CSRS),XGBoost (XGB) og K-Nearest Neighbour (KNN). Disse genererer ut-av-tid prediksjoner på dataene fra 01.01.2023, til slutten av datasettet, noe som gir et grunnlag forå vurdere modellenes ytelse i virkelige scenarioer. En betydelig forskjell i modellenesytelse ble observert blant sammenligningsmodellene. Vi valgte dermed å konsentrereresten av analysen på å utbedre XGBoost-modellen.
For å forbedre nøyaktigheten til modellene våre, inkluderte vi historiske salgsdatagjennom variabler som antall dager siden forrige salg, prediksjoner på tidligere salgspriser og avviket mellom den predikerte og faktiske salgsprisen fra tidligere salg.Tanken bak dette var å forbedre modellens prediktive ytelse ved å integrere merdetaljert informasjon om tidligere salg av boligene. Denne integreringen ga lovenderesultater, med vår beste modell som oppnådde en MAPE på 6,681 %, sammenlignetmed den opprinnelige XGBoost-modellen på 7,26 %. Studien konkluderer med atved å inkludere ytterligere historiske salgsdata, forbedres ytelsen til AVM-ene In this thesis, we have developed Automated Valuation Models (AVMs) for the residential real estate sector. In our study, we have specifically focused on how theaddition of historical sales data can enhance the performance of these models. Ourobjective is to further enhance the performance accuracy by incorporating novel variables that utilize a broader range of historical sales data in our dataset.
The dataset consists of 353 997 transactional observations of apartments in Oslo fromJanuary 1991 to September 2023. The models employed as our baselines are: LeastAbsolute Deviation (LAD), Case Shiller Repeated Sales Index (CSRS), XGBoost(XGB) and K-Nearest Neighbour (KNN). These generate out-of-time predictions onthe data from 01.01.2023, through the end of the dataset, providing a basis to assessmodel performance in real-world scenarios. A significant discrepancy in model performance was noted among the baselines. As a result, we concentrated our subsequentefforts on refining the XGBoost model.
To improve the accuracy of our model, we integrated historical sales data that included variables such as the number of days since previous sales, predictions onprevious sales prices, and the deviation between the predicted and actual sales pricesfrom past sales. The reasoning behind this incorporation was to enhance the model’spredictive performance by integrating more detailed information about prior sales ofthe dwellings. This integration yielded promising results, with our best performingmodel achieving a MAPE of 6,681%, compared to the baseline XGBoost model’s7,26%. The study concludes that by incorporating additional historical sales datathe performance of the AVMs enhances.