Predicting Trondheim Housing Prices by Means of Supervised Learning
Lystrup, Olav Andreas; Nielsen, Mats Esperum; Moene-Omholt, Lars Nore; Smith, Sebastian Alexander; Vikøren, Patrick André Eckbo
Abstract
For unge voksne på vei inn på boligmarkedet, kan det være svært verdifullt å kunne predikere boligpriser. Det er gjort forsøk på dette i mange forskjellige byer. I denne teksten forsøker vi å skape modeller for å predikere boligpriser i Trondheim basert på en rekke variabler, og hvorvidt en nyutdannet siviløkonom vil ha råd til en eiendom som møter visse kriterier. Modellene vi har laget er en enkel og en multippel lineær regresjonsmodell, samt en simpel beslutningstre-regresjonsmodell og en Random Forest regresjonsmodell. Disse var trent på data fra boligmarkedet i Trondheim, som inkluderer en rekke variabler knyttet til diverse aspekter ved eiendommen, samt annen makroøkonomisk data, som for eksempel boligprisindeks og foliorente, fra de tre siste årene. En rekke forskjellige modeller ble brukt, og en rekke forskjellige hyperparametere ble også brukt for å justere beslutningstremodellene for å forsøke å oppnå et bedre resultat. Vi forsøkte å lage en mer effektiv modell og bekjempe overtilpasning, mens vi fortsatt ville holde nøyaktigheten høy. Da fant vi ut at forhåndsbeskjært Random Tree-regresjon ga det beste resultatet og at bruksareal var den desidert viktigste faktoren for pris. Til slutt fant vi ut hvor mye en nyutdannet siviløkonom må spare opp for å ha råd til en eksempeleiendom. For young adults about to enter the housing market, being able to predict housing prices can be very valuable. Attempts have been made to do this in many different cities. In this text we attempt to create the best possible model for predicting housing prices in Trondheim based on a number of variables, and whether a newly graduated MBA student would be able to afford a property that meets some important criteria. The models we have created are singular and multiple linear regression models, as well as decision tree regression and random forest regression models. They were trained on housing data from Trondheim, for example variables regarding different features of the properties. As well as other macroeconomic figures, for example housing index and policy rate, from the last three years. A number of different models were utilized, and a number of different hyperparameters were used as well to tune the decision tree models to attempt to achieve a better outcome. After trying to make a more effective model and combating overfitting, while still aiming to keep the accuracy high, our findings were that using random forest regression with pre pruning gave the best results and that usable area was by far the most important variable when assessing price. Finally, we approximated what a newly graduated MBA student would have to save to afford an example property.