Prisprediksjon for bruktbilsalg: En casestudie med fokus på Nissan Leaf
Abstract
Denne bacheloroppgaven undersøker ulike statistiske modeller for å kunne predikere priser på brukte Nissan Leaf biler i Norge. Modellene som har blitt benyttet i analysen er lineær regresjon, decision tree regresjon og nevrale nettverk. Resultatene for de ulike modellene blir sammenlignet for å se hvilken som gir de beste predikerte salgsverdiene. For å lage modellene har vi brukt et datasett fra Finn.no med priser fra tidligere salgsannonser. Dette datasettet har vi renset og omkodet før bruk i analysene. Videre har vi laget ulike varianter av datasettet der vi har isolert andre generasjon av Nissan Leaf i ett datasettet, og utelukket datapunkter med verdier større enn 1 i «ad count». Dette har gitt ulike utslag i modellene våre der vi fikk gode resultater med for eksempel nevrale nettverk, der den beste modellen fikk en R2 på 89,94 %. Etter drøfting og sammenligning er konklusjonen at nevrale nettverk gir de beste prediksjonene. Samtidig har den flere svakheter i form av underestimering, og tilnærmet ingen predikerte salgsverdier over kr 325 130. Vi har også funnet indikasjoner på at justeringene i datasettet med tanke på variabelen «ad_count» har positiv effekt på prediksjonene til modellene. This bachelor's thesis intends to use various statistical models to be able to predict prices for used Nissan Leaf cars in Norway. The models that have been used are linear regression, decision tree regression and neural networks, and we have compared these against each other to see which ones give the best predicted sales values. We have used a dataset from Finn.no to create the models, with sales prices from previous advertisements. We have cleaned and rearranged this dataset for it to be suitable for the analysis. Furthermore, we have created different variants of the data set where we have isolated the second generation of the Nissan Leaf in one data set, and excluded entries with “ad count” values higher than 1 in another. This has had different results in our models where we got good results in, for example, our neural network model with an R2 score of 89.94%.After the analysis and comparisons, it is concluded that neural networks have had the best predicted values. At the same time, it has several weaknesses in the form of underestimation and virtually no predicted sales values above 325 130 NOK. Furthermore, the third data set has indicated towards the most precise predictions in the three models we have used.