Forecasting Red Wine Rankings at Vinmonopolet with Machine Learning

Fagerås, Stephanie Jebsen

dc.contributor.advisor	Aune, Erlend
dc.contributor.author	Fagerås, Stephanie Jebsen
dc.date.accessioned	2021-12-09T20:15:59Z
dc.date.available	2021-12-09T20:15:59Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:75366163:20915527
dc.identifier.uri	https://hdl.handle.net/11250/2833649
dc.description.abstract	I Norge blir salg av drikkevarer med over 4,75 % alkohol monopolisert av Vinmonopolet og kontrollert av strenge lover som forbyr reklame. Vinmonopolet bytter produktutvalg annenhver måned, der de lanserer nye produkter og fjerner de minst populære produktene fra basisutvalget, utvalget som er garantert en plass i butikkene. Disse produktene og noen av de nye ender opp i bestillingsutvalget. Produktene importeres av importører som for noen av produktene har som mål å få disse i basisutvalget, noe som garanterer høyere salgstall. Hvilke produkter som får en plass i basisutvalget avgjøres gjennom et rangeringssystem basert på salgstall. I denne oppgaven analyserer vi salg av rødviner og prøver å lage en prognose av rangeringslistene for å evaluere hvilke produkter som risikerer å forlate basisutvalget og hvilke produkter som kan selge godt nok til å gå inn i basisutvalget. Rangeringslistene er laget av en-, to- og tremånedersprognoser ved bruk av Long Short-Term Memory (LSTM), Seasonal Autoregressive Integrated Moving Average (SARIMA) og persistence forecast på salgstall. Ytterligere kovariater er testet på LSTM- og SARIMA-modellene, og forskjellige kombinasjoner av prisgruppene ble brukt til å trene LSTM-modellen. Ingen kovariater forbedret modellene betydelig, men å trene LSTM-modellen på alle prisgrupper forbedrer gjennomsnittlig absolutt avvik (MAE) med 25 %. De endelige modellene produserte en gjennomsnittlig MAE på 158, 205 og 291 for én måneds prognose med henholdsvis LSTM, SARIMA og persistence forecast. MAE økte med 105 %, 150 % og 158 % for de samme modellene for tremånedersprognoser. Ved forsøk på å identifisere produkter med en rangering som flytter seg over eller under styringstallet, finner vi at resultatene er dårlige og svinger mye; disse hendelsene forekommer for sjelden til å kunne brukes til å evaluere modellen. Stabiliteten i disse rangeringene tyder på at de viktigste faktorene som påvirker inngang og utgang av basisutvalget er antallet nye produkter som lanseres direkte i basisutvalget og produktene som skifter prisklasse. Vi diskuterer alternative metoder for å bedre kunne utnytte resultatene fra prognosene. Rangeringen av disse resulterte i unødvendig informasjonstap og evalueringsmetodene vi brukte hadde alle sine svakheter. Vi diskuterer også hvilke kovariater utenfor datasettet som forventer å kunne øke ytelsen til modellen og noen elementer som kan begrense mulig ytelse.
dc.description.abstract	In Norway, beverage sales with over 4.75 % alcohol are monopolized by Vinmonopolet and controlled by strict laws prohibiting advertisement. Vinmonopolet changes its product line every two months, launching new products and removing the least popular products from basisutvalget, the small selection not only available through orders but also available in stores. The products are imported by importers, whose aim for some of the products is to get them into basisutvalget, guaranteeing higher sales numbers. Which products that manage to claim a spot in basisutvalget is decided through a ranking system based on sales numbers. In this thesis, we analyze red wine sales and attempt to forecast the ranking lists to evaluate which products risk leaving basisutvalget and which products might sell well enough to enter basisutvalget. The ranking lists are mapped from one-, two-, and three-month forecasts using Long Short-Term Memory (LSTM), Seasonal Autoregressive Integrated Moving Average (SARIMA), and persistence forecasting on sales numbers. Additional features are tested on the LSTM and SARIMA models, and various combinations of price groups are used to train the LSTM model. None of the attempted features improved the models significantly, but training the LSTM model on all price groups improved the Mean Absolute Error (MAE) by 25 %. The final models produced an average MAE of 158, 205, and 291 for a one-month LSTM, SARIMA, and persistence forecast consecutively. The MAE increased with 105 %, 150 %, and 158 % for the same models for three-month forecasts. Attempting to identify products whose rank shifts over or below the ranking limit, we find that the results are poor and fluctuate; these events occur too seldom to function as an accurate performance measure. The stability of these ranks imply that the most important factors influencing entry and exit of basisutvalget are the number of new products launched directly into basisutvalget and products shifting price range. We discuss alternative methods to better utilize the forecasts for knowledge gain. Ranking the forecasts resulted in unnecessary information loss, and the performance measures we chose all had different weaknesses. We also discuss which features outside the data set that are expected to increase performance and some factors that might limit the obtainable performance.
dc.language	eng
dc.publisher	NTNU
dc.title	Forecasting Red Wine Rankings at Vinmonopolet with Machine Learning
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:75366163:20915 ...
Size:: 11.97Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for matematiske fag [2468]

Show simple item record