Retur i netthandelsbransjen
Description
Full text not available
Abstract
Temaet i denne masteroppgaven er retur på ordre i netthandelsbransjen, med et spesielt fokus på tekstil- og skomarkedet. Formålet er å gi netthandelsaktørene en indikasjon på hvilke variabler som er viktige å ta hensyn til for å redusere kostnadene og miljøpåvirkningen som følger med høy returgrad. Problemstillingen som studeres i denne masteroppgaven er: «Hvilke karakteristikker ved kunder og ordre påvirker sannsynligheten for retur?». For å besvare problemstillingen utvikles prediksjonsmodeller, etterfulgt av en analyse av variabelviktigheten.
Prediksjonsmodellene er utviklet ved bruk av logistisk regresjon, og Extreme Gradient Boosting (XGBoost). Variabelviktigheten analyseres ved bruk av Shapley Additive exPlanations (SHAP) for XGBoost-modellen og koeffisientene fra LASSO for logistisk regresjon. Videre undersøkes hvilken av de to estimeringsteknikkene som oppnår best prediksjonsevne ved utvikling av modeller for returprediksjon.
Studien er avgrenset til å evaluere ordre og sammenfallende returer i den norske netthandelsbransjen for salg av tekstil og sko. Datasettet som benyttes, er laget i samarbeid med Get Inspired AS, og inneholder data fra perioden 01.10.2022 til 31.12.2023.
Studiet konkluderer med at variabelen "kjøpssum" er den mest betydningsfulle faktoren som påvirker sannsynligheten for retur. Dette funnet er konsistent på tvers av både logistisk regresjon og XGBoost-modellen. Videre viser det seg at "kjønn" og "antall varer" i en ordre også er viktige prediktorer, der kvinner har en høyere tilbøyelighet til å returnere varer enn menn, og flere varer i en ordre øker sannsynligheten for retur. Betalingsmetoden, spesielt bruk av faktura eller betalingsutsettelse, øker også sannsynligheten for retur.
Når det gjelder prediksjonsevne, viser XGBoost-modellen en liten fordel over logistisk regresjon med LASSO, spesielt i sin evne til å skille mellom returer og ikke-returer. Dette indikeres av høyere AUC-verdier og tilsvarende Brier score. Imidlertid gir logistisk regresjon med LASSO en enklere og mer tolkningsvennlig modell. The topic of this master's thesis is returns on orders in the e-commerce industry, with a special focus on the textile and footwear market. The aim is to provide e-commerce operators with an indication of which variables are important to consider in order to reduce the costs and environmental impact associated with high return rates. The research question studied in this master's thesis is: 'Which characteristics of customers and orders affect the likelihood of returns?'. To answer the research question, prediction models are developed, followed by an analysis of variable importance.
The prediction models are developed using logistic regression and Extreme Gradient Boosting (XGBoost). Variable importance is analyzed using Shapley Additive exPlanations (SHAP) for the XGBoost model and the coefficients from LASSO for logistic regression. Furthermore, it is examined which of the two estimation techniques achieves the best predictive performance in the development of return prediction models.
The study is limited to evaluating orders and corresponding returns in the Norwegian e-commerce industry for the sale of textiles and shoes. The dataset used is created in collaboration with Get Inspired AS and contains data from the period 01.10.2022 to 31.12.2023.
The study concludes that the variable "purchase amount" is the most significant factor influencing the likelihood of returns. This finding is consistent across both logistic regression and the XGBoost model. Additionally, it appears that "gender" and the "number of items" in an order are also important predictors, with women having a higher propensity to return items than men, and more items in an order increasing the likelihood of returns. The payment method, especially the use of invoices or deferred payment, also increases the likelihood of returns.
In terms of predictive performance, the XGBoost model shows a slight advantage over logistic regression with LASSO, particularly in its ability to distinguish between returns and non-returns. This is indicated by higher AUC values and corresponding Brier scores. However, logistic regression with LASSO provides a simpler and more interpretable model.