Vis enkel innførsel

dc.contributor.advisorGullhav, Anders Nordby
dc.contributor.advisorBerling, Lars Peter
dc.contributor.authorGravdal, Anna
dc.contributor.authorVollset, Kristoffer By
dc.date.accessioned2023-11-15T18:19:54Z
dc.date.available2023-11-15T18:19:54Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:146714823:152917323
dc.identifier.urihttps://hdl.handle.net/11250/3102814
dc.description.abstractOptimering av felles bestilling av flere produkter under stokastisk etterspørsel kan bidra til betydelige kostnadsbesparelser for bedrifter. Dette undersøkes gjennom det stokastiske felles bestillingsproblemet (Stochastic Joint Replenishment Problem - SJRP). Denne masteroppgaven undersøker SJRP under sesongvarierende etterspørsel, noe som er relativt uutforsket i nåværende litteratur. Problemet tar hensyn til periodiske bestillingssystemer, som betyr at bestillinger kun kan gjøres på bestemte tidspunkter. Målet er å minimere de totale kostnadene, bestående at oppsetts-, lager- og produktmangelkostnader, samtidig som et kundespesifisert servicenivå opprettholdes. Vi utvikler to metoder for å løse SJRP med sesongvarierende etterspørsel: En blandet heltallsprogrammering (Mixed Integer Programming - MIP) metode og en dyp forsterkende læring (Reinforcement Learning- RL) metode. En komparativ studie som undersøker styrker og svakheter ved begge metodene, blir utført. Begge metodene testes på de samme testinstansene, som er generert basert på virkelige salgsdata. MIP-metoden vår bruker prediksjoner for å forutsi fremtidig etterspørsel og benytter sikkerhetslagre for å ta hensyn til usikkerheten i disse prediksjonene. En analyse av hvilken metode som gir de mest nøyaktige prediksjonene er gjennomført. Som et resultat av denne analysen, brukte vi Holt-Winters metode til å utføre prediksjonene på grunn av dens overlegne presisjon. Mange studier innen lagerstyring antar at etterspørselsfordelingen allerede er kjent, noe som er en forenkling. Andre studier bruker enkle prediksjonsmetoder som auto-regressive (Auto-Regressive - AR) eller naïve metoder, uten å utføre komparative analyser for å identifisere den mest effektive metoden. Resultatene våre demonstrerer at bruken av Holt-Winters metode i stedet for en naïv metode reduserer kostnadene betydelig. RL-metoden som er utviklet benytter en dyp deterministisk policygradient (Deep Deterministic Policy Gradient - DDPG) algoritme for å produsere robusere bestillingsbeslutninger. Et sentralt trekk ved vår RL-metode er forhåndstrening av det nevrale nettverket ved hjelp av overvåket læring (supervised learning). Det nevrale nettverket trenes basert på tilstand-handling (state-action) par funnet ved hjelp av MIP-modellen, som brukes under deterministisk etterspørsel og uten begrensningen av sikkerhetslager. Denne forhåndstreningen gjør det mulig for RL-agenten å lære mer effektivt og bedre i det stokastiske RL-miljøet. Resultatene i denne oppgaven indikerer at RL-metoden er signifikant bedre enn MIP-metoden når det gjelder totale kostnader for testinstanser bestående av to produkter, med unntak av en testinstans med jevn etterspørsel, hvor den presterer like bra. Dette representerer et fremskritt i forhold til RL-metoder i eksisterende litteratur som addresserer SJRP. Imidlertid, når problemstørrelsen økes til fire produkter er MIP-metoden signifikant bedre enn RL-metoden. Dette skyldes hovedsakelig de eksponensielt voksende tilstands- og handlingsrommene, noe som gjør utforskringen av lovende tilstander for RL-agenten mer utfordrende. Våre hovedbidrag er dermed utviklingen av en MIP-metode og en RL-metode som er designet for å løse SJRP med sesongvarierende etterspørsel. I tillegg representerer vår analyse av prediksjonsmetoder for å velge en passenede prediksjonsmetode et unikt bidrag innenfor konteksten av SJRP-litteratur.
dc.description.abstractOptimizing the joint replenishment of multiple products under stochastic demand could contribute to major cost savings for businesses. This is investigated through the Stochastic Joint Replenishment Problem (SJRP). This thesis investigates the SJRP under seasonal demand, which is relatively unexplored in current literature. The problem considers periodic review systems, meaning order placement is only possible at certain points in time. The objective is to minimize the total costs, composed of setup, holding and shortage costs while ensuring that a customer-specified service level is met. We develop two approaches for solving the SJRP under seasonal demand: A Mixed Integer Programming (MIP) approach and a deep Reinforcement Learning (RL) approach. A comparative study, investigating the strengths and weaknesses of both approaches is conducted. Both methods are tested on the same test instances, which are generated based on real sales data. Our MIP approach uses forecasting to predict future demand and utilize safety stocks to account for the uncertainty in the forecasts. An analysis of which forecasting method produces the most accurate forecasts is conducted. As a result of this analysis, we adopted the Holt-Winters forecasting method due to its superior accuracy. Many studies on inventory control assume that demand distribution is already known, which is a simplification. Other studies adopt simple forecasting approaches such as Auto-Regression or naïve methods, without conducting comparative analyses to identify the most effective method. Our results show that incorporating the Holt-Winters instead of a naïve method significantly reduces costs. The RL approach developed employs a state-of-the-art Deep Deterministic Policy Gradient (DDPG) algorithm to produce robust ordering decisions. A key feature of our RL approach is the pre-training of the neural network using supervised learning. The neural network undergoes training based on state-action pairs derived from the MIP model, which is applied under deterministic demand conditions and without the constraint of safety stock. This pre-training enables the agent to learn more proficiently within the stochastic RL environment. The results in this thesis indicate that the RL approach is superior to the MIP in terms of total costs for two-product instances, except for one test instance with smooth demand where it performs equivalently well. This represents an advancement compared to the performance of RL solutions in existing literature addressing the SJRP. However, in the case of a four-product instance, the MIP approach supersedes the RL approach. This is mainly due to the exponentially growing state and action spaces, making the exploration of promising states for the RL agent more challenging. Our main contributions are thus the development of a MIP approach and an RL approach designed to solve the SJRP with seasonal demand. In addition, our incorporation of a forecasting analysis to obtain a proper forecasting method represents a unique contribution within the context of SJRP literature.
dc.languageeng
dc.publisherNTNU
dc.titleOptimization and Machine Learning Methods for The Stochastic Joint Replenishment Problem under Seasonal Demand
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel