An application of approximate dynamic programming/reinforcement learning to salmon production scheduling

Trondsen, Trond Håkon; Hansen, Vegard

dc.contributor.advisor	Fleten, Stein-Erik
dc.contributor.advisor	Kleiven, Andreas
dc.contributor.author	Trondsen, Trond Håkon
dc.contributor.author	Hansen, Vegard
dc.date.accessioned	2022-03-03T18:19:27Z
dc.date.available	2022-03-03T18:19:27Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:85279552:85282721
dc.identifier.uri	https://hdl.handle.net/11250/2982929
dc.description.abstract	Global etterspørsel etter laks som en sunn, ressurs-effektiv og klimavennlig protenkilde er forventet å øke i årene som kommer. Sammensatt årlig vekstrate for slaktevolumer av laks har vært 5% i perioden 2001-2020 (Mowi (2021)). Samtidig møter tradisjonell oppdrett i fjorder og viker både miljømessige utfordringer og restriksjoner fra myndighetene. Landbasert oppdrett er en voksende del av industrien og en respons på de miljømessige utfordringene ved tradisjonell oppdrett som for tiden tiltrekker seg store mengder kapital (Berge (2021)). Landbasert oppdrett har flere fordeler, deriblant mer kontrollerbar produksjon og mindre biologisk forurensning. På den andre siden fører det å produsere laks på land samtidig som det stadig stilles strengere krav til blant annet forkvalitet til høyere produksjonskostnader (Bjørndal and Tusvik (2019)). Smart produksjonsplanlegging blir derfor stadig viktigere for en lakseoppdretter, både på land og i sjø. Videre er lakseprisen en spesielt volatil og varierende råvarepris, og det å ta dette i betraktning i produksjonsplanleggingen blir ansett som svært interessant av spillere i industrien. Planlegging av lakseproduksjon er et utfordrende og beregningsmessig krevende optimeringsproblem som krever mer avanserte optimer- ingsmetoder. Et viktig spørsmål i dette problemet er hvordan bestemme verdien av den stående biomassen i anlegget. Maskinlæringsmetoder som forsterkende læring er på fremmarsj, med im- ponerende resultater å vise til for komplekse problemer, og de er naturlig anlagt for ̊a løse slike utfordringer. Denne masteroppgaven representerer det første forsøket på å modellere produksjonsplanleggingsproblemet i lakseoppdrett som en Markov beslutningsprosess og å løse denne modellen med approksimert dynamisk programmering eller forsterkende læring. Warren B. Powell og David Silver er to front- figurer for dette feltet og deres arbeider er viktige kilder til kunnskap og inspirasjon for denne mas- teroppgaven. ADP/dyp RL modellen tar beslutninger basert på verdifunksjonsapproksimasjon. Modellen er videre basert på n-stegs Tidsmessig Forskjell læring, tester både problemtilpassede funksjoner og dype nevrale nettverk som verdifunksjonsapproksimasjoner og bruker en tellebasert, problem-spesifikk utforskningsstrategi som etterligner Øvre Konfidensgrense-metoden. For å kunne løse problemet stokastisk med hensyn på prisusikkerhet har vi utviklet en semi-parametrisk struk- turell prismodell basert på forwardkurvedata. Denne modellen genererer tilfeldige prisutviklinger og tilhørende prisforventninger/forwardkurver. ADP/RL modellen har blitt målt mot en blandet heltallsprogrammeringsmodell og en rullende horisontmodell for henholdsvis det deterministiske og stokastiske problemet. De beste produksjon- splanene generert av ADP/RL modellen i sin nåværende tilstand tjener ca 80% av sammenlign- ingsmodellene. Dette regnes ikke som bra nok for kommersiell bruk i virkelig produksjon. ADP/RL er på mange måter like mye en kunst som en vitenskap og er en metode som krever store mengder algoritmetuning og kreativ problemløsning. Forfatterne er derfor likevel overbevist om at ADP/RL har stort potensial for å løse ikke bare produksjonsplanleggingsproblemet for laks, men også for andre dyrearter. Denne masteroppgaven åpner derfor døren til et stort forskningsfelt vi tror vil bli verdifullt. Oppgaven undersøker også verdien av stokastisk løsning av produksjonsplanleg- gingsproblemet for laks med hensyn på lakseprisen. Resultatene antyder at verdien av stokastisk løsning er liten sammenlignet med deterministisk løsning med hensyn på en forventet prisutvikling inkludert sesongvariasjon, men stor sammenlignet med deterministisk løsning med hensyn på en konstant pris.
dc.description.abstract	Global demand for Atlantic salmon as a healthy, resource-efficient and climate friendly protein source is only expected to rise. The compounded annual growth rate (CAGR) of salmon harvest volumes has been 5% in the period 2001-2020 (Mowi, 2021). At the same time the industry is facing environmental challenges and governmental restrictions on traditional salmon production in fjords and bays. Land based salmon production is a growing part of the industry and a response to the environmental challenges of traditional production, currently attracting large amounts of investor capital (Berge (2021)). Land based production has several advantages, including more controllable production and less biological pollution. However, producing salmon on land while also facing stricter requirements on e.g. feed quality is causing a rise in production costs (Bjørndal and Tusvik, 2019). Smart production scheduling is therefore becoming increasingly more important to the salmon producer, both land based and sea based. With the salmon price being a particu- larly volatile and varying commodity price, taking this uncertainty into account when scheduling production has been deemed highly interesting by players in the industry. However, the salmon production scheduling optimization problem remains a challenging and computationally demand- ing problem, with a need for more advanced optimization techniques. An inherent key issue in the problem is determining the true value of the standing biomass. Machine learning methods like reinforcement learning are on the rise, having shown impressive results to complex problems, and are inclined to deal with such issues exactly. This master thesis represents the first attempt, to the authors’ knowledge, to model the salmon production scheduling problem as a Markov Decision Process and to solve this model by approx- imate dynamic programming or reinforcement learning. Warren B. Powell and David Silver are two front figures in this field and their works are key sources of knowledge and inspiration for this thesis. The ADP/Deep RL model developed is based on a value function approximation policy. This is in turn based on n-step Temporal Difference (TD(n)) learning, testing both custom func- tions and deep neural networks as value function approximators and using a count-based, problem specific exploration strategy resembling the Upper Confidence Bound method. To be able to solve the stochastic problem version with respect to salmon price uncertainty, a novel semi-parametric structural price model based on forward curve data has been developed. This model generates random salmon price development samples. The ADP/RL model has been benchmarked against a mixed integer programming model and a rolling horizon model for the deterministic and stochastic problem, respectively. The best schedules produced by the ADP/RL model in its current state earns ∼ 80% of the profits earned by the MIP model for small problem instances, which is not deemed good enough for use in real world production. However, ADP/RL is in many ways as much an art as a science, requiring great amounts of algorithm tuning and creative problem solving, and the authors are convinced that there is a large potential in applying ADP/RL to not only salmon production scheduling, but also other biological herd management problems. This thesis therefore merely opens the door to an entire field of research the authors believe will be fruitful. The thesis also investigates the value of stochastic solution. The results suggest that the value of stochastic solution is small compared to scheduling with respect to deterministic price seasonality, but large compared to scheduling with respect to a constant price.
dc.language	eng
dc.publisher	NTNU
dc.title	An application of approximate dynamic programming/reinforcement learning to salmon production scheduling
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:85279552:85282 ...
Size:: 15.19Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for industriell økonomi og teknologiledelse [3159]

Show simple item record