Hyperfetch: Addressing Reproducibility
and Environmental Impact in
Reinforcement Learning

Wahl, Karoline Sund

dc.contributor.advisor	Jørgensen, Jonathan
dc.contributor.author	Wahl, Karoline Sund
dc.date.accessioned	2023-07-11T17:29:24Z
dc.date.available	2023-07-11T17:29:24Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:146721987:149459168
dc.identifier.uri	https://hdl.handle.net/11250/3078076
dc.description.abstract	De siste årene har feltet for Deep Reinforcement Learning (DRL) opplevd store fremskritt. Imidlertid utgjør reproduksjon av resultater i dette domenet betydelige utfordringer. Henderson et al. [1] setter lys på disse utfordringene og fremhever problemer knyttet til hyperparametere, Random Seeds, og valg av implementasjon av algoritmer. Disse faktorene kan ha stor innvirkning på resultatene av eksperimenter og gjøør det vanskeligere å gjenskape og validere andres funn. Hovedmålet med denne rapporten er å utvikle et installerbart verktøy kalt Hyperfetch, som skal kunne trene og utvinne hyperparametere for RL-prosjekter. Hyperfetch fungerer sammen med en nettside som visualiserer de innhentede hyperparameterne, utslippene som ble skapt da modellen ble trent, og annen relevant metadata. Ved å tette eksisterende kunnskapshull innenfor utslippsprofilering, har Hyperfetch som mål å legge til rette for reproduksjon samtidig som programmet gir verdifulle innsikter i utslippsprofiler. Gjennom hele prosjektet har det blitt lagt betydelig vekt på å skape en funksjonell og pålitelig optimaliseringsmodul, samt å designe et intuitivt brukergrensesnitt ved hjelp av prinsipper for brukersentrert design. Utviklingsprosessen innebar en omfattende planleggingsfase, der nettsidens struktur ble modellert og logikken bak optimalisering og utslippssporing ble nøye kartlagt. Deretter ble en prototype utviklet og testet gjennom intervjuer og brukertesting. Etter forbedringer basert på tilbakemeldingen, ble alle komponenter, inkludert modulen, databasen, API og nettsiden deployert. Ved hjelp av Hyperfetch-systemet ble virkningen på utslipp gitt av ulike faktorer testet. Dette skjedde under hyperparameter-optimalisering og trening av RL-modeller. Disse faktorene inkluderte land, regioner innenfor USA, skytjenesteleverandører og valg av algoritme. Testresultatene ble sammenlignet og analysert. Studien avdekket variasjoner i utslipp mellom ulike land, der europeiske land generelt viste til lavere utslipp sammenlignet med andre land i testen. På samme måte varierte utslippene mellom ulike regioner innenfor USA, der Vermont hadde de laveste utslippene per time, mens Kentucky produserte utslipp omtrent 30,8 ganger høyere. Sammenligninger av ulike skytjenesteleverandører plasserte konsekvent Google Cloud som leverandøren med lavest utslipp per time, mens Azure hadde høyest utslipp. Videre understreket analysen at valg av Deep Reinforcement Learning algoritme hadde en betydningen for utslippet som ble produsert. Spesifikt genererte Soft Actor-Critic (SAC) jevnt over høyere utslipp sammenlignet med Proximal Policy Optimization (PPO) og Advantage Actor-Critic (A2C). Dette var spesielt sant i regioner som Norge og Tyskland, der SAC slapp ut omtrent dobbelt så mye CO2-ekvivalenter per time som de andre algoritmene. Disse funnene understreker betydningen av å ta hensyn til faktorer som lokasjon, skytjenesteleverandør og valg av algoritme ved evaluering av CO2-utslipp under modelltreningsprosessen. Ved å planlegge optimalisering med dette i bakhodet, er det mulig å redusere miljøpåvirkningen knyttet til modellutvikling og bidra til bærekraftige tiltak. Dette betyr at ved å integrere bærekraftvurderinger i utviklingen av RL-modeller, kan vi jobbe for å minimere miljøavtrykket av disse teknologiene.
dc.description.abstract	In recent years, the field of deep reinforcement learning (DRL) has witnessed remarkable advancements. However, the reproducibility of results in this domain is very advanced and challenging. Henderson et al. [1] shed light on these challenges, highlighting issues related to hyperparameters, random seeds, and the choice of algorithm implementations. These factors can greatly influence the outcome of experiments and hinder the ability to replicate and validate findings if reported wrongly or not in full. The primary objective of this thesis is to develop an installable tool called Hyperfetch, which is able to train hyperparameters, as well as extract trained hyperparameters for RL projects. Hyperfetch operates in conjunction with a website that visualizes the extracted hyperparameters, alongside their emissions and other relevant metadata. By bridging existing knowledge gaps in emission profiling and contributing factors specific to RL projects, Hyperfetch aims to facilitate reproducibility while providing insights into emission profiles. Throughout the project, significant emphasis has been placed on creating a functional and dependable optimization module, as well as designing an intuitive interface using user-centered design principles. The development process involved an extensive planning stage, where the website's structure was modeled, and the logic behind optimization and emission tracking was mapped out. Subsequently, a prototype was developed and tested through interviews and user testing. After improvements were made, all components, including the module, database, API, and website, were deployed. Using the online Hyperfetch system, the impact of different factors were tested when tuning and training RL models. These factors were countries, regions within the United States, cloud providers, and algorithm selection. The test-results were compared and analyzed. The study revealed variations in emissions among different countries, with European countries generally demonstrating lower emissions compared to other recorded countries. Similarly, emissions varied across different regions within the United States, with Vermont exhibiting the lowest emissions per hour and Kentucky producing emissions approximately 30.8 times higher. Comparisons of different cloud providers consistently positioned Google Cloud as the provider with the lowest emissions per hour, while Azure exhibited the highest emissions. Moreover, the analysis of emissions generated by different reinforcement learning algorithms show that algorithm choice does have an impact on emissions. Specifically, Soft Actor-Critic (SAC) consistently generated higher emissions compared to Proximal Policy Optimization (PPO) and Advantage Actor-Critic (A2C), particularly in regions such as Norway and Germany, where SAC emitted approximately twice as much CO2eq per hour. These findings underscore the significance of considering factors such as country location, regional location, cloud provider, and algorithm choice when evaluating CO2 emissions during model training. By planning an optimization with these factors in mind, it is possible to reduce the environmental impact associated with model development and contribute to sustainability efforts. This means that by integrating sustainability considerations into the development of RL models, we can work towards minimizing the environmental footprint of these technologies.
dc.language	eng
dc.publisher	NTNU
dc.title	Hyperfetch: Addressing Reproducibility and Environmental Impact in Reinforcement Learning
dc.type	Bachelor thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:146721987:1494 ...
Størrelse:: 14.59Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:146721987:1494 ...
Størrelse:: 424.0Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6766]

Vis enkel innførsel

Hyperfetch: Addressing Reproducibility and Environmental Impact in Reinforcement Learning

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)