Vis enkel innførsel

dc.contributor.advisorGravdahl, Jan Tommy
dc.contributor.authorKveen, Jens Erik
dc.date.accessioned2022-09-08T17:19:41Z
dc.date.available2022-09-08T17:19:41Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:102231297:37622617
dc.identifier.urihttps://hdl.handle.net/11250/3016712
dc.description.abstractModellbasert forsterkende læring er i stand til å oppnå mye høyere prøveeffektivitet enn modellfrie metoder, noe som gjør dem mer egnet for praktiske anvendelser. Imidlertid mangler modellbaserte metoder ytelsen til sine modellfrie motparter. Denne oppgaven bidrar til å fylle dette ytelsesgapet med en modellbasert forsterkende læringsmetode basert på målrettet utforskning ved å estimere modellusikkerhet. Ytelsen til modellbaserte forsterkende læringsmetoder er avhengig av å lære en nøyaktig modell av miljøets dynamikk, som kan utnyttes under planlegging. Nåværende metoder fokuserer imidlertid mer på å utnytte modellen enn på å forbedre den. Toppmoderne modellbaserte forsterkende læringsmetoder prøver å maksimere belønningen, med fokus på å utnytte det som allerede er lært. Utforskning er imidlertid en kritisk del av forsterkende læring, men de fleste modellbaserte metoder mangler en eksplisitt måte å utforske tilstandsrommet på. Denne oppgaven presenterer en modellbasert forsterkningslæringsmetode som bruker estimert modellusikkerhet med et dypt nettverksensemble for å målrette utforskning mot tilstnader hvor modellusikkerheten er høy. Ved å balansere utforsking og utnyttelse har algoritmen som mål å utnytte modellen når usikkerheten er lav og utforske når usikkerheten er høy. Metoden er testet på flere vanskelige oppgave i OpenAI gym-rammeverket. Resultatene viser at gjennom målrettet utforskning oppnår algoritmen lavere modellusikkerhet på alle benchmarkoppgaver samtidig som ytelsen opprettholdes eller forbedres når det gjelder prøveeffektivitet sammenlignet med gjeldende modellbaserte metoder.
dc.description.abstractModel-based reinforcement learning is able to achieve much higher sample efficiency than model-free methods, making them more suitable for practical applications. However, model-based methods lack the performance of their model-free counterparts. This thesis contributes to filling this performance gap with a model-based reinforcement learning method based on targeted exploration by estimating model uncertainty. The performance of model-based reinforcement learning methods relies on accurately learning a model of the environment, which can be exploited during planning. However, current methods focus more on exploiting the model than focusing on improving it. State of the art model-based reinforcement learning methods tries to maximize the reward, focusing on exploiting what is already learnt. However, exploration is a critical part of reinforcement learning, but most model-based methods lack an explicit way of exploring the state space. This thesis presents a model-based reinforcement learning method which utilizes estimated model uncertainty with a deep network ensemble to target exploration towards states where the model uncertainty is high. By balancing exploration and exploitation, the algorithm aims to exploit the model when uncertainty is low and explore when uncertainty is high. The method is tested on several control benchmark tasks in the OpenAI gym framework. Results show that through targeted exploration the algorithm achieves lower model uncertainty on all benchmark tasks while maintaining or improving the performance in terms of sample efficiency compared to current model-based methods.
dc.languageeng
dc.publisherNTNU
dc.titleSample Efficient Deep Reinforcement Learning via Model-Ensemble-Based Exploration
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel