Å lære No-Press Diplomacy fra Selvspill: Dyp Reinforcement Learning med Fokus på 
Samarbeid mellom Agenter

Hatlø, Andreas Moe

dc.contributor.advisor	Downing, Keith L.
dc.contributor.author	Hatlø, Andreas Moe
dc.date.accessioned	2022-10-07T17:31:49Z
dc.date.available	2022-10-07T17:31:49Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:15079038
dc.identifier.uri	https://hdl.handle.net/11250/3024711
dc.description.abstract	I løpet av de siste årene har brettspillet Diplomacy fått økt oppmerksomhet innen forskningsfeltet reinforcement learning. Dette skyldes at Diplomacy har trekk som gjør spillet utfordrende å lære en datamaskin. I Diplomacy spiller opp mot sju spillere mot hverandre, og spillerne gjør trekkene sine samtidig. Kombinert med at hver spiller har mange valgmuligheter for hver runde, gjør dette at antallet mulige felleshandlinger pr. runde kan overstige 10^64. Spillet har også svært mange mulige brettkonfigurasjoner. LOLA er en policy-gradient-algoritme som tar hensyn til at andre agenter lærer. En LOLA-agent forsøker å maksimere sin egen prestasjon ved å se på hvordan endringer i egen policy kan påvirke andre agenters policy. Denne algoritmen har tidligere vist seg å kunne generere samarbeid mellom agenter. A2C er en enklere utgave av policy-gradient-algoritmer, hvor det ikke tas hensyn til at andre agenter kan endre sin policy. I Diplomacy har spillere som evner å samarbeide en stor fordel. Selv om tidligere forsøk på å lære en agent å spille Diplomacy har vært vellykket, har de ikke innebåret å anvende en algoritme som tidligere har vist seg å kunne generere samarbeid. I denne rapporten blir det derfor testet om LOLA egner seg bedre til å lære en agent å spille Diplomacy enn A2C. LOLA har blitt testet på originalbrettet til Diplomacy, samt en mindre utgave, kalt ``Pure''. Forsøk viser at algoritmen krever for mye ressurser til å kunne anvendes på originalbrettet. Forsøk viser også at en LOLA-agent lærer å spille ``Pure''-utgaven av Diplomacy, men presterer dårligere enn en A2C-agent. LOLA-agenten lykkes heller ikke i å bli bedre til å samarbeide med sine motspillere enn A2C-agenten.
dc.description.abstract	During the last years the board game Diplomacy's popularity as a research topic within reinforcement learning has increased. This is due to Diplomacy having traits which makes it challenging for computers to learn. In Diplomacy up to seven players play against each other. The players do their moves simultaneously, and each player has many moves to choose amongst at every turn. This makes the number of joint actions pr. turn sometimes exceed 10^64. Diplomacy also has many board configurations. LOLA is a policy gradient algorithm which consideres the learning of other agents. A LOLA agent tries to maximize its performance by considering how a change in its own policy will affect the policy of the other agents. Previously, this algorithm has proved to generate cooperation between agents. A2C is another, simpler policy-gradient algorithm, and does not possess the capability of generating cooperation between agents. Players who cooperate will have a benefit in Diplomacy. Even though previous attempts to learn a computer to play Diplomacy have been successful, none of the attempts have involved using an algorithm which generates cooperation amongst agents. Therefore, in this report it is tested whether LOLA is better than A2C at learning an agent to play Diplomacy. LOLA has been tested on the standard map in Diplomacy. In addition, the algorithm has been tested on a smaller map called ``Pure''. The test results shows that LOLA is computational demanding; It is not suitable to learn an agent to play games on the standard map. The test results also shows that the LOLA-agent learns to play a game on the ``Pure'' map, but it performs worse than the A2C-agent. The LOLA-agent also seems to be worse at cooperating when playing Diplomacy, compared to the A2C-agent.
dc.language	nob
dc.publisher	NTNU
dc.title	Å lære No-Press Diplomacy fra Selvspill: Dyp Reinforcement Learning med Fokus på Samarbeid mellom Agenter
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:1507 ...
Størrelse:: 8.032Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:112046434:1507 ...
Størrelse:: 2.040Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6778]

Vis enkel innførsel

Å lære No-Press Diplomacy fra Selvspill: Dyp Reinforcement Learning med Fokus på Samarbeid mellom Agenter

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)