Å lære No-Press Diplomacy fra Selvspill: Dyp Reinforcement Learning med Fokus på Samarbeid mellom Agenter
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3024711Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
I løpet av de siste årene har brettspillet Diplomacy fått øktoppmerksomhet innen forskningsfeltet reinforcement learning.Dette skyldes at Diplomacy har trekk som gjør spillet utfordrende å lære en datamaskin. I Diplomacy spiller opp mot sju spillere mot hverandre, og spillerne gjør trekkene sine samtidig. Kombinert med at hver spiller har mange valgmuligheter for hver runde, gjør dette at antallet mulige felleshandlinger pr. runde kan overstige 10^64.Spillet har også svært mange mulige brettkonfigurasjoner.
LOLA er en policy-gradient-algoritme som tar hensyn til at andre agenter lærer. En LOLA-agent forsøker å maksimere sin egen prestasjon ved å se på hvordanendringer i egen policy kan påvirke andre agenters policy. Denne algoritmen har tidligere vist seg å kunne generere samarbeid mellom agenter. A2C er en enklere utgaveav policy-gradient-algoritmer, hvor det ikke tas hensyn til at andre agenter kan endre sin policy.
I Diplomacy har spillere som evner å samarbeide en stor fordel. Selv om tidligere forsøk på å lære en agent å spille Diplomacy har vært vellykket, har de ikke innebåretå anvende en algoritme som tidligere har vist seg å kunne generere samarbeid. I denne rapporten blir det derfor testet om LOLA egner seg bedre til å lære en agent å spille Diplomacy enn A2C.
LOLA har blitt testet på originalbrettet til Diplomacy, samt en mindre utgave, kalt ``Pure''. Forsøk viser at algoritmen krever for mye ressurser til å kunne anvendes på originalbrettet.Forsøk viser også at en LOLA-agent lærer å spille ``Pure''-utgaven av Diplomacy, men presterer dårligere enn en A2C-agent. LOLA-agenten lykkes heller ikke i å bli bedre til å samarbeide med sine motspillere enn A2C-agenten. During the last years the board game Diplomacy's popularityas a research topic within reinforcement learning has increased.This is due to Diplomacy having traits which makes it challenging for computers to learn. In Diplomacy up to seven players play against each other. The players do their moves simultaneously, and each player has many moves to choose amongst at every turn. This makes the number of joint actions pr. turn sometimes exceed 10^64.Diplomacy also has many board configurations.
LOLA is a policy gradient algorithm which consideres thelearning of other agents. A LOLA agent tries to maximize its performance by considering how a change in its own policy will affect the policy of the other agents. Previously, this algorithm has proved to generate cooperation between agents. A2C is another, simpler policy-gradient algorithm, and does not possess the capability of generating cooperation between agents.
Players who cooperate will have a benefit in Diplomacy. Even though previous attempts to learn a computer to play Diplomacy have been successful, none of the attempts have involved using an algorithm which generates cooperation amongst agents. Therefore,in this report it is tested whether LOLA is better than A2C at learning an agent to play Diplomacy.
LOLA has been tested on the standard map in Diplomacy. In addition, the algorithm has been tested on a smallermap called ``Pure''. The test results shows that LOLA is computational demanding; It is not suitable to learn an agent to play games on the standard map. The test results also shows that the LOLA-agentlearns to play a game on the ``Pure'' map, but it performs worse than the A2C-agent. The LOLA-agent also seems to be worse at cooperating when playing Diplomacy, compared to the A2C-agent.