Å lære No-Press Diplomacy fra Selvspill: Dyp Reinforcement Learning med Fokus på 
Samarbeid mellom Agenter

Hatlø, Andreas Moe

Hatlø, Andreas Moe

Master thesis

Åpne

no.ntnu:inspera:112046434:15079038.pdf (8.032Mb)

no.ntnu:inspera:112046434:15079038.zip (2.040Mb)

Permanent lenke

https://hdl.handle.net/11250/3024711

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6828]

Sammendrag

I løpet av de siste årene har brettspillet Diplomacy fått økt

oppmerksomhet innen forskningsfeltet reinforcement learning.

Dette skyldes at Diplomacy har trekk som gjør spillet utfordrende

å lære en datamaskin. I Diplomacy spiller opp mot

sju spillere mot hverandre, og spillerne gjør trekkene sine samtidig.

Kombinert med at hver spiller har mange valgmuligheter for hver runde, gjør

dette at antallet mulige felleshandlinger pr. runde kan overstige 10^64.

Spillet har også svært mange mulige brettkonfigurasjoner.

LOLA er en policy-gradient-algoritme som tar hensyn til at andre agenter lærer. En

LOLA-agent forsøker å maksimere sin egen prestasjon ved å se på hvordan

endringer i egen policy kan påvirke andre agenters policy. Denne algoritmen

har tidligere vist seg å kunne generere samarbeid mellom agenter.

A2C er en enklere utgave

av policy-gradient-algoritmer, hvor det ikke tas

hensyn til at andre agenter kan endre sin policy.

I Diplomacy har spillere som evner

å samarbeide en stor fordel. Selv om tidligere forsøk på å

lære en agent å spille Diplomacy har vært vellykket, har de ikke innebåret

å anvende en algoritme som tidligere har vist seg å kunne generere samarbeid.

I denne rapporten blir det derfor testet om LOLA egner seg bedre til

å lære en agent å spille Diplomacy enn A2C.

LOLA har blitt testet på originalbrettet til Diplomacy, samt en

mindre utgave, kalt ``Pure''. Forsøk viser at algoritmen krever for

mye ressurser til å kunne anvendes på originalbrettet.

Forsøk viser også

at en LOLA-agent lærer å spille ``Pure''-utgaven av Diplomacy, men

presterer dårligere enn en A2C-agent. LOLA-agenten lykkes

heller ikke i å bli bedre til å samarbeide med sine motspillere

enn A2C-agenten.

During the last years the board game Diplomacy's popularity

as a research topic within reinforcement learning has increased.

This is due to Diplomacy having traits which makes it challenging for

computers to learn. In Diplomacy up to seven players

play against each other. The players do their moves simultaneously,

and each player has many moves to choose amongst at every turn.

This makes the number of joint actions pr. turn sometimes exceed 10^64.

Diplomacy also has many board configurations.

LOLA is a policy gradient algorithm which consideres the

learning of other agents. A LOLA agent tries to maximize its performance

by considering how a change in its own policy will affect the policy of

the other agents. Previously, this algorithm has proved to

generate cooperation between agents. A2C is another, simpler

policy-gradient algorithm, and does not possess the capability of

generating cooperation between agents.

Players who cooperate will have a benefit in Diplomacy.

Even though previous attempts to learn a computer to play Diplomacy

have been successful, none of the attempts have involved using

an algorithm which generates cooperation amongst agents. Therefore,

in this report it is tested whether LOLA is better than A2C at

learning an agent to play Diplomacy.

LOLA has been tested on the standard map in Diplomacy. In

addition, the algorithm has been tested on a smaller

map called ``Pure''. The test results shows that LOLA is

computational demanding; It is not suitable to learn an agent to play

games on the standard map. The test results also shows that the LOLA-agent

learns to play a game on the ``Pure'' map, but it performs

worse than the A2C-agent. The LOLA-agent also seems to be

worse at cooperating when playing Diplomacy,

compared to the A2C-agent.

Utgiver

NTNU