dc.contributor.advisor | Downing, Keith L. | |
dc.contributor.author | Hatlø, Andreas Moe | |
dc.date.accessioned | 2022-10-07T17:31:49Z | |
dc.date.available | 2022-10-07T17:31:49Z | |
dc.date.issued | 2022 | |
dc.identifier | no.ntnu:inspera:112046434:15079038 | |
dc.identifier.uri | https://hdl.handle.net/11250/3024711 | |
dc.description.abstract | I løpet av de siste årene har brettspillet Diplomacy fått økt
oppmerksomhet innen forskningsfeltet reinforcement learning.
Dette skyldes at Diplomacy har trekk som gjør spillet utfordrende
å lære en datamaskin. I Diplomacy spiller opp mot
sju spillere mot hverandre, og spillerne gjør trekkene sine samtidig.
Kombinert med at hver spiller har mange valgmuligheter for hver runde, gjør
dette at antallet mulige felleshandlinger pr. runde kan overstige 10^64.
Spillet har også svært mange mulige brettkonfigurasjoner.
LOLA er en policy-gradient-algoritme som tar hensyn til at andre agenter lærer. En
LOLA-agent forsøker å maksimere sin egen prestasjon ved å se på hvordan
endringer i egen policy kan påvirke andre agenters policy. Denne algoritmen
har tidligere vist seg å kunne generere samarbeid mellom agenter.
A2C er en enklere utgave
av policy-gradient-algoritmer, hvor det ikke tas
hensyn til at andre agenter kan endre sin policy.
I Diplomacy har spillere som evner
å samarbeide en stor fordel. Selv om tidligere forsøk på å
lære en agent å spille Diplomacy har vært vellykket, har de ikke innebåret
å anvende en algoritme som tidligere har vist seg å kunne generere samarbeid.
I denne rapporten blir det derfor testet om LOLA egner seg bedre til
å lære en agent å spille Diplomacy enn A2C.
LOLA har blitt testet på originalbrettet til Diplomacy, samt en
mindre utgave, kalt ``Pure''. Forsøk viser at algoritmen krever for
mye ressurser til å kunne anvendes på originalbrettet.
Forsøk viser også
at en LOLA-agent lærer å spille ``Pure''-utgaven av Diplomacy, men
presterer dårligere enn en A2C-agent. LOLA-agenten lykkes
heller ikke i å bli bedre til å samarbeide med sine motspillere
enn A2C-agenten. | |
dc.description.abstract | During the last years the board game Diplomacy's popularity
as a research topic within reinforcement learning has increased.
This is due to Diplomacy having traits which makes it challenging for
computers to learn. In Diplomacy up to seven players
play against each other. The players do their moves simultaneously,
and each player has many moves to choose amongst at every turn.
This makes the number of joint actions pr. turn sometimes exceed 10^64.
Diplomacy also has many board configurations.
LOLA is a policy gradient algorithm which consideres the
learning of other agents. A LOLA agent tries to maximize its performance
by considering how a change in its own policy will affect the policy of
the other agents. Previously, this algorithm has proved to
generate cooperation between agents. A2C is another, simpler
policy-gradient algorithm, and does not possess the capability of
generating cooperation between agents.
Players who cooperate will have a benefit in Diplomacy.
Even though previous attempts to learn a computer to play Diplomacy
have been successful, none of the attempts have involved using
an algorithm which generates cooperation amongst agents. Therefore,
in this report it is tested whether LOLA is better than A2C at
learning an agent to play Diplomacy.
LOLA has been tested on the standard map in Diplomacy. In
addition, the algorithm has been tested on a smaller
map called ``Pure''. The test results shows that LOLA is
computational demanding; It is not suitable to learn an agent to play
games on the standard map. The test results also shows that the LOLA-agent
learns to play a game on the ``Pure'' map, but it performs
worse than the A2C-agent. The LOLA-agent also seems to be
worse at cooperating when playing Diplomacy,
compared to the A2C-agent. | |
dc.language | nob | |
dc.publisher | NTNU | |
dc.title | Å lære No-Press Diplomacy fra Selvspill: Dyp Reinforcement Learning med Fokus på
Samarbeid mellom Agenter | |
dc.type | Master thesis | |