Adaptive General Reinforced Imitation in Autonomous Driving
Abstract
Oppgaven med autonom kjøring er vanskelig, og oppgaven med autonom kjøring basert på visuell input er enda vanskeligere. Fremskritt innen visuell intelligens og autonome kjøresystemer vil kunne ha store samfunnsmessige fordeler dersom et slikt system oppnår bedre ytelse enn mennesker. En tilnærming som tar utgangspunkt i forsterkningslæring (reinforcement learning) kan potensielt være løsningen på et slikt system. Forsterkningslæring har imidlertid både utfordringer med datamengden som er nødvendig for å lære og stabilitet i læringen.
Denne oppgaven presenterer Adaptive General Reinforced Imitation, en adaptiv metode for å kombinere de utforskende egenskapene til forsterkningslæring med ekspertdemonstrasjonene fra imitasjonslæring. Metoden forsøker å redusere mengden data som trengs for at agenten skal lære. Dette gjøres ved å injisere data fra ekspertdemonstrasjoner inn i treningsdataene til forsterkningslæringsalgoritmen. Resultater fra eksperimenter indikerer at for en av implementasjonene viser metoden tegn til å være mer robust enn en tilsvarende vanlig forsterkningslæringsalgoritme. Den er også i stand til å lære en bedre policy. The task of autonomous driving is hard, and the task of autonomous driving based on visual input is even harder. Advances in visual intelligence and autonomous driving systems could have great societal benefits if such a system achieves better-than-human performance. A reinforcement learning approach could potentially be the solution to such a system. Reinforcement learning does however have challenges with sample efficiency and stability.
This thesis presents Adaptive General Reinforced Imitation, an adaptive method for combining the exploratory features of reinforcement learning with the expert demonstrations from imitation learning. The method seeks to reduce the number of samples needed for the agent to learn, by injecting expert demonstration data into the training data of the reinforcement learning algorithm. Experimental results indicate that for one of the implementations the method exhibits traits of being more robust than a corresponding vanilla reinforcement learning algorithm, and is able to learn a better policy.