A strategy controller for concave obstacle avoidance

Nakken, Daniel

dc.contributor.advisor	Rasheed, Adil
dc.contributor.author	Nakken, Daniel
dc.date.accessioned	2021-09-23T18:22:15Z
dc.date.available	2021-09-23T18:22:15Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:66462738:16871792
dc.identifier.uri	https://hdl.handle.net/11250/2781025
dc.description	Full text not available
dc.description.abstract	Denne masteroppgaven utforsker potensialet av forsterkende læring (engelsk: reinforcement learning) for applikasjoner av robotisk manipulator kollisjons unngåelse. Oppgaven presenterer en Proximal Policy Optimization (PPO) strategi kontroller som veileder en kinematisk kontroller som implementerer Multiple Task Priority Inverse Kinematics (MTPIK) rammeverket. MTPIK kontrolleren brukes som en lav-nivå regulerings sløyfe, som i seg selv er i stand til sanntids autonom konveks hindrings unngåelse og garanterer ikke-kollisjon for manipulatorens ende effektor. Ved å veilede den lavre nivå MTPIK kontrolleren, arver den høyere nivå PPO strategi kontrolleren garantien for ikke-kollisjon. I tillegg, den PPO-veiledede kontrolleren oppnår autonom kollisjons unngåelse for både konvekse og konkave hindrings topologier. Selv om PPO algoritmen bruker et kunstig nevralt nettverk approksimasjon, så lider ikke denne kontrolleren av sort-boks ulempene av nevrale nettverk fordi den lavre nivå MTPIK kontrolleren alltid garanterer ikke-kollisjon, selv om nevral nettverket oppfører seg uforutsigbart. Dette gjør at algoritmen er tilpasselig for applikasjoner som krever trygghet og forutsigbarhet. Videre, denne oppgaven presenterer metoder for å konstruere en omgivelses representasjon som egner seg til å trene på kunstige neurale nett for problemet av kollisjons unngåelse. Omgivelses rperesentasjonen er generell i at den kan representere en hvilken som helst hindrings topologi. Den er konstruert igjennom en effektiv raycasting algoritme, som også er presentert i denne oppgaven. Også presentert er den fulle implementasjonen av den veiledede regulerings sløyfen. Igjennom empirisk evaluering, er det vist at den PPO-veiledede kontrolleren overgår den ikke-veiledede MTPIK kontrolleren, igjennom å oppnå mye høyere rate av konvergens, på et sett av vanskelige kollisjons unngåelses problemer som inkluderer konvekse og konkave hindrings topologier. Det er også vist at den PPO-veiledede kontrolleren er rask nok for å bli brukt i sanntid.
dc.description.abstract	This thesis explores the potential of reinforcement learning (RL) for applications of robotic manipulator collision avoidance. Presented herein is a Proximal Policy Optimization (PPO) strategy controller guiding a kinematics controller of which implements the Multiple Task Priority Inverse Kinematics (MTPIK) framework. The MTPIK controller is used as a lower-level control loop, which on its own is capable of online autonomous convex obstacle circumnavigation and guarantees non-collision for the manipulator's end effector. By guiding the lower level, MTPIK controller, the higher level PPO strategy controller inherits the non-collision guarantee. Furthermore, the PPO-guided controller achieves autonomous obstacle circumnavigation for both convex and concave obstacle topologies. Although the PPO algorithm uses a neural net approximation, this method does, in theory, not suffer from the drawbacks of black-box neural nets because the lower level MTPIK controller will always guarantee non-collision, even if the neural net behaves unpredictably. This makes the algorithm suitable for applications which require safety and predictability. Furthermore, this thesis presents methods for constructing an environment representation suitable for training a neural net on the problem of collision avoidance. The environment representation is general in that it can represent any obstacle topology. It is constructed through an efficient raycasting algorithm, which is also presented in this thesis. Also presented is the full implementation of the guided control loop. Through empirical evaluation, it is shown that the PPO-guided controller outperforms a non-guided MTPIK controller by achieving a much greater convergence rate on a difficult set of collision avoidance problems, including both convex and concave obstacle topologies. It is also shown that the PPO-guided controller is fast enough for online use.
dc.language	eng
dc.publisher	NTNU
dc.title	A strategy controller for concave obstacle avoidance
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3741]

Vis enkel innførsel