Vis enkel innførsel

dc.contributor.advisorRasheed, Adil
dc.contributor.authorNakken, Daniel
dc.date.accessioned2021-09-23T18:22:15Z
dc.date.available2021-09-23T18:22:15Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:66462738:16871792
dc.identifier.urihttps://hdl.handle.net/11250/2781025
dc.descriptionFull text not available
dc.description.abstractDenne masteroppgaven utforsker potensialet av forsterkende læring (engelsk: reinforcement learning) for applikasjoner av robotisk manipulator kollisjons unngåelse. Oppgaven presenterer en Proximal Policy Optimization (PPO) strategi kontroller som veileder en kinematisk kontroller som implementerer Multiple Task Priority Inverse Kinematics (MTPIK) rammeverket. MTPIK kontrolleren brukes som en lav-nivå regulerings sløyfe, som i seg selv er i stand til sanntids autonom konveks hindrings unngåelse og garanterer ikke-kollisjon for manipulatorens ende effektor. Ved å veilede den lavre nivå MTPIK kontrolleren, arver den høyere nivå PPO strategi kontrolleren garantien for ikke-kollisjon. I tillegg, den PPO-veiledede kontrolleren oppnår autonom kollisjons unngåelse for både konvekse og konkave hindrings topologier. Selv om PPO algoritmen bruker et kunstig nevralt nettverk approksimasjon, så lider ikke denne kontrolleren av sort-boks ulempene av nevrale nettverk fordi den lavre nivå MTPIK kontrolleren alltid garanterer ikke-kollisjon, selv om nevral nettverket oppfører seg uforutsigbart. Dette gjør at algoritmen er tilpasselig for applikasjoner som krever trygghet og forutsigbarhet. Videre, denne oppgaven presenterer metoder for å konstruere en omgivelses representasjon som egner seg til å trene på kunstige neurale nett for problemet av kollisjons unngåelse. Omgivelses rperesentasjonen er generell i at den kan representere en hvilken som helst hindrings topologi. Den er konstruert igjennom en effektiv raycasting algoritme, som også er presentert i denne oppgaven. Også presentert er den fulle implementasjonen av den veiledede regulerings sløyfen. Igjennom empirisk evaluering, er det vist at den PPO-veiledede kontrolleren overgår den ikke-veiledede MTPIK kontrolleren, igjennom å oppnå mye høyere rate av konvergens, på et sett av vanskelige kollisjons unngåelses problemer som inkluderer konvekse og konkave hindrings topologier. Det er også vist at den PPO-veiledede kontrolleren er rask nok for å bli brukt i sanntid.
dc.description.abstractThis thesis explores the potential of reinforcement learning (RL) for applications of robotic manipulator collision avoidance. Presented herein is a Proximal Policy Optimization (PPO) strategy controller guiding a kinematics controller of which implements the Multiple Task Priority Inverse Kinematics (MTPIK) framework. The MTPIK controller is used as a lower-level control loop, which on its own is capable of online autonomous convex obstacle circumnavigation and guarantees non-collision for the manipulator's end effector. By guiding the lower level, MTPIK controller, the higher level PPO strategy controller inherits the non-collision guarantee. Furthermore, the PPO-guided controller achieves autonomous obstacle circumnavigation for both convex and concave obstacle topologies. Although the PPO algorithm uses a neural net approximation, this method does, in theory, not suffer from the drawbacks of black-box neural nets because the lower level MTPIK controller will always guarantee non-collision, even if the neural net behaves unpredictably. This makes the algorithm suitable for applications which require safety and predictability. Furthermore, this thesis presents methods for constructing an environment representation suitable for training a neural net on the problem of collision avoidance. The environment representation is general in that it can represent any obstacle topology. It is constructed through an efficient raycasting algorithm, which is also presented in this thesis. Also presented is the full implementation of the guided control loop. Through empirical evaluation, it is shown that the PPO-guided controller outperforms a non-guided MTPIK controller by achieving a much greater convergence rate on a difficult set of collision avoidance problems, including both convex and concave obstacle topologies. It is also shown that the PPO-guided controller is fast enough for online use.
dc.languageeng
dc.publisherNTNU
dc.titleA strategy controller for concave obstacle avoidance
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel