• norsk
    • English
  • English 
    • norsk
    • English
  • Login
View Item 
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for teknisk kybernetikk
  • View Item
  •   Home
  • Fakultet for informasjonsteknologi og elektroteknikk (IE)
  • Institutt for teknisk kybernetikk
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

A strategy controller for concave obstacle avoidance

Nakken, Daniel
Master thesis
Thumbnail
URI
https://hdl.handle.net/11250/2781025
Date
2021
Metadata
Show full item record
Collections
  • Institutt for teknisk kybernetikk [4102]
Description
Full text not available
Abstract
Denne masteroppgaven utforsker potensialet av forsterkende læring (engelsk: reinforcement learning) for applikasjoner av robotisk manipulator kollisjons unngåelse. Oppgaven presenterer en Proximal Policy Optimization (PPO) strategi kontroller som veileder en kinematisk kontroller som implementerer Multiple Task Priority Inverse Kinematics (MTPIK) rammeverket. MTPIK kontrolleren brukes som en lav-nivå regulerings sløyfe, som i seg selv er i stand til sanntids autonom konveks hindrings unngåelse og garanterer ikke-kollisjon for manipulatorens ende effektor. Ved å veilede den lavre nivå MTPIK kontrolleren, arver den høyere nivå PPO strategi kontrolleren garantien for ikke-kollisjon. I tillegg, den PPO-veiledede kontrolleren oppnår autonom kollisjons unngåelse for både konvekse og konkave hindrings topologier. Selv om PPO algoritmen bruker et kunstig nevralt nettverk approksimasjon, så lider ikke denne kontrolleren av sort-boks ulempene av nevrale nettverk fordi den lavre nivå MTPIK kontrolleren alltid garanterer ikke-kollisjon, selv om nevral nettverket oppfører seg uforutsigbart. Dette gjør at algoritmen er tilpasselig for applikasjoner som krever trygghet og forutsigbarhet.

Videre, denne oppgaven presenterer metoder for å konstruere en omgivelses representasjon som egner seg til å trene på kunstige neurale nett for problemet av kollisjons unngåelse. Omgivelses rperesentasjonen er generell i at den kan representere en hvilken som helst hindrings topologi. Den er konstruert igjennom en effektiv raycasting algoritme, som også er presentert i denne oppgaven. Også presentert er den fulle implementasjonen av den veiledede regulerings sløyfen.

Igjennom empirisk evaluering, er det vist at den PPO-veiledede kontrolleren overgår den ikke-veiledede MTPIK kontrolleren, igjennom å oppnå mye høyere rate av konvergens, på et sett av vanskelige kollisjons unngåelses problemer som inkluderer konvekse og konkave hindrings topologier. Det er også vist at den PPO-veiledede kontrolleren er rask nok for å bli brukt i sanntid.
 
This thesis explores the potential of reinforcement learning (RL) for applications of robotic manipulator collision avoidance. Presented herein is a Proximal Policy Optimization (PPO) strategy controller guiding a kinematics controller of which implements the Multiple Task Priority Inverse Kinematics (MTPIK) framework. The MTPIK controller is used as a lower-level control loop, which on its own is capable of online autonomous convex obstacle circumnavigation and guarantees non-collision for the manipulator's end effector. By guiding the lower level, MTPIK controller, the higher level PPO strategy controller inherits the non-collision guarantee. Furthermore, the PPO-guided controller achieves autonomous obstacle circumnavigation for both convex and concave obstacle topologies. Although the PPO algorithm uses a neural net approximation, this method does, in theory, not suffer from the drawbacks of black-box neural nets because the lower level MTPIK controller will always guarantee non-collision, even if the neural net behaves unpredictably. This makes the algorithm suitable for applications which require safety and predictability.

Furthermore, this thesis presents methods for constructing an environment representation suitable for training a neural net on the problem of collision avoidance. The environment representation is general in that it can represent any obstacle topology. It is constructed through an efficient raycasting algorithm, which is also presented in this thesis. Also presented is the full implementation of the guided control loop.

Through empirical evaluation, it is shown that the PPO-guided controller outperforms a non-guided MTPIK controller by achieving a much greater convergence rate on a difficult set of collision avoidance problems, including both convex and concave obstacle topologies. It is also shown that the PPO-guided controller is fast enough for online use.
 
Publisher
NTNU

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit
 

 

Browse

ArchiveCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsDocument TypesJournalsThis CollectionBy Issue DateAuthorsTitlesSubjectsDocument TypesJournals

My Account

Login

Statistics

View Usage Statistics

Contact Us | Send Feedback

Privacy policy
DSpace software copyright © 2002-2019  DuraSpace

Service from  Unit