Show simple item record

dc.contributor.advisorAlexis, Kostas
dc.contributor.advisorOlsen, Jørgen Anker
dc.contributor.authorEl-Agroudi, Tarek
dc.contributor.authorGross Maurer, Finn
dc.date.accessioned2024-09-14T17:21:06Z
dc.date.available2024-09-14T17:21:06Z
dc.date.issued2024
dc.identifierno.ntnu:inspera:181457231:47479473
dc.identifier.urihttps://hdl.handle.net/11250/3152316
dc.description.abstractI denne masteroppgaven utvikles det en regulator for den romlige orienteringen til en egenutviklet robothund, kun ved bruk av robotens egne bein som reaksjonsmasser for rotasjon. Regulatoren utvikles, eller trenes, med dyp forsterkningslæring på en simulert robothund og benytter seg av læringsalgoritmen Proximal Policy Optimisation (PPO). Robothunden simuleres i Nvidia sin Omniverse Isaac Sim-simulator og utnytter et GPU-optimalisert rammeverk for å oppnå rask trening. For å teste regulatoren med reduserte motorhastigheter, monteres robothunden til en roterende stang i alle frihetsgrader og evalueres mot referansesprang. Nødvendige grep for å teste regulatoren ved lave motorhastigheter var å innføre en mettet andreordens referansemodel, samt å justere frekvensen og horisonten til PPO læringsalgoritmen. Deretter testes regulatoren i 3D ved å slippe robothunden fra en høyde på 4 meter. I kun 0.7 sekunder med fritt fall, oppnår regulatoren referansefølging til 45 grader i alle frihetsgrader og en gjennomsnitlig rotasjonshastighet på 110 grader per sekund. Den største ulempen med regulatoren er svingninger i responsen og mangelen på et eksplisitt kolisjonsfilter for å unngå sammenstøt av robotens bein.
dc.description.abstractThis master's thesis presents the development and real-world demonstration of an in-flight attitude control law for a quadrupedal robot (quadruped) with a five-bar-linkage leg design using only its legs as reaction masses. The control law, or policy, is trained using deep reinforcement learning (DRL) and specifically through Proximal Policy Optimisation (PPO) in the Nvidia Omniverse Isaac Sim simulator with a GPU-accelerated DRL pipeline. To demonstrate the policy, a small quadruped is designed, constructed, and evaluated both on a rotating pole test setup and in free fall. A combination of a saturated second-order position reference module and tuning of the inference frequency and horizon parameter of PPO is used to train and deploy policies at reduced motor velocities on the rotating pole test setup. On this setup, reference following in all principal axes is demonstrated and is shown to work with varying paw masses. A full-speed policy is then trained and demonstrated during free fall experiments, where a commanded orientation of 45 degrees in all principal axes and an average base angular velocity of 110 degrees per second are achieved in just 0.7 seconds of free fall. The biggest shortcomings of the learned policy are excessive control efforts and the possibility of leg collisions.
dc.languageeng
dc.publisherNTNU
dc.titleIn-Flight Attitude Control of a Quadruped in Low-Gravity Environments using Deep Reinforcement Learning
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record