Sim-to-Real Transfer in Deep Reinforcement Learning for Vision-Based Robotic Grasping: The Implementation and Configuration of Simulation Training and Physical Testing

Rasmussen, Petter; Rise, Ole Jørgen Gether

dc.contributor.advisor	Tingelstad, Lars
dc.contributor.advisor	Njåstad, Eirik
dc.contributor.author	Rasmussen, Petter
dc.contributor.author	Rise, Ole Jørgen Gether
dc.date.accessioned	2022-12-14T18:19:50Z
dc.date.available	2022-12-14T18:19:50Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:109479168:37586564
dc.identifier.uri	https://hdl.handle.net/11250/3037795
dc.description.abstract	I denne avhandlingen ble det utviklet et sim-til-real rammeverk for å løse visjonsbasert robot plukking ved hjelp av Deep Reinforcement Learning (DRL). Modellfri DRL med Proximal Policy Optimization (PPO) algorithmen ble benyttet til å lære en agent å overføre visuelle observasjoner til kontinuerlige bevegelser. RGB-bilder, griperposisjon og griperstatus ble brukt som observasjoner. Alle rammeverk som benyttes i denne avhandlingen støtter bruk av andre observasjoner, inkludert 3D-data. Et Convolutional Neural Network (CNN) ble designet for å trekke ut visuelle trekk i RGB-bildene. Et simuleringsmiljø for robot griping ble utviklet på toppen av Robosuite - rammeverket som bruker fysikkmotoren MuJoCo for sine kalkulasjoner. Sim-til-real overføring av en ferdig trent agent ble gjort mulig ved å etterligne det fysiske miljøet. I tillegg ble domene randomisering brukt under trening for å begrense sim-til-real gapet. På grunn av Robosuite arkitekturen foreslår vi en sim-til-real løsning der det simulerte miljøet går parallelt med det fysiske miljøet. Dette ble gjort for å muliggjøre en sim-til-real overføring med to forskjellige robotkontrollere. Rammeverket for Robot Operating System 2 (ROS2) brukes til å muliggjøre kommunikasjon mellom forskjellig maskinvare på det fysiske laboratoriet. Resultatene av den eksperimentelle evalueringen indikerer at vårt foreslåtte oppsett for sim-til-real kan brukes til å overføre en PPO-agent opplært til visjonsbasert robotgriping på en kube. Agenter som foreslår forskjellige sim-til-real-metoder ble testet. Agentene ble også testet for bekreftet systemets potensial og robusthet. Vår beste agent, opplært med kartesiske handlinger, kalibrerte kameraobservasjoner og randomisering av domene nådde en suksessrate på 45% når den ble overført direkte fra simulering. Våre resultater tyder på at disse tre metodene bidrar til å lukke sim-til-real gapet. Under testingen ble det oppdaget forskjellige faktorer og hindringer som førte til svekkede resultater. Blant disse er robotledd grenser, for store friskjonskrefte, kollisjonsdefekter og forskjeller i griper-kube interaksjon i simulatoren sammenlignet med det fysiske miljøet.
dc.description.abstract	In this thesis, a sim-to-real framework was developed for the task of vision-based robotic grasping of a cube with a Deep Reinforcement Learning (DRL) agent. Model-free reinforcement learning with Proximal Policy Optimization (PPO) was used to learn an end-to-end policy that mapped visual observations to continuous actions in operational space. RGB images, gripper position, and gripper status were utilized for observations. All frameworks used in this thesis support the use of other observations, including 3D data. A Convolutional Neural Network (CNN) was designed to extract visual features of the RGB images. A simulation environment for robotic grasping was developed on top of the Robosuite framework using a MuJoCo physics engine. Sim-to-real transfer with a trained policy was made possible by imitating the physical environment. In addition, domain randomization was used during training to limit the sim-to-real gap. Because of the Robosuite architecture, we propose a sim-to-real solution where the simulated environment runs parallel to the physical environment. This was done to enable a sim-to-real transfer with two different robot controllers. The Robot Operating System 2 (ROS2) framework is used to enable communication between different hardware at the physical lab. Results of the experimental evaluation indicate that our suggested setup for sim-to-real can be applied to transfer a PPO agent trained for vision-based robotic grasping on a cube. Agents proposing different sim-to-real methods were tested. The agents were tested as proof of concept and confirmed the system’s potential. Our best agent trained with cartesian actions, calibrated camera observations, and domain randomization reached a success rate of 45% when transferred directly from simulation. Our results indicate that these three methods help in closing the reality gap. During testing were, different factors and obstacles discovered that led to subpar results. Among these are joint limit-, friction-, and collision- errors on the physical robot and differences in gripper-cube interaction on the simulator compared to the physical environment.
dc.language	eng
dc.publisher	NTNU
dc.title	Sim-to-Real Transfer in Deep Reinforcement Learning for Vision-Based Robotic Grasping: The Implementation and Configuration of Simulation Training and Physical Testing
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:109479168:3758 ...
Størrelse:: 43.73Mb
Format:: PDF

Åpne

Filnavn:: no.ntnu:inspera:109479168:3758 ...
Størrelse:: 621.0Mb
Format:: application/zip

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for maskinteknikk og produksjon [4037]

Vis enkel innførsel