Vis enkel innførsel

dc.contributor.advisorDowning, Keith L.
dc.contributor.authorPedersen, Ole-Magnus
dc.date.accessioned2019-11-01T15:00:20Z
dc.date.available2019-11-01T15:00:20Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2626167
dc.description.abstractGriper-vektor-estimering er et viktig forskningsfelt innen robotikk. Det er et nødvendig første steg for å utføre mange typer komplekse manipulasjonsoppgaver med en robot. De siste årene har mye arbeid blitt gjort for å utføre denne oppgaven med kunstig intelligens. En av de mest interessante teknikkene som har blitt undersøkt er bruken av dyp forsterkende læring (eng: deep reinforcement learning), der behovet for å vite riktig resultat på forhånd, som er nødvendig i klassisk maskinlæring, forsvinner. Dette gjør det mulig å trene en agent uten å først skaffe et stort sett med kjente suksessfulle griper-vektorer. Når man trener en agent med dyp forsterkende læring må den utforske miljøet sitt. I et virkelig miljø tar dette lang tid, koster mye, og kan være farlig. Derfor er det et ønske om å kunne trene en agent i et simulert miljø, for så å overføre den til en ekte robot når treningen er fullført. Desverre gjør virkelighetsgapet mellom det simulerte og ekte miljøet en slik overførsel umulig uten bruk av spesielle teknikker for dette formålet. Denne avhandlingen undersøker bruken av CycleGAN for å utføre denne overføringen. CycleGAN er en utvidelse av generative konkurrerende nettverk (eng: generative adversarial networks), utviklet spesifikt for å oversette bilder fra et domene til et annet. I dette arbeidet brukes det til å endre bilder tatt med den ekte roboten så de ser ut som om de var tatt i simulatoren. Ved å bruke disse endrede bildene når man bruker agenten på den ekte roboten minimerer man virkelighetsgapet for å oppnå en mer suksessfull overførsel. I tillegg til å bruke en CycleGAN for domeneoverførsel utforsker også avhandlingen bruken av visuell servo i tillegg til maskinlæringssystemet. Visuell servo er en metode for å kontrollere roboter basert på bilder. Det fungerer ved å bevege roboten slik at en feilmargin mellom målte verdier i bildet og kjente målverdier minimeres. I dette arbeidet blir visuell servo brukt i det siste steget av gripingen, for å raffinere griperposisjonen før man prøver å gripe objektet. Dette lar systemet unngå å bomme på objektet med en liten feilmargin, noe som har blitt observert i tidligere arbeid. En rekke forsøk med forskjelige arkitekturer og tapsfunksjoner for CycleGAN ble utført for å evaluere bildeoversettingsevnen til nettet. Resultatet var at kombinasjonen av en U-Net generator og semantisk diskriminator med et minste kvadrats tap er mest effektiv for oppgaven i denne avhandlingen. Deretter ble den foreslåtte overføringsmetoden evaluert i en rekke forsøk, både med bruk av kun CycleGAN og med bruk av hele systemet med CycleGAN og visuell servo. Resultatene av eksperimentene viser at en naiv overføring av agenten feiler totalt, mens å bruke en CycleGAN for overførsel oppnår en suksessrate på 15%, og 20% utover det som er innen 1cm unna å være suksessfull i plan avstand. Når systemet utvides med modulen for visuell servo, oppnås en suksessrate på 37%, i tilleg til 18% innenfor 1cm, altså mer enn en dobling av suksessraten. Lignende resultater ble observert når systemet ble brukt til å gripe ukjente objekter, noe som tyder på at den foreslåtte metoden generaliserer godt. Resultatene indikerer at kombinasjonen av visuell servo og dyp forsterkende læring er en effektiv tilnærming til overføringslæring av en agent for robotisk griper-vektor-estimering.
dc.description.abstractThe task of gripper pose estimation is an important area of research in robotics. It is a necessary first step to performing many forms of complex robotic manipulation. In recent years, much work has been done to perform this task using artificial intelligence. One of the most interesting techniques investigated is the use of deep reinforcement learning, where the need for labeled data required in classical machine learning is removed. This allows for training an agent without first obtaining a large, often expensive, set of known successful gripper poses. When training a deep reinforcement learning agent, it needs to explore its environment. In a real environment, this is slow, expensive, and sometimes dangerous. Therefore, there is a desire to be able to train an agent in a simulated environment and transfer it to a real robot after training. However, the reality gap between the simulated and real environments make this transfer impossible without any additional techniques. This thesis investigates the use of CycleGANs to facilitate this transfer. The CycleGAN is an extension of a generative adversarial network, made specifically for translating images from one domain to the other. In this work, it is used to adapt images from the real robot to look as if they were captured in the simulator. By using these transformed images when running the agent on the real robot, the reality gap is minimized to achieve a more successful transfer. In addition to using CycleGANs for domain adaption, the thesis also investigates the use of visual servoing in addition to the machine learning system. Visual servoing is a method for robotic control based on image data. It moves the robot to minimize the error between feature values measured in the image and known target values of the measurements. In this work, visual servoing is used in the final step of the grasp, to refine the pose before attempting to grasp the object. This allows the system to avoid missing the object by small margins, which has been observed in some previous work. To test the hypothesis of this thesis, a series of experiments using different architectures and loss functions for the CycleGAN was performed, evaluating its ability to adapt images from one domain to the other. The results show that using a U-Net generator and semantic discriminator with a least squares loss works best for the task in this thesis. Then the proposed transfer learning method was evaluated with a series of experiments, both using only the CycleGAN for transfer and using the full system with the CycleGAN and visual servoing. The experimental results show that naive transfer of the agent was completely unsuccessful, while using a CycleGAN for transfer achieves a success rate of 15%, with an additional 20% of attempts being within 1cm from a successful grasp in planar distance. When extending the system with the visual servoing module, a success rate of 37% was observed, with an additional 18% within 1cm, more than doubling the number of successes. Similar observations were made when grasping previously unseen objects, demonstrating the ability of the proposed method to generalize. The results indicate that the combination of visual servoing and deep reinforcement learning is an effective approach for transfer learning of an agent for robotic gripper pose estimation.
dc.languageeng
dc.publisherNTNU
dc.titleSim-to-Real Transfer of Robotic Gripper Pose Estimation - Using Deep Reinforcement Learning, Generative Adversarial Networks, and Visual Servoing
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis
no.ntnu:inspera:2509816.pdfn/aapplication/pdfÅpne

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel