Vis enkel innførsel

dc.contributor.advisorLekkas, Anastasios
dc.contributor.authorRemman, Sindre Benjamin
dc.date.accessioned2021-09-23T18:07:52Z
dc.date.available2021-09-23T18:07:52Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:56990118:1789625
dc.identifier.urihttps://hdl.handle.net/11250/2780930
dc.description.abstractDet å forbedre roboters autonomi har lenge vært et mål for forskere. Ulike verktøy har blitt brukt for å gjøre dette, og dagens roboter er mer autonome enn noen gang før. Det er imidlertid fortsatt noe som mangler. For at roboter skal være virkelig autonome, må de ha evnen til å lære av sin erfaring og forbedre seg basert på hva de har opplevd. Basert på fremskritt innen kunstig intelligens det siste tiåret, forskes det nå mer på forsterkende læring (eng. Reinforcement Learning). Forsterkende læring er et verktøy som kan gjøre det mulig for roboter å forbedre prestasjonene sine gradvis og kan være en del av det som vil ta fremtidige roboter til et nytt nivå av autonomi. Inspirert på stadig flere nye algoritmer og metoder innen forsterkende læring de siste årene, tar denne oppgaven for seg å videre undersøke kombinasjonen av forsterkende læring og robotikk. Spesifikt heter den versjonen av forsterkende læring som brukes i denne oppgaven for dyp forsterkende læring (eng. Deep Reinforcement Learning). Denne varianten kombinerer forsterkende læring med kunstige nevrale nettverk og har allerede hatt stor suksess. En simulert og en ekte versjon av robotmanipulatoren OpenMANIPULATOR-X av ROBOTIS ble brukt i arbeidet på denne oppgaven. Denne robotmanipulatoren ble supplert av Norges teknisk-naturvitenskaplige universitet (NTNU). Robotmanipulatoren ble brukt til å manipulere en spak som ble lagd under arbeidet med fordypningsprosjektet som ble gjort i forkant av denne masteroppgaven. Spaken ble laget i samarbeid med Karl Ylvisaker, som også var masterstudent, og det tekniske verkstedet ved Instituttet for teknisk kybernetikk. For å lage en intelligent agent som klarer å manipulere denne spaken, ble agenten først trent i simulatorene PyBullet og Gazebo, før den ble overført til det virkelige miljøet. Den klarte å fullføre oppgaven i det virkelige miljøet, men prestasjonen var imidlertid lavere enn i de simulerte omgivelsene. Det ble lagd en videodemonstrasjon av dette eksperimentet, og videoen blir levert med denne oppgaven. Flere andre oppgaver ble utført i de simulerte miljøene, for eksempel noen oppgaver der basen til manipulatoren oscillerer langs z-aksen, i et forsøk på å emulere undervannsstrømmer. Planen var i utgangspunktet å også overføre disse oscillerende oppgavene til den virkelige verden. På grunn av COVID-19-pandemien ble det imidlertid aldri laget et redskap som kan forårsake slike oscilleringer i den virkelige verden, og resultatene fra disse oppgavene er utelukkende fra de simulerte miljøene. En annen video, som viser hvordan agentene oppfører seg i tre simulerte miljøer med oscilleringer, er også levert med denne oppgaven. Det kan sees i denne videoen at agenten klarer å fullføre målet sitt tilstrekkelig godt i alle tre oppgavene, selv om en viss oppførsel som sannsynligvis ikke vil overføres godt til den virkelige verden kan sees. Et av problemene med metoder innen dyp forsterkende læring er at det er utfordrende å tolke hvordan agentene kommer til sine beslutninger. Derfor ble en metode fra forklarbar kunstig intelligens (eng. Explainable Artificial Intelligence) kalt SHapley Additive exPlanations (SHAP) brukt i et forsøk på å tolke en agents beslutningstaking. Selv om denne agenten har god prestasjon på sin respektive oppgave, viser resultatene fra å bruke SHAP at agenten ikke kan stoles på.
dc.description.abstractThe task of improving robots' autonomy has been a goal for researchers for many decades. Various tools have been used to do this, and today's robots are more autonomous than ever. However, there is still something missing. For robots to be truly autonomous, they have to have the ability to learn from their experience and improve the performance based on what they have encountered. Based on the advancements in Artificial Intelligence in the last decade, more research is now being done into Reinforcement Learning. Reinforcement Learning is a tool that can enable robots to improve their performance gradually and might be part of what will take future robots to a new level of autonomy. Inspired by the arrival of several new Reinforcement Learning algorithms and methods in the last few years, this thesis aims to examine the combination of Reinforcement Learning and robotics. Specifically, the version of Reinforcement Learning that is used in this thesis is named Deep Reinforcement Learning. This variant combines Reinforcement Learning with Artificial Neural Networks and has already had great success. A simulated and a real version of the OpenMANIPULATOR-X by ROBOTIS was used in this thesis's work. This robotic manipulator was provided by the Norwegian University of Science and Technology (NTNU). The robotic manipulator was used to manipulate a lever created during the work on the specialization project that preceded this thesis. The lever was made in collaboration with fellow master student Karl Ylvisaker and the workshop of the Department of Engineering Cybernetics. To create an intelligent agent that managed to manipulate this lever, the agent was first trained in the simulators PyBullet and Gazebo, before being transferred to the real-world environment. It managed to complete the task in the real environment; however, the performance was lower than it was in the simulated environments. A video demonstration was made of this real-world experiment, and the video is delivered with this thesis. Several other tasks were done in the simulated environments, such as some tasks where the base of the manipulator is oscillating along the world z-axis, in an attempt to emulate underwater currents. The plan had initially been to also transfer these oscillating tasks to the real world. However, because of the COVID-19 pandemic, a device that could cause such oscillations in the real world was never made, and the results from these tasks are solely from the simulated environments. Another video, which shows the agent's performance in three simulated environments with oscillations, is also delivered with this thesis. It can be seen in this video that the agent manages to complete its goal sufficiently well in all three tasks, even though some behavior that would likely not transfer well to the real world can be seen. One of the problems with Deep Reinforcement Learning methods is that it is challenging to determine how the agents arrive at their decisions. Therefore, a method from Explainable Artificial Intelligence named SHapley Additive exPlanations (SHAP) was used in an attempt to interpret an agent's decision making. Even though this agent performs very well on its task, the results from using SHAP shows that the agent can not be fully trusted.
dc.language
dc.publisherNTNU
dc.titleRobotic manipulation using Deep Reinforcement Learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel