Vis enkel innførsel

dc.contributor.advisorLekkas, Anastasios
dc.contributor.authorSanden, Vegard
dc.date.accessioned2022-09-24T17:20:37Z
dc.date.available2022-09-24T17:20:37Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:102231297:21911947
dc.identifier.urihttps://hdl.handle.net/11250/3021096
dc.description.abstractI de senere år har det vært en økning i undersøkelser rundt, utvikling og bruk av autonome marine fartøy. Et felt innen kunstig intelligens som har blitt brukt for å øke autonomiteten for marine fartøy er forsterkende læring (eng. reinforcement learning). Forsterkende læring er nyttig for automatisk beslutningstaking og det har blitt vist at det kan være nyttig for stifølging (eng. path following), objektomgåelse (eng. obstacle avoidance) og automatisk dokking. Selv om dette feltet kan være nyttig for å løse beslutningstakingproblem (eng. decision-making problem) er det likevel noen utfordringer med å bruke denne metoden. For eksempel er det utfordringer med samplingeffektiviteten, å konstruere belønningsfunksjonen (eng.reward function) og å bruke black-box modeller, som nevrale nettverk, i kombinasjon med forsterkende læring. Derfor kan det være nyttig å utforske andre felt innen kunstig intelligens for å løse beslutningstakingproblem. I denne masteroppgaven skal vi utforske active inference som har noen like karakteristikker som forsterkende læring. Dette er en metode for beslutningstaking, oppfatning og læring i usikre miljø. Active inference er bygget på the free energy principle som er et prinsipp for å beskrive hvordan autonome systemer forblir inne i et spesifikt sett av states og motstår tendensen til desorganisering. Når systemet minimerer sin variable frie energi (eng. variational free energy) kan oppførselen til systemet optimeres. Active inference minimerer den variable frie energien og den forventede frie energien (eng. expected free energy) ved å undersøke miljøet og forme vaner for å finne optimale beslutninger. Denne masteroppgaven undersøker bruken av active inference for høynivå handlingsplanlegging og hvordan det fungerer i kombinasjon med veiledning og kontroll (eng. guidance and control) hos marine fartøy. Vi forsøker å løse denne oppgaven med deep active inference som er active inference i kombinasjon med dype nevrale nettverk. I tillegg, forsøker vi å løse samme oppgave med dyp Q-læring (eng. deep Q-learning) for å sammenligne med active inference. For å lage et grunnlag for å gjøre sammenligningene, implementerer vi en oppgave som omhandler å veilede et marint fartøy gjennom en havn og legge til kai (eng. docking position) i et diskret miljø. For enkelhetsskyld løses dokkingen i to deler. En del der agenten ledes fra utsiden av havnen til innsiden av havnen i nærheten av der den skal legges til kai. Den andre delen omhandler at agenten veiledes til en spesifikk posisjon langs kaien der retningen agenten peker i er tatt i betraktning. I den første delen av masteroppgaven presenterer vi teori om kunstige nevrale nettverk, forsterkende læring, active inference og veiledning og kontroll av marine fartøy. Videre presenterer vi detaljer om implementasjonen av den dype active inference-agenten og den dype Q-læringsagenten. I tillegg beskriver vi miljøet disse algoritmene er trent på og detaljer om modellen av det marine fartøyet og hvordan veiledning og kontrollen av fartøyet blir gjort. Så blir resultatene vi kommer frem til presentert og diskutert. Resultatene viser at den implementasjonen av dyp active inference som vi bruker i denne oppgaven løser kun deler av dokkingproblemet. Algoritmen klarer å finne en vei som leder agenten til kai med en spesifikk retning den peker i med ytelse sammenlignbart med dypt Q-nettverk (eng. deep Q-network). Men, den klarer ikke å løse oppgaven som omhandler å lede agenten fra utsiden av havnen til området den skal legge i kai. Nøyaktig hvorfor algoritmen ikke klarer å løse oppgaven er ikke klart for oss, men fra vår evaluering virker det som at algoritmen har problemer med å håndtere en kombinasjon av ulike karakteristikker på miljøet. En mulig grunn for dette er at estimeringen av den forventede frie energien er for unøyaktig til å propagere den forventede frie energien gjennom den trange havnen på riktig måte. Selv om den dype active inference-algoritmen implementert i denne masteroppgaven ikke klarte å løse dokkingproblemet, så betyr ikke det at dyp active inference og active inference ikke kan brukes til å løse denne oppgaven. Generelt så har active inference noen fordeler sammenlignet med forsterkende læring som måten active inference kan representere ønskede tilstander på og at det kan finne en balanse mellom utforskning og utnyttelse (eng. exploration and exploitation). I tillegg har vi sett at dyp active inference har produsert lovende resultater sammenlignet med forsterkende læring i andre rapporter. Det eksisterer flere andre måter å utføre dyp active inference på og ettersom vi testet kun en metode i denne masteroppgaven kan det hende at vi får bedre resultater med de andre metodene. Dessuten er dette et relativt nytt rammeverk som trengs å utforskes videre for å få en god oversikt over dets karakteristikker og kvaliteter.
dc.description.abstractIn recent years there has been an increase in research, development and use of autonomous marine vessels. A tool that has been used for increasing autonomy in marine vessels is reinforcement learning. Reinforcement learning is very useful for automated decision-making and it has been showed that it can be useful for path planning, obstacle avoidance and autonomous docking of marine vessels. However, even if the technique can be very useful for solving decision-making problems, there are some challenges with the method. For example, there are challenges regarding sample efficiency, constructing the reward function and with using black-box models, such as neural networks, in combination with reinforcement learning. Therefore, it might be useful to look to other fields of artificial intelligence for solving decision-making problems. In this thesis we look at active inference which has some characteristics similar to reinforcement learning. This is a method for decision-making, perception and learning in uncertain environments. Active inference is built upon the free-energy principle which is a principle for describing how autonomous systems remains inside a specific set of states and resists a tendency to disorder. When the system minimizes its variational free energy, the behaviour can be optimized. Active inference minimizes the variational free energy and a quantity called expected free energy by exploring the environment and forming habits to find the optimal decisions. This thesis explores the use of active inference for high-level action planning and how it works in combination with guidance and control of marine vessels. More specifically we try to solve the task with deep active inference which is active inference in combination with deep neural networks. In addition, we perform the same task with deep Q-networks for comparison. As a basis for making comparisons of the performance between deep active inference and deep Q-networks, we implemented a problem of guiding a marine vessel to its docking position through a port in a discrete environment. For simplicity the docking problem is solved in two parts. One part where the agent is moved from outside the port area to inside the port close to the docking position. The other part concerns guiding the agent into a specific docking position where the heading is taken into account. In the first part of the thesis we present theory about artificial neural networks, reinforcement learning, active inference and guidance and control of marine vessels. Next, details about the implementation of the deep active inference agent and the deep Q-learning agent are presented. In addition, we present the environment these algorithms are trained on and details about the marine vessel model and its guidance and control system is presented. Then, the results obtained with the algorithms are presented and discussed. The results show that the implementation of deep active inference used in this thesis does only partly solve the docking problem. The algorithm manages to find a path that moves the agent into a docking position with a specific heading with performance comparable to the deep Q-network. However, it does not solve the task of moving the agent from outside the port to the docking area. Exactly why the algorithm does not solve the task is not clear, but from our evaluation it seems like the algorithm struggles with handling a combination of different characteristics in an environment. A possible reason for this is that the estimations of the expected free energy are too inaccurate to do a correct propagation of the expected free energy through the tight port area. Even though the deep active inference algorithm implemented in this thesis could not solve the docking problem, it does not mean that deep active inference and active inference cannot be used to solve this problem. In general deep active inference has a few advantages compared to reinforcement learning in the way the desired states can be represented and that it on its own can find a balance between exploration and exploitation. Also, it has been seen that deep active inference has produced promising results compared to reinforcement learning in other papers. There exists several ways of performing deep active inference and as we only tested one of them in this thesis, we might get better results from the other methods. In addition, as it is a relatively new framework it needs to be assessed further to get a good overview of its properties.
dc.languageeng
dc.publisherNTNU
dc.titleHigh-level Action Planning for Marine Vessels Using Active Inference and Reinforcement Learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail
Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel