Guidance and Decision Making using MachineLearning for Small Autonomous Ships
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2780119Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
- Institutt for marin teknikk [3502]
Sammendrag
Risikobasert beslutningstaking er viktig for at autonome skip skal unngå kollisjoner. For skip med høy grad av autonomi blir disse beslutningene tatt av systemet, og denne masteroppgaven undersøker bruken av maskinlæring som beslutningstager. Mer presist benyttes dyp forsterket læring for å sette veipunktene for det autonome skipet. For at dette skal være gjennomførbart trenger skipet et tilpasset veilednings-, navigasjons- og kontrollsystem. Derfor presenterer denne oppgaven et nytt veiledningssystem og undersøker påliteligheten ved bruk av dyp forsterket læring som beslutningstager.
Det første bidraget i denne oppgaven er et nytt veiledningssystem. Fokuset ligger på overaktuerte skip med DP system, og derfor må veiledningssystemet generere referanser for posisjon, hastighet og akselerasjon i tre frihetsgrader. Den nye metoden kombinerer LOS og referansefiltre for å oppnå fire egenskaper: den første er å vedlikeholde ønsket hastighet gjennom veipunktene, og at ønsket hastighet kan variere. Den andre er at neste veipunkt ikke trengs før det forrige er nådd. Den tredje egenskapen er at systemet er kompatibelt med et DP system og den siste er at ønsket heading ikke trenger å presiseres av operator, men heller bestemmes av LOS. Gjennom simuleringer så man av veiledningssystemet ga ønsket oppførsel og oppfylte de fire egenskapene. Det ble også tydelig at de fysiske begrensningene til skipet førte til trege svinger og endring av hastighet med det valgte referansefilteret. I tillegg fører den varierende hastigheten til at både look-ahead lengden og akseptanseverdien bør variere. Til slutt ble det gjennomført en fullskalatesting for å verifisere resultatene i en reell situasjon og undersøke hvordan systemet taklet å bli påvirket av miljøkrefter. Testingen ga lovende resultater og understreker at veiledningssystemet bør bli videre utviklet så det blir så fleksibelt som ønskelig.
Det andre bidraget er å foreslå og evaluere en metode som benytter maskinlæring for å generere veipunkter. DDQN og Q-læring ble implementert og testet i to ulike miljøer. Q-læring ga gode resultater i det enkle miljøet, men klarte ikke å konvergere til en stabil oppførsel i det avanserte miljøet grunnet for mange mulige tilstander. DDQN oppnådde ikke tilstrekkelig godt resultat i noen av miljøene til at man kan stole på algoritmen uten at den først blir forbedret. To forslag til endringer er å enten benytte metoden som en del av et større system med online risikostyring, eller prøve med andre algoritmer og nye treningsregimer. Det trengs mer forskning for å konkludere om de foreslåtte metodene for maskinlæring er egnet for autonome skip. Risk-based decision making is important for autonomous ships to avoid collisions. For highly autonomous ships, these decisions are taken by the system and this thesis investigate the use of machine learning as the decision maker. More specifically, deep reinforcement learning is studied to set the waypoints for the autonomous ship. For this to be doable, the vessel needs to have a customised guidance, navigation and control system. Therefore this thesis presents a novel guidance system, in addition to investigating the reliability and use of deep reinforcement learning as decision maker.
The first contribution in this thesis is a novel guidance system. For this case an over-actuated vessel with a DP system is considered, and hence the guidance system should generate position, velocity and acceleration references in 3 DOFs. The proposed method combines LOS and reference filters to ensure the system posses four key properties: The first is that the desired velocity is maintained through the waypoints, and can vary. The second is that the waypoints are needed only once the previous is reached. The third property is that it is compatible with a DP system, and the last is that the heading is not included in the waypoint as LOS calculates the desired heading. Through simulations it was found that the guidance system gives the desired behaviour and that the key properties are obtained. However, with the physical limitations of the ship the vessel turns and change velocity quite slow with the chosen reference filter. It is also seen that with a varying velocity, both the look-ahead distance and the acceptance value for when a waypoint is reached should be adapted. As a final test of the guidance system, a sea trial were performed, where the goal was to verify the results in a real-life situation, and investigate how the system copes with environmental forces. The sea trial showed promising results, and proves that the guidance system should be further developed to ensure it is as flexible as desired.
The second contribution is an evaluation and future work for a method to use machine learning to generate waypoints. DDQN and Q-learning were implemented and tested in two different environments. Q-learning provided good results for the simple environment, while the number of states where to many for it to converge to a stable behaviour in the more advanced environment. DDQN did not perform as desired for any of the environments for it to be trustworthy, and measures to improve it should be considered. Two suggestions are to use the method as a part of a larger system with online risk management, or try approach with a different algorithm and training regime. Hence, more research is needed to conclude if the two machine learning methods are beneficial for autonomous ships.