Combining reinforcement learning and historical AIS-data for simulating realistic ship paths
Master thesis
Date
2020Metadata
Show full item recordCollections
- Institutt for marin teknikk [3469]
Description
Full text not available
Abstract
Siden skip i økende grad blir mer komplekse og autonome, behøver man gode verktøy for å ivareta sikkerheten. Simuleringsbasert testing og verifikasjon av autonome skip utpeker seg som en lovende tilnærming. Denne metoden baserer seg på å lage omfattende digitale representasjoner av alle aspekter som påvirker systemets sikkerhet og ytelse, inkludert en digital tvilling av skipet og en høydetaljert virtuell modell av miljøet. Miljømodellen bør inneholde en modul for trafikksimulering, for å sikre at skipets oppførsel i trafikk samsvarer med COLREG-regler og andre reguleringer. En simulator for den lille autonome passasjerferga milliAmpère har blitt utviklet, og arbeidet her er ment som et bidrag til simulatorens trafikkmodul; spesifikt simuleringen av skipstrafikk. Simulatoren er laget for Open Simulation Platform; en ko-simuleringsplattform for den maritime industrien, akademia og andre.
I denne oppgaven har historisk AIS-data for operasjonsområdet til milliAmpère blitt innsamlet, prosessert og analysert. Datasettet har blitt brukt som basis for utviklingen av maskinlæringsalgoritmer (spesifikt innen forsterkende læring) som genererer veipunkter for skipsbaner. Q-læring har blitt brukt som utgangspunkt. I tillegg har en algoritme som bruker AIS-data for å beregne baner mellom arbitrære punkter A og B blitt utviklet. Denne ble brukt i maskinlæringsalgoritmen til å gi et estimat av den optimale banen. Dette reduserte kjøretiden, uten å påvirke resultatene negativt. Algoritmene fungerer som tiltenkt, og finner baner for alle testcasene. Banene likner dem man ville forvente fra en menneskelig navigatør, og følger vanlige sjøvettregler. Noen uønskede variasjoner i hastighet og kurs var observert, noe som kan forbedres med å inkludere en straff for slik oppførsel i maskinlæringsalgoritmene. Selv om resultatene er akseptable, kreves et stort antall episoder for å oppnå disse. Datasettet og den foreslåtte belønningsfunksjonen kan brukes sammen med andre metoder innen forsterkende læring for å forbedre dette, f.eks DDQN. Majoriteten av skipstrafikken i det utpekte området består av mindre farkoster som fritidsbåter. Derfor er anvendelsen av veipunktene produsert fra algoritmene og det gitte datasettet begrenset til båter av lignende type og dimensjoner. Statistikk og annen lærdom hentet fra datasettet har blitt brukt sammen med de utviklete algoritmene til å lage en database med seilinger som representerer trafikkmønstre i området. Et sekundært bidrag er implementasjonen av sensor-FMUer, for bruk i simulatoren. Intensjonen er at resultatene skal brukes i miljømodellen til en simulator for milliAmpère, for å simulere realistisk trafikk i operasjonsområdet for test- og verifikasjonsformål. Et eksempel på simulatorarkitektur som muliggjør dette er foreslått. As ships grow increasingly more complex and autonomous, stringent measures to assure safety is required. Simulation-based testing and verification of autonomous ships is emerging as a promising approach. It revolves around creating comprehensive digital representations of all aspects affecting safety and performance of the system, including a digital twin of the vessel considered and a highly detailed virtual model of the environment. The environmental model should contain a module for traffic simulation, to assess behaviour in accordance with COLREG rules and other regulations. A simulator for the small autonomous passenger ferry milliAmpère has been developed, and the work here is intended as a contribution to the simulator's traffic module; specifically the simulation of vessel traffic. The simulator is made for the Open Simulation Platform, a co-simulation platform for the maritime industry, academia and other stakeholders. \\
In this thesis, historical AIS-data for the operating area of the small autonomous passenger ferry milliAmpère has been collected, processed and analysed in preparation for its use in machine learning algorithms. The dataset has been used as the basis for the reward function in reinforcement learning algorithms that generate vessel waypoints defining paths between arbitrary points A and B. The Q-learning algorithm was used as the starting point for development. Furthermore, an algorithm leveraging the AIS-data to compute a path from A to B was developed and used in the learning algorithm to provide a guess at the optimal path. This was shown to reduce runtime with no cost to results. The reinforcement learning algorithms work largely as intended, and are able to find paths for all the test cases. The obtained paths appear similar to those of a human navigator, and adhere to boating rules. Some undesirable fluctuation in assigned speed and heading is observed though, and improvements by way of penalizing this behaviour is suggested. While the algorithms achieve satisfactory results, large numbers of episodes are required to get these results. To improve on this, the created data set and proposed reward signal could be used with other reinforcement learning methods. Pleasure crafts make up the bulk of the traffic in the area considered. Hence, the applicability of the paths obtained from the generated waypoints are to vessels of similar type and dimensions. Statistics and knowledge learned from the dataset have been used with the developed algorithms to create a waypoint database defining vessel paths representative for the traffic in the operating area. A secondary contribution is the implementation of sensor FMUs, for use in the simulator. The algorithms and sensor FMUs are intended for use in the environmental model of a simulator for milliAmpère, for selecting and simulating realistic traffic scenarios. A proposal for the simulator architecture needed to simulate ship traffic for testing purposes is provided.