Underwater Pose Estimation with Deep Learning
Master thesis
Date
2019Metadata
Show full item recordCollections
- Institutt for marin teknikk [3562]
Abstract
Denne masteroppgaven undersøker om dyp læring kan anvendes for kamerabasert lokalisering av undervannsfartøy. En undergren innenfor dype nevrale nettverk, nemlig convolutional neural networks (CNN), er valgt for dette formålet.
Det rettes et stadig økt fokus på autonome egenskaper hos undervannsfartøy, for å redusere operasjonelle kostnader relatert til vedlikehold, inspeksjon og reparasjon av subsea strukturer. Et undervannsfartøy som manipulerer komponenter på en subsea struktur krever ekstremt nøayktig manøvrering, som adresserer behovet for svært presise lokaliseringssystemer. Det er i den anledning ønskelig å utvikle et system som estimerer relativ 3D posisjon og rotasjon, som tilsammen utgjør pose i seks frihetsgrader (6-DoF, eng: six degrees of freedom), mellom et undervannsfartøy og et fastmontert objekt. Eksisterende metoder er basert på datasyn (CV, eng: computer vision) for å oppnå nødvendig nøyaktighet. Slike tradisjonelle CV metoder er imidlertid avhengig av at forhåndsinstallerte kunstige markører er tilgjengelige på strukturen som skal undersøkes, som gjør dem uegnet for bruk i praksis. Nyere forskning innenfor CNN har resultert i lovende metoder for å estimere relativ pose ut fra bilder. Motivert av dette undersøker denne oppgaven muligheten for å anvende slike CNN-metoder for å estimere 6-DoF pose i et undervannsmiljø, som et alternativ til eksisterende metoder basert på kunstige markører.
CNN-arkitekturen PoseNet har vist seg vellykket for å estimere pose på land, og ble valgt for videre undersøkelse i dette arbeidet. Nettverket ble implementert ved hjelp av maskinlæringsrammeverket TensorFlow, før det ble trent og testet på både simulerte og virkelige datasett. Som en del av dette arbeidet ble det produsert datasett bestående av undervannsbilder merket med 6-DoF pose i MC-laboratoriet ved NTNU. Dette inkluderer både datasett med bilder av en kunstig markør, og datasett med bilder av et ringobjekt som modellerer en subsea ventil.
Resultatene viste at den foreslåtte modellen estimerer 6-DoF pose basert på bilder av den modellerte ventilen på en tilfredsstillende måte. Estimatene leverer nøyaktighet i området 19 mm og 0.4 grader for henholdsvis posisjon og rotasjon. Resultatene viste videre at den implementerte modellen yter bedre på bilder av den modellerte ventilen enn på bilder av den kunstig markøren. Behovet for kunstige markører er derfor fraværende med denne metoden. This thesis investigates the opportunity of applying deep learning, particularly convolutional neural networks (CNNs), for camera-based localization of underwater vehicles.
Increased level of autonomy in underwater vehicle operations is of high interest to reduce the cost of intervention missions and increase the frequency of inspections. Performing manipulation tasks on subsea installments require extremely precise maneuvering of the vehicle, addressing the need for a high-precision localization system. A system for estimating the relative 3D position and attitude, together referred to as the six degrees of freedom (6-DoF) pose, between an underwater vehicle and an object of fixed position, is desired. State-of-the-art methods rely on computer vision (CV) to provide the necessary localization accuracy. However, traditional CV methods rely on having pre-installed artificial markers available on the subsea structures, which is undesired. Recent advances within CNNs have resulted in promising methods for pose estimation based on imagery input. Motivated by this, the goal of this thesis is to investigate the application of such CNN methods to estimate 6-DoF pose in an underwater environment, as an alternative to existing artificial marker-based methods.
The CNN architecture PoseNet is shown successful for pose estimation in terrestrial domains and was chosen for further investigation in this work. The network was implemented with the machine learning framework TensorFlow, and trained and tested with both simulated and real-world data. To accomplish this, underwater datasets of images labeled with 6-DoF pose were produced in the MC-laboratory at NTNU. This includes both datasets with images of an artificial marker, and datasets with images of a ring object imitating a subsea valve.
The results showed that the implemented model regresses underwater 6-DoF pose successfully, based on imagery input of the mock-up valve. Accuracy in the range of 19 mm and 0.4 degrees for position and orientation, respectively, is achieved. The results revealed that the implemented model, in fact, performs better on images with the valve model, than images of the artificial marker. The need for artificial markers is therefore absent with this method.