Self Supervised Scale Consistent Depth and Ego-motion Learning From Monocular Video For Underwater Robots
Master thesis
Date
2024Metadata
Show full item recordCollections
- Institutt for marin teknikk [3612]
Abstract
Ubemannede undervannsfarkoster (UUV) er kostnadseffektive, trygge og bærbare, og de blir stadig mer populære for utforskning av undervannsmiljøer. Navigasjon i undervannsmiljøer er utfordrende fordi elektromagnetiske bølger ikke når langt under vann. Visjonsbasert navigasjon og kartlegging kan være svært nyttig i dette miljøet fordi det er billig og lett tilgjengelig. I dette prosjektet har vi undersøkt om det er mulig å bruke en selvveiledet metode for å lære dybdedybde og robotposisjon fra undervannsvideoer. Tre ulike dybdeprediksjonsmodeller, Dispnet, Udepth og Dispnet Mvit, har blitt trent opp med to ulike inndatarom (rød-grønn-blå (RGB) og rød-maks-intensitet (RMI)) sammen med en positurprediksjonsmodell. Modellene har blitt trent på data fra tre ulike år (2016, 2018 og 2020) fra datasettet Eiffeltårnet under vann, og har blitt testet med data fra 2015 i det samme datasettet. For å teste modellens generaliserbarhet er den opplærte modellen også testet med Varos-datasettet. De predikerte dybdene har blitt brukt til å forbedre bilder ved hjelp av SeaThru-pipelinen. Utedybdemodellen med RMI-inndatarom har oppnådd det beste dybdeprediksjonsresultatet på Eiffeltårnet-datasettet med en Root Mean Squared Error (RMSE) på 2,5583 m når den maksimale dybden er begrenset til 40 meter. På varos-datasettet presterte dispnet mvit-modellen med RGB-inndatarom best med en RMSE på 8,1343 m når den maksimale dybden ble begrenset til 60 m. For forbedring av undervannsbilder ved hjelp av SeaThru-rørledningen oppnådde dispnet med RMI-inndatarom den beste ytelsen når det gjelder Underwater Image Quality Measure (UIQM) på 1,66, som er en økning på 26,68 % sammenlignet med originalbildene i eiffeltårnsdatasettet. I varos-datasettet oppnådde dispnet-modellen med RGB-inndatarom en UIQM på 0,50, en økning på 305,03 % i forhold til originalbildene. Varos-datasettet, som er et simulert datasett, beholder informasjon på pikselnivå selv i skyggene på bildene, noe som bidrar til å forbedre bildene ved hjelp av SeaThru-pipelinen. Dette gjør at de forbedrede bildene får en økning på 305,03 % i UIQM sammenlignet med originalbildene. For å få en bedre forståelse av bildeforbedringens bildeforbedringsytelsen har vi brukt et nytt datasett, SeaThru-Nerf, som består av ekte undervannsbilder. På SeaThru-Nerf-datasettet presterte dispnet-modellen med RGB-inndatarom best for bildeforbedring i alle scener når det gjelder UIQM. Den oppnådde en UIQM på 2,06, en økning på 16,09 % i Curasao-scenen, 2,01, en økning på 22,27 % i Panama-scenen, 1,21, en økning på 36,32 % i IUI3-RedSea-scenen og 1,67, en økning på 29,43 % i JapaneseGradens-RedSea-scenen. De predikerte dybdene fra Udepth (RMI)-modellen på Eiffeltårnet-datasettet brukes i RGB-D SLAM-rørledningen i ORB-SLAM3-rammeverket som en dybdesensor. Den estimerte banen fra SLAM ga en RMSE på 9,79 m Absolute Trajectory Error (ATE) i gjennomsnitt over tre forskjellige kjøringer, noe som utgjør 2,14 % av den totale banelengden. Når posisjonsnettet ble trent med Dispnet sammen med RMI-inndatarom, oppnådde det en absolutt banefeil (ATE) på 1532,216 m, som er 0,311 m per bilde i Eiffeltårnet-datasettet når et utdrag på 5 bilder ble brukt til å justere og skalere banen. I Varos-datasettet ble det posisjonsnettet som ga best resultater, trent med Dispnet mVit med RMI-inndatarom. Det oppnådde en total ATE på 25,84997 m og en gjennomsnittlig ATE på 0,0042 m per bilde. Ut fra eksperimentene kan det sies at den selvveiledede læringsbaserte scenedybde- og ego-bevegelseslæringen fra videoer, som opprinnelig ble foreslått for luftbåren visjon, kan brukes i undervannsmiljøer der scenens visuelle utseende er betydelig annerledes, og dette endres også med kameraets synspunkt. Videre kan det også konkluderes med at de predikerte dybdene kan brukes i flere bruksområder der der dybden er nødvendig og ikke er lett tilgjengelig fra sensoren, som en pseudodybdesensor i RGB-D SLAM og teknikker for bildeforbedring under vann, som SeaThru. Being cost effective, safe and portable, Unmanned Underwater Vehicle (UUV)s are becoming popular for underwater exploration. Navigation in underwater environments is challenging due to the fact that electromagnetic waves do not transmit far underwater. Vision based navigation and mapping can be very useful in this environment for being cheap and easily accessible. In this project, the feasibility of using a self-supervised based method for scene depth and robot pose learning from underwater videos has been studied. Three different depth prediction models Dispnet, Udepth and Dispnet Mvit have been trained with two different input spaces (Red-Green-Blue (RGB) and Red-Max-Intensity (RMI)) along with a pose prediction model. The models have been trained on 3 different years (2016, 2018 and 2020) data from the underwater Eiffel tower dataset and have been tested with data from the year 2015 of that same dataset. For testing the model’s generalizability the trained model is also tested with the Varos dataset. The predicted depths has been used to enhance images using the SeaThru pipeline. The udepth model with RMI input space has achieved the best depth prediction result on the eiffel tower dataset with an Root Mean Squared Error (RMSE) of 2.5583m whenthe maximum depth has been capped at 40m. While on varos dataset the dispnet mvit model with RGB input space performed the best with RMSE of 8.1343m when the maximum depth has been capped at 60m depth. For underwater image enhancement using SeaThru pipeline the dispnet with RMI input space achievedthe best performance in terms of Underwater Image Quality Measure (UIQM) of 1.66 which is an 26.68% increase compared to the original images in the eiffel tower dataset. However, in the varos dataset the dispnet model with RGB input space achieved an UIQM of 0.50, a 305.03% of increase from the original images. The Varos dataset being a simulated dataset retains pixel level information even in the shadows of the images, which aids in enhancing the images using the SeaThru pipeline. This makes the enhanced images gain a 305.03% increase in UIQM compared to the original images. To get a better understanding of the imageenhancement performance, a new dataset SeaThru-Nerf, consisting of real underwater images, has been used. On the SeaThru-Nerf dataset the dispnet model with RGB input space performed best for image enhancement in all scenes in terms of UIQM. It achieved UIQM of 2.06 a16.09% increase in Curasao scene, 2.01 an increase of 22.27% in Panama scene, 1.21 a 36.32% increase in IUI3-RedSea scene and 1.67 a increase of 29.43% in JapaneseGradens-RedSea scene. The predicted depths from the Udepth (RMI) model on the Eiffel-Tower dataset are used in RGB-D SLAM pipeline in the ORB-SLAM3 framework as a depth sensor. The estimated trajectory from the SLAM yielded an RMSE of 9.79m Absolute Trajectory Error (ATE) when averaged over 3 different runs, which is 2.14% of the total trajectory length. For the pose net when trained with Dispnet along with RMI input space achieved an Absolute Trajectory Error (ATE) of 1532.216m which is 0.311m per frame in the Eiffel tower dataset when a 5-frame snippet has been used to align and scale the trajectory. In Varos dataset the best performing pose net was trained with Dispnet mVit with RMI input space. It achieved a total ATE of 25.84997m and mean ATE of 0.0042m per frame. From the experiments, it can be said the self-supervised learning based scene depth and ego motion learning from videos, which was originally proposed for airborne vision, can be applied in underwater environments where the visual appearance of the scene is significantly different and this also changes with the viewpoint of the camera. Moreover, it can be also concluded that the predicted depths can be used in several application wherethe depth is required and not readily available from the sensor, like a pseudo depth sensor in RGB-D SLAM and underwater image enhancement techniques like SeaThru.