Multi-modal Learning-based Navigation
Abstract
In denne oppgaven utforskes kollisjonsunngåelse i et skogsmiljø. Spesielt fokuseres det på effektene av å integrere en sekundærmodalitet ved å utvide en variasjonell autoenkoder (engelsk: Variational Autoencoder) fra å ta inn dybde til RGB-D, for å forbedre rekonstruksjonen av tynne og nærtliggende objekter. Videre integreres nettverket i et kollisjonsprediksjonsnettverk (CPN) for å studere de overordnede effektene modaliteten har for autonom navigasjon på en quadcopter.
Et simuleringsrammeverk for automatisk, kontinuerlig generering av innhold, med et tilhørende skript for innsamling av multimodal data utvikles ved bruk av UE4 og AirSim. Videre samles et datasett for trening av den nevnte multimodale autoenkoderen, som integreres med et subsett av TartanAir. I tillegg settes et miljø opp ved bruk av ROS og Gazebo for å lagre tilfeldige utspillinger av en simulert drone, til bruk for trening av CPN. Til slutt forværres RGB-modaliteten på forskjellige måter for å kvantifisere dens bidrag og effekt.
De multimodale nettverkene overgår sine monomodale motparter. Eksempelvis oppnådde det multimodale nettverket opptil dobbelt så høy suksessrate som den monomodale i visse miljøer. Videre ble det funnet at nettverket er ekstremt følsomt for endringer i RGB data, som gir utslag i form av dårligere ytelse på usyntetisk data. In this thesis, collision avoidance in a forest environment is explored. Specifically, it focuses on the effects of integrating a second modality, namely expanding a variational autoencoder (VAE) from depth to RGB-D inputs, to improve the reconstruction of thin and close objects. Furthermore, the network is integrated into a collision prediction network (CPN) to study the overarching effects the modality has for autonomous navigation on a quadrotor.
A simulation framework for procedural content generation and a script for collection of multimodal data is developed using UE4 and AirSim. Following its development a dataset for training the aforementioned multimodal VAE is procured and merged with a subset of the pre-existing dataset TartanAir. Furthermore, an environment is set up using ROS and Gazebo to capture random rollouts from a simulated drone which can subsequently be used for training the CPN. Finally, the RGB modality is ablated to quantify its contribution and effect.
The multimodal networks overall were found to outperform their counterparts. With the multimodal CPN obtaining upwards of twice the success rate of the monomodal one in certain environments. Yet, through ablation it was found that the network is extremely sensitive to changes in the RGB input, combined with poorer performance being associated with tests on real data.