Deep-learning algorithms for estimation of fish-population parameters from stereo vision video data
Description
Full text not available
Abstract
Denne masteroppgaven fokuserer på å analysere hvordan fiskeadferd påvirkes av undervannsstrukturer med varierende former og farger, hovedsakelig målt i form av avstanden de opprettholder fra strukturen. For å sikre robusthet og kvalitet på dataene som brukes til denne analysen, konsentrerer den innledende fasen av oppgaven på å forbedre en metode som bestemmer 3D-posisjonen og avstanden til fisk under realistiske forhold, opprinnelig utviklet under et tidligere prosjekt. Den tidligere utviklet metoden kombinerer et stereoskopisk kamera med YOLOv7 for objekt deteksjon, Superglue for å knytte deteksjoner mellom bildene, StrongSORT for å spore flere objekter og triangulering for 3D-rekonstruksjom. Den nyutviklede metoden introduserer betydelige forbedringer både når det gjelder effektivitet og nøyaktighet. Sammen med en mer effektiv metode for å assosiere deteksjoner, benytter denne metoden det forbedrede YOLOv8 nettverket for objekt deteksjon i stedet for YOLOv7, og den effektive og robuste ByteTrack algoritmen for sporing av objekter i stedet for StrongSORT.
Den oppgraderte metoden brukes til å behandle flere videoer tatt fra strukturer med forskjellige former og farger. De estimerte avstandene blir analysert med forskjellige statistiske metoder, inkludert boksplott og deskriptiv statistikk. I tillegg brukes Jensen-Shannon divergens for å undersøke om det er konsistent forskjell i parameterdistribusjonene til den estimerte avstanden, samt ytterligere parametere som hastighet, akselerasjon og stigningsvinkel. Resultatene tyder på at fisk foretrekker å holde seg nærmere mindre objekter enn større, og nærmere hvite objekter enn gule. Disse funnene kan ha viktige implikasjoner for utviklingen av modeller for fiskeatferd og design av kontrollstrategier for undervannsfartøy. The primary focus of this thesis is to analyze how fish behavior is influenced by underwater structures of varying shapes and colors. Specifically, the focus is mainly on analyzing the minimum distance maintained by the fish from the structure, but additional features including velocity, acceleration, and pitch angle are also considered. However, to ensure the robustness and quality of the data used for this analysis, the initial phase of the thesis concentrates on enhancing a method that determines the 3D position and distance of fish under realistic conditions, initially developed during a prior project. The existing approach merges a stereo camera system with YOLOv7 for object detection, Superglue for associating detections across both image frames, StrongSORT for multiple object tracking, and triangulation for 3D reconstruction. The enhanced method introduces significant improvements in terms of both efficiency and accuracy. Along with a more efficient detection association process, this method utilizes the improved YOLOv8 for object detection instead of YOLOv7, and employs the efficient and robust ByteTrack algorithm for multiple object tracking, replacing StrongSORT.
The enhanced method is applied to process multiple videos captured from structures of various shapes and colors. The estimated distances are subjected to analysis using various statistical methods, including boxplots and descriptive statistics. Additionally, the Jensen-Shannon divergence is utilized to determine the consistency in the variation of different feature distributions, including distance, velocity, acceleration, and pitch angle. The findings indicate that fish tend to maintain shorter distances from smaller objects compared to larger ones, and shorter distances from white objects compared to yellow objects. These findings have important implications for the development of fish behavior models and the design of control strategies for underwater vehicles. Further exploration of these insights is an essential step to promote an improved understanding of fish behavior and enhance fish welfare.