Deep-learning algorithms for estimation of fish-population parameters from video data
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3021927Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Denne hovedoppgaven presenterer en metode for å estimere distansen og hastigheten til fisk ved å bruke todyplæring metoder og et stereoskopisk kamera i samarbeid med SINTEF Ocean. Stereobilder er fanget avkameraet og rettet opp for å etablere epipolar geometri. YOLOv5, et objekt deteksjon nettverk, er brukt påbildene for å detektere fisk. Dette nettverket er trent på to forskjellige datasett. Etter å ha detektert fiskenblir et forhåndstrent nerual nettverk, Superglue, tatt i bruk for å etablere punktkorrespondanser innenforavgrensningsboksene på en en robust måte. Superglue er tatt ibruk ettersom den har vist seg å utkonkurerertradisjonelle metoder som SIFT og ORB. Punktkorrespondansene er brukt til å rekonstruere 3D punkteneved hjelp av triangulering. 3D punktene er brukt for å regne ut den euklidiske distansen og hastigheten.
Et eksperiment er gjennomført i et kontrollert miljø for å validere distanse målingen. I valideringener det observert at metoden produserer gode resultater. Etter valideringen er metoden testet i et mer realistiskmiljø med ekte fisk. Den viser lovende resultater på fisk som svømmer alene, selv om det ikke er noereferansemåling tilgjengelig for å måle ytelsen.
Denne hovedoppgaven gjennomfører også et literaturstudie med fokus på visuell sporing. En sporingsmetodeburde bli innarbeidet i den foreslåtte metoden for å spore fisken over en bildesekvens på en robustmåte. This thesis presents a method to estimate the distance and speed of the fish by using two deep learning methods and a stereo camera in collaboration with SINTEF Ocean. Stereo images are captured by the camera and rectified to establish the epipolar geometry. YOLOv5, an object detection network, is applied to the images to detect the fish. This network is trained on two different datasets. After detecting the fish, a pretrained network, Superglue, which outperforms traditional matching methods such as SIFT and ORB, is utilized to establish point correspondences within the bounding boxes robustly. The point correspondences are used to reconstruct the 3D world point by triangulation. The 3D points are used to compute the Euclidean distance and speed.
An experimental test is created in a controlled environment to validate the distance measurement. It isseen from the validation that the method produces good results. After validating the distance measurements,the method is tested with live fish in a more realistic environment. It shows promising results on fish thatswims alone, despite no ground truth available to measure the performance.
This thesis also conducts a literature review focusing visual tracking. A tracking method should be incorporated into the suggested method to track the fish over an image sequence robustly.