A stereo image dataset of a fish model in a fresh water tank, and using it to compare stereo-matching algorithms
Abstract
En oversikt over ulike metoder som kan bli brukt til å lage et “riktig” disparity-kart har blitt laget, der fokuset lå på deres nøyaktighet og generelle krav for at metoden skal være gyldig. Videre har det blitt laget en oversikt over veletablerte metoder innenfor dyp læring som kan brukes til å estimere det “riktige” disparity-kartet, der fokuset lå på deres nøyaktighetsresultater som man fant gjennom stereobildekonkurransen KITTI 2015. Oversikten inkluderte også detaljer rundt hver dyp læring metodes implementasjon, der fokuset lå på fullkommenheten til implementasjonens kodearkiv og dens krav til kjøretid. I tillegg har det blitt laget et stereobildedatasett av en fiskemodell i en ferskvannstank med empirisk nøyaktighet som anses å ligge rundt 3 piksler, med en metode som bruker MATLAB’s Semi-Global Block Matching i kjernen som optimerer disparity-rekkevidden ved å måle den minste disparity-verdien for hvert enkelt stereobildepar. Datasettet ble brukt til å sammenligne nøyaktigheten til to dyp læring metoder for «stereo-matching», MC-CNN-fst og Content-CNN, uten deres etterbehandlingsteknikker, mot nøyaktigheten det norske selskapet Optoscale sin «stereo-matching»-algoritme produserte. Til slutt viste resultatene at dyp læring metodene klarte å slå Optoscale sin metode når det kommer til nøyaktighet. In this paper, an overview of different techniques used to create ground truth disparity maps has been provided focusing on their accuracies and general requirements. The field of well-established deep learning stereo matchers in literature has been dissected by providing an overview of their accuracy results on the stereo evaluation contest KITTI 2015 and including details of their implementations focusing on the completeness of the code repository and its runtime requirements. Furthermore, a stereo image dataset of a fish model in a freshwater tank with empirical accuracy deemed to be 3 pixels has been created using MATLAB’s Semi-Global Block Matching at core and optimizing the disparity range on each image pair individually by measuring the smallest disparity. The dataset was used to compare the accuracy results of two deep learning stereo-matching algorithms, MC-CNN-fst and Content-CNN, without their post-processing steps, to the accuracy results of a stereo-matching algorithm used by the Norwegian company Optoscale. Finally, the results showed that the deep learning methods managed to out-perform Optoscale’s algorithm in terms of accuracy.