Multi-image detection and tracking of cracks in ship tanks
Abstract
Denne masteroppgaven omhandler bruk av romlig-temporal informasjon som er tilgjengelig i enkeltbildene til en video, for å forbedre sprekkdeteksjon i skipstanker. Hovedideen er å bevegelses-kompensere tidligere bilder til det nyeste bilde i en videostrøm. Dette er for å assosiere rommeliginformasjon på tvers av bildene sammen. Dette kan brukes til å etterbehandle detekteringsresul-tatet fra en semantisk segmenteringssprekkdetektor. Det undersøkes også om et neuralt nettverksom bruker en stabel med multiple bilder kan oppnå bedre resultater enn et nettverk som bare serpå ett bilde av gangen. Dette gjøres både når stabelen er bevegelseskompensert eller ikke. I tillegger det vist om bevegelseskompensasjon kan brukes til å spore en oppdaget sprekk over etterfølgendebilder i en video.
En modulær arkitektur er beskrevet, som i sin kjerne er basert på en stabel av densiste mottattebildene. Bevegelseskompensasjonen tar de forrige bildene i køen og justerer dem så de overlappermest mulig med det nyeste bilde. Dette er gjort ved hjelp av en 2D-transformasjonsestimering.To etterbehandlingsmetoder er implementert i etterbehandlingsmodulen. I tillegg til den beveg-elseskompenserte stabelen, mottar etterbehandlingen en stabel med tilhørende og kompenserteprediksjonskart fra en detektor. I den første tilnærmingen stemmes det over pikslene i de over-lappende prediksjonene for å temporal utjevne deteksjonsresultatet. I den andre tilnærmingen blir disse prediksjonskartene satt inn i et neuralt nettverk (NN). Totalt fire NN med forskjellige egen-skaper er utviklet og testet.I den multiple bilde detektor modulen, blir hele bilde stabelen satt i ett neuralt nettverk. Denne tilnærmingen er prøvd ut ved hjelp av den utviklede bevegelses kompenseringen og uten å for å seom et slikt nettverk kan lære seg å bevegelses-kompensere på egenhånd. Sporingsmodulen grupperersammen og instansierer oppdagede sprekkpiksler før de spores over påfølgendebilder, ved hjelp avpiksel-til-piksel-tilknytning gitt av bevegelseskompensasjonen.
Både etterbehandlingen og multibildedetektoren viser temporalt, mer stabile resultater enn en enkeltbildedetektor. Resultatene antyder også at en multibildedetektor som ikke bruker bevegelse kom-pensering kan lære seg å bevegelses-kompensere på egenhånd. Den implementerte sporing gir ogsåtilfredsstillende resultater. Imidlertid er de fleste modulene veldig avhengige av påliteligheten tilbevegelses kompenseringen. Mens bevegelses kompenseringen generelt ser ut til å fungere bra,forekommer det noen ganger noen unøyaktigheter. Disse unøyaktighetene kan få store konsekvenserfor resultatene av modulene som bruker bevegelses-kompenseringen. This master thesis is about using spatial-temporal information available across the frames during a video sequence to improve crack detection in ship tanks. The main idea is to motion compensate previous frames to the most recent frame in a video stream to associate the spatial information across frames. This can be used to post-process the detection result from a semantic segmentation crack detector. It is also explored whether a Deep Neural Network with a Multi-Image stack as input can outperform a Single-Image detector. This is tested both with motion compensating the stack, and without. Additionally, it is shown that motion compensation can be used to track a detected crack over subsequent frames.
A modular pipeline is described, which at its core is based around a motion-compensated stack of the n most recently received frames. The motion compensation takes the previous frames aligns them with the newest frame, using 2D transformation estimation. Two post-processing approaches are implemented in this project. In addition to the motion-compensated stack of frames, the post-processing receives a stack of the associated pixel-wise segmentation output (detection map) from a detector (which also is compensated). The first approach is a simple handcrafted voting approach, which uses the alignment of pixels in the detection maps to temporally smooth out the detection result. In the second approach, these detection maps are put into a NN. A total of four NNs with different properties are developed and tested.In the Multi-Image Detector (MID) module, the entire stack of frames is put into a NN. This approach is evaluated with and without using motion compensation MC to see whether the MID can learn to motion compensate on its own. The tracking module is the last module in the pipeline. It groups together and instantiate detected crack pixels before tracking them over subsequent frames, using the pixel-to-pixel association provided by the motion compensation.
Both the post-processing and the Multi-image-detector show more stable results than a Single Image Detector on its own provides. The results also suggest that the MID that does not use the motion compensation learns to motion compensate on its own. The implemented tracking also provides satisfying results. However, most of the modules are deeply dependent on the reliability of motion compensation. While the motion compensation overall seems to operate smoothly, some inaccuracies sometimes occur. These inaccuracies can have massive consequences for the results of the modules using the motion compensation.