Generation and Evaluation of Realistic Training Image Data for Machine Learning-Based Crack Detection
Abstract
Denne avhandlingen utforsker generering og bruk av syntetiske data for å forbedre ytelsen til maskinlærings baserte sprekk detektorer i konteksten av overflate inspeksjon på skip. Forskningen, utført i samarbeid med DNV, en leverandør av maritime tjenester og teknologi, er hovedsakelig fokusert på sprekker som dukker opp i skips tanker, et kritisk element i maritim sikkerhet. Et system for generering av syntetiske data ble utviklet, som innebar å skape geometrisk nøyaktige scener, anvende fotorealistiske teksturer og materialer, og implementere en metode for å produsere og segmentere fotorealistiske sprekker.
Ytelsen til en detektor ble vurdert basert på de syntetiske dataene som ble generert. Funnene indikerer at syntetiske data forbedrer detektorens ytelse, spesielt ved identifisering av tynne og uniforme sprekker. Imidlertid representerte de syntetiske dataene som ble brukt i denne studien hovedsakelig tynne og uniforme sprekker, noe som indikerer nødvendigheten av å diversifisere syntetiske data for bredere og mer effektive deteksjons evner. Denne observasjonen understreker viktigheten av datavariasjon i treningsprosessen til detektorer, noe som antyder at en detektors ytelse er tett knyttet til mangfoldet av data den har blitt trent på. Dette understreker behovet for videre forskning for å generere syntetiske data med en større variasjon av sprekktyper. This thesis explores generating and utilising synthetic data to improve the performance of supervised machine learning-based crack detectors in the context of surface inspection on ships. The research, conducted in collaboration with DNV, a leading maritime services and technology provider, primarily focuses on cracks that appear in ship tanks, a critical element of maritime safety. A synthetic data generation pipeline was developed, which involved creating geometrically accurate scenes, applying photorealistic textures and materials, and implementing a method to produce and segment photorealistic cracks.
The performance of a detector was evaluated based on the synthetic data generated. The results indicate that synthetic data enhance the detector’s performance, particularly in identifying fine and consistent cracks. However, the synthetic data used in this study primarily represented fine and consistent cracks, indicating the necessity to diversify the synthetic data generation for broader and more effective detection capabilities. This observation underscores the importance of data variety in the training process of detectors. Further research is therefore suggested to expand the synthetic data domain to include a wider variety of crack types and environmental conditions.