Vision-Based Sensor System For Offshore Crane Pose Estimation
Abstract
Operative kraner på offshore-anlegg er essensielle for ulike aktiviteter, som lasting og avlasting av ulike last-typer, inkludert ROV-er. Imidlertid utgjør disse kranene betydelige sikkerhetsfarer på grunn av deres omfattende romlige dekning og potensial for kollisjoner med andre objekter. Det dynamiske og ofte uforutsigbare offshore-miljøet, preget av bølge- og vindbevegelser og varierende værforhold, gjør kranoperasjoner enda mer komplekse. SINTEF Ocean utforsker muligheten for å forbedre en hydraulisk kran med et sensorsystem for å øke autonomien i kranoperasjoner. Disse utfordringene krever presis og pålitelig pose-estimering for å få et kontrollsystem som sikrer trygge og effektive kranbevegelser. Tradisjonelle metoder for pose-estimering mangler ofte presisjonen som kreves for å opprettholde nøyaktighet og pålitelighet, spesielt når data fra flere kilder (sensorer) kombineres. I tillegg til dette, er det arbeidskrevende og tidkrevende å lage store datasett med presise annotasjoner for å trene avanserte datavisjons- og maskinlæringsmodeller. Å løse dette spesifikke problemet vil bidra til å utvikle et solid sensorsystem og autonome kapabiliteter, og dermed øke sikkerheten og effektiviteten i offshore kranoperasjoner. Dette fører igjen til tryggere arbeidsforhold og forbedret produktivitet.
Denne masteroppgaven fokuserer på å utvikle et robust datasyn-system for å forbedre pose-estimeringen av offshorekraner. Forskningen involverer integrering av avanserte datavisjons- og dyplæringsteknikker. Et rammeverk for å generere store, nøyaktig annoterte bilder syntetisk er utviklet ved bruk av 3D-modelleringsprogramvaren Unity med domenerandomisering. Et virtuelt stereo-kamerasystem benyttes for å samle syntetiske data for nøkkelpunkt-deteksjon og pose-estimering. High-Resolution Network (HRNet)-arkitekturen brukes for presis nøkkelpunkt-deteksjon, og YOLOv5 er brukt for objekt (kran) deteksjon. I tillegg benyttes ArUco-markører for å forbedre nøyaktigheten av nøkkelpunkt-deteksjon. Bildepar fra stereo-kamerasystemet mates inn i modellene, og 3D-nøkkelpunkter beregnes ved hjelp av triangulering. Alle modeller trenes og testes på syntetiske bilder generert gjennom det utviklet rammeverket.
De implementerte modellene viste betydelig nøyaktighet i nøkkelpunkt-deteksjon og pose-estimering. HRNet-modellen oppnådde en normalisert feil (NE) på 0,0062 for modellen trent på et datasett med 10 000 bilder. For bilder med en størrelse på 640x640 piksler ble den faktiske gjennomsnittlige feilen i nøkkelpunkt-deteksjonen funnet til å være omtrent 5,61 piksler, som tilsvarer omtrent 0,62% av bildets diagonal. Objekt-gjenkjenningsmodellen YOLOv5, evaluert ved hjelp av presisjon, recall og gjennomsnittlig presisjon (mAP), viste en ytelse over 90%. Når 3D-nøkkelpunktene ble beregnet ved hjelp av de parrede punktene og stereosystemet gjennom triangulering, ble feil observert. Når det gjelder kranpose-estimering, viste modellene lovende resultater for kranens to prismatiske ledd, som viste høy nøyaktighet og pålitelighet. Imidlertid viste de roterende leddene betydelige unøyaktigheter på grunn av feil i dybdeberegning.
Resultatene indikerer at det utviklede datasyn-systemet effektivt produserer høy presisjon i kranpose-estimering. Den lave normaliserte feilen i HRNet-modellen indikerer høy nøyaktighet i nøkkelpunkt-deteksjon, og oppfyller prosjektets mål om å oppnå minst 90% nøyaktighet. Den høye ytelsen til objekt-gjenkjenningsmodellen YOLOv5 støtter videre systemets pålitelighet. Lovende resultater ble oppnådd for kranens to prismatiske ledd, som viste høy nøyaktighet i deres estimeringer. Imidlertid viste de roterende leddene betydelige unøyaktigheter på grunn av feil i 3D-nøkkelpunkt-beregninger. Når 3D-nøkkelpunktene ble beregnet ved hjelp av triangulering, ble disse unøyaktighetene observert. Dette avviket understreker behovet for ytterligere forbedringer i dybdemåling-teknikker for å sikre nøyaktighet på tvers av alle leddene. Generelt antyder disse resultatene at de foreslåtte metodene kan gi et effektivt sensorsystem, og dermed øke autonomien og sikkerheten til offshore kranoperasjoner.
Denne masteroppgaven lykkes med å løse den kritiske utfordringen med pose-estimering for offshorekraner gjennom avanserte datavisjonsteknikker. Det utviklede systemet oppfyller ikke bare de forhåndsdefinerte nøyaktighets-målene, men viser også potensialet for skalerbar og effektiv trening av modeller ved bruk av syntetiske datasett. Disse funnene vil bidra til tryggere og mer effektive offshoreoperasjoner, og gir et robust grunnlag for fremtidige fremskritt innen automatiserte kranoperasjoner og andre industrielle applikasjoner. Operational cranes in offshore sites are essential for various activities, such as loading and unloading cargos and ROVs. However, these cranes pose significant safety hazards due to their extensive spatial coverage and potential for collisions with surrounding objects and infrastructure. The dynamic and often unpredictable offshore environment, characterized by wave-motion and varying weather conditions, makes crane operations even more complex. SINTEF Ocean is exploring the potential of enhancing a hydraulic crane with a sensor system to improve the autonomy of crane operations. These challenges necessitate precise and reliable pose estimation to enable a control system that ensures safe and efficient crane movements. Traditional methods for pose estimation often lack the precision required to maintain accuracy and reliability, especially when combining data from multiple sources. In addition to this, creating extensive datasets with precise annotations for training advanced computer vision and machine learning models is labor-intensive and time-consuming. Addressing this specific problem will contribute to developing of a solid sensor system and autonomous capabilities, enhancing the safety and efficiency of offshore crane operations. This, in turn, leads to safer working conditions and improved productivity.
This thesis focuses on developing a robust computer vision system to enhance the pose estimation of offshore cranes. The research involves the integration of advanced computer vision and deep learning techniques. A framework for generating large, accurately annotated images synthetically is developed using the 3D modeling software Unity with domain randomization. A virtual stereo-camera system is utilized to gather synthetic data for keypoint detection and pose estimation. The High-Resolution Network (HRNet) architecture is adapted and modified for precise keypoint detection, and YOLOv5 is employed for object (crane) detection. Additionally, ArUco markers are used to improve the accuracy of keypoint detection. Image pairs from the stereo-camera system are fed to the models, and 3D keypoints are calculated using triangulation. All models are trained and tested on synthetic images generated through the framework.
The implemented models demonstrated significant accuracy in keypoint detection and pose estimation. The HRNet model achieved a normalized error (NE) of 0.0062 for the model trained on a dataset of 10,000 images. For images with a size of 640x640 pixels, the actual average error in keypoint predictions was found to be approximately 5.61 pixels, which corresponds to about 0.62% of the image diagonal. The object detection model, evaluated using metrics such as precision, recall, and mean Average Precision (mAP), consistently showed performance above 90%. When the 3D keypoints were calculated using the paired points and the stereosystem through triangulation, errors were observed. In terms of crane pose estimation, the models yielded promising results for the crane's two prismatic joints, demonstrating high accuracy and reliability. However, the revolute joints showed significant inaccuracies due to errors in depth estimation.
The results indicate that the developed computer vision system effectively enhances the precision of crane pose estimation. The low normalized error of the HRNet model signifies high accuracy in keypoint detection, fulfilling the project's objective of achieving at least 90% accuracy. The high performance of the object detection model further supports the system's reliability. Promising results were achieved for the two prismatic joints of the crane, showing high accuracy and reliability in their estimations. However, the revolute joints demonstrated significant inaccuracies due to errors in 3D keypoint calculations. When calculating the 3D keypoints using triangulation, these inaccuracies were observed. This discrepancy underscors the need for further improvements in depth estimation techniques to ensure consistent accuracy across all joint types. In general, these outcomes suggest that the proposed methodologies can significantly improve the sensor system, thereby enhancing the autonomy and safety of offshore crane operations.
This thesis successfully addresses the critical challenge of pose estimation for offshore cranes through advanced computer vision techniques. The developed system not only meets the predefined accuracy objectives but also demonstrates the potential for scalable and efficient training of models using synthetic datasets. These findings contribute to safer and more efficient offshore operations, providing a robust foundation for future advancements in automated crane operations and other industrial applications.