Instance Segmentation and Pose Estimation of Assembly Parts Using Deep Learning and Synthetic Data Generation

Opheim, Torbjørn; Lecerof, Jonas

dc.contributor.advisor	Aamo, Ole Morten
dc.contributor.advisor	Åkesson, Knut
dc.contributor.advisor	Götvall, Per-Lage
dc.contributor.author	Opheim, Torbjørn
dc.contributor.author	Lecerof, Jonas
dc.date.accessioned	2019-11-06T15:03:40Z
dc.date.issued	2019
dc.identifier	no.ntnu:inspera:35771502:37780343
dc.identifier.uri	http://hdl.handle.net/11250/2627024
dc.description	Full text not available
dc.description.abstract	Ved å bestemme nøyaktig translasjon og rotasjon av objekter, kan mer sofistikerte hjelpesystemer og roboter utmerke seg i en rekke scenarier og næringer. På fabrikkene i Volvo, foregår det kontinuerlig forskning som ser på integrerte samarbeidende robotsystemer for samarbeidende montering, frittstående plukking fra bokser og kvalitetsinspeksjon. Objektgjenkjenning, instans-segmentering og estimering av posisjon og rotasjon er identifisert som avgjørende komponenter for å løse disse problemene. Målet er å implementere fleksible og helhetlige løsninger, hvor nye monteringsdeler enkelt kan integreres. På grunn av dette er implementeringen begrenset til bruk av syntetisk data og RGB-bilder. I denne avhandlingen trenes to forskjellige nettverk utelukkende på renderte data, og deres egnethet for forskjellige applikasjoner blir vurdert. Vi viser at for segmenteringsoppgaver, generaliserer MaskRCNN godt til ekte bilder, men ytelsen forverres når scenen blir utsatt for direkte lys eller når objektene er delvis skjult. Videre evalueres ytelsen ved bruk av ulike typer manipulert data. Problemene som oppstår ved optimalisering av modeller med hensyn på ekte bilder, selv om kun syntetisk data er brukt som datasett, blir også drøftet. Et grafisk renderingsverktøy, Blender Python API, ble brukt til å generere datasett for de to forskjellige nettverkene. Sammenlignet med tidligere arbeid, som denne oppgaven er bygget på, ble klasselisten utvidet, og tilfeldige parametere ble fjernet. De renderte gjenstandene ble deretter komponert med bilder fra SUN2012 Pascal samlingen som bakgrunn. Begge nettverkene ble trent på dette datagrunnlaget og deretter evaluert ved hjelp av følgende evalueringsmåter: Interseksjon over union (IoU) for semantisk merking og gjennomsnittlig avstand (ADD) for estimering av posisjon og rotasjon. PVNet bruker et grunnere nettverk for semantisk segmentering av objekter og oppnår gode resultater på syntetisk valideringsdata, men mer varierende resultater når man validerer på ekte bilder. Ved syntetisk validering oppnådde vi lignende resultat ved estimering av posisjon og rotasjon ved å bruke monteringsdeler som vi gjorde ved bruk av et LineMod-objekt med LineMod-innstillingene. Dette betyr at vi kan forvente lignende resultater som PVNets forfatter oppnådde med "ferdig" trente modeller ved 200 epoker. På ekte bilder forverres metoden etter 50 epoker. Graden av nøyaktighet kan være god nok til plukking fra bokser, men mer nøyaktighet er nødvendig for å kunne implementere den i systemer rettet mot kvalitetsinspeksjon.
dc.description.abstract	Detecting the exact location of objects enables more sophisticated assistance systems and robots to excel in a multitude of scenarios and industries. At the manufacturing plants of Volvo, there is ongoing research looking into integrating collaborative robotic systems for collaborative assembly, stand-alone bin picking, and quality inspection. Object recognition, instance segmentation, and pose estimation have been identified as crucial parts for solving these problems. The aim is to implement flexible end-to-end solutions, where new assembly parts can be integrated with ease. Because of this, the implementation is limited to the use of synthetic data and RGB images. In this thesis, two different networks are trained solely on rendered data, and their suitability for different applications is evaluated. We show that for instance segmentation, MaskRCNN generalizes well to real images, but its performance worsens when the scene is subjected to direct light or when the objects are partially obscured. Furthermore, the performance with different types of data augmentations is evaluated and the problems that arise when optimizing a model for real images using synthetic data are illuminated. A graphics rendering tool, The Blender Python API, was used to generate datasets for the two different networks. Compared to previous work, on which this thesis is built on, the class list was extended, and randomizing parameters were removed. The rendered objects were then composed with the SUN2012 Pascal collection as backgrounds. Both networks were trained on this data and then evaluated using the metrics: intersection over union (IoU) for semantic labeling and Average Distance (ADD) for pose estimation. PVNet uses a more shallow network for semantic segmentation of objects that obtains good results on synthetic validation data, but more varying results when validating on real images. On synthetic validation, we obtained similar pose estimation results using assembly parts as we did using a LineMod object with the LineMod settings. This means we can expect similar results as PVNet's author received with "fully" trained models at 200 epochs. On real images, the method starts to perform worse after 50 epochs. The degree of accuracy could be good enough for bin picking, but more accuracy is needed in order to implement it into a quality inspection toolbox.
dc.language	eng
dc.publisher	NTNU
dc.title	Instance Segmentation and Pose Estimation of Assembly Parts Using Deep Learning and Synthetic Data Generation
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for teknisk kybernetikk [3739]

Vis enkel innførsel