Audio-Visual Based Contact Force Estimation and Terrain Classification for a Robotic Paw
Description
Full text not available
Abstract
Utviklingen innenfor robotikk har eksplodert de siste ti-årene, fra stillestående roboter begrenset til egne celler og gjentakende oppgaver, til å ha roboter som vandrer rundt i omverdenen. Dette åpner for muligheten til å bruke roboter i søke- og redningsoppdrag og andre oppgaver der omgivelsene er krevende eller skadelige for mennesker. Roboter har imidlertid begrensninger, som å bevege seg gjennom ujevnt og løst terreng. Å gi roboten en form for berøringsfølelse gjennom poten vil kunne forbedre dette. Denne masteroppgaven studerte effekten av kodet kamera syn og deformering av poten for å estimere kontaktkreftene mellom bakken og poten. I tillegg ble lyden av poten mot underlaget brukt for å klassifierse terrenget roboten gikk på.
I dette prosjektet ble en Smart-Paw utviklet, bestående av en silikon-såle som deformeres ved påføring av ytre krefter og en mikrokontroller (MCU) med kamera og mikrofon. Inne i poten ble en MCU montert slik at kamera så ned på ett prikkmønster integrert i sålen. MCUen kjørte et dypt neuralt nettverk (DNN) for å estimere kraftvektoren mellom underlaget og poten, basert på deformeringen til prikkmønsteret. Samtidig, ble en maskinlærningsalgoritme (ML) kjørt for å klassifisere terrengtypen ved hjelp av lyd. For å trene DNN-modellen ble data samlet inn ved bruk av en ekstern sensor for kraftmålinger, sammen med ett eksternt kamera og Aruco-merker for å finne den relative orienteringen mellom testplatformen og poten. Datasettet for terrengklassifisering ble samlet inn som ett sekunds målinger på ulike overflater.
Flere DNN-modeller for kraftestimering ble funnet ved hjelp av hyperparameter-søk der lagstørrelse og inngangsstørrelse varierte. Modellene hadde en begrensning på 62 000 parametere på grunn av minnestørrelsen til MCU-en. Den beste modellen bestod av 24 755 parametere og hadde en gjennomsnittlig feil på 1,944 N med ett standardavvik på ±2,711 N, der målte krefter varierte fra 0 til 130 N. For terrengklassifisering ble ni forskjellige ML-metoder testet, hvor den beste var et DNN på 238 parametere med en kryssvalideringsnøyaktighet på 0,779±0,039. Modellene hadde god kjøretid på mellom 131 µs til 2000 µs når de ble implementert på MCUen. Dette er omtrent 10-100 ganger raskere enn både kameraets opptakshastighet og ekstraksjonen av Mel-frequency Cepstral Koeffisienter (MFCCs) som ble målt til omtrent 23 og 15 ms, henholdsvis. Dette viser at metoden generelt hadde god ytelse, men at den ikke er egnet for sanntidsbruk for gående, løpende eller hoppende roboter uten en kjappere kameramodul. Advancements in robotics have skyrocketed over the last decades, from stationary robots, being confined to closed-off cells doing repetitive tasks, to having legged robots wandering around in open environments. This opens up the possibility of using robots in search and rescue missions and other tasks where the environments are harmful to humans. There are, however, some limiting factors, such as moving through rough and loose terrain. To mitigate this problem, it is desired to give the robot a form of tactile sensing through its paw. This thesis attempted to use encoded camera vision and tactile sensing to estimate the contact forces between the ground and the paw. In addition, sound data was used to classify terrain types.
In this thesis, a Smart-Paw was made, having a silicone sole that deforms upon force application. On the inside of the paw, a microcontroller unit (MCU) with a camera module and microphone look down on an encoded dot pattern integrated within the sole. The MCU was running a deep neural network (DNN) to estimate the force vector based on the input image, and a machine learning (ML) algorithm to classify the terrain type based on audio. To train the DNN model, data was gathered using an external sensor for force magnitude. In addition, an external camera in combination with Aruco markers was used to estimate the relative pose between the test platform and paw. The audio data set for terrain classification was gathered as one-second samples on different surfaces whilst trying to mimic the motion of a quadrupedal robot.
Multiple DNN models for force estimation were found using hyperparameter search varying in layer size and input image size. The total parameter count was between 11 000 - 62 000 due to the memory limitations of the MCU. The best-performing model had a mean error of 1.944±2.711 N when the measured forces ranged from 0 - 130 N. For classification, nine different ML methods were tested. A small DNN of 238 parameters performed the best with a cross-validation accuracy of 0.779±0.039. The models showed great inference speeds in the range 131 µs to 2000 µs when deployed to the MCU. This is approximately 10x-100x faster than both the camera capturing speed and the Mel-frequency Cepstral Coefficients (MFCCs) extraction, which have a processing speed of approximately 23 and 15 ms, respectively. This indicated that the method had an overall good performance, but in order to be viable for real-time use on a walking, running, or jumping robot, this method has to be coupled with a faster camera module.