Reinforcement Learning for Robotic
Ultrasound

Ackre, Susanne Dorethea

Ackre, Susanne Dorethea

Master thesis

Permanent lenke

https://hdl.handle.net/11250/3016713

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for teknisk kybernetikk [3740]

Beskrivelse

Full text not available

Sammendrag

Denne masteroppgaven er et studie av “deep reinforcement learning” for robotisert

ultralyd. Å bruke autonome roboter i helsesektoren er et komplekst bruksområde med

mange faktorer å ta hensyn til. For eksempel, utfordingen med at en robotarm skal

samhandle med en menneskekropp. I tillegg til å ta stilling til at alle mennesker er ulike,

må man også tenke på faktorer som pustebevegelser og faktumet at menneskekroppen

er et mykt objekt. “Reinforcement learinng” krever en stor mengde med trening, noe

som også er en utfordring. Av sikkerhetmessige hensyn, i tillegg til en kompleksitet

med data og variasjon, utføres all trening og testing i et simulert miljø.

Det simulerte miljøet består av et menneskelig objekt, et bord og en madrass i en

arena med sykehustema. Som robot manipulator er robotarmen Panda brukt med en

ultralydprobe plassert på enden av robotarmen. Oppgaven som skal utføres innebærer

at robotarmen skal nå et markert punkt plassert rett ved overflaten til det menneskelige

objektet.

Kameraobservasjoner er en essensiell del av å klare å forstå miljøet, og er et viktig

verktøy for å klare å tilpasse seg forandringer og være adaptiv i møte med forskjellige

hendelser. For å klare å løse oppgaven er flere kamera plassert i miljøer. Et kamera er

plassert foran robotarmen, et på robotarmen og et er plassert over slik at det ser ned

på menneskekroppen.

“Reinforcement learning” problemet har blitt testet ut ved hjelp av tre nettverksarkitekturer. De er blitt testet ved å bruke en MLP, en CNN og en MLP-CNN og

deretter er disse ulike metodene blitt sammenliknet. Metoden som bruker MLP-CNN

viser det mest lovende resultatet og utkonkurerer de andre metodene ved å klare å nå

det markerte punktet på en effektiv måte. Den beste metoden er så videre blitt testet

med en annen kontroller "joint position". Kontrolleren “operational space controller”

brukt i utgangspunktet, viser seg å være best for denne oppgaven.

This thesis is a study of deep reinforcement learning for a robotic ultrasound. Using

autonomous robots in health care is a complex matter with many cautions to consider.

For instance, the complexity of a robot arm interacting with a human body. Not only

do all humans have intrinsic variations, but there are also many other factors such

as breathing motion and the soft body that hampers consistent acoustic contact with

the surface. Reinforcement learning requiring a large amount of training is also a

challenge. Due to the safety aspect and the high complexity, all the research in this

thesis is done in a simulated environment.

The simulated environment consists of a human object, a table, and a mattress

in a hospital-themed arena. A Panda robot arm with an ultrasound probe placed on

the end-effector is used as the robotic manipulator. The task consist of reaching a

randomized marker placed right above the surface of the human body.

For this problem, the camera is an essential sensor modality, and camera observations are an impotent tool for handling the dynamic environment and being able

to adapt to different events. For solving the task, several different cameras are placed

in the environment. One camera is placed in front of the table and the human with a

good view of the robot manipulator, one camera is placed on the robot arm and one

camera is placed looking down at the human object.

The reinforcement learning problem has been tested using different network architectures, such as multilayered perceptron (MLP), convolutional neural networks

(CNN) and combined extractors (MLP-CNN). The different approaches have been compared for the given task. The MLP-CNN results yields the most promising outcome

and outperforms the other methods by being able to reach the marker in an efficient

manner. This method is then tested and compared with a joint position controller. The

operational space controller(OSC), which is the original controller used for testing,

produced better results.

Utgiver

NTNU