Food intake monitoring using neural networks based on swallowing sound data

Isifan, Ahmed

Isifan, Ahmed

Master thesis

View/Open

no.ntnu:inspera:104140281:37538680.pdf (9.054Mb)

no.ntnu:inspera:104140281:37538680.zip (5.064Mb)

URI

https://hdl.handle.net/11250/3022386

Date

2022

Metadata

Show full item record

Collections

Institutt for elektroniske systemer [2334]

Abstract

Kunstig Bukspyttkjertel systemer er avhengige av Kontinuerlig Glukose Overvåkningssystemer

til å måle blodsukkernivået, og basert på denne målingen beregnes

insulindosen og avgis via en insulinpumpe. Disse systemer er derimot ikke

perfekte og lider av tidsforsinkelser fra starten på måltidet er oppdaget frem

til insulin er administrert. Pasienter er påkrevd å kunngjøre måltids inntaket i

tillegg til å kalibrere systemet på daglig basis. I et tidligere prosjekt ble arbeidet

utført av Konstanze K. om automatisk deteksjon på starten av måltidet ved bruk

av tarm lydopptak videreført, og svelge lydopptak ble innført. Dette prosjektet

viderefører det arbeidet og tilpasser det slik at kun lydopptak av svelgelyder

benyttes. I tillegg, ble en tale, måltidsstart, mattype, og svelge detektor bygget

for å overvåke matinntaket, dette inkluderer varigheten på måltidet, mattype,

og antall svelger. Dette studiet har visst potensialet av å bruke svelge lydopptak

til å forbedre og unngå ulempene med en kunstig Bukspyttkjertel.

På første delen av prosjektet ble 10 svelge lydopptak brukt til å bygge en

måltidsstart og en tale detektor. Ved å bruke disse opptakene ble effektspektraltetthet

features beregnet, og brukt til å trene og bygge en Multilayer Perceptron

klassifiseringsmodell. Tale detektoren hadde en nøyaktighet og en F1 score på

99%, mens måltidsstart detektoren hadde en nøyaktighet og en F1 score på

95%.

På den andre delen av prosjektet, ble 20 nye opptak tatt for å bygge en mattype

og en svelge detektor. Disse opptakene ble hentet ved hjelp av to forhåndsvalgte

mattyper, havre og salat. Opptakene ble samlet ved hjelp av to personer, hvor

hvert opptak varte i ca. 30 min til 35 min, og mikrofonene som ble benyttet

for å fange svelgelydene ble plassert rett over kragebeinet på halsen. Ved å

bruke disse opptakene, ble Mel spektrogram features beregnet og brukt til å

lage en Convolutional Neural Network klassifiseringsmodel. Svelge detektoren

hadde en nøyaktighet på 93% og en F1 score på 92%, imens mattype detektoren

hadde en nøyaktighet og en F1 score på 96%.

Artificial Pancreas systems rely on Continuous Glucose Monitoring systems to

measure blood glucose levels and based on that measurement, the insulin dose

is calculated and administered through an insulin pump. However, these systems

are not perfect and suffer from time delays from the onset of the meal

until the meal is detected and insulin is administered. Patients are required

to announce their meal intake and also calibrate the system by taking a finger

stick blood test on a daily basis. In a previous project, the work done by

Konstanze k. on automatic meal onset detection using bowel sound recordings

was continued, and swallowing sound recordings were introduced. This project

continues the previous work and adapts such a system using only swallowing

sound recordings. Furthermore, speech, meal onset, meal type, and swallowing

detectors were built to monitor the food intake, this includes the duration of

the meal, the meal type, and the number of swallows. This study showed the

potential of using swallowing sound recordings to improve and work around

the downsides of Artificial Pancreas systems.

For the first part of the project, 10 swallowing recordings were used to build

a meal onset and a speech detector. Using these recordings, Power Spectral

Density features were extracted and used for training and building Multilayer

Perceptron classification models. The speech detector had an accuracy and an

F1 score of 99%, while the meal onset detector had an accuracy and an F1 score

of 95%.

For the second part of the project, 20 new recordings were acquired to build

a meal type and a swallowing detector. These recordings were acquired using

two pre-selected meals, oats and salad. The recordings were obtained using

two subjects, where each recording was about 30 min to 35 min, and the microphone

used for capturing the swallowing sounds was placed just above the

collar bone on the neck. Using these recordings, Mel spectrogram features were

extracted and used to build Convolutional Neural Network classification models.

The swallowing detector had an accuracy of 93% and an F1 score of 92%,

while the meal type detector had an accuracy and an F1 score of 96%.

Publisher

NTNU