Ensemble Classifier Managing Uncertainty in Accelerometer Data within Human Activity Recognition Systems
Abstract
Human activity recognition (HAR) er et forskningsområde med mål om å klassifisere aktiviteterutført av personer ved hjelp av data hentet inn av video eller sensorer festet påkroppen. HUNT er den største helseundersøkelsen i Norge, og har nylig avsluttet denfjerde undersøkelsen, hvor totalt 38 756 personer har deltatt og hatt to sensorer festet påkroppen som har registrert aktivitetsdata i tre akser. HAR systemer krever ofte at alle sensorerer operative og festet til kroppen til en hver tid. På dette grunnlaget viser systemenesvakheter ved at det oppstår mye feilklassifiseringer på grunn av uforutsette hendelser, somat sensoren går tom for strøm, montert i feil retning, posisjon eller tatt av under aktivitestregistreringen. For å gjøre HAR systemer mer robuste mot dette problemet, forsker dennemasteren på bruken av en ny type ensemble classifier, der en meta classifier klassifisererhvilke sensorer som registrerer gyldig data og eliminerer ugyldig data, før den dynamiskendrer hvilken LSTM-RNN aktivitets klassifiserings modell den gyldige dataen blir sendttil. Den utviklede meta classifieren er trent på ett nytt datasett, ”Sensor no-wear time”,som består av data som ikke er samlet inn under kontrollerte omgivelser, og oppnår ennøyaktighet på 97.2%. Den viser lovende resultater ved å komme med gyldige bidragtil forskning innen folkehelse siden flere dager med feilklassifisering kan bli unngått.Forskningen gjort i denne masteren viser at individuelle klassifiserings modeller for lårog rygg sliter med å klassifisere statiske aktiviteter som sitting og ligging. Modellen forbegge sensorene kombinert oppnår en nøyaktighet på 85.1% sammenlignet opp mot deteksisterende systemet som oppnår 76.5%, er derfor det beste alternativet for aktivitets klassifisering,ettersom den klarer å differensiere mellom de statiske aktivitetene. Lagring avaktivitets klassifieserings resultetene med filformatet Feather gir de minste filstørrelsene,og gir en reduksjon fra 2.5 GB til 941 KB per deltager med en enkel komprimerings algoritme.Dette resulterer i en total reduksjon på 99.96%, da nødvendig lagringsplass går fra96.89 TB til 0.036469396 TB for alle deltagere i HUNT4. Human activity recognition (HAR) is a field of study that aims to recognize activitiesfrom data acquired by video or wearable sensors. The biggest health study in Norway,HUNT, has recently ended it’s fourth study where 38 756 participants have recorded activitydata while wearing three-axis accelerometer on their thigh and back. HAR systemsoften require all sensors to be operative and attached to the participant at all times, andshows weaknesses when performing activity recognition, as a lot of misclassifications occurdue to sensors lying still after being detached from the subject’s body during activityrecording. To make HAR systems more robust against this issue, this thesis researcheson a new type of ensemble classifier where a meta classifier predicts sensor no-wear time,eliminates faulty sensor streams and dynamically adjust the LSTM-RNN sensor positionspecific classification models used, depending on the data available. The developed metaclassifier is trained on a new ”Sensor No-Wear Time” dataset that consists of real-worlddata, and is able to predict sensor no-wear time with 97.2% accuracy and shows promisingresults towards making more valid contributions towards public health research, as iteliminates up to several days of misclassifications where sensors have been detached. Researchdone in this thesis shows that individual models for thigh and back are strugglingto classify certain static activities. A model for both sensors combined is therefore thebest option for activity classification as it achieves an accuracy of 85.1% compared to theexisting HAR system’s 76.5%, and outperforms individual models when classifying staticactivities. Storing classification results for all participants in HUNT requires huge amountsof storage space, and Feather is proving to be the file format that is best suited for storingactivity classification results, as the result file size for each participant is reduced from2.5 GB to 941 KB with a new compression algorithm. This results in a total reduction of99.96%, as necessary storage space is reduced from 96.89 TB to 0.036469396 TB for allHUNT4 participants.