A Data-Driven CBR and Clustering Method for Identifying Physical Activity Phenotypes
Abstract
Denne masteroppgåva undersøker nyskapande metodar for å identifisere fenotypar for fysisk aktivitet, hovudsakleg ved bruk av Case-Based Reasoning (CBR) og gruppering. Studien utforskar effektane av å variere talet på grupper, globale likskapsmål og datarepresentasjonar for å oppnå meir presise og nyttige resultat. CBR har fordelar framfor andre tilnærmingar innan kunstig intelligens på grunn av si openheit, noko som gjer CBR ideelt for tverrfagleg samarbeid, som til dømes mellom datateknologi og folkehelse.
Fysisk inaktivitet er framleis eit presserande globalt helseproblem som bidreg betydeleg til auka helseutgifter og press på helsetenesta. Sjølv om offentlege helsetilrådingar eksisterer, følgjer dei ofte ei "one-size-fits-all"-tilnærming, som neglisjerer individuelle behov og aktivitetsmønster. For å kunne gi skreddarsydde råd om fysisk aktivitet, er det avgjerande å identifisere og utforske grupper som er kjenneteikna av liknande aktivitetsmønster.
Resultata indikerer at ei løysing med 4 grupper kan være optimal for å identifisere meiningsfulle fysiske aktivitetsfenotyper. Datastyrte globale likskapsmål har avgrensa innverknad på grupperinga når lokale likskapsmål alt tek omsyn til attributtdistribusjonen i datasettet. Avslutningsvis bidreg denne studien med ein generalisert metode for å identifisere fysiske aktivitetsfenotyper og gir ein mal for framtidige studier. Kombinasjonen av CBR og gruppering gir ei spanande tilnærming for å handtere kompleksitetane knytt til fysisk inaktivitet og å forbetre skreddarsydde råd for å fremje ein sunnare livsstil for individet. This master thesis investigates innovative methods for identifying physical activity phenotypes, primarily utilising Case-Based Reasoning (CBR) and clustering. The study explores the effects of varying the number of clusters, global similarity measures, and data representations in the pursuit of more precise and actionable results. CBR has advantages over other AI approaches in its transparency, which makes it ideal for interdisciplinary work, such as between computer science and public health research.
Physical inactivity remains a pressing global health concern, contributing significantly to healthcare expenditure and straining healthcare systems. While public health recommendations exist, they often follow a one-size-fits-all approach, neglecting the unique needs and activity patterns of individuals. To provide tailored guidance on physical activity, it is essential to identify and explore population clusters characterised by similar activity patterns.
The results indicate that a 4-cluster solution may be optimal for identifying meaningful physical activity phenotypes. Data-driven global similarity measures are found to have little impact on clustering when local similarity measures already account for attribute distribution. In conclusion, this research contributes a generalised method for identifying physical activity phenotypes, offering a template for future work. The combination of CBR and clustering provides a promising avenue for addressing the complexities of physical inactivity and enhancing personalised guidance to promote healthier lifestyles.