Vis enkel innførsel

dc.contributor.advisorFougner, Anders
dc.contributor.advisorBakken, Vemund
dc.contributor.authorAaserud, Julian
dc.date.accessioned2021-09-23T18:53:01Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:76427839:20972755
dc.identifier.urihttps://hdl.handle.net/11250/2781057
dc.descriptionFull text not available
dc.description.abstractI lys av nylige hendelser angående utbruddet av COVID-19, har det vært etterspurt bruk av maskinlæringsmetoder for å forsøke å diagnostisere infeksjonen ved hjelp av ikke-tradisjonelle midler. De kliniske testene som utføres i dag krever manuelt arbeid og krever sentralisert infrastruktur for å teste forsøkspersonene på stedet. Dette er begrenset av plassen, personalet, materialene, testsettene og den tilgjengelige analysekapasiteten. Toppmoderne maskinlæringsmetoder har konsekvent vist seg å være i stand til å løse ekstremt komplekse oppgaver gjennom å lære seg selv om noen kjennetegn i data, og deretter bruke den læringen på nye problemer. Ønsket om å peke disse verktøyene i retning av medisinsk diagnose har tjent som motivasjon for denne oppgaven. Det ble satt et mål om å prøve å evaluere og maksimere ytelsen til en selvlaget maskinlæringsklassifiseringsmodell, ved å bruke Matlab som vårt miljø. Datasettet var en samling av biometriske data målt fra en bærbar enhet kalt "The Oura Ring". Denne ringen målte hudtemperatur, hjertefrekvens, pulsvariabilitet og pustefrekvens hos personer som hadde fått et positivt COVID-19-testresultat og hadde fullført en daglig undersøkelse av selvrapporterte symptomer i en periode før diagnosen. Fra dette ble det utledet et utvalg av kjennetegn med korrelerte etiketter som angir dager med eller uten symptomer. Matlabs klassifikasjonslærerapp ble brukt mye for å teste og eksperimentere på flere forskjellige modeller. Et utvalg av modeller ble valgt for videre analyse (Fine K-nearest neighbours, Fine Gaussian Support Vector Machine, Wide Neural Network, Linear discriminant analysis og logistic regression), og ved videre arbeid ble en type modell, en lineær diskriminantanalysemetode, valgt for manuell implementering på grunn av sin enkelhet og robusthet til overlæring. Denne avgjørelsen ble tatt på grunn av en erkjennelse av at ytelsen ville variere vilt avhengig av hvilke individer som ble holdt ut til testsettet, noe som indikerte at det var nødvendig med en mer robust modell. Videre ble det skrevet et program for å utføre en slags fold-cross-validation test for å evaluere modellens ytelse i gjennomsnitt over mange forskjellige valg av testpersoner. Sluttresultatene fra metodene var en konvergens mot 73,55% forutsigelsesnøyaktighet i løpet av 20 iterasjoner og 100 kombinasjoner av testsett. Dette ble oppnådd på et datasett på 2389 prøver, hvor ca 2100 ble brukt til trening og ca. 280 ble brukt til testing, avhengig av hvilke individer som ble holdt ut. Flere diskusjonstemaer er presentert. Emnene spenner fra refleksjoner om splitting av datasett til diskusjoner om resultater fra eksperimenter gjort. Det er satt fokus på konsekvensene av å ikke ta likheter mellom prøver med i beregningen når vi deler data i opplæring og testsett. Tre hypoteser om klassifiserbarhetens gjennomførbarhet er presentert, og følgelig konkludert. Bruken av bare temperatur som en prediktor ble ansett som umulig med tanke på målingene i dette datasettet, men ble ansett som sannsynlig gitt mer nøyaktige målinger i fremtiden. Til slutt beskrives en idé for en kombinert metode ved bruk av en Linear Discriminant Classifier kombinert med en Markov beslutningsprosess, sammen med noen diskusjonsemner fra oppgaven og noen forslag til fremtidige arbeider. Spesielt trekkes utviklingen av datainnsamlingsmetoder fram som viktig for å kunne trene bedre modeller i fremtiden.
dc.description.abstractIn the light of recent events regarding the outbreak of COVID-19, it has sprouted a demand for the utilization of machine learning methods to attempt to diagnose the infection using non-traditional means. The clinical tests performed today are tedious in manual labour and require centralized infrastructure to test subjects on-site. This is limited by the space, the staff, the materials and test kits and the analysis capacity available. State-of-the-art machine learning methods have consistently proven themselves to be able to solve extremely complex tasks through teaching themselves about some features of data, then applying that learning to new problems. The desire to point these tools in the direction of medical diagnosis has served as the motivation for this thesis. A goal was set to attempt to evaluate and maximize the performance of some self-made machine learning classifier, using Matlab as our environment. The dataset was a collection of biometric data measured from a wearable device called "The Oura Ring". This ring measured skin temperature, heart rate, heart rate variability and breathing rate in subjects who had received a positive COVID-19 test result and had completed a daily survey of self-reporting symptoms for some period ahead of the diagnosis. From this, a sample set of features with correlated labels indicating days with or without symptoms was derived. Matlab's classification learner app was used extensively to test and experiment on multiple different models. A selection of models was chosen for further analysis (Fine K-Nearest Neighbours, Fine Gaussian Support Vector Machine, Wide Neural Network, Linear Discriminant Analysis and Logistic Regression), and upon further work, one type of model, a Linear Discriminant Analysis method, was selected for manual implementation due to its simplicity and robustness to over-fitting. This decision was made due to a realization that performance would vary wildly depending on which subjects were held out for the test set, which indicated that a more robust model was needed. Furthermore, a program was written to perform a kind of fold-cross-validation test to evaluate the model's performance averaged over many different selections of test subjects. The terminal results from the methods was a convergence towards 73.55% prediction accuracy over the course of 20 iterations and 100 test set combinations. This was achieved on a dataset of 2389 samples, where about 2100 were used for training and about 280 were used for testing, depending on which subject were held out. Several topics of discussion have been presented. The topics range from reflections about data set splitting to discussions of results from experiments done. A focus has been put on the consequences of not taking neighbouring sample similarities into account when splitting data into training and test sets. Three hypotheses regarding the classification feasibility has been presented, and accordingly concluded. The use of only temperature as a predictor was deemed infeasible given the nature of the measurements in the present dataset, but was considered plausible given more accurate measurements in the future. Finally, an idea for a combined method using a Linear Discriminant Classifier coupled with a Markov Decision Process is described, along with some topics of discussion from the thesis and some suggestions for future works. In particular the development of data collection methods is highlighted as important in order to train better models in the future.
dc.languageeng
dc.publisherNTNU
dc.titleFeasibility of using wearable device bio-metric data for detection of symptoms of infection, related to COVID-19, using ML-methods
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel