Using Machine Learning for Predicting Alzheimer's Disease Among Older Adults
Abstract
Hovedfokuset i denne studien var å utforske mulighetene til å bruke maskinlæring for å predikere Alzheimers sykdom blant eldre, før symptomene oppstår. Vi startet med å utvikle og evaluere fem maskinlæringsmodeller som er mye brukt og har gitt gode resultater i tidligere studier. Dette gjorde vi for å finne de mest effektive algoritmene. Deretter validerte vi metoden vår ved å sammenligne implementerte modeller med eksisterende modeller. Dette gjorde av vi klarte å identifisere de viktigste faktorene for å predikere Alzheimers sykdom.
Økningen i antall eldre i Norge har ført til en økning i tilfeller av demens. Alzheimers sykdom er den viktigste årsaken til demens blant personer over 65 år. I 2020 ble omtrent 100 000 personer diagnostisert med demens i Norge. Dette tallet forventes å øke de neste tiårene på grunn av økningen i antall eldre. Omsorg og pleie relatert til en person med demens koster samfunnet omtrent 362 800 norske kroner per år. Sykdommen blir ofte påvist etter at symptomene har oppstått. Siden det ikke finnes en kur for demens eller Alzheimers sykdom, er det viktig å oppdage tidlige tegn på sykdommene for å kunne starte behandling og bremse utviklingen. Dagens utredning av demens og Alzheimers sykdom er både kostbare og tidkrevende. Behovet for bruk av ny teknologi innen tidlig diagnostisering er derfor stort.
I prosjektet brukte vi data fra Generasjon 100-studien, hentet fra forskningsgruppen Cardiac Excercise Research Group, som fulgte 1 567 deltakere i aldersgruppen 70 til 77 år. Deltakerne bodde i Trondheim og ble observert over fem år. Studien undersøkte effekten av trening hos eldre. Det ble forsket på hvordan ulike treningsintensiteter påvirket livskvaliteten og helsen til deltakerne.
Vår studie er et grunnlag for bruk av maskinlæring for å predikere Alzheimers sykdom blant eldre. Resultatet av studien viser at blant de fem maskinlæringsmodellene oppnådde ``extreme gradient boosting'' best resultat på nøyaktighet, F1 nøyaktighet, presisjon og tilbakekalling. Modellen ga en nøyaktighet på 92,42\%, F1 nøyaktighet på 0,91, presisjon på 0,91 og tilbakekalling på 0,93. Modellen ``random forest'' ga den høyeste AUC-ROC scoren på 0,76. Ved validering av vår metode med eksisterende forskning fikk vi bekreftet at modellene våre var effektive, og forsterket troverdigheten til forskningen slik at den kan være nyttig for videre studier. Analysen vår indikerer at variabelen ``the Montreal cognitive assessment score'', som er et mål på kognitiv funksjon og variabelen for tidlige symptomer på nevrodegenerative lidelser knyttes opp mot økt risiko for Alzheimers sykdom. The primary focus of this study was to explore the potential of machine learning in predicting Alzheimer's disease before the onset of symptoms among older adults. This included three steps, first developing and evaluating five well-performing classification models from previous studies to determine the most effective algorithms. Then, validating our chosen method by comparing our implemented models against existing models. Lastly, the key features with the strongest association and highest importance score for predicting Alzheimer's disease were identified.
The aging population in Norway has led to an increase in dementia cases, with Alzheimer's disease being the leading cause among those aged 65 years and above. In 2020, about 100,000 people were diagnosed with dementia in Norway. This number is expected to increase in the coming decades due to the rise in the older population. A person with dementia costs the community about 362,800 Norwegian kroner per year. The disease is often detected after the onset of the symptoms. Since there is no cure for dementia and Alzheimer's disease, there is a need to detect early signs to slow down the progression. At this time, detection is both expensive and time-consuming. The use of new technology for early diagnosis is therefore needed.
Our project utilized data from the Generation 100 Study, collected by the Cardiac Exercise Research Group, which tracked 1,567 individuals aged 70 to 77 years in Trondheim for five years. The study examined the impact of exercise in older adults, comparing how different training intensities affected the life quality and health of the participants.
Our study is foundational for using machine learning to predict Alzheimer's disease among older adults. The results of the study show that among the five machine learning models, XGBoost had the best performance related to accuracy, F1 score, precision, and recall. The model had an accuracy of 92.42\%, an F1 score of 0.91, a precision score of 0.91, and a recall score of 0.93. Random forest had the highest AUC-ROC score of 0.76. Validating our methods against existing research confirmed the effectiveness of our models, and indicated that they could be useful for further studies. Additionally, our analysis showed that the feature Montreal cognitive assessment score, as a valid measure of cognitive function, and the feature representing the prior symptoms of neurodegenerative disorders were strongly associated with an increased risk of Alzheimer's disease.