Show simple item record

dc.contributor.advisorLangaas, Mette
dc.contributor.advisorBye, Anja
dc.contributor.authorWiig-Fisketjøn, Atle
dc.date.accessioned2021-09-28T17:21:21Z
dc.date.available2021-09-28T17:21:21Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:75366163:20915343
dc.identifier.urihttps://hdl.handle.net/11250/2784245
dc.descriptionFull text not available
dc.description.abstractI denne oppgaven ser vi på potensialet for bruk av metoder fra statistisk læring til å beregne risikoen for hjerte- og karsykdommer, ved å ta i bruk data fra Helseundersøkelsen i Trøndelag, HUNT. Hovedmålet med oppgaven var å utvikle modeller for beregning av 10-årsrisikoen for hjerte- og karsykdommer slik de er definert for NORRISK 2, den ledende risikomodellen i Norge. Sekundære mål var å utvikle modeller for beregning av 10 års risiko for hjerte- og karsykdommer slik de er definert av Framingham, 5- og 10 års risiko for atrieflimmer, 10 års risiko for hjertesvikt og risiko for hjertesvikt etter hjerteinfarkt. Etter å ha forhåndsbehandlet dataene ble variabler valgt ut for henholdsvis menn og kvinner basert på relevant litteratur. Dataene ble splittet 80/20 i henholdsvis trenings- og testsett for hvert kjønn. XGBoost ble brukt til å finne de 20 viktigste variablene for henholdsvis menn og kvinner, som deretter ble brukt i tilpasningen av tre modeller for hvert kjønn. Disse besto av en XGBoost-modell med maksimalt 20 variabler, en logistisk regresjonsmodell med maksimalt 15 variabler, og en logistisk regresjonsmodell med maksimalt 8 variabler. XGBoost-modeller ble visualisert med importance-plott og accumulated local effects-plott. For logistiske regresjonsmodeller ble de estimerte koeffisientene og tilhørende p-verdier rapportert. Modellene ble evaluert ved hjelp av arealet under Receiver-Operating-Characteristic-kurven og Precision-Recall-kurven, både på hele testsettet og på deler av testsettet, basert på aldersgrupper. Grenseverdier for klassifisering ble foreslått ved å maksimere ulike ytelsesmål gjennom ti gangers kryssvalidering på treningssettet, inkludert Youden Index og Fbeta-score. Vi undersøkte grenseverdier basert kun på alder og grenseverdier basert både på alder og kjønn. Estimerte grenseverdier ble rapportert med tilhørende sensitivitet, spesifisitet og presisjon kalkulert på testsettet. Alle resultater ble sammenlignet med NORRISK 2, som ble implementert og evaluert på det samme testsettet for å sikre nøyaktig sammenligning. Resultatene bekreftet at de fleste variablene i NORRISK 2 er viktige for prediksjon av hjerte- og karsykdommer for både menn og kvinner, og vi identifiserte nye, svært viktige variabler for kvinner. Funnene i denne oppgaven understreker viktigheten av å la predikerte sannsynligheter og grenseverdier for klassifisering være avhengig av både alder og kjønn. Grenseverdiene som ble funnet ved å maksimere et gitt ytelsesmål resulterte i varierende sensitivitet for de forskjellige aldersgruppene. Derfor bør man inspisere avveiningen mellom sensitivitet og spesifisitet for ulike grenseverdier på testsettet, og endelig valg av grenseverdier bør veiledes av eventuelle krav til disse ytelsesmålene. Dette vil gi langt bedre prediksjoner sammenlignet med NORRISK 2, og vil resultere i identifisering av en større andel av pasientene med høy risiko for utvikling av hjerte- og karsykdommer.
dc.description.abstractIn this thesis we explore the potential of using statistical learning methods for predicting the risk of cardiovascular disease (CVD), using data from the Trøndelag Health Study, HUNT. The primary aim was to develop models for predicting the 10-year risk of CVD as defined for NORRISK 2, the currently leading risk prediction model in Norway. Secondary aims were to develop models for predicting the 10-year risk of CVD as defined for the Framingham model, the 5- and 10-year risk of atrial fibrillation, the 10-year risk of heart failure, and the risk of heart failure post-myocardial infarction. After preprocessing the data, features were selected for men and women respectively. The data was split 80/20 into a training set and a test set separately for each sex. XGBoost was used to find the 20 most important features for respectively men and women, which were used for fitting three models for each sex. These consisted of an XGBoost model with at most 20 features, a logistic regression model with at most 15 features, and a logistic regression model with at most 8 features. XGBoost models were visualized with importance plots and accumulated local effects plots. For logistic regression models, the estimated coefficients and their corresponding p-values were reported. The models were evaluated by the area under the Receiver-Operating-Characteristic curve and the Precision-Recall curve, both on the full test set and on the test set divided into age groups. Thresholds for classification were suggested by maximizing different performance measures through 10-fold cross-validation on the training set, including the Youden Index and the Fbeta-score. We explored age-specific thresholds and age- and sex-specific thresholds. Estimated thresholds were reported with corresponding sensitivities, specificities and precisions computed on the test set. All results were compared with NORRISK 2, which was implemented and applied to the same test set for exact comparison. The results verified that most features from NORRISK 2 are important for predicting CVD in both men and women, and we identified new features of high importance for women. The findings of this thesis emphasize the importance of letting predicted probabilities and thresholds for classification be both age- and sex-dependent. The thresholds found by maximizing a certain performance measure resulted in large differences in the sensitivities for the different age groups. Hence, the trade-off between sensitivity and specificity for different thresholds on the test set should be inspected, and the final selection of thresholds should be guided by eventual requirements for these performance measures. This would provide much better predictions compared to NORRISK 2, resulting in the identification of a larger proportion of the patients at high risk of developing CVD.
dc.languageeng
dc.publisherNTNU
dc.titleRisk Prediction of Cardiovascular Disease with Statistical Learning Methods
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record