Prediction models for hypertension using the HUNT Study data

Schjerven, Filip

dc.contributor.advisor	Steinsland, Ingelin
dc.contributor.advisor	Lindseth, Frank
dc.contributor.author	Schjerven, Filip
dc.date.accessioned	2021-09-15T17:25:14Z
dc.date.available	2021-09-15T17:25:14Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:53287260:26776583
dc.identifier.uri	https://hdl.handle.net/11250/2778322
dc.description.abstract	I denne oppgaven sammenlignes forskjellige modellfamiliers evne til å predikere 11-års risikoen for binær hypertensjon status, ved bruk av data fra helseundersøkelsen i Trøndelag, HUNT. Modellfamiliene som ble valgt var logistisk regresjon, nevrale netverk og random forest. Målet for hver enkelt modell var å predikere risikoen for hypertensjon ved HUNT-3 studien for individer som var friske ved HUNT-2, ved bruk av målinger tatt i HUNT-2. Til å begynne med ble det gjennomført et litteraturstudie for å få oversikt over forskningen på risiko modeller for hypertensjon. Det var ikke mulig å fastslå at en av modellfamiliene skulle være bedre enn de andre basert på litteraturstudiet. Etter å ha identifisert de relevante attributtene i litteraturstudiet, ble et subsett av relevante data valgt ut fra det tilgjengelige HUNT datasettet. The endelige datasettet hadde n = 18249 individer og p = 19 attributter. En utforskende analyse av datasettet viste at 'Systolisk blodtrykk', 'Diastolisk blodtrykk' og 'Alder' var de attributtene som var mest korrelerte med hypertensjon-status ved HUNT-3. 'Kolesterol', 'Familiehistorie med hypertensjon' og fysiske attributter som 'Midjemål' var også verdt å nevne. Et repetert trening og testing oppsett ble brukt for å produsere fordelinger av ytelsesmål for de tre modellfamiliene. I tillegg ble Framingham modellen evaluert på et subsett av data hvor attributtene passet og var tilgjengelig. Alle modellene ble evaluert med området under Receiver-Operator-kurven og Precision-Recall-kurven, samt et modifisert Brier mål og et mål kalt Tjur's R^2. Vi konkluderer med at ytelsen var mer påvirket av variabiliteten i datasettet enn valget av modellfamilie, ettersom det var større forskjell innad i fordelingene enn mellom modellfamilier. Resultatene antyder at hvis det er noen ikke-lineære effekter, så har de lite ekstra prediktiv kraft sammenlignet med lineære. Videre ble et subsett av attributtene identifisert som særdeles viktige vha. viktighetsmål. En gjentagelse av analysen med dette subsettet i logistisk regresjon og random forest ga ytelsesmål som var like gode som ved bruk av alle attributtene for disse modellfamiliene. Resultatene fra alle modellfamiliene og attributsettene brukt var sammenlignbare med det som Framingham modellen oppnådde og til den relevante litteraturen. Til slutt, ved å ta hensyn til egenskaper til modellene, så ble den logistiske modellfamilien som bruker 'Systolisk blodtrykk', 'Diastolisk blodtrykk', 'Alder', 'Midjemål' og 'Familiehistorie med hypertensjon' som attributter, tilpasset med regularisering, uten balansert tapsfunksjon, foreslått som det optimale modelloppsett for problemet. For videre arbeid ble det foreslått å analysere subsett av data hvor modellene predikerte store feil eller var uenige på tvers av modellfamilier, i tillegg til å gjennomføre en subjektivitets-analyse av litteraturen som omhandler hypertensjon risiko modeller.
dc.description.abstract	In this thesis we compare different model-families' ability to predict the 11 year binary hypertension status, using data from the Trøndelag Health Study, HUNT. The model-families used are that of logistic regression, random forest and neural networks. The goal of each prediction model was to predict the risk of hypertension at the time of HUNT-3 for otherwise healty people at HUNT-2, using measurements taken at HUNT-2. First, a literature review was conducted to assess the current status of research on hypertension risk prediction models. It was not possible to determine that one model family should be better than the others based on the included literature. With the relevant features identified from the literature study, a subset of relevant data was extracted from the available HUNT data. The final dataset consisted of n=18249 participants and p=19 features. An exploratory analysis of the dataset showed that 'Systolic BP.', 'Diastolic BP.' and 'Age' are the features most correlated with the hypertension status at HUNT-3. 'Cholesterol', 'Hypertension history in close family' and physical characteristics, like 'Waist-circumference', were also notable. A repeated training and testing scheme was used to obtain performance distributions for the three model-families. Along with the performance distribution, the Framingham model was evaluated on the datasubset that matched the features used in the Framingham model. All models were evaluated by the area under the Receiver-Operator-Curve and the Precision-Recall-Curve, a modified Brier score and a score named Tjur's R^2. We conclude that the variability in the dataset had a greater effect than the choice of model-family on the performance measures, as the differences between model-families was smaller than the difference within each model-family. The results suggests that if non-linear effects exists in the data at all, they have little additional predictive power compared to the linear effects. Further, a subset of particularly important features was identified by importance scores. Repeating the analysis using only these features for the logistic regression and random forest model-families produced scores that were equally good as using the full feature set for these model families. The results for all models and feature sets used were comparable to those obtained by the Framingham model and to the relevant literature. Finally, taking into account model properties, a logistic regression model using the features 'Systolic BP.', 'Diastolic BP.', 'Age', 'Waist-circumference' and 'Hypertension history in close family', fitted with some regularization, but without balanced loss, is proposed as the optimal modelling setup for this problem. For future work, analysis of datasubsets where the models were highly wrong or disagreed across model-families is suggested, along with a bias assessment of the literature on hypertension risk models.
dc.language
dc.publisher	NTNU
dc.title	Prediction models for hypertension using the HUNT Study data
dc.type	Master thesis

Files in this item

Name:: no.ntnu:inspera:53287260:26776 ...
Size:: 6.359Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Institutt for matematiske fag [2350]

Show simple item record