Prediction Models of Systolic Blood Pressure Based on HUNT Study Data
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2778330Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
I denne oppgaven blir prediksjonsmodeller for systolisk blodtrykk foreslått, implementert, evaluert og sammenlignet med Framingham modellen, basert på data fra Helseundersøkelsen i Trøndelag, heretter forkortet til HUNT-studien. Modellens evne til å klassifisere den binære systoliske hypertensjon statusen til deltakerne vil også evalueres. I tillegg til dette så ser vi nærmere på effekten fysisk aktivitet, målt gjennom PAI (Personlig Aktivitets-Intelligens), har på det systoliske blodtrykket. Målet til prediksjonsmodellene er å predikere det systoliske blodtrykket ved HUNT3 for personer som i utgangspunktet har sunt blodtrykk ved HUNT2, basert på informasjon fra HUNT2.
Vi starter med å utforske det tilgjengelige datasettet fra HUNT og velge ut de relevante deltakerne og variablene. Deretter korrigerer vi effekten av blodtrykksmedisin på det systoliske blodtrykket ved HUNT3 for deltakerne som bruker slik medisin ved HUNT3. Det endelige datasettet inneholder det systoliske blodtrykket og 15 relevante forklaringsvariabler fra HUNT2, samt noen få ekstra variabler med diverse nyttig informasjon, for $n$= 17 365 deltakere. Vi utfører en utforskende dataanalyse av det endelige datasettet, der hovedresultatene er at distribusjonen til det systoliske blodtrykket ved HUNT3 er tilnærmet normalfordelt med en litt tyngre høyre hale, og at det systoliske blodtrykket ved HUNT3 hovedsakelig er korrelert med det systoliske og diastoliske blodtrykket ved HUNT2, fødselsår og BMI ved HUNT2. Vi standardiserer så forklaringsvariablene før vi tilpasser modellene.
Vi foreslår fire prediksjonsmodeller; en liten og en stor versjon av en Gaussisk generalisert lineær modell, og en liten og en stor versjon av en gamma generalisert modell. I tillegg til dette så implementerer vi en modifisert versjon av Framingham-modellen, som er en velkjent prediksjonsmodell for risk av hypertensjon fra litteraturen, på vårt datasett. Vi oppdager umiddelbart at de tilpassede prediksjonsmodellene har veldig like regresjonskoeffisienter og residualer. Videre ser vi at standardavviket til residualene avhenger lineært av det predikerte systoliske blodtrykket og forklaringsvariablene. Vi observerer også en overraskende liten effekt av fysisk aktivitet, målt gjennom PAI, på det predikerte systoliske blodtrykket. Til slutt, bruker vi noen kjente evalueringsmetoder som rot-middel-kvadrat-avvik, Brier score, Continuous Rank Probability Score, PIT diagram, sensitivitet, spesifisitet og C-statistikken til å evaluere modellenes prediksjoner.
Vi konkluderer med at prediksjonsmodellene vi foreslår er i stand til å identifisere noen klare trender i datasettet, for eksempel viktigheten av fødselsår og tidligere systolisk og diastolisk blodtrykk. Modellene predikerer stort sett høyere sannsynlighet av systolisk hypertensjon for de som blir systolisk hypertensive, og har en C-statistikk som er lik C-statistikken til Framingham modellen av \cite{Framingham}. På den andre siden så er variansen i de individuelle prediksjonsfordelingene stor og modellene klarer ikke å gi nøyaktige prediksjoner av det systoliske blodtrykket ved HUNT3. Som mulig videre arbeid foreslår vi å inkludere livsstilsvariabler fra senere tidspunkter, for eksempel ved HUNT3, og å velge en prediksjonsmodell som modellerer variansen. In this thesis, prediction models of systolic blood pressure are proposed, implemented, evaluated, and compared to the Framingham model, based on data from The Troendelag Health Study, hereafter shortened to the HUNT Study. The ability of the models to classify the binary systolic hypertension status of the participants is also evaluated. In addition to this, we study the effect of physical activity, measured by PAI (Personal Activity Intelligence), on systolic blood pressure. The goal of the prediction models is to predict the systolic blood pressure at HUNT3 for people with initially healthy blood pressure at HUNT2, based on information from HUNT2.
Firstly, we examine the available data set from HUNT and select the relevant population and variables from the total available data set. Secondly, we correct the effect of blood pressure medication on the systolic blood pressure at HUNT3 for the people using this kind of medication at the time of HUNT3. The final data set includes the systolic blood pressure, and 15 relevant explanatory variables from HUNT2, as well as a few other variables with various information, for $n$=17 365 participants. We perform an exploratory data analysis on the final data set, where the main results are that the distribution of systolic blood pressure at HUNT3 is approximately normal with a somewhat heavier right tail, and the systolic blood pressure at HUNT3 is mainly correlated with the systolic and diastolic blood pressure at HUNT2, birth year and BMI at HUNT2. Before fitting the models we standardize the explanatory variables.
We consider four prediction models; a small and large version of a Gaussian generalized linear model, and a small and a large version of a gamma generalized linear model. In addition to this, we implement a modified version of the Framingham model, which is a well-known prediction model of hypertension risk from literature, on our data set. We immediately observe that the fitted prediction generalized linear models have very similar regression coefficients and residuals. Furthermore, we discover that the standard deviation of the residuals depends linearly on the predicted systolic blood pressure and on the explanatory variables. We also observe that the effect of physical activity, measured by PAI, on the predicted systolic blood pressure is surprisingly small. Finally, we evaluate the performance of the models with some common evaluation methods such as root mean squared error, Brier score, Continuous Rank Probability Score, PIT diagrams, sensitivity, specificity, and C-statistic.
We conclude that the prediction models we propose are able to identify some clear trends in the data, for instance the importance of birth year and previous systolic and diastolic blood pressure. Furthermore, they generally predict a higher probability of systolic hypertension for the participants who become systolic hypertensive, and have a C-statistic similar to C-statistic of the Framingham model by \cite{Framingham}. However, the variances in the individual prediction distributions are large and the models are not able to accurately predict the systolic blood pressure at HUNT3. As possible future work we suggest including lifestyle explanatory variables from later time points, for instance HUNT3, and choosing a prediction model that models the variance.