A shared Parameter Model Accounting for Dropout Not at Random: A Case Study on Blood Pressure in the HUNT Study
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2996839Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
I dette arbeidet foreslår vi å tilpasse en felles parametermodell (SPM) i et Bayesianske rammeverket for å ta hensyn til manglende data på grunn av frafall i befolkningsbaserte helseundersøkelser. Vi bruker data fra helse undersøkelse Trøndelag (HUNT) i en prediktiv modell for systolisk blodtrykk med en modelleringskohort bestående av $64385$ deltagere hvorav $43.1\%$ falt fra før påfølgende undersøkelse. Videre validerer vi modellene på et valideringsdatasett. Vi foreslår en ny evaluaringsmetode basert på å sammenligne prediktiksjoner fra en tilpasset SPM med og uten å betinge på om deltagerne er tilstede eller ikke. Hvis dataen mangler tilfeldig (MAR) er det ingen ekstra informasjon i å vite manglende status og derfor heller ingen fordel å betinge på denne statusen.
Resultatene viser at en SPM er egnet for inferens på datasett av denne størrelse og struktur og indikerer at blood trykk manglende grunnet frafall i HUNT studien mangler ikke-tilfeldig (MNAR). SPM gir forskjellige parameterestimater sammenlignet med en naiv modell som antar at dataene er MAR.Gjennom simuleringsstudier der dataene er MNAR og MAR, får vi indikasjoner på at SPM presterer godt både når data er MNAR og MAR, i motsetning til den naive modellen, som kun presterer godt når data er MAR. Imidlertid gir begge modellene forventningsskjeve estimat når dataene er MNAR.
SPM og naive modeller blir sammenlignet basert på prediktive ferdigheter for valideringsdatasettet.Den naive modellen presterer litt bedre enn SPM når det gjelder å forutsi blodtrykket hos de tilstedeværende deltakerne. Vi finner imidlertid gjennom simuleringsstudier at SPM presterer bedre enn den naive modellen på deltakerne som ikke er tilstede når dataene er MNAR selv om den naive modellen presterer best på de tilstedeværende deltagerne.
Gjennom dette arbeidet får vi sterke indikasjoner på at det bør tas hensyn til data MNAR ved modellering av systolisk blodtrykk ved bruk av data fra longitudinelle helseundersøkelse. Vi observerer også at blood trykk manglende grunnet frafall i HUNT studien mangler ikke-tilfeldig. Å ta hensyn til dette gir en mer representativ modell enn vi får ved å anta at data mangler tilfeldig. In this work, we propose using a shared parameter model (SPM) in the Bayesian framework to account for missing data due to dropout in population-based health surveys. We use data from the longitudinal Trøndelag Health (HUNT) Study in a predictive model for systolic blood pressure with a modeling cohort consisting of $64385$ participants out of which $43.1\%$ dropped out. Further, an validation cohort is used to validate the model.
A novel evaluation scheme based on comparing the predictive performance of the fitted SPM with and without conditioning on the missing status is proposed.If the data are missing at random (MAR), there is no additional information in the missing process and no extra benefit of conditioning on the missing status.
The results demonstrate that the SPM is suitable for inference for a dataset of this size and structure and indicates that blood pressure missing due to dropout in the HUNT Study is missing not at random (MNAR). The SPM gives different parameter estimates than a naive model assuming data to be MAR.Through simulation studies based on models the suggested SPM and the naive model with MAR and MNAR data, we obtain indications that the SPM performs well on both MAR and MNAR data in contrast to the naive model, which only performs well when data is MAR. However, both models are biased when the data is MNAR.
SPM and naive models are compared based on predictive performance for the validation dataset. The naive model performs slightly better than the SPM when predicting blood pressure for the present participants. However, from the simulation study based on the SPM, we find that the naive model also performs better for the present participants, while the SPM performs better for the dropouts.
Through this work, we obtain strong indications that data MNAR should be accounted for when modeling systolic blood pressure using data from a longitudinal health survey. We also observe that blood pressure missing due to dropout in the HUNT Study is MNAR. Accounting for this gives a better representation of the data than assuming it to be MAR.