A Comparison of Model-Based and Design-Based Methods for Spatial Modelling Using Complex Survey Data
Abstract
I de siste årene har det blitt gjore store framskritt i estimering av barnedødelighet på subnasjonalt nivå med survey data. De mest brukte metodene er design-baserte, som er enkle å implementere og produserer estimater som er konsistente med surveydesignet. Problemet med design-baserte metoder er at de krever tilstrekkelig store samples for å oppnå nøyaktige estimater i hver geografiske enhet av interesse. Design-baserte metoder er derfor ikke andvendbare i områder hvor det ikke er nok innsamlet data. I tillegg kan estimering av dødelighet på grove skalaer i tid og rom gjemme trender på finere skala. Derfor er det nødvendig med alternative metoder for estimering på fin skala i tid og rom.
Denne masteroppgaven gir en sammenligning av design-baserte og modell-baserte fremgangsmåter for estimering av neonatale dødelighetsrater på fylkenivå i Kenya i perioden 2009-2014 med komplekse survey data. Datasettet som er brukt er en demographic and health survey (DHS) utført i Kenya i 2014. En design-basert metode, en romlig glattende design-basert metode og modell-baserte fremgangsmåter er testet. I tillegg er en ny foreslått tilnærming utforsket, som kombinerer design-baserte og modell-baserte ideer. Design-baserte rater er estimert med pakken survey i R. De andre metodene er formulert som Bayesianske hierarkiske modeller og inferens er utført med integrated nested Laplace approximations (INLA) med pakken R-INLA i R. Metodene er evaluert ved hjelp av et sett av mål og på gjennomsnittlig kjøretid i et simuleringsstudie og på ekte survey data.
De modell-baserte metodene var metodene som oppnådde de beste resultatene i simuleringsstudiet. Resultatene av metodene brukt på ekte survey data viser at modell-baserte metoder er bedre enn design-baserte metoder på å håndtere lite data. I tillegg er det også mulig å oppnå estimater på finere romlig skala der design-baserte metoder ikke kan brukes. In recent years, considerable progress has been made in the estimation of subnational child mortality rates with sparse survey data. The widely used design-based methods are easy to implement and produce estimates that are consistent with the survey design. However, design-based methods require sufficiently large sample sizes to obtain accurate estimates in each geographic unit of interest. Design-based methods are therefore not applicable in areas where there is not enough sampled data. Also, estimation of rates on coarse scales may hide fine-scale trends. Alternative methods are necessary for fine-scale space-time estimation, such as model-based methods.
This thesis provides a comparison of design-based and model-based approaches to the estimation of neonatal mortality rates (NMR) at the county level in Kenya for 2009-2014 with complex survey data. The dataset used is a demographic and health survey (DHS) conducted in Kenya in 2014. The design-based approach, a spatially smoothing design-based approach and model-based approaches are tested. In addition, a new approach combining design-based and model-based ideas is explored. Design-based rates are estimated with the package survey in R. The other methods are formulated as Bayesian hierarchical models, and inference is conducted using integrated nested Laplace approximations (INLA) with the package R-INLA in R. The methods are evaluated on a set of scoring rules and on computational time through a simulation study and on real survey data.
The model-based methods were the best performing methods in the simulation study. The results of the methods used on real survey data show that model-based approaches are superior at handling more sparse data. In addition, model-based methods are able to obtain estimates on finer spatial scales, where design-based methods are not applicable.