dc.contributor.advisorFollestad, Turid
dc.contributor.advisorMartino, Sara
dc.contributor.authorLeithe, Sigrid
dc.description.abstractI denne oppgaven tar vi opp problemet med å analysere data målt på en kontinuerlig skala med en nedre deteksjonsgrense og null-inflasjon, for univariate, bivariate og longitudinelle data. Vi spesifiserer en sensurert binær blandingsmodell, som foreslått av Moulton og Halsey (\citeyear{moulton}). Modellen består av en diskret del som representerer andelen nuller i utvalget, og en kontinuerlig del for størrelsen på de positive responsene. Denne oppgaven gir en detaljert evaluering av den binære blandingsmodellen med intervallsensurering, sammenlignet med dens enklere varianter, Tobitmodellen og den usensurerte binære blandingsmodellen, samt å naivt bytte ut de sensurerte observasjonene med halvparten av deteksjonsgrensen. Vi simulerer data med varierende deteksjonsgrenser, parameterverdier og mengde nuller. De tre enklere modellene gir misvisende resultater ettersom de underliggende antakelsene brytes. Også den binære blandingsmodellen med intervallsensurering er upassende i enkelte scenario grunnet overparametrisering. De fire kandidatmodellene blir anvendt på to datasett: (1) Konsentrasjoner av borrelioseantistoff i Sør-Trøndelag, og (2) data med cytokinkonsentrasjoner hos gravide kvinner med ulike autoimmune revmatiske sykdommer. Klyngestrukturen i de sistnevnte dataene grunnet repeterte målinger blir tatt hånd om ved å inkludere tilfeldige effekter i begge delene av blandingsmodellen. I den første anvendelsen viser den binære blandingsmodellen med intervallsensurering seg å fungere godt til å estimere prevalensen av borrelioseinfeksjoner, men et lavt antall usensurerte observasjoner gjør at estimeringene blir svært usikre. Derfor kan enkel logistisk regresjon sies å være mer praktisk. I den andre anvendelsen ble tre cytokiner med ulik andel sensurerte observasjoner analysert. For alle tre viste de binære blandingsmodellene seg å være overlegne endelsmodellene. Signifikante forskjeller i tidsprofilene mellom diagnosene ble funnet i to av cytokinene. I søket etter multivariate metoder for å analysere cytokindataene, ble tre bivariate modeller undersøkt; En bivariat Tobitmodell, en binær blandingsmodell og en firedels blandingsmodell. De to førstnevnte har vist lovende resultater i andre anvendelser, men ingen av modellene var adekvate for de aktuelle dataene.
dc.description.abstractIn this thesis, we address the problem of analyzing data measured on a continuous scale with a lower limit of detection and zero inflation, for univariate, bivariate, and longitudinal data. We specify a censored two-part mixture model, as proposed by \citet{moulton}. The model consists of one discrete part representing the proportion of the sample with zero values, and one continuous part for the magnitude of the response. This thesis provides a detailed evaluation using simulations of the two-part model with interval censoring compared to its simpler variants, the Tobit model and the uncensored two-part model, as well as naive substitution of the censored observations with half the detection limit. We simulate data scenarios with varying detection limits, parameter values, and proportions of zeroes. The three simpler models resulted in misleading parameter estimates as their assumptions were violated, but also the censored two-part model was inappropriate in some scenarios due to over-parameterization. The four candidate models are applied to two datasets: (1) Borrelia antibody concentrations in Sør-Trøndelag, and (2) data on cytokine concentrations in pregnant women with different autoimmune rheumatic diseases. The cluster structure of the data due to repeated measurements in the latter application is accounted for by including random effects in both parts of the model. In the former application, the two-part model with interval censoring is demonstrated to work well for estimating the prevalence of borrelia infections, but the high amount of uncertainty due to a low number of uncensored observations makes the simpler logistic regression more feasible in this particular case. In the second application, three cytokines with different proportions of censored samples are analyzed. For all three, the binary mixture models are found to be superior to the one-part models. With the two-part models, significant differences in the time profiles between the diagnostic groups were found in two of the cytokines. In a search for multivariate methods for analysis of the cytokine data, we specified three bivariate models; A bivariate Tobit model, a two-part mixture model, and a four-part mixture model. The two first-mentioned have shown promise in other applications, but none of the models were suitable for the problem at hand.
dc.titleStatistical Methods for the Analysis of Data with a Lower Limit of Detection
dc.typeMaster thesis

