Statistical methods for analysis of gene expression count data applied to a Crohn's disease dataset
Abstract
Denne oppgaven er motivert av behovet for å bruke gyldige og sterke statistiske modeller og metoder for analyse av genuttrykksdata i medisin, spesielt når flere observasjoner fra samme individ er til stede i data. Det er utført analyse av genuttrykk telledata fra vevsprøver fra pasienter med Crohns sykdom. Generelle statistiske modeller og metoder er presentert for å forklare den underliggende teorien til to etablerte moderne metoder for analyse av genuttrykk telledata. De to metodene heter limma-voom, som er basert på en lineær modell, og DESeq2, som er basert på en generalisert lineær modell. Et tillegg av tilfeldig skjæringspunkt for modellering av korrelerte data er studert for begge modellene. Den lineære blandede modellen er allerede inkludert for limma-voom, mens DESeq2 støtter ikke bruken av en generalisert lineær blandet modell. I en simuleringsstudie tilpasses generaliserte lineære modeller og generaliserte lineære blandede modeller til data simulert av en generalisert lineær blandet modell, og modelltilpasning er evaluert. Den generaliserte lineære blandede modellen er funnet til å være sterkere enn den generaliserte lineære modellen med dette oppsettet, og alternativer til å modellere korrelasjon for DESeq2 er diskutert. Den generaliserte lineære modellen er funnet til å være konservativ for svært korrelerte data i simuleringen. Når den lineære blandede modellen og den generaliserte lineære blandede modellen er tilpasset datasettet for analyse estimeres en korrelasjon for begge modellene. Deres tilpasning er sammenlignet til limma-voom og DESeq2. Noen ekstra gener er funnet til å være statistisk signifikante for modellene som modellerer korrelerte data, sammenlignet med de som ikke gjør det, men disse er ikke de samme for begge modellene. Alle modellene gir gode tilpasninger for det gitte datasettet, og gener av interesse er presentert med sammenligninger på tvers av modeller. En toppliste med konsensus statistisk signifikante gener for alle fire modellene for en gitt kontrast er presentert, og flere av genene har tidligere blitt funnet til å potentielt være relevante for Crohns sykdom. Potensielle endringer for metoder og videre utvidelse av vår generaliserte lineære blandede modell er diskutert. This thesis is motivated by the need to use valid and powerful statistical models and methods in the analysis of gene expression count data in medicine, in particular when multiple observations from the same individual are present in the data. Analysis is performed on gene expression measurement of tissue samples from patients with Crohn's disease. General statistical models and methods is presented to explain the underlying theory of two established modern pipelines for analysis of gene expression count data. The two methods are limma-voom, which is based on a linear model, and DESeq2, which is based on a generalized linear model. An addition of a random intercept for modelling correlated data is studied for both models. The linear mixed model is already included for limma-voom, but DESeq2 does not support the use of a generalized linear mixed model. In a simulation study generalized linear models and generalized linear mixed models are fit to data simulated by generalized linear mixed model, and the model fit is evaluated. The generalized linear mixed model is found to be more powerful than the generalized linear model with this setup, and alternatives to model correlation for DESeq2 is discussed. The generalized linear model is found to be conservative for highly correlated data in the simulation. When the linear mixed model and the generalized linear mixed model are fit to the dataset for analysis a correlation is estimated for both models. Their fits are compared to the fit for the limma-voom and DESeq2 pipelines. Some additional genes are found to be statistically significant for the models that model correlated data compared to the ones that do not, but these are not the same for both models. All models give decent fit for the provided dataset, and genes of interest are presented with comparisons across models. A top list with consensus statistically significant genes for all four models for a given contrast are presented, and multiple of the genes are recognized as previously found potentially relevant genes for Crohn's disease. Alternate approaches and further extension of our generalized linear mixed model are discussed.