Vis enkel innførsel

dc.contributor.advisorLangaas, Mette
dc.contributor.advisorBye, Anja
dc.contributor.authorErfjord, Lisa
dc.date.accessioned2021-12-21T18:19:37Z
dc.date.available2021-12-21T18:19:37Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:67702077:20918879
dc.identifier.urihttps://hdl.handle.net/11250/2835298
dc.description.abstractI denne oppgaven analyseres interaksjonseffekten mellom genetiske faktorer og fysisk aktivitet når det kommer til risiko for å utvikle hjerte- og karsykdommer. Dette inkluderer å lage datasett, bli kjent med teorien fra en medisinsk og statistisk synsvinkel og å undersøke flere mulige metoder for å analysere interaksjonseffekten ved bruk av statistiske modeller.\newline Vi bruker et datasett fra HUNT, som er en helseundersøkelse fra Nord-Trøndelag, og sykehusdata fra Helse Nord-Trøndelag. Datasettet som brukes i denne analysen inneholder informasjon om 41 005 deltagere, der 1 303 deltagere utvikler en form for hjerte- og karsykdommer i løpet av ni år. Vi bruker åtte miljø kovariater, inkludert selvrapportert fysisk aktivitet. De fire første prinsipale komponentene er også inkludert som kovariater for å korrigere for genetisk og miljøbasert korrelasjon mellom deltagerne. De genetiske kovariatene er 50 genetiske markører som har vist seg å øke risikoen for å utvikle hjerte- og karsykdommer. Responsen er om deltagerne har utviklet en form for hjerte- og karsykdom eller ikke. \newline I denne analysen brukes to typer statistiske modeller. Først brukes random forest og extreme gradient boosting, som er tre-ensemble modeller. For disse modellene kan delvis avhengige plot bli brukt for å analysere interaksjonseffekten. Vi bruker også logistisk regresjon, der både hovedeffekten og interaksjonseffekten blir estimert. I logistisk regresjon vil informasjon fra de tilpassede tre-ensemblemodellene bli brukt til å spesifisere den funksjonelle relasjonen mellom variablene og responsen. \newline Basert på resultatene fra de ulike statistiske modellene konkluderer vi med at fysisk aktivitet reduserer risikoen for å utvikle hjerte- og karsykdommer. Noen av de genetiske markørene hadde også en signifikant effekt på sannsynligheten for å utvikle hjerte- og karsykdommer. Men interaksjonseffekten mellom de genetiske markørene og fysisk aktivitet viste seg å ikke være signifikant. Vi kan derfor ikke konkludere med at fysisk aktivitet reduserer genetisk risiko for å utvikle hjerte- og karsykdommer. Til slutt diskuteres styrker og svakheter ved denne analysen, og vi presenterer muligheter for videre arbeid.
dc.description.abstractThe primary focus of this thesis is to investigate the interaction effects of genetic factors and physical activity on the future risk of developing cardiovascular heart diseases. This includes getting familiar with the data and the theory of both the medical and statistical aspects. It also includes investigating different approaches to analyzing the interaction effect by using several statistical models. \newline We use the HUNT data set from the Trøndelag Health Study and data on hospital admission from Helse Nord-Trøndelag. Our final data set consists of 41 005 individuals, where 1 303 individuals developed cardiovascular heart disease within nine years. We have eight environmental covariates, including self-reported physical activity. Additionally, we add four principal components as covariates to address population stratification. The genetic factors are 50 different genetic markers that are known to increase the risk of cardiovascular heart disease. The outcome is whether the participant has suffered from cardiovascular heart disease or not. \newline In this analysis, the interaction effect is modeled using two different approaches for two different types of models. First, we fit two tree ensemble models, namely random forest and extreme gradient boosting. For the tree ensemble models, we investigate the interaction effect by using partial dependence plots. We also fit a logistic regression model, where we investigate the interaction effect in a model with both the main effects and the interaction effects. In the logistic regression, we use information from the tree ensemble model fits to specify the functional relationships between the covariates and the outcome. \newline From fitting the models, we conclude that being inactive increases the predictive probability of developing cardiovascular heart disease. Furthermore, some of the genetic markers affect the predictive probability of developing cardiovascular heart disease. However, the physical activity-genetic marker interaction effect does not appear to affect the predictive probability of developing CHD for any of the genetic markers. Hence, we cannot conclude that physical activity can reduce the effects of genetic predisposition to cardiovascular disease based on this analysis. Finally, we discuss the strengths and weaknesses of our analysis and present possible future work.
dc.languageeng
dc.publisherNTNU
dc.titleStatistical Analysis of Interaction Effects Between Environmental and Genetic Factors
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel