A situation-specific solution to Freedman's paradox
Bachelor thesis
Permanent lenke
https://hdl.handle.net/11250/2980276Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Sammendrag
Noen forskningsprosjekter baserer seg i stor grad på p-verdier for variabelvalg og rapportering av styrken på variablers relasjon til responsvariabelen. Det er vist at denne måten å utføre forklarende modellering fører til overestimering av parameterestimatenes størrelse. Hensikten med denne oppgaven er å presentere en alternativ og forbedret måte å utføre forklarende modellering med flere imputerte datasett. Oppgaven introduserer lasso, MICE prosedyren, kryssvalidering og bootstrap metoden, samt hvordan disse kombineres i en algoritme for å produsere pålitelige parameterestimater og tilhørende konfidensintervall.Resultatene viser en betydelig overestimering av parameterestimatene ved bruk av den p-verdi baserte metoden og konkluderer med at den foreslåtte metoden er å foretrekke. Some research uses p-values to a large extent for variable selection and the reporting of variables' explanatory power. However, this way of performing explanatory modelling has been shown to overestimate the parameter estimates. The purpose of this thesis is to present an alternative and improved way of performing explanatory modelling with multiple imputed data sets. The thesis introduces lasso, the multivariate imputation by chained equation procedure, cross-validation and the bootstrap; as well as how these are combined in a scheme to produce reliable parameter estimates and corresponding confidence intervals. The results obtained show a considerable overestimation of the parameter estimates from the p-value based approach and conclude that the proposed method is preferable.