Vis enkel innførsel

dc.contributor.advisorMuff, Stefanie
dc.contributor.authorByhring, Oliver
dc.date.accessioned2021-09-15T17:28:47Z
dc.date.available2021-09-15T17:28:47Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:67702077:38226416
dc.identifier.urihttps://hdl.handle.net/11250/2778390
dc.description.abstractI en regresjonsanalyse er vi ofte interessert i hvilke parametere som har størst påvirkning på responsvariabelen. Selv om det er gjort mye forskning på dette området når det kommer til lineære regresjonsmodeller, er det fortsatt en del som kan utforskes når det kommer til blandede modeller. I lineære regresjonsmodeller er det vanlig at viktigheten til parameterene er en dekomposisjon av variansen som er forklart av modellen. I blandede modeller er det ikke åpenbart hvor stor andel av variansen som er forklart av faste effekter og hvor stor del som er forklart av blandede effekter. Formålet med denne avhandlingen er å diskutere en utvidelse av en eksisterende metode for å bestemme relative viktighet i lineære regresjonsmodeller, og sammenligne den utvidede metoden med relativ viktighet fra random forests. Metoden vil bli illustrert på to eksempler, et simulert datasett og en studie av aktivitetsnivået til barn (SPLASHY). Random forests er en statistisk læringsmetode som naturlig kan gi et mål på relativ viktighet. Selv om det å håndtere blandede effekter i trær ikke er helt rett frem, er det mulig å kode blandede effekt variable som kategoriske variable for å gjøre de mer håndterbare for trær. Estimatet av variabelviktighet fra random forests kan da bli brukt som en sammenligning for det relative variabelviktighetsmålet fra de blandede modellene. Siden viktighetene som blir tildelt variablene i en random forest ikke dekomponerer en modellstatistikk, og størrelsen på viktighetene avhenger av skalaen til responsen, blir viktighetene standardiserte før sammenligning. Den eksisterende metoden for å tildele relativ variabelviktighet i vanlige lineære modeller, kalt LMG-metoden, krever et godhetsmål (goodness-of-fit) på modellen. Det er vanlig å bruke forklart varians, R^2. For blandede lineære modeller er det i midlertid flere måter man kan definere R^2. Viktigst er skille mellom marginal og betinget R^2, hvor marginal kun tar hensyn til variansen forklart av de faste effektene, mens betinget tar hensyn til variansen forklart av både de blandede og de faste effektene. En R pakke med funksjoner for å beregne de relative viktighetene i tilfeldig skjæringspunktmodeller er også et produkt av denne avhandlingen. En beskrivelse for hvordan installere og bruke denne pakken finnes i Appendix A.
dc.description.abstractWhen doing regression analysis, we are often interested in what predictors have the strong influence on the response. While a lot of research has been done in this context on linear regression models, there is still a lot to explore in mixed-effect models. It is common in linear regression models that the importance of the predictors should be a decomposition of the variance explained by the model. In mixed-effect models it is not immediately clear what proportion of variance is explained by the fixed-effects and what is explained by the random-effects. This thesis aims to discuss the extension of an existing method of assigning relative importance in linear regression models and compare the new extended method to variable importances assigned by a random forest method. The methods will be illustrated on two examples, namely a simulated data set and a study of children's activity level (SPLASHY). Random forests are a statistical learning method that naturally can provide a relative importance measure. Although random effects in trees are not so straightforward, it is possible to encode a random effect variables as a categorical variables to make the trees handle the random effects. The variable importance estimate from the random forests can then be used as a comparison for the relative variable importance metric in random intercept models. However, since the importances assigned in a random forest does not decompose a model statistic and the magnitude of the importances depend on the scale of the response, the importances are standardized before comparison. The existing method for assigning relative variable importance in a regular linear regression models, called the LMG-method, requires a goodness-of-fit measure. It is common to use the explained variance, R^2. However, for linear mixed models, there are several ways to define R^2. Most importantly, a distinction is made between marginal and conditional R^2 where the marginal considers only the variance explained by the fixed predictors and the conditional considers the variance explained by the random intercept in addition to the fixed predictors. An R package with functions to calculate the relative importance in random intercept models is also a product of this thesis. How to install and use it is described in Appendix A.
dc.languageeng
dc.publisherNTNU
dc.titleRelative variable importance: A comparison between R^2 decomposition and variable importance in machine learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel