Relative variable importance: A comparison between R^2 decomposition
and variable importance in machine learning

Byhring, Oliver

dc.contributor.advisor	Muff, Stefanie
dc.contributor.author	Byhring, Oliver
dc.date.accessioned	2021-09-15T17:28:47Z
dc.date.available	2021-09-15T17:28:47Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:67702077:38226416
dc.identifier.uri	https://hdl.handle.net/11250/2778390
dc.description.abstract	I en regresjonsanalyse er vi ofte interessert i hvilke parametere som har størst påvirkning på responsvariabelen. Selv om det er gjort mye forskning på dette området når det kommer til lineære regresjonsmodeller, er det fortsatt en del som kan utforskes når det kommer til blandede modeller. I lineære regresjonsmodeller er det vanlig at viktigheten til parameterene er en dekomposisjon av variansen som er forklart av modellen. I blandede modeller er det ikke åpenbart hvor stor andel av variansen som er forklart av faste effekter og hvor stor del som er forklart av blandede effekter. Formålet med denne avhandlingen er å diskutere en utvidelse av en eksisterende metode for å bestemme relative viktighet i lineære regresjonsmodeller, og sammenligne den utvidede metoden med relativ viktighet fra random forests. Metoden vil bli illustrert på to eksempler, et simulert datasett og en studie av aktivitetsnivået til barn (SPLASHY). Random forests er en statistisk læringsmetode som naturlig kan gi et mål på relativ viktighet. Selv om det å håndtere blandede effekter i trær ikke er helt rett frem, er det mulig å kode blandede effekt variable som kategoriske variable for å gjøre de mer håndterbare for trær. Estimatet av variabelviktighet fra random forests kan da bli brukt som en sammenligning for det relative variabelviktighetsmålet fra de blandede modellene. Siden viktighetene som blir tildelt variablene i en random forest ikke dekomponerer en modellstatistikk, og størrelsen på viktighetene avhenger av skalaen til responsen, blir viktighetene standardiserte før sammenligning. Den eksisterende metoden for å tildele relativ variabelviktighet i vanlige lineære modeller, kalt LMG-metoden, krever et godhetsmål (goodness-of-fit) på modellen. Det er vanlig å bruke forklart varians, R^2. For blandede lineære modeller er det i midlertid flere måter man kan definere R^2. Viktigst er skille mellom marginal og betinget R^2, hvor marginal kun tar hensyn til variansen forklart av de faste effektene, mens betinget tar hensyn til variansen forklart av både de blandede og de faste effektene. En R pakke med funksjoner for å beregne de relative viktighetene i tilfeldig skjæringspunktmodeller er også et produkt av denne avhandlingen. En beskrivelse for hvordan installere og bruke denne pakken finnes i Appendix A.
dc.description.abstract	When doing regression analysis, we are often interested in what predictors have the strong influence on the response. While a lot of research has been done in this context on linear regression models, there is still a lot to explore in mixed-effect models. It is common in linear regression models that the importance of the predictors should be a decomposition of the variance explained by the model. In mixed-effect models it is not immediately clear what proportion of variance is explained by the fixed-effects and what is explained by the random-effects. This thesis aims to discuss the extension of an existing method of assigning relative importance in linear regression models and compare the new extended method to variable importances assigned by a random forest method. The methods will be illustrated on two examples, namely a simulated data set and a study of children's activity level (SPLASHY). Random forests are a statistical learning method that naturally can provide a relative importance measure. Although random effects in trees are not so straightforward, it is possible to encode a random effect variables as a categorical variables to make the trees handle the random effects. The variable importance estimate from the random forests can then be used as a comparison for the relative variable importance metric in random intercept models. However, since the importances assigned in a random forest does not decompose a model statistic and the magnitude of the importances depend on the scale of the response, the importances are standardized before comparison. The existing method for assigning relative variable importance in a regular linear regression models, called the LMG-method, requires a goodness-of-fit measure. It is common to use the explained variance, R^2. However, for linear mixed models, there are several ways to define R^2. Most importantly, a distinction is made between marginal and conditional R^2 where the marginal considers only the variance explained by the fixed predictors and the conditional considers the variance explained by the random intercept in addition to the fixed predictors. An R package with functions to calculate the relative importance in random intercept models is also a product of this thesis. How to install and use it is described in Appendix A.
dc.language	eng
dc.publisher	NTNU
dc.title	Relative variable importance: A comparison between R^2 decomposition and variable importance in machine learning
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:67702077:38226 ...
Størrelse:: 6.927Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for matematiske fag [2352]

Vis enkel innførsel

Relative variable importance: A comparison between R^2 decomposition and variable importance in machine learning

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)