Relative Variable Importance Approaches for Linear Models with Random Intercepts
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3020775Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Å tolke lineære regresjonsmodeller er et vanlig ønske innen forskning. Et vanlig spørsmål forskere er interessert i er hvor viktig en prediktor er for modellen. Å vite den individuelle betydningen av hver prediktor kan bidra å øke forskernes forståelse av dataen som resultatene deres er utledet fra og derfor føre til bedre forskning. Det sannsynligvis mest brukte verktøyet for å bestemme betydningen av en prediktor for en modell er p-verdien. Mer spesifikt så er p-verdien som er involvert den som er tilknyttet nullhypotesen om at koeffisienten til en prediktor er null, mot den alternative hypotesen om at koeffisienten ikke er null. Denne p-verdien er imidlertid ikke egnet til å bestemme viktigheten av en prediktor og gir ingen informasjon om hvilken innvirkning prediktoren har på modellen.For å få bedre informasjon om betydningen av en prediktor for en regresjonsmodell, brukes andre, supplerende, verktøy. Vi vil bruke verktøy basert på bestemmelseskoeffisienten (R^2) på grunn av dens enkle tolkning.
Denne oppgaven foreslår utvidelser av to populære metoder basert på R^2 for lineære regresjonsmodeller, LMG og relative weights metodene, slik at de fungerer på lineære stokastiske skjæringspunktmodeller. Slike modeller er ofte brukt innen felt som biologi, epidemiologi og samfunnsvitenskap. LMG-metoden vurderer gjennomsnittsøkningen i R^2 når prediktorene legges til modellen i forskjellige rekkefølger, noe som er beregningsmessig kostbart. Relative weights-metoden bruker det faktum at de kvadrerte koeffisientene gir nyttig informasjon når prediktorene er ukorrelerte, som gjør metoden mer beregningsmessig effektiv enn LMG-metoden. For å bruke det faktum at de kvadrerte koeffisientene gir nyttig informasjon for ukorrelerte prediktorer, transformerer relative weights-metoden dataene for å få ukorrelerte prediktorer, gir hver av disse en viktighet ved å bruke de kvadrerte koeffisientene, og transformerer deretter viktighetene tilbake til den opprinnelige formen av dataene. Denne transformasjonen krever at alle prediktorene er kontinuerlige, så relative weights-metoden vil ikke fungere med kategoriske prediktorer.
Den utvidede LMG-metoden fungerer ved å behandle de stokastiske skjæringspunktene på samme måte som fikserte effekter og ser på gjennomsnittsøkningen i R^2 når de legges til modellen. Den utvidede relative weights-metoden fungerer ved å kombinere LMG-metoden og relative weights-metoden, hvor de kontinuerlige fikserte effektene transformeres som vanlig i relative weights-metoden, og deretter er enten alle i modellen eller ingen i modellen. Økningen i R^2 når de transformerte kontinuerlige fikserte effektene legges til modellen kan deretter distribueres til hver originale fikserte effekt.
De to foreslåtte utvidelsene brukes i en simuleringsstudie, mens den utvidene relative weights-metoden i tillegg brukes på et eksempel med ordentlige data. Simuleringsstudien viser at den utvidede relative weights-metoden er en nyttig tilnærming til den utvidede LMG-metoden, mens applikasjonen på ordentlige data viser nyttigheten av utvidede relative vekter-metoder ved å sammenligne de beregnede betydningene med andre viktighetsmål, som for eksempel p-verdien og de kvadrerte koeffisientene.Til slutt utvikles R-pakken decompR2, som implementerer de foreslåtte metodene slik at de er enkle å bruke. Å ha de foreslåtte metodene i et brukervennlig format vil forhåpentligvis gjøre det mer sannsynlig at de vil bli brukt og dermed føre til at forskere får en mer robust forståelse av deres data og resultater. Interpreting linear regression models is a common desire in research. A common question researchers are interested in is how important a predictor is to the model. Knowing the individual importance of each predictor can give the researchers a better understanding of their data, from which their results are derived, and therefore lead to better research. The probably most commonly used tool to determine the importance of a predictor to a model is the p-value. The p-value is involved when testing the null-hypothesis that the coefficient of a predictor is zero, against the alternative hypothesis, that the coefficient is not zero. The p-value of that hypothesis test, however, is not suited to determining the importance of a predictor and does not give any information about the impact the predictor has on the model.To get better information on the importance of a predictor to a regression model, other, supplementary, tools are used. We will consider tools based on on the coefficient of determination (R^2) because of it's ease of interpretation.
This thesis proposes extensions of two popular methods based on R^2 for linear regression models, the LMG and relative weights methods, such that they work on linear random intercept models. Such models are commonly used in fields like biology, epidemiology and the social sciences. The LMG method considers the mean increase in R^2 when the predictors are added to the model in different orderings, which is computationally expensive. The relative weights method takes advantage of the fact that the squared coefficients are meaningful when the predictors are uncorrelated to be more computationally efficient than the LMG method. To use the fact that the squared coefficients are meaningful for uncorrelated predictors, the relative weights method transforms the data to get uncorrelated predictors, gives each of these an importance using the squared coefficients, and then transforms the importances back to the original form of the data. The transformation of the data requires that all the predictors are numerical, so the relative weights method does not work with categorical predictors.
The extended LMG method works by considering the random intercepts the same as fixed effects and looks at the mean increase in R^2 when they are added to the model. The extended relative weights method works by combining the LMG method and the relative weights method, where the numerical fixed effects are transformed as usual in relative weights, and then are always either all in the model or none are in the model. The increase in R^2 when the transformed numerical fixed effects are added to the model can then be distributed to each original fixed effect.
The two proposed extensions are applied in a simulation study while the extended relative weights method is also applied on an example with real data. The simulation study shows that the extended relative weights method is a useful approximation of the extended LMG method while the application on real data shows the extended relative weights methods usefulness by comparing the calculated importances to other measures of importance, such as the p-value and squared coefficients.Finally, the R-package decompR2 is developed, which implements the proposed methods such that they are easy to use. Having the proposed methods in an easy to use package will hopefully make it more likely that they will be used and thus lead to researchers having a more robust understandings of their data and results.