Relative variable importance in Bayesian generalized linear mixed models with applications in quantitative genetics
Abstract
Som en av de mest brukte statistiske metodene, har regresjonsmodeller en fundamental posisjon i statistikk. En nøkkeldel av regresjonsanalysen er å skaffe inferens om kovariatene som brukes til å modellere responsvariabelen, og ofte tilegne kovariatene en relativ viktighet, for å kvantifisere, eller rangere, deres bidrag til den statistiske modellen. For å gjøre dette, eksisterer flere metoder fra ulike perspektiver. Til tross for mange forskjellige metoder, har det ikke blitt oppnådd en konsensus, og den tradisjonelle fremgangsmåten med p-verdier har skapt en reproduserbarhetskrise i samfunns- og biomedisinsk forskning. Vårt bidrag for å bøte på dette, er å foreslå en Bayesiansk metode for å beregne relativ variabelviktighet. Denne metoden er designet for at forskere skal tolke den statistiske modellen og dens resultater grundigere, i stedet for å slå seg til ro med konklusjoner basert på en forhåndsbestemt terskel.
Vår metode, betegnet som Bayesiansk Variabel Viktighet (BVV), er implementert ved å overføre logikken fra mer etablerte, frekventistiske metoder, til det Bayesianske rammeverket. BVV er anvendbart på generaliserte lineære blandingsmodeller (GLBM) som har kontinuerlige, binomiske og Poisson fordelte responser. Kjernen i metoden er å benytte relativ vekting på kovariatene før en Bayesiansk GLBM konstrueres. Dette produserer posteriore fordelinger av den relative viktigheten til alle kovariatene i modellen, samt de estimerte fordelingene til den marginale og betingede R-kvadrat. For å gjøre metodikken lett tilgjengelig for forskere på tvers av fagfelt, ble en R pakke kalt BayesianVariableImportance lagd.
Basert på forfatterens tidligere verk for lineære blandingsmodeller, simulasjonsstudier, case studier og en anvendelse på reelle data, har vi vist at BVV metoden er en levedyktig analog til eksisterende frekventistiske metoder. Metoden er i stand til å produsere plausible resultater for GLBM med komplekse kovariansstrukturer, samtidig som den er beregningsmessig effektiv. Forhåpentligvis kan BVV metoden bli brukt på tvers av ulike fagfelt og hjelpe forskere i deres arbeid. Med tanke på at relativ variabelviktighet er et område av stor interesse og aktiv forskning, nylig også i det Bayesianske rammeverket, tror vi at BVV metoden kan bli ytterligere forbedret i fremtiden. As one of the most widely used statistical methods, regression models have a fundamental position in statistics. Obtaining inference on the covariates used to model the response is a key part of regression analysis, and often it is desirable to assign the covariates with a relative importance, in order to quantify, or rank, their impact on the statistical model. To do so, numerous methods from multiple perspectives exist. Despite this, a consensus has not been reached, and the traditional methods using p-values have created a reproducibility crisis in the social and biomedical sciences. Our contribution to help remedy this, is to suggest a Bayesian relative variable importance method. The method is designed to make researchers more thoroughly interpret the statistical model and its results, rather than blindly following a threshold to draw conclusions.
Our method, denoted as Bayesian Variable Importance (BVI), is implemented by transferring the logic of more established, frequentist methods, to the Bayesian framework. The BVI method is applicable to generalized linear mixed models (GLMMs) with continuous, binomial and Poisson distributed responses. The core of the method is to utilize the relative weights method on the covariates of before fitting a Bayesian GLMM and performing calculations with respect to the Bayesian framework. This produces posterior distributions of the relative importance of all covariates present in the model, as well as the estimated distributions of the marginal and conditional R-squared. To make the methodology easily available for researchers across fields, an R package called BayesianVariableImportance was made.
Based on the author's previous work for linear mixed models, simulation studies, case studies and a real world application, we have shown that the BVI method is a viable analogue to the existing frequentist methods. The method is able to produce plausible results for GLMMs with a complex covariance structure, while being simultaneously being computationally efficient. Hopefully, the BVI method can be used across various field and help researchers in their work. With relative variable importance being a topic of much interest and active research, recently also in the Bayesian framework, we believe that the BVI method can be further improved in the future.