Genomic Prediction in a Wild Population Using Gradient Boosting Algorithms
Abstract
Genomisk prediksjon bruker genetisk data til å prediktere det genetiske bidraget til et individs fenotype. Genomisk prediksjon er mye brukt i fagfeltet genetisk økologi som et verktøy til å forstå samspillet mellom genetikk og fenotyper, noe som igjen øker forståelsen for prosesser relatert til evolusjon. I denne masteroppgaven har vi undersøkt hvordan en klasse av modeller kalt "gradient boosting" kan brukes til å genomisk prediktere to fenotyper, kroppsvekt og tarsuslengde, i en populasjon av ville gråspurv. Gråspurv-populasjonen er lokalisert langs Helgelandskysten i Nord-Norge og har vært studert siden 1993. Det genetiske materialet i denne populasjonen er tilgjengelig gjennom sekvenserte enkeltnukleotidpolymorfismer (SNP-er). "Gradient boosting"-modeller har tidligere blitt brukt for genomisk prediksjon innenfor plante- og dyreavl, men aldri før i en vill populasjon.
Gradient boosting er et fleksibelt rammeverk for å bygge en meta-modell bestående av en rekke base-modeller. Vi har undersøkt tre forskjellige valg av base-modeller og sammenlignet hvordan det påvirker presisjonen i den genomiske prediksjonen. De tre forskjellige base-modellene er binære regresjonstrær, "elastic net" og stykkevis lineære regresjonstrær. Disse "gradient boosting" ble sammenlignet med en avansert Bayesiansk dyremodell. Elastic net og den Bayesianske dyremodellen er lineære, mens binære regresjonstrær og stykkevis lineære regresjonstrær er tre-baserte. Vi undersøkte også hvordan en forklarbarhets metode kalt Shapley additive forklarings verdier (SHAP verdier) kan bli brukt på en tre-basert modell til å undersøke viktigheten av ulike SNP i modellen. SHAP-verdiene ble så sammenlignet med resultatene fra en univariat blandet lineær genomomfattende assosiasjonsstudie (GWAS).
Resultatene fra masteroppgaven viser at gradient boosting-modeller er konkurransedyktige med den Bayesianske dyremodellen. Valget av hvilken fenotype man ønsker å modellere påvirker hvilken basemodell som bør bli brukt. De tre-baserte modellene ga litt bedre ytelse enn de andre modellene når kroppsvekt ble modellert. Når tarsuslengde ble modellert, gjorde de lineære modellene det litt bedre enn de tre-baserte modellene. I oppgaven diskuterer vi at regresjonstrær i hovedsak modellerer epistatiske effekter, mens de lineære fokuserer på additive effekter. Derfor er en forklaring på hvorfor tre-baserte modeller er bedre for kroppsvekt at kroppsvekt er mer avhengig av epistatiske effekter enn det tarsuslengde er. Vi fant lite korrelasjon mellom SHAP-verdiene fra en tre-basert modell og resultatene fra en univariat GWAS, noe som kan indikere at SNP-er assosiert med epistatiske effekter ikke er de samme som de assosiert med additive effekter.
Vi konkluderer med at gradient boosting-modeller kan være effektive i genomisk prediksjon, og at det beste valget av base-modell er avhengig av kompleksiteten til fenotypen man ønsker å undersøke. Hvis man primært ønsker å se på additive effekter bør det benyttes en lineær modell, mens hvis epistatiske effekter er mest interessant så burde en tre-basert modell benyttes. I tilegg konkluderer vi med at SHAP-verdier kan være et alternativ til univariat GWAS for å identifisere SNP-er assosiert med epistatiske effekter. Genomic prediction is the cross-point between statistics and biology, where genetic data is used to predict the genetic contribution to an individual's phenotype. Genomic prediction is important in the field of genetic ecology as it allows ecologists to understand how genetics influence the phenotype, which increases their understanding of the processes related to evolution. In this thesis, we have examined how a class of models denoted gradient boosting can be used for genomic prediction of two traits, body mass and tarsus length, in a population of wild house sparrows. The wild house sparrow population is located off the Helgeland coast in northern Norway and has been under study since 1993. The genetic material is available through sequenced single nucleotide polymorphisms (SNPs). Gradient boosting models have been used for genomic prediction in animal and plant breeding, but never before in a wild population.
Gradient boosting is a flexible framework that builds an ensemble of any base learner. We have deployed different base learners and compared their performances. The base learners fitted were the binary regression tree, the elastic net, and the piecewise linear regression tree. The gradient boosting models were compared to a state-of-the-art Bayesian animal model. We say that the elsatic net and the Bayesian animal model are linear based models, while a binary regression tree and piecewise linear regression trees are tree-based. Finally, we used an explainable AI method denoted Shapley additive explanation (SHAP) values on a tree-based model to assess SNP importance in the model. The SHAP values were further compared to results from a univariate linear mixed genome-wide association study (GWAS).
Our results show that the gradient boosting models are competitive to the Bayesian animal model. However, the choice of trait to predict determines which base learner is the best choice. When body mass was used as the response variable, the tree-based models performed slightly better than the linear-based boosting models and the animal model. On the other hand, when tarsus length was used as the response variable, the linear-based boosting models and the animal model performed slightly better than the tree-based models. We discuss that regression trees mainly incorporate epistatic effects while the linear-based models focus on additive effects. An explanation of why regression trees are better for body mass is that body mass can rely more on epistatic effects than tarsus length. Results from the comparison between the SHAP values and a univariate GWAS show little correspondence between the SNPs with the highest SHAP value and those with the lowest GWAS $p$-value. As the SHAP values explain an ensemble of regression trees that primarily model epistatic effects, the low correspondence indicates that the SNPs associated with epistatic effects are not the same as those associated with additive effects.
We conclude that gradient-boosting models can be effective in genomic prediction and that the choice of the base learner is dependent on the complexity of the trait one wishes to model and the genetic effects one wants to model. If additive effects are in focus, a linear-based model should be deployed, and if epistatic effects are of interest, a tree-based model is a good choice. We also conclude that SHAP values can be an alternative to standard univariate GWAS to identify SNPs associated with epistatic effects.