Neural networks for genomic prediction
Abstract
Denne masteroppgaven utforsker bruken av nevrale nettverk for genomisk prediksjon på enkeltnukleotidpolymorfismer (SNP-er) fra en vill populasjon av gråspurv. Til tross for suksessen til nevrale nettverk, har de ennå ikke revolusjonert genomisk prediksjon. En forståelse av det genetiske grunnlaget for fenotyper er avgjørende for forskning innen bevaringsbiologi og avlsprogrammer.
"t-distributed stochastic neighbour embedding" (t-SNE) ble utforsket som et alternativ til prinsipalkomponentanalyse (PCA) for visualisering av høydimensjonal SNP-data. t-SNE ga en to-dimensjonal visualisering som i stor grad samsvarte med hvilken øy fuglene var fra.
Totalt 27 nevrale nettverk ble trent på to datasett av ulik størrelse, men med overlapp i SNP-er og individer. Det lille datasettet hadde 3032 individer med 182,854 SNP-er og det store datasettet hadde 6092 individer med 66,018 SNP-er. Fenotypene kroppsvekt, tarsuslengde, eller kroppsvekten etter justering for ikke-genetiske variabler ble predikert. Den uendrede fenotypen ble predikert av et nevralt nettverk som brukte både genetiske og ikke-genetiske variabler samtidig. Ytelsen til nettverkene ble sammenlignet med en lineær model. Konsekvensene av å modellere en vill bestand bestående av flere subpopulasjoner utforskes ved å sjekke ytelsen på et datasett separert etter individers opprinnelsesøy.
Tre klasser av nevrale nettverk ble testet, "multi layered perceptrons", "con-volutional neural networks" and "locally connected neural network". Effekten av å anvende "one-hot encoding" på SNP-er, antall SNP-er og ulike tilnærminger til redusere antall SNP-er før trening av nettverkene ble testet. Den beste tilnærmingen for å selektere SNP-ene var å velge basert på absolutt korrelasjon med fenotypen. De tre nettverkstypene presterte omtrent likt på den justerte kroppsvekten. Det beste ytelsen kom fra en "multi layered perceptrons" som oppnådde en Pearson-korrelasjon mellom den predikerte og sanne fenotypen på $0.291 \; (\sigma = 0.023)$ (på det store datasettet), og overgikk dermed den lineære modellen, som ble trent på det lille datasettet ($0.272 \; (0.029)$). Ingen av de nevrale nettverkene overgikk den lineære modellen på det lille datasettet. "One-hot encoding" var sjeldent gunstig, men presterte godt når den ble kombinert med et "locally connected layer". På de ujusterte fenotypene presterte nettverkene litt bedre enn den lineære modellen på kroppsvekt $( \text{Neuralt nettverk}: 0.347\;(0.042),; \text{Lineær modell}: 0.320\;(0.037)$, men dårligere på tarsuslengde $( \text{Neuralt nettverk}: 0.324\;(0.029),; \text{Lineær modell}: 0.385\;(0.035)$. Resultatene i denne avhandlingen viser at nevrale nettverk kan være et godt alternativ for genomisk prediksjon, spesielt når datasettet er stort. This graduate thesis investigates neural networks for genomic prediction using Single Nucleotide Polymorphisms (SNPs) from house sparrows. Despite the sucess of neural networks in various fields, they have not yet revolutionized genomic prediction. Understanding the genetic basis of phenotypes is crucial for fields like breeding programs and conservation biology.
t-distributed stochastic neighbour embedding (t-SNE) was compared with principal component analysis (PCA) for visualizing high-dimensional SNP data. t-SNE effectively revealed population structures by clustering individuals by their hatch island.
A total of 27 neural networks were trained on two house sparrow datasets containing overlapping samples and SNPs, and the same non-genetic variables. The datasets differed in size: the small dataset had 3032 samples and 182,854 SNPs, and the large dataset had 6092 samples and 66,018 SNPs. The networks predicted body mass, tarsus length, and body mass adjusted for non-genetic variables. A linear mixed model served as a benchmark. The consequences of modelling a wild population consisting of multiple sub-populations is explored by recording the model accuracy separated by the hatch island of the sample.
Three classes of feed forward neural network was tested, multi layered perceptrons, convolutional neural networks and locally connected neural networks. The effect of one-hot encoding applied to SNPs, input size and various approaches to feature selection was also investigated. The best approach to perform feature selection on the SNPs was to choose the SNPs most correlated with the phenotype. The three network types performed similarly when predicting the adjusted body mass. The best performing network, which was trained on the large data set, achieved a Pearson correlation between the predicted and true phenotype of $0.291 \; (\sigma = 0.023)$, outperforming the linear mixed model, which was trained on the small data set ($0.272 \; (0.029)$). None of the neural networks outperformed the linear mixed model on the small data set. One-hot encoding was rarely beneficial, but to performed well when combined with locally connected layers. The neural networks predicting the raw phenotypes (using both genetic and non-genetic data) slightly outperformed the linear model when predicting body mass $( \text{Neaural network}: 0.347\;(0.042),\; \text{Linear model}: 0.320\;(0.037)$, but did worse on tarsus length ($\text{Neural network}:0.324\;(0.029), \; \text{Linear model}: 0.385\;(0.035)$). The results in this thesis shows that neural networks can be a viable option for genomic prediction, especially when dealing with large data sets.