A Polygenic Risk Score Analysis for Cardiovascular Diseases using a PheWAS Network
Abstract
Feltene genome-wide association studies og nettverksteori har hatt stor utvikling over de siste årene, og har bidratt til viktige oppdagelser og teknologier. I denne masteroppgaven har bruk av nettverksteori og genome-wide association studies blitt kombinert for å gjennomføre en polygenic risk score analyse, i tillegg til å lage et nettverk ved bruk av PheWeb-datasettet fra UK Biobank. Dette nettverket, gen-fenotype-fenotype nettverket, ble konstruert for å sammenligne det med the human disease network. The human disease network ble presentert i en artikkel publisert i 2007, og viser sykdommer som er forbundet hvis de er assosiert med mutasjoner i felles gener. Dette nettverket demonstrerte at et stort antall sykdommer har et felles genetisk opphav. Et slikt nettverk ble derfor konstruert for denne masteroppgaven også, men her er fenotyper forbundet hvis de er assosiert med enkeltnukleotidpolymorfi (SNPs) i de samme genene. Sammenligningen viste at de to nettverkene har få sykdommer og forbindelser til felles, men at det er visse likheter i grupperingsmønsteret til noen krefttyper.
Polygenic risk scores for deltagere av Helseundersøkelsen i Trøndelag ble regnet ut for hjerte- og karsykdommene angina pectoris, hjerteinfarkt, koronar aterosklerose og essensiell hypertensjon. Hypotesen var at å bruke at større antall SNPs i kalkulasjonene, og å bruke SNP-fenotype nettverket til å avgjøre hvilke SNPs som skulle inkluderes, ville forbedre hvor nøyaktig polygenic risk scores kunne predikere sykdom. SNP-fenotype nettverket viser forbindelser mellom SNPs og fenotyper, og ble også konstruert ved bruk av PheWeb-datasettet. Resultatene for angina pectoris og essensiell hypertensjon viste en forbedring i sykdomsprediksjon når flere SNP-er ble brukt i kalkulasjonene, og korrelerte derfor mest med de forventede resultatene. Estimatene av odds ratio for å få disse sykdommene med en PRS i de øverste persentilene av PRS distribusjonen, ble også høyere når et større antall SNP-er ble inkludert. Men, majoriteten av estimerte odds ratios var upålitelige på grunn av høye p-verdier. I denne analysen varierer evnen polygenic risk scores har til å forutse tilfeller av de fire ulike sykdommene, men generelt er nøyaktigheten av sykdomsprediksjonen lavere enn forventet. The scientific fields of genome-wide association studies and network theory have experienced considerable development over the past years, and have generated and contributed to important discoveries and new technologies. In this master thesis, the use of network theory and genome-wide association studies have been combined to perform a polygenic risk score analysis, and to construct a network using the PheWeb dataset from the UK Biobank. This network, the gene-phenotype-phenotype network, was constructed in order to compare it with the human disease network. The human disease network was presented in an article published in 2007, and shows diseases connected through mutations in common genes. This network demonstrated that a large number of diseases have a common genetic origin. The same type of network was therefore constructed for this thesis, but here, phenotypes are connected when associated with single nucleotide polymorphisms (SNPs) in common genes. The comparison showed that the two networks have few diseases and connections in common, however, there are certain similarities in the clustering pattern of cancers.
The polygenic risk scores for participants of The Trøndelag Health Study were calculated for the cardiovascular diseases angina pectoris, myocardial infarction, coronary atherosclerosis and essential hypertension. The hypothesis was that using a larger number of SNPs in the calculations, and using the SNP-phenotype network to determine which SNPs to include, would improve the prediction accuracy of the polygenic risk scores. The SNP-phenotype network shows connections between SNPs and phenotypes, and was also constructed using the PheWeb dataset. The results for angina pectoris and essential hypertension showed an improvement in prediction accuracy when a larger number of SNPs were included in the calculations, and were thus most highly correlated with the initial hypothesis. For these diseases, the estimated odds ratio of developing the disease with a score in the top percentiles of the distribution, were higher when a larger number of SNPs was included in the calculations. However, the majority of the estimations were unreliable due to high p-values. Even though there was an improvement when a larger number of SNPs was included for some of the diseases, the overall disease prediction accuracy of the polygenic risk score was lower than expected.