Classifying genes based on promotors with deep neural networks
Master thesis
Permanent lenke
https://hdl.handle.net/11250/3052154Utgivelsesdato
2022Metadata
Vis full innførselSamlinger
Sammendrag
Denne oppgaven bruker enkeltcellede RNA-genekspresjonsdata fra 10xGenomicsfor å studere mulighetene for å bruke et dypt nevralt nettverk for å klassifiseregener basert på transkripsjonssekvenser. Gener i DNA har tilsvarende transkrips-jonsfaktorer som fester seg nær genets transkripsjonsstart. Oppgaven til transkrips-jonsfaktoren er å regulere genets transkripsjon til proteiner, kalt genuttrykk. Genermed lignende genutrykk styres vanligvis av de samme transkripsjonsfaktorene ogdeler ofte lignende sekvenselementer. Derfor kan de samuttrykte genene grupperes.
Det blir introdusert tre metoder utviklet for å gruppere genekspresjonsdata-settet; “Clique-based”, “Set-cover” og hierarkisk. Disse metodene sammenlignesbasert på hver klynges robusthet (kohesjon) og separasjonen mellom klyngene. Degenererte klyngene brukes som klasser for dyplæringsmodellen basert på papiret‘Predicting the sequence specificities of DNA- and RNA-binding proteins by deeplearning’ av Alipanahi et al. Dyplæringmetodens jobb er å trekke ut egenskaper fratranskripsjonsfaktorsekvensene som ligner på de samuttrykte genene for å kunneklassifisere dem. Testing av forskjellige sekvensene fra transkripsjonsstartstedet ogsamholdet til klyngealgoritmen. Dette er gjort for å finne den ideelle sekvensleng-den og kohesjon så er det brukt P-verdi, og kraftanalyse for å finne signifikansenmellom hver kohesjon og hver sekvenslengde.
Hierarkisk klynging nådde en intern kohesjon på 0,125, “Clique-based” på0,075, og “Set-cover” på ≈ 0, 225. Både “Set-Cover” og Hierarkisk beholdt allegener mens “Clique-based” fjernet gener som ikke var i en klynge. For dyplærings-metoden hadde en kohesjon på 0,05 den høyeste gjennomsnittlige AUC-verdi på0,68, mens de andre: 0,075, 0,1 og 0,125, hadde en verdi på ≈ 0.5. For sek-venslengde har alle sekvenser, 500, 1000, 1500 og 2000 en gjennomsnittlig AUC-verdi på ≈ 0, 53.
I denne oppgaven var clustering-metoden som ble brukt Hierarkisk clusteringbasert på overlegne resultater i kohesjon og for å beholde gener. I dyplæring-saspektet fant vi at kohesjonen på 0,05 indikerer et bedre resultat. Det var im-idlertid ingen betydning basert på de forskjellige sekvenslengdene. The thesis use single-cell RNA gene expression data from 10xGenomics to studythe capabilities of using a deep neural network to classify genes based on the tran-scription sequences. Genes in the DNA have corresponding transcription factorsthat attach near the gene’s transcription start site. The assignment of the transcrip-tion factor is to regulate the gene’s transcription to proteins called gene expres-sion. Genes with similar expression profiles are typically controlled by the sametranscription factors and often share similar sequence elements. Therefore, canthe coexpressed genes can be clustered.
This thesis introduces three methods developed to cluster the gene expres-sion dataset; clique-based, set-cover, and Hierarchical. These methods are com-pared based on each cluster’s robustness (cohesion) and the separation betweenthe clusters. The generated clusters are used as classes for the deep learningmodel based on the paper ‘Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning’ by Alipanahi et al. The deep learning method’sjob is to extract features from the transcription factor sequences that are similarto the coexpressed genes to classify them. Thus, testing different upstream se-quence lengths from the transcription start site and the cohesion of the clusteringalgorithm. In order to find the ideal sequence length and cohesion there is used P-value, power analysis is used to find the significance between each cohesion andeach sequence length.
Hierarchical clustering reached an internal cohesion of 0.125, clique-basedof 0.075, and Set-Cover of ≈ 0.225. Both Set-Cover and Hierarchical retainedall genes while clique-based removed genes that were not in a cluster. For thedeep learning method, a cohesion of 0.05 had the highest mean AUC score of0.68, while the other cohesion, 0.075, 0.1, and 0.125, had a score of ≈ 0.5. Forsequence length, all sequences, 500, 1000, 1500, and 2000 have a mean AUCscore of ≈ 0.53.
In this thesis, the clustering method used was Hierarchical clustering basedon superior results in cohesion and retaining genes. In the deep learning aspect,we found that the cohesion of 0.05 indicates a better result. However, there wasno significance based on the different sequence lengths.