Classifying genes based on promotors with deep
neural networks

Chakroun Jacobsen, William

dc.contributor.advisor	Sætrom, Pål
dc.contributor.author	Chakroun Jacobsen, William
dc.date.accessioned	2023-02-18T18:19:39Z
dc.date.available	2023-02-18T18:19:39Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:12453194
dc.identifier.uri	https://hdl.handle.net/11250/3052154
dc.description.abstract	Denne oppgaven bruker enkeltcellede RNA-genekspresjonsdata fra 10xGenomics for å studere mulighetene for å bruke et dypt nevralt nettverk for å klassifisere gener basert på transkripsjonssekvenser. Gener i DNA har tilsvarende transkrips- jonsfaktorer som fester seg nær genets transkripsjonsstart. Oppgaven til transkrips- jonsfaktoren er å regulere genets transkripsjon til proteiner, kalt genuttrykk. Gener med lignende genutrykk styres vanligvis av de samme transkripsjonsfaktorene og deler ofte lignende sekvenselementer. Derfor kan de samuttrykte genene grupperes. Det blir introdusert tre metoder utviklet for å gruppere genekspresjonsdata- settet; “Clique-based”, “Set-cover” og hierarkisk. Disse metodene sammenlignes basert på hver klynges robusthet (kohesjon) og separasjonen mellom klyngene. De genererte klyngene brukes som klasser for dyplæringsmodellen basert på papiret ‘Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning’ av Alipanahi et al. Dyplæringmetodens jobb er å trekke ut egenskaper fra transkripsjonsfaktorsekvensene som ligner på de samuttrykte genene for å kunne klassifisere dem. Testing av forskjellige sekvensene fra transkripsjonsstartstedet og samholdet til klyngealgoritmen. Dette er gjort for å finne den ideelle sekvensleng- den og kohesjon så er det brukt P-verdi, og kraftanalyse for å finne signifikansen mellom hver kohesjon og hver sekvenslengde. Hierarkisk klynging nådde en intern kohesjon på 0,125, “Clique-based” på 0,075, og “Set-cover” på ≈ 0, 225. Både “Set-Cover” og Hierarkisk beholdt alle gener mens “Clique-based” fjernet gener som ikke var i en klynge. For dyplærings- metoden hadde en kohesjon på 0,05 den høyeste gjennomsnittlige AUC-verdi på 0,68, mens de andre: 0,075, 0,1 og 0,125, hadde en verdi på ≈ 0.5. For sek- venslengde har alle sekvenser, 500, 1000, 1500 og 2000 en gjennomsnittlig AUC- verdi på ≈ 0, 53. I denne oppgaven var clustering-metoden som ble brukt Hierarkisk clustering basert på overlegne resultater i kohesjon og for å beholde gener. I dyplæring- saspektet fant vi at kohesjonen på 0,05 indikerer et bedre resultat. Det var im- idlertid ingen betydning basert på de forskjellige sekvenslengdene.
dc.description.abstract	The thesis use single-cell RNA gene expression data from 10xGenomics to study the capabilities of using a deep neural network to classify genes based on the tran- scription sequences. Genes in the DNA have corresponding transcription factors that attach near the gene’s transcription start site. The assignment of the transcrip- tion factor is to regulate the gene’s transcription to proteins called gene expres- sion. Genes with similar expression profiles are typically controlled by the same transcription factors and often share similar sequence elements. Therefore, can the coexpressed genes can be clustered. This thesis introduces three methods developed to cluster the gene expres- sion dataset; clique-based, set-cover, and Hierarchical. These methods are com- pared based on each cluster’s robustness (cohesion) and the separation between the clusters. The generated clusters are used as classes for the deep learning model based on the paper ‘Predicting the sequence specificities of DNA- and RNA- binding proteins by deep learning’ by Alipanahi et al. The deep learning method’s job is to extract features from the transcription factor sequences that are similar to the coexpressed genes to classify them. Thus, testing different upstream se- quence lengths from the transcription start site and the cohesion of the clustering algorithm. In order to find the ideal sequence length and cohesion there is used P- value, power analysis is used to find the significance between each cohesion and each sequence length. Hierarchical clustering reached an internal cohesion of 0.125, clique-based of 0.075, and Set-Cover of ≈ 0.225. Both Set-Cover and Hierarchical retained all genes while clique-based removed genes that were not in a cluster. For the deep learning method, a cohesion of 0.05 had the highest mean AUC score of 0.68, while the other cohesion, 0.075, 0.1, and 0.125, had a score of ≈ 0.5. For sequence length, all sequences, 500, 1000, 1500, and 2000 have a mean AUC score of ≈ 0.53. In this thesis, the clustering method used was Hierarchical clustering based on superior results in cohesion and retaining genes. In the deep learning aspect, we found that the cohesion of 0.05 indicates a better result. However, there was no significance based on the different sequence lengths.
dc.language	eng
dc.publisher	NTNU
dc.title	Classifying genes based on promotors with deep neural networks
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:1245 ...
Størrelse:: 9.538Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6766]

Vis enkel innførsel

Classifying genes based on promotors with deep neural networks

Tilhørende fil(er)

Denne innførselen finnes i følgende samling(er)