dc.contributor.advisor | Sætrom, Pål | |
dc.contributor.author | Chakroun Jacobsen, William | |
dc.date.accessioned | 2023-02-18T18:19:39Z | |
dc.date.available | 2023-02-18T18:19:39Z | |
dc.date.issued | 2022 | |
dc.identifier | no.ntnu:inspera:112046434:12453194 | |
dc.identifier.uri | https://hdl.handle.net/11250/3052154 | |
dc.description.abstract | Denne oppgaven bruker enkeltcellede RNA-genekspresjonsdata fra 10xGenomics
for å studere mulighetene for å bruke et dypt nevralt nettverk for å klassifisere
gener basert på transkripsjonssekvenser. Gener i DNA har tilsvarende transkrips-
jonsfaktorer som fester seg nær genets transkripsjonsstart. Oppgaven til transkrips-
jonsfaktoren er å regulere genets transkripsjon til proteiner, kalt genuttrykk. Gener
med lignende genutrykk styres vanligvis av de samme transkripsjonsfaktorene og
deler ofte lignende sekvenselementer. Derfor kan de samuttrykte genene grupperes.
Det blir introdusert tre metoder utviklet for å gruppere genekspresjonsdata-
settet; “Clique-based”, “Set-cover” og hierarkisk. Disse metodene sammenlignes
basert på hver klynges robusthet (kohesjon) og separasjonen mellom klyngene. De
genererte klyngene brukes som klasser for dyplæringsmodellen basert på papiret
‘Predicting the sequence specificities of DNA- and RNA-binding proteins by deep
learning’ av Alipanahi et al. Dyplæringmetodens jobb er å trekke ut egenskaper fra
transkripsjonsfaktorsekvensene som ligner på de samuttrykte genene for å kunne
klassifisere dem. Testing av forskjellige sekvensene fra transkripsjonsstartstedet og
samholdet til klyngealgoritmen. Dette er gjort for å finne den ideelle sekvensleng-
den og kohesjon så er det brukt P-verdi, og kraftanalyse for å finne signifikansen
mellom hver kohesjon og hver sekvenslengde.
Hierarkisk klynging nådde en intern kohesjon på 0,125, “Clique-based” på
0,075, og “Set-cover” på ≈ 0, 225. Både “Set-Cover” og Hierarkisk beholdt alle
gener mens “Clique-based” fjernet gener som ikke var i en klynge. For dyplærings-
metoden hadde en kohesjon på 0,05 den høyeste gjennomsnittlige AUC-verdi på
0,68, mens de andre: 0,075, 0,1 og 0,125, hadde en verdi på ≈ 0.5. For sek-
venslengde har alle sekvenser, 500, 1000, 1500 og 2000 en gjennomsnittlig AUC-
verdi på ≈ 0, 53.
I denne oppgaven var clustering-metoden som ble brukt Hierarkisk clustering
basert på overlegne resultater i kohesjon og for å beholde gener. I dyplæring-
saspektet fant vi at kohesjonen på 0,05 indikerer et bedre resultat. Det var im-
idlertid ingen betydning basert på de forskjellige sekvenslengdene. | |
dc.description.abstract | The thesis use single-cell RNA gene expression data from 10xGenomics to study
the capabilities of using a deep neural network to classify genes based on the tran-
scription sequences. Genes in the DNA have corresponding transcription factors
that attach near the gene’s transcription start site. The assignment of the transcrip-
tion factor is to regulate the gene’s transcription to proteins called gene expres-
sion. Genes with similar expression profiles are typically controlled by the same
transcription factors and often share similar sequence elements. Therefore, can
the coexpressed genes can be clustered.
This thesis introduces three methods developed to cluster the gene expres-
sion dataset; clique-based, set-cover, and Hierarchical. These methods are com-
pared based on each cluster’s robustness (cohesion) and the separation between
the clusters. The generated clusters are used as classes for the deep learning
model based on the paper ‘Predicting the sequence specificities of DNA- and RNA-
binding proteins by deep learning’ by Alipanahi et al. The deep learning method’s
job is to extract features from the transcription factor sequences that are similar
to the coexpressed genes to classify them. Thus, testing different upstream se-
quence lengths from the transcription start site and the cohesion of the clustering
algorithm. In order to find the ideal sequence length and cohesion there is used P-
value, power analysis is used to find the significance between each cohesion and
each sequence length.
Hierarchical clustering reached an internal cohesion of 0.125, clique-based
of 0.075, and Set-Cover of ≈ 0.225. Both Set-Cover and Hierarchical retained
all genes while clique-based removed genes that were not in a cluster. For the
deep learning method, a cohesion of 0.05 had the highest mean AUC score of
0.68, while the other cohesion, 0.075, 0.1, and 0.125, had a score of ≈ 0.5. For
sequence length, all sequences, 500, 1000, 1500, and 2000 have a mean AUC
score of ≈ 0.53.
In this thesis, the clustering method used was Hierarchical clustering based
on superior results in cohesion and retaining genes. In the deep learning aspect,
we found that the cohesion of 0.05 indicates a better result. However, there was
no significance based on the different sequence lengths. | |
dc.language | eng | |
dc.publisher | NTNU | |
dc.title | Classifying genes based on promotors with deep
neural networks | |
dc.type | Master thesis | |