Classifying genes based on promotors with deep
neural networks

Chakroun Jacobsen, William

Chakroun Jacobsen, William

Master thesis

Åpne

no.ntnu:inspera:112046434:12453194.pdf (9.538Mb)

Permanent lenke

https://hdl.handle.net/11250/3052154

Utgivelsesdato

2022

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6829]

Sammendrag

Denne oppgaven bruker enkeltcellede RNA-genekspresjonsdata fra 10xGenomics

for å studere mulighetene for å bruke et dypt nevralt nettverk for å klassifisere

gener basert på transkripsjonssekvenser. Gener i DNA har tilsvarende transkrips-

jonsfaktorer som fester seg nær genets transkripsjonsstart. Oppgaven til transkrips-

jonsfaktoren er å regulere genets transkripsjon til proteiner, kalt genuttrykk. Gener

med lignende genutrykk styres vanligvis av de samme transkripsjonsfaktorene og

deler ofte lignende sekvenselementer. Derfor kan de samuttrykte genene grupperes.

Det blir introdusert tre metoder utviklet for å gruppere genekspresjonsdata-

settet; “Clique-based”, “Set-cover” og hierarkisk. Disse metodene sammenlignes

basert på hver klynges robusthet (kohesjon) og separasjonen mellom klyngene. De

genererte klyngene brukes som klasser for dyplæringsmodellen basert på papiret

‘Predicting the sequence specificities of DNA- and RNA-binding proteins by deep

learning’ av Alipanahi et al. Dyplæringmetodens jobb er å trekke ut egenskaper fra

transkripsjonsfaktorsekvensene som ligner på de samuttrykte genene for å kunne

klassifisere dem. Testing av forskjellige sekvensene fra transkripsjonsstartstedet og

samholdet til klyngealgoritmen. Dette er gjort for å finne den ideelle sekvensleng-

den og kohesjon så er det brukt P-verdi, og kraftanalyse for å finne signifikansen

mellom hver kohesjon og hver sekvenslengde.

Hierarkisk klynging nådde en intern kohesjon på 0,125, “Clique-based” på

0,075, og “Set-cover” på ≈ 0, 225. Både “Set-Cover” og Hierarkisk beholdt alle

gener mens “Clique-based” fjernet gener som ikke var i en klynge. For dyplærings-

metoden hadde en kohesjon på 0,05 den høyeste gjennomsnittlige AUC-verdi på

0,68, mens de andre: 0,075, 0,1 og 0,125, hadde en verdi på ≈ 0.5. For sek-

venslengde har alle sekvenser, 500, 1000, 1500 og 2000 en gjennomsnittlig AUC-

verdi på ≈ 0, 53.

I denne oppgaven var clustering-metoden som ble brukt Hierarkisk clustering

basert på overlegne resultater i kohesjon og for å beholde gener. I dyplæring-

saspektet fant vi at kohesjonen på 0,05 indikerer et bedre resultat. Det var im-

idlertid ingen betydning basert på de forskjellige sekvenslengdene.

The thesis use single-cell RNA gene expression data from 10xGenomics to study

the capabilities of using a deep neural network to classify genes based on the tran-

scription sequences. Genes in the DNA have corresponding transcription factors

that attach near the gene’s transcription start site. The assignment of the transcrip-

tion factor is to regulate the gene’s transcription to proteins called gene expres-

sion. Genes with similar expression profiles are typically controlled by the same

transcription factors and often share similar sequence elements. Therefore, can

the coexpressed genes can be clustered.

This thesis introduces three methods developed to cluster the gene expres-

sion dataset; clique-based, set-cover, and Hierarchical. These methods are com-

pared based on each cluster’s robustness (cohesion) and the separation between

the clusters. The generated clusters are used as classes for the deep learning

model based on the paper ‘Predicting the sequence specificities of DNA- and RNA-

binding proteins by deep learning’ by Alipanahi et al. The deep learning method’s

job is to extract features from the transcription factor sequences that are similar

to the coexpressed genes to classify them. Thus, testing different upstream se-

quence lengths from the transcription start site and the cohesion of the clustering

algorithm. In order to find the ideal sequence length and cohesion there is used P-

value, power analysis is used to find the significance between each cohesion and

each sequence length.

Hierarchical clustering reached an internal cohesion of 0.125, clique-based

of 0.075, and Set-Cover of ≈ 0.225. Both Set-Cover and Hierarchical retained

all genes while clique-based removed genes that were not in a cluster. For the

deep learning method, a cohesion of 0.05 had the highest mean AUC score of

0.68, while the other cohesion, 0.075, 0.1, and 0.125, had a score of ≈ 0.5. For

sequence length, all sequences, 500, 1000, 1500, and 2000 have a mean AUC

score of ≈ 0.53.

In this thesis, the clustering method used was Hierarchical clustering based

on superior results in cohesion and retaining genes. In the deep learning aspect,

we found that the cohesion of 0.05 indicates a better result. However, there was

no significance based on the different sequence lengths.

Utgiver

NTNU