Self-Supervised Machine Learning for DNA sequences

Ravaghi, Mahdi

Ravaghi, Mahdi

Master thesis

URI

https://hdl.handle.net/11250/3123943

Date

2023

Metadata

Show full item record

Collections

Institutt for datateknologi og informatikk [6554]

Description

Full text not available

Abstract

Denne oppgåva utforskar bruken av sjølv-rettleia maskinlæring på genomdata og vurderer korleis det påverkar ytelsen til nedstraums ’fine-tuning’ oppgåver. Studien bygger på tidlegare forsking gjort på skalérbare nevrale oppmerksamhetsmodellar, med spesiell fokus på ei foreslått løysing kalla ChordMixer. ChordMixer har vist seg å vere effektiv i handsaming av langdistanseinteraksjonar i lange sekvensielle data, i tillegg til å kunne handsame sekvensar med varierande lengder. Målet med denne forskinga er å forbetre ChordMixer gjennom implementeringa av sjølv-rettleia maskinlæring og pretrening. Resultata frå denne studien viser at pretrening med sjølv-rettleia maskinlæring fører til ein gjennomsnittleg forbetring på 3,08% i AUC på tvers av fleire klassifiseringsoppgåver. Meir spesifikk, viser resultata ei forbetring på 5,85% i prediksjon av ’variant effect’ på det menneskelege genomet, 3,11% i prediksjon av opne kromatin regionar i vev hjå ulike planteartar og 0,27% i klassifisering av taksonomi basert på DNA sekvensar.

This thesis investigates the application of self-supervised machine learning to genomic data and assesses its impact on the performance of downstream supervised fine-tuning tasks. The study builds on previous research conducted on scalable neural attention models, with a specific focus on one proposed solution called ChordMixer. ChordMixer has proven to be effective in handling long-range interactions in long sequential data and in accommodating sequences of varying lengths. The aim of this research is to improve ChordMixer through the implementation of self-supervised learning and pretraining. The findings of this study demonstrate that self-supervised pretraining leads to an average improvement of 3.08% in the Area Under the Receiver Operating Characteristic Curve across multiple supervised classification tasks. In particular, the results reveal an improvement of 5.85% in variant effect prediction on the human genome, 3.11% in open chromatin region prediction in tissues of different plant species, and 0.27% in DNA sequence-based taxonomy classification.

Publisher

NTNU