Show simple item record

dc.contributor.advisorSætrom, Pål
dc.contributor.authorBjørgan, Vegard
dc.date.accessioned2020-03-13T17:00:09Z
dc.date.available2020-03-13T17:00:09Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/11250/2646814
dc.description.abstractSiden funnene av de første mikroRNA i 1993, har forskere funnet flere tusen forskjellige mikroRNA i det menneskelige genomet gjennom de siste tiårene. MikroRNA som tema har blitt spesielt attraktivt for kreftforskningen på grunn av sin evne til å regulere mange av de proteinkodene-RNAene. Forskjellige maskinlæringsmetoder har blitt prøvd i kreft diagnostisk forskning. Maskinlæringsmetoder kan generere mer presise diagnoser eller prognoser enn tradisjonelle statistiske metoder. I kreft blir celledelingen unormal og ukontrollert, som oppstår fra feilregulering av flere gener. MicroRNA er store regulatorer av genuttrykk, og derfor er det ikke overraskende at mikroRNA er aktivt endret i forskjellige typer kreft. I denne oppgaven brukes flere metoder for å klassifisere kombinerte mikroRNA datasett for både kolorektal- og leverkreft. Metodene inkluderer flere typer normalisering, valg av mikroRNA-sett, algoritmer og «Gene Set Enrichment Analysis». De viktigste mikroRNA for hver av de forskjellige klassifiseringsmetodene blir også hentet ut for begge sykdommene. Resultatene viser at mikroRNA datasett kan kombineres og klassifiseres med resultater fra 0.89 til 1.00 i areal under kurven fra en «Receiver Operating Characteristic»-kurve. Dette gjøres ved å benytte to former for normalisering før en klassifikator er trent. I tillegg foreslås en metode for å kombinere «Gene Set Enrichment Analysis» med «Support Vector Machines» i klassifisering for å oppnå en robust universal klassifisering av mikroRNA genuttrykk. Sistnevnte metode er foretrukket for både datasett som er ublanserte og små datasett ved å være upåvirket av både skalering og forskjellige mikroRNA-subsett.
dc.description.abstractSince the discoveries of the first microRNAs in 1993, researcher have found several thousand different microRNAs in the human genome over the last decades. MicroRNAs as a topic has become especially hot when researching cancer due to its ability to regulate many of the protein-coding RNAs. Various machine learning methods have been employed in cancer diagnostic research. Machine learning methods can generate more accurate diagnoses or prognoses than traditional statistical methods can. In cancer, cell division become abnormal and uncontrolled, which arises from the misregulation of several genes. MicroRNAs are major regulators of gene expression and thus it is not surprising that microRNAs are actively altered in different types of cancer. In this paper several techniques are used to classify combined microRNA data sets for both colorectal- and hepatic cancer. Techniques includes several types of normalization, feature selection, algorithms and Gene Set Enrichment Analysis. The most important features for the different classification techniques is also extracted for both diseases. The results indicate that microRNA data sets can be combined and classified with scores ranging from 0.89 to 1.00 in receiver operating characteristic area under curve score. This is done by utilizing two forms of normalization prior to training a classifier. In addition, this paper proposes a method for combining gene set enrichment analysis with support vector machines in classification for a robust unbiased classification of microRNA gene expressions. This method is favored for higher imbalanced and small data sets by being unaffected by both feature scaling and different feature subsets.
dc.languageeng
dc.publisherNTNU
dc.titleClassifying Combined MicroRNA Data Sets
dc.typeMaster thesis


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record