Vis enkel innførsel

dc.contributor.advisorAlmaas, Eivind
dc.contributor.advisorVoigt, André
dc.contributor.authorMello, Amalie
dc.date.accessioned2021-12-02T18:19:29Z
dc.date.available2021-12-02T18:19:29Z
dc.date.issued2021
dc.identifierno.ntnu:inspera:80861898:44911987
dc.identifier.urihttps://hdl.handle.net/11250/2832646
dc.description.abstractForekomsten og utbredelsen av type 1 diabetes i verden har økt de siste fire tiårene. Rakyan et al. hadde en hypotese om at noen av de ikke-genetiske faktorene skyldtes epigenetisk variasjon. Målet med denne masteroppgaven var å trene modeller for å forutsi fra metyleringsprofiler om en person hadde utviklet type 1 diabetes, og identifisere mulige type 1 diabetes assosierte gener. Dette ble utført ved å trene modeller med forskjellige maskinlæringsalgoritmer. Et datasett sammensatt av metyleringsprofiler generert av Rakyan et al. og Bell et al. ble splittet og brukt som trenings- og testdata. Etter prosessering bestod datasettet av 27,006 linjer med CpG-dinukleotider, 226 kolonner av individer med type 1 diabetes diagnoser og 68 kolonner av individer uten type 1 diabetes. Metyleringsnivåer for alle CpG-dinukleotider for alle individer ble gitt som en verdi mellom null og én. Den beste K-verdien for K-nærmeste naboer klassifikator ble identifisert ved å trene modeller med forskjellige K-verdier. En K-verdi på 15 gav den høyeste Matthews korrelasjonskoeffisienten. Klassifikator-maskinlæringsalgoritmene for logistisk regresjon, beslutningstre, K-nærmeste naboer, tilfeldig skog og flerlags perceptron ble sammenlignet med samme kommaseparerte fil som treningsdata. Matthews korrelasjonskoeffisient ble ansett som et passende ytelsesmål, da det kan brukes til å evaluere binære klassifiserings prediksjoner på ubalanserte datasett. Maskinlæringsalgoritmene presterte jevnt med en gjennomsnittlig Matthews korrelasjonskoeffisient på rundt 0,65. Treningsdata kan derfor være viktigere enn valg av modell. Den genetiske algoritmen Sklearn-genetic og algoritmen for utvalg av parametere fra Scikit learn ble brukt til å finne parametere som alene trente de mest egnede modellene. Modeller trent med et begrenset utvalg parametere tenderte til å prestere høyere. Ni CpG-dinukleotider ble funnet i mer enn ett utvalg av parametere. Alle ni ble ansett som kandidater for type 1 diabetes relevans. Blant disse var to type 1 diabetes assosierte. Basert på litteratursøk og resultatene, ser det ut til at DNA metylering av LY86 genet er assosiert med insulinmangel. Tilnærmingen var egnet for type 1 diabetes prediksjon og for å identifisere mulige type 1 diabetes assosierte gener. Noen mulige justeringer av tilnærmingen ble foreslått for å nå dens fulle potensiale.
dc.description.abstractThe incidence and prevalence of type 1 diabetes in the world has increased the last four decades. Rakyan et al. had a hypothesis that some of the non-genetic factors were due to epigenetic variation. The aim of this Master's thesis was to train models to predict from methylation profiles whether a person had developed type 1 diabetes, and identify possible type 1 diabetes associated genes. This was executed by training models by various machine learning algorithms. A dataset composed from methylation profiles generated by Rakyan et al. and Bell et al. was split and used as training and testing data. After pre-processing, the dataset consisted of 27,006 lines of CpG sites, 226 columns of individuals diagnosed with type 1 diabetes and 68 columns of individuals without the diagnosis. Methylation levels for all CpG sites for all individuals were given as a value between zero and one. The best K-value for the K-nearest neighbours classifier was identified by training models with different K-values. A K-value of 15 gave the highest Matthews correlation coefficient. The machine learning classifier algorithms of logistic regression, decision tree, K-nearest neighbours, random forest and multilayer perceptron were compared with the same comma-separated values file as training data. Matthews correlation coefficient was considered a proper performance measure, because it may be used to evaluate binary classification predictions on imbalanced datasets. The machine learning algorithms performed evenly high with an average Matthews correlation coefficient of around 0.65. Training data may therefore be more important than the model. The genetic algorithm Sklearn-genetic and the feature selector from Scikit learn were used to find feature selections that alone trained the most suitable models. Models trained with a limited feature selection tended to score higher. Nine CpG sites were found in more than one feature selection. All nine CpG sites were considered candidates for T1D relevance. Among these nine sites, two were type 1 diabetes associated. Based on literature search and the results, DNA methylation of the LY86 gene appears to be associated with insulin deficiency. The approach was suitable for type 1 diabetes prediction and to identify possible type 1 diabetes associated genes. Some possible adjustments to the approach were suggested in order to reach its full potential.
dc.languageeng
dc.publisherNTNU
dc.titleA comparison of machine learning algorithms to investigate methylation profiles and predict type 1 diabetes
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel