Vis enkel innførsel

dc.contributor.advisorMachado, Daniel
dc.contributor.advisorBurgos, Idun Maria Tokvam
dc.contributor.authorvan Eggelen, Marieke Cecilia
dc.date.accessioned2023-03-08T18:19:41Z
dc.date.available2023-03-08T18:19:41Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:110629533:36522916
dc.identifier.urihttps://hdl.handle.net/11250/3057195
dc.descriptionFull text not available
dc.description.abstractVed å omprogrammere metabolismen til mikroorganismer kan de gjøres om til effektive fabrikker for produksjonen av ønskede metabolitter. Dette innebærer imidlertid tids- og kostnadskrevende eksperimenter, og siden genotype-fenotype-forholdet er komplekst, eksisterer det et stort antall eksperimenter å utforske. Metabolske modeller kan hjelpe til med å løse denne utfordringen. Genom-skala metabolske modeller er beregningsrekonstruksjoner av metabolismen til en organisme, og inkluderer alle kjente metabolske reaksjoner samt alle kjente gen-protein-reaksjon assosiasjoner. Dette muliggjør simulering av organismens metabolske respons i ulike eksperimentelle betingelser gjennom optimaliseringsteknikker som fluks balanse analyse (FBA). Det er antatt at simuleringene til FBA kan bli forbedret ved å integrere genom-skala omics data, men slik data har en høy dimensjon som gjør den vanskelig å håndtere. Maskinlæring (ML) kan identifisere mønstre i store datasett og bruke disse mønstrene til å forutsi mønstre i ny data. Det primære målet med denne oppgaven var å forutsi metabolske flukser fra genekspresjonsdata ved hjelp av maskinlæring. Dette kan videre tillate en ny tilnærming for integrasjonen av ML og FBA. To datasett ble utforsket og det så ut til at en ML-modell trent på observasjoner fra én type perturbasjonseksperiment usannsynlig kom til å gi gode predikasjoner på ny data fra en annen type perturbasjonseksperiment. Den beste ML-modellen oppnådde en lovende gjennomsnittlig predikasjonssikkerhet, men alle modellene var ustabile, og resultatene bør tolkes med forsiktighet. Likevel indikerte de at transkripsjonsnivåene til et enzym som katalyserer en reaksjon ikke er den beste prediktoren for fluksen gjennom den reaksjonen. Den største utfordringen med prosjektet var den lille datamengden. Dette begrenset hvilke metoder som kunne brukes, samt styrken deres.
dc.description.abstractMicroorganisms can be turned into efficient cell factories of industrially important metabolites by rewiring their metabolism for the optimization of these metabolites through genetic engineering. However, this is involving time- and cost-consuming experiments, and since the genotype-phenotype relationship is complex, there can be a vast number of experiments to explore. However, the design of metabolic engineering studies can be guided by metabolic models. Genome-scale metabolic models are computational reconstructions of the metabolism of an organism, which include all known metabolic reactions and gene-protein-reaction associations. This allows the simulation of the organism’s metabolic response to different conditions through optimization techniques such a flux balance analysis (FBA). Their predictions are thought to be improved by the integration of condition-specific genome-scale omics data, however, the high dimensionality of such data makes it difficult to handle. Machine learning (ML) has emerged as a powerful computational tool which can identify patterns in big data and use these patterns to make predictions on new data. With the increased amount of data generated in metabolic engineering, approaches utilizing the power of ML to handle the data has increased as well. The principal aim of this thesis was to predict metabolic fluxes from gene expression data using machine learning. This would allow a novel approach for the integration of ML and FBA. Two datasets were explored, and it seemed that an ML model trained on observations from one type of a perturbation experiment was unlikely to perform well on data from another type of perturbation experiment. Although the best performing ML model showed a promising average prediction score, all models were unstable, and the results should be interpreted with care. Nevertheless, they indicated that the transcript levels of an enzyme catalyzing a reaction is not the best predictor of the flux through that reaction. The greatest challenge of the project was the small data size, which limited the approaches to use and their power.
dc.languageeng
dc.publisherNTNU
dc.titlePredicting metabolic fluxes from gene expression data using machine learning
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel