Show simple item record

dc.contributor.advisorAlmaas, Eivind
dc.contributor.advisorSulheim, Snorre
dc.contributor.authorThorsplass, Adrian
dc.date.accessioned2023-07-12T17:21:07Z
dc.date.available2023-07-12T17:21:07Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:138733117:46113351
dc.identifier.urihttps://hdl.handle.net/11250/3078440
dc.description.abstractBiosyntetiske genkluster (BGC-er) fasiliterer produksjonen av sekundære metabolitter i organismer. Disse forbindelsene er kjent for å ha nyttige egenskaper som antibiotisk, antiviral eller anti-tumor aktivitet. Imidlertid har bare en liten brøkdel av identifiserte BGC-er hatt sine produkter og metabolske stier eksperimentelt verifisert, der flertallet av dem kun er identifisert gjennom in silico informasjonsutvinning av genomdata. Den manuelle eksperimentelle analysen av disse ikke-karakteriserte BGC-ene er begrenset av treghet og av lave produksjonsutbytter for deres tilknyttede produkter i laboratorieforhold. For å effektivt studere BGC-er og veilede den eksperimentelle analysen av dem så trengs det et verktøy som kan modellere produksjonen av deres tilknyttede sekundære metabolitter med høy presisjon. Dette arbeidet presenterer en metode for å automatisk rekonstruere metabolske stier av biosyntetiske genkluster (BGC-er) fra annoterte gen-data. Denne metoden ble utviklet som en programvare (ARMRiPP) som bruker data fra BGC-genomdatautvinningsprogrammet, antiSMASH, og returnerer metabolske stier i en dataform som enkelt kan implementeres i genomskala metabolske modeller (GEM-er). For å veilede sti-rekonstruksjonen så ble ARMRiPP utviklet med evne til å generere prediksjoner av den kjemiske strukturen til BGC-assosierte forbindelser. Fokuset var på en av de større BGC-familiene, ribosomalt syntetiserte og post-translasjonelt modifiserte peptider (RiPP), og tre hovedklasser ble implementert: lanthipeptider, thiopeptider og lasso-peptider. ARMRiPP sin evne til å forutsi riktige strukturer og riktige stier ble begge evaluert. Tanimoto-score ble brukt som et mål for strukturell likhet, og vi kom frem til en gjennomsnittlig score på 0,9 for prediksjon av riktige strukturer ved et utvalg av 57 strukturer fra forskjellige RiPP-klasser, som indikerer høy nøyaktighet. Fire av de rekonstruerte stiene ble testet for deres evne til å forutsi korrekt produksjonsutbytte av de tilknyttede RiPP-forbindelsene sammenlignet med de kjente stiene fra litteraturen, og her kom vi frem til en gjennomsnittlig feilmargin på 7%. Begrensningene ved disse resultatene skyldtes i stor grad faktorer som manglende implementering av ulike RiPP biosyntetiske reaksjoner, begrenset mekanistisk kunnskap om biosyntesen til visse RiPP, begrensninger i antiSMASH-annoteringer og potensiell dataforskyvning. Nøyaktigheten av den strukturelle prediksjonen til programvaren ble vurdert i lys av ytelsen til en lignende programvare, PRISM. Som en casestudie så ble de rekonstruerte stiene brukt til å estimere den metabolske byrden for produksjonen av RiPP-forbindelser i forskjellige organismer, ved bruk av flere GEM-er. Små forskjeller i metabolsk byrde ble observert mellom RiPP-klassene, og større forskjeller mellom forskjellige fylogenetiske grupper. Lengden på RiPP-forgjengerpeptidet ble observert å ha en stor effekt på den metabolske byrden til RiPP-stien. Det ble også observert en generell trend at metabolsk byrde ville være lavere for RiPP-stier som ble satt inn i GEM-er av sin naturlige vert. Ved videre undersøkelse ble det avdekket statistisk signifikante forskjeller i metabolsk byrde hos RiPP-stier i deres naturlige verter og i heterologe verter, og denne forskjellen var mer signifikant for stier som ble satt inn i verter av forskjellig fylogeni enn deres naturlige. Observasjonene fra disse resultatene ble diskutert fra perspektivet av mikrobiell økologi, og for hvorvidt de har sammenheng med BGC-spesifikke evolusjonære effekter.
dc.description.abstractBiosynthetic gene clusters (BGCs) facilitate the production of secondary metabolites in organisms. These compounds are known to have useful properties such as antibiotic, antiviral or anti-tumor activity. However, only a tiny fraction of identified BGCs have had their products and metabolic pathways experimentally verified, with the vast majority of them being identified in silico by genome mining tools. The manual experimental analysis of these uncharacterized BGCs is limited due to it being much slower than the discovery rate of BGCs and due to low production yields of their associated products in laboratory conditions. To effectively study BGCs and guide the experimental analysis of them, there is a need for a tool which can accurately model the metabolic production of their associated secondary metabolites. This thesis presents a method for automatically reconstructing the metabolic pathways of biosynthetic gene clusters (BGCs) from annotated gene data. This method was developed as a piece of software (ARMRiPP) that uses data from the BGC genome mining tool, antiSMASH, and outputs metabolic pathway data that can easily be implemented into genome-scale metabolic models (GEMs). As a way of guiding the pathway reconstruction, ARMRiPP was developed to generate structure predictions of the BGC associated compounds. The focus was on the major BGC family, ribosomally synthesized and post-translationally modified peptides (RiPPs), and three major classes were implemented: lanthipeptides, thiopeptides and lasso peptides. Both ARMRiPP’s ability to predict correct structures and correct pathways was evaluated. Using the Tanimoto score as a metric of structural similarity, we arrived at an average score of 0.9 across 57 BGCs of different RiPP classes, indicating a high accuracy. Four of the reconstructed pathways were tested for their ability to correctly predict production yield of the associated RiPP compounds when compared to their pathways in literature, and here we arrived at an average error of 7%. Limitations of these results related in large part to factors such as missing implementations for various modification reactions, limited mechanistic knowledge of certain RiPP pathways, limitations in antiSMASH annotations and potential sources of data skewness. Structural prediction accuracy was also considered in light of the performance of a similar software, PRISM. As a case study, the reconstructed pathways were used to estimate the metabolic burden of RiPP compound production in different organisms, using multiple GEMs. Slight differences in metabolic burden were observed between the RiPP classes, and larger differences between different phylogenetic groups. It was also observed that precursor length had a large impact on the associated metabolic burden of RiPPs. A general trend was observed that metabolic burden would be lower for RiPP pathways when put into GEMs of their native host. Investigating this further revealed statistically significant differences in the metabolic burden of pathways in their native hosts and in heterologous hosts, and this difference was more pronounced for pathways put into hosts of different phylogeny than their native. The observations from the metabolic burden results were discussed from the perspective of microbial ecology, and how it potentially relates to BGC specific evolutionary effects.
dc.languageeng
dc.publisherNTNU
dc.titleAutomatic Reconstruction of Metabolic Pathways for Ribosomally Synthesized and Post-translationally Modified Peptides
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record