Vis enkel innførsel

dc.contributor.advisorMachado, Daniel
dc.contributor.advisorTeixeira, Miguel
dc.contributor.authorMerkesvik, Jenny
dc.date.accessioned2022-07-12T17:20:13Z
dc.date.available2022-07-12T17:20:13Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:110629533:33642383
dc.identifier.urihttps://hdl.handle.net/11250/3004829
dc.description.abstractMikroorganismer har blitt studert helt siden mikroskopet ble oppfunnet. Mikrober er svært viktige for mennesket, enten vi velger å bruke dem innen grunnforskning, industri og matproduksjon, eller om de er en obligatorisk del av livene våre, eksempelvis gjennom helse og sykdom. Som følge av deres relevans finnes det utallige beskrivelser av hvordan de små skapningene fungerer. Det er derimot store mangler blant disse observasjonene. Mye skyldes et langvarig problem som fører til at vi kun klarer å dyrke en brøkdel av de oppdagede mikrobene. Uten vekst i laboratoriet har vi svært begrensede muligheter til å studere dem. Dette var i alle fall tilfelle frem til gensekvensering ble utviklet og utbredt. I dag genereres det ufattelige store mengder data som gjengir byggesteinene i arvematerialet til hundretusenvis av organismer. Målet er å tolke den genetiske koden for å forutse hvilke fenotypiske egenskaper enhver organisme vil uttrykke. Det kan gjøre dyrking av mikrober lettere ved at vi kan anta hva slags næring og omgivelser de trives best i. I tillegg kan det brukes til å indikere potensielle anvendelser mikrobene kan ha. Slik genotype—fenotype-assosiasjon er derimot svært komplisert som følge av de mange nivåene av regulering og interaksjoner som skjer i alle celler. Å gjenskape alle disse med modeller og matematiske uttrykk er foreløpig utenfor vår rekkevidde. I mellomtiden kan vi bruke kunnskapen vi har om mikrober vi har klart å dyrke til å lete etter mønstre mellom deres genotyper og fenotyper. Dersom en spesifikk sekvens ofte blir funnet i organismer som alle har en egenskap til felles, kan det tyde på at sekvensen har noe med egenskapen å gjøre. Om vi så finner denne sekvensen i genomet til en organisme vi ikke vet like mye om, kan det antyde at den vil utrykke den samme egenskapen som de andre organismene. Målet med oppgaven er å demonstrere hvordan eksisterende mikrobielle data kan brukes for å forutse organismers egenskaper basert på mønstre i tidligere observasjoner, og de nye organismenes genotype. Mikrobielle data fra ti ulike kilder er dermed blitt satt sammen til et standardisert datasett. Det består av 146,767 rader som dekker omtrent 126,000 ulike mikrober på stamme-nivå, og som alle har informasjon om minst én av 17 inkluderte egenskaper. Eksempler er substrat, oksygenkrav, antibiotikaresistens og gram-farging. Videre ble genomene til et utvalg organismer funksjonelt annotert. Dette markerte sekvenser av interesser ved hjelp av gen-ontologi og -ortologi. Genotype—fenotype-assosiasjon ble utført ved å vurdere sammenhengen mellom de identifiserte annotasjonene og det kjente utfallet av en bestemt egenskap: gram-farging. Assosiasjonen ble tallfestet gjennom Fishers eksakte tester. Enhver assosiasjon med odds-ratio over 10 og p-verdi under 0.01 ble ansett som signifikant. Dette tilsier at om en gitt gram-farging er kjent, så er oddsen 10 ganger høyere for at en spesiell annotasjon finnes i genomet til organismen, og at det kun aksepteres feilaktig antakelse av assosiasjon i maksimum 1% av tilfellene. Med disse kravene ble 4.444 annotasjonstermer funnet assosiert med en spesiell attributt av gram-farging. 2.974 termer var assosiert med gram-negative organismer, og 1.470 termer med gram-positive. Av disse ble 1.562 og 159 termer funnet eksklusivt for organismer med henholdsvis gram-negativ og gram-positiv farging. Flere av disse termene viste seg å representere karakteristiske egenskaper for de to celletypene. Disse termene ble så etterlyst i de annoterte genomene til tre tilfeldige organismer uten registrert gram-farging i datasettet. Samtlige organismers gram-farging ble korrekt antatt basert på de identifiserte assosiasjonene. Dermed har prosjektets mål blitt oppnådd. Den gjennomførte metodikken har understreket hvordan eksisterende data kan sees i sammenheng og brukes for å forme hypoteser for en bred gruppe mikroorganismer, og at disse assosiasjonene kan anvendes for å utlede manglende fenotypiske observasjoner for andre mikroorganismer.
dc.description.abstractMicroorganisms have been studied extensively since the microscope was invented. Humans depend on microbes, whether we choose to utilise them in fundamental research, industry, and food production; or whether they are an unavoidable part of our lives, for instance through health and illness. Due to their relevance, there are numerous descriptions of how these small entities work. However, there are many missing pieces within these observations. Much may be due to a long-standing issue preventing us from being able to growth most of the world’s known microbes. Without their growth in the laboratory, our study of them is strictly limited. This was the case until genome sequencing was developed. Today, unfathomable amounts of data are generated on the building blocks of the genetic material of hundreds of thousands of organisms. The aim is to interpret the genetic code to predict which phenotypic features each organism will express. This may facilitate the cultivation of microbes by suggesting its preferred nutrients and conditions. Additionally, it can be used to indicate potential applications of the microorganisms. Such genotype—phenotype association is however highly complicated due to the many levels of regulation and interactions happening in all cells. To recreate all these using models and mathematical equations is currently beyond our reach. In the meantime, we may use the knowledge we have on microbes that have been cultivated successfully to search for patterns between their genotypes and phenotypes. If a particular sequence is found often in organisms which all have one feature in common, it may imply that this sequence is related to the feature. If we then find this same sequence in the genome of another organism which we do not know as much about, perhaps it will express the same feature as the other organisms did. The aim of this thesis is to demonstrate how existing microbial data can be leveraged to predict the features of an organism based on associations made in previous observations, and the new organism’s genotype. Microbial data from ten sources is thereby assembled into a standardised trait dataset. It consists of 146,767 rows which cover about 126,000 different microbes on the strain-level, which all have information on at least one of 17 included traits. Examples are substrate, oxygen requirement, antibiotic resistance, and gram staining. Further, the genomes of a selection of organisms were functionally annotated. This marked sequences of interest though gene ontology and orthology. Genotype—phenotype association was conducted by assessing the relation between the annotations and the known outcome of the trait of gram staining. The association was quantified through Fisher’s exact tests. Any association with odds ratio over 10 and p-value less than 0.001 were considered significant. This means that with a given gram staining, the odds are 10 times higher that a particular annotation exists in the genome of the organism; and that maximum 1% of the instances may erroneously assume association. With these requirements, 4,444 annotation terms were found associated with a particular gram attribute. 2,974 terms were associated with gram-negativity, and 1,470 terms with gram-positivity. Of these, 1,562 and 159 terms were found exclusively for organisms with gram-negative and gram-positive staining, respectively. Several terms were found to represent characteristic features of each of the two cell types. These terms were tracked in the annotated genomes of three random organisms without a registered gram stain attribute in the assembled dataset. For all organisms, the correct gram staining was assumed based on the identified associations. Thus the thesis aim was achieved: the conducted methodology has demonstrated how existing data may be considered and used to form hypotheses for a broad group of microorganisms, and that the association may be applied to infer missing phenotypic observations for other microorganisms.
dc.languageeng
dc.publisherNTNU
dc.titleTowards genotype—phenotype association: leveraging multiple-source microbial data and genome annotations to infer trait attributes for the uncultured microbiome
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel