Development of an improved pathway analysis - The FunHop story
Abstract
Norsk sammendrag
Arbeidet som presenteres i denne avhandlingen omhandler metabolisme i prostatakreft, hovedsakelig i form av bruk og forbedring av analyse av biologiske spor. En stor del av oppgaven handler om utvikling av metoden FunHoP, og hvordan denne kan brukes på forskjellige måter og gi ny biologisk innsikt. FunHoP er en Python-basert metode som bruker metabolske spor fra KEGG, sammmen med transkripsjonsuttrykk fra RNA-sekvensering. Basis for avhandlingen er tre vitenskapelige studier.
Den første studien handler om metabolisme i prostatakreftprøver gruppert etter innhold av reaktivt stroma. 108 prøver ble histopatologisk evaluert og gradert etter innhold av reaktivt stroma. Av disse ble det målt metabolitter i 85 prøver mens det ble målt genuttrykk i 78 prøver. Multivariat metabolomikk og transkriptomikk ble brukt for å sammenligne grupper med lav andel av stroma (_ 15 %) mot grupper med høy andel reaktivt stroma (_ 16 %). Det ble vist at i grupper med høy andel reaktivt stroma var både gener og metabolitter med tilknytning til funksjoner i immunforsvaret og ekstracellulær matrise oppregulert. Denne studien gav en god introduksjon til metabolisme i prostatakreft, og demonstrerte også hvordan forskjellige typer omics kan brukes sammen for å gi økt forståelse av hvordan biologien henger sammen.
I den andre studien sto utvikling og demonstrasjon av FunHoP i fokus. Visualisering er et godt hjelpemiddel i analyse av store mengder data, og en mye brukt metode er å bruke data til å f.eks farge noder for å vise differensielt uttrykte gener, ved hjelp av verktøy som Cytoscape. En ulempe med kombinasjonen KEGG, KEGGScape (som laster inn KEGG-filer i Cytoscape), og Cytoscape er at bare det første genet/proteinet i en node vises. Dette gjør at alle reaksjoner ser ut til å bare kunne katalyseres av ett enzym. Dette stemmer i mange tilfeller ikke overens med biologien. FunHoP utvider noder til å inkludere alle gener i en node, viser brukeren hvordan genene er differensielt uttrykt og hvilken read count de har, før alle genene til slutt slås sammen og differensielt uttrykk på node-nivå kan beregnes. Denne studien viser hvordan FunHoP ble utviklet, og har også to eksempler hvor vi viser hvordan FunHoP gir resultater som både stemmer bedre overens med kjent biologi og gir en bedre visuell forståelse av biologien.
I den siste studien ble FunHoP brukt på en alternativ måte for å få fram et nytt nivå av biologisk innsikt. Ved å inkludere lokasjonsdata ble det mulig å differensiere mellom mitokondrielle og ikke-mitokondrielle biologiske spor, samt identifisere de som var en blanding, og se på hvordan differensielt genuttrykk eventuelt endret seg i forskjellige lokasjoner. Her ble genuttrykksdata fra normal- og kreftcellelinjer brukt, sammen med en konsensus av lokasjonsdata fra både eksperimenter og prediksjon. Denne studien viste hvordan FunHoP kunne brukes på alternative måter, at mitokondrielle spor er generelt oppregulert i prostatakreft, og at bruk av lokasjonsdata kan gi mer biologisk innsikt. English summary
The work in this thesis revolves around the metabolism of prostate cancer, mainly by using and improving biological pathway analysis. A large part of the thesis is about the development of the method FunHoP, and how this method can be used in different ways and provide new biological insight. FunHoP is a Python based method that uses metabolic pathways from KEGG, along with read counts from RNA-sequencing. The basis for the thesis is three scientific studies.
The first study is about metabolism in samples from prostate cancer grouped by their content of reactive stroma. 108 samples were histopathologically evaluated and graded by their content of reactive stroma. Out of these, metabolites were measured in 85 samples and gene expression in 78 samples. Multivariate metabolomics and transcriptomics were used to compare groups with low stroma content (≤ 15 %) to groups with high reactive stroma ≥ 16 %). We found that groups with high content of reactive stroma had upregulated both genes and metabolites related to functions in the immune system and extracellular matrix. This study was a good introduction to metabolism in prostate cancer, and demonstrated how different types of omics can be used together to give new understanding of how the biology works.
In the second study, development of FunHoP was the main topic. Visualisation is a great tool in analysis of big data, and a well-known method is to use data to colour nodes in a network to show differential expression, using tools such as Cytoscape. A problem with the combination of KEGG, KEGGScape (which is used to load KEGG files into Cytoscape), and Cytoscape is that only the first gene/protein in each node is shown. This makes all reactions look as if there is only one enzyme able to catalyze the reaction. In many cases, this representation is not biologically correct. FunHoP expands the nodes to include all genes, shows the user how the genes are differentially expressed as well as their read counts, before they are all joined together and differential expression can be calculated on node level. This study shows how FunHoP was developed, and also contains two case studies where we show how FunHoP provides results that both fits better into the known biology, and also gives a better visual understanding to the viewer.
In the final study, FunHoP was used in an alternative way to bring out a new level of biological insight. By including cellular localisation data it became possible to differentiate between mitochondrial and nonmitochondrial biological paths, along with those that are a mixture, and see how differentially expressed genes possibly changed between the two location groups. Here we used gene expression from normal and cancerous cell lines, along with a consensus of localisation from both experiments and predictions. This study shows how FunHoP could be used in alternative ways, that mitochondrial pathways are generally upregulated in prostate cancer, and that use of localisation data can give a wider biological insight.
Has parts
Paper 1: Andersen, Maria Karoline; Rise, Kjersti; Giskeødegård, Guro F.; Richardsen, Elin; Bertilsson, Helena; Størkersen, Øystein; Bathen, Tone Frost; Rye, Morten Beck; Tessem, May-Britt. Integrative metabolic and transcriptomic profiling of prostate cancer tissue containing reactive stroma. Scientific Reports 2018 ;Volum 8:14269. s. 1-11Paper 2: Rise, Kjersti; Tessem, May-Britt; Drabløs, Finn; Rye, Morten Beck. FunHoP: Enhanced Visualization and Analysis of Functionally Homologous Proteins in Complex Metabolic Networks. Genomics, proteomics & bioinformatics 2021
Paper 3: Rise, Kjersti; Tessem, May-Britt; Drabløs, Finn; Rye, Morten Beck. FunHoP analysis reveals upregulation of mitochondrial genes in prostate cancer. This paper is awaiting publication and is therefore not included.