Building a Knowledge Network of Regulated Cell Death in Arabidopsis thaliana
Abstract
Regulert celledød (RCD) er en livsviktig prosess som forekommer i både dyr og planter. Til tross viktigheten for både vekst, utvikling og som respons til stressfaktorer i miljøet, er denne prosessen i liten grad beskrevet i planter. Den ervervede kunnskapen om RCD er spredt utover den vitenskapelige litteraturen og mange forskjellige biologiske databaser. For at kunnskapen skal danne grunnlaget for beskrivende modeller for de molekylære systemene, og for å danne nye hypoteser om hvordan de fungerer, må kunnskapen først samles. Dette prosjektet hadde derfor som mål å knytte kunnskapen om RCD, i modellorganismen Arabidopsis thaliana, sammen til et kunnskapsnettverk.
Datagrunnlaget for kunnskapsnettverket er opparbeidet gjennom litteraturstudie og innhenting av data fra biologiske databaser ved bruk av programmeringsmetoder. På dette vis ble informasjon om molekylære enheter og relasjonene de deler sammenfattet.
Det genererte kunnskapsnettverket består av over 2 000 enheter og mer enn 9 000 relasjoner. Kunnskapsnettverket består hovedsakelig av gener og proteiner, som enten allerede er beskrevet som delaktig i RCD, eller kan anses som kandidater på bakgrunn av ortologiske forbindelser eller grunnet fysiske interaksjoner til øvrige enheter i nettverket. Relasjonene mellom enhetene er fysiske interaksjoner, samuttrykk av gener, predikerte interaksjoner, og forekomst i samme artikler.
Kunnskapsnettverket kan brukes til å evaluere og prioritere hvilke eksperimentelle funn er med størst sannsynlighet involvert i plante RCD, og for å tilegne seg kunnskap som kan overføres til modeller for RCD. Biological systems at the level of gene regulation and molecular interactions are vastly complex. Today, high-throughput molecular methods result in a continuous stream of biological data that subsequently needs to be interpreted to form knowledge. The interpretation of data is time-consuming and requires domain-specific expertise, and this hard-earned knowledge should be utilized to the best extent to formulate descriptive models of the system in question, as well as to formulate new hypotheses to test to get an even deeper understanding of the system. The biological topic of this thesis is the study of the genetically encoded process of cell death in plants. The process of regulated cell death (RCD), central to the context of growth, development, and responses to environmental stressors, is to a large extent still poorly understood and described. The work presented in this thesis aimed to connect the prior knowledge of RCD in the model species Arabidopsis thaliana in a so-called knowledge network. This knowledge network will serve as a valuable resource for interpreting new research findings and providing easy access to prior knowledge necessary for developing descriptive conceptual models of plant RCD.
Information about RCD was acquired through a combination of literature review and programmatic retrieval of data from biological databases. The retrieved information included entities (such as genes, proteins, and small molecules) directly described as involved in RCD in A. thaliana; entities inferred to be involved through orthology with Viridiplantae species or Homo sapiens, entities annotated with relevant Gene Ontology Biological Process terms; and entities with experimentally validated interactions with the aforementioned entities. The information was processed in a data pipeline specifically developed for the project. This pipeline also retrieved several relations between the entities, to formulate the resulting knowledge network, consisting of more than 2 000 entities and 9 000 connecting relations. The relations connecting the entities are experimentally validated physical interactions and co-expression of genes, as well as predicted interactions and co-occurrences in the literature.
The knowledge network displays scale-free characteristics and contains amongst others entities that in a study were identified as having upregulated gene expression under conditions known to induce RCD. Consequently, several possible uses of the knowledge network are described in prioritizing entities in research findings according to how likely they are to be part of plant RCD.