Using differential co-expression analysis to investigate breast cancer subtypes and the use of histologically normal cancer-adjacent tissue as the control
Master thesis
Permanent lenke
https://hdl.handle.net/11250/2782614Utgivelsesdato
2021Metadata
Vis full innførselSamlinger
Sammendrag
Den økte tilgjengeligheten av store RNA-sekvensering og DNA mikromatrisestudier muliggjør forskning av sammenhenger mellom gener ved samuttrykksanalyser. Endringer i samuttrykksmønstre er ofte relatert til endringer i biologiske funksjoner, og differensielle samuttrykksnettverk har blitt et viktig verktøy for å sammenligne samuttrykksprofiler fra ulike situasjoner eller biologiske tilstander. CSD-metoden for differensiell samuttrykksanalyse sammenligner parvise korrelasjonsmønstre mellom genpar fra ulike biologiske tilstander for å identifisere konserverte, spesifikke og differensierte assosiasjoner. I denne oppgaven er det brukt en alternativ CSD-metode (CSD_R). Denne metoden bruker bootstrap for å trekke nytt utvalg, samt eksiterende R-pakker, for å beregne korrelasjon og varians, noe som reduserer beregningstiden. CSD_R-metoden har ingen utvelgelse eller filtrering av linkverdiene den beregner, og en vilkårlig grense på topp 1000 av hver linkverdi ble brukt. Denne utvelgelsen resulterte i en linkdistribusjon lignende den som ble funnet ved å bruke den originale CSD-metoden (CSD_O) med et mindre utvalg fra de originale datasettene.
Identifiseringen av differensielle samuttrykksmønstre fasiliteter oppdagelsen av endrede interaksjoner mellom ulike biologiske tilstander og mulige mekanismer som skaper den observerte forskjellen mellom to tilstander. CSD_R-metoden ble brukt til å analysere brystkreftrelaterte vev fra Molecular Taxonomy of Breast Cancer International Consortium sammenlignet med normalt brystvev hentet fra Genotype-Tissue Expression Project (GTEx). I første del ble CSD_R brukt til å sammenligne prøver fra histologisk normalt brystvev i nærheten av svulst (HNB) med prøver fra normalt brystvev (NB). HNB brukes ofte som kontroll i brystkreftforskning, men studier har vist at det er en forskjell mellom NB og HNB, og at HNB er på et eget trinn mellom NB og brystkreft. Differensiell samuttrykksanalyse ble brukt med mål om å identifisere endringer i samuttrykket for å undersøke om svulsten påvirker HNB. Nettverket viste mange bevarte, eller konserverte, interaksjoner i prosesser som lipid metabolisme og energihomeostase, men indikerte også at det var en endret adferd med nettverksnav og moduler med endrede interaksjoner involvert i transkripsjon og immunrespons.
I andre del ble CSD_R brukt til å sammenligne prøver fra brystkreftvev med prøver fra HB, der målet var å identifisere gener og moduler som kan være sentrale i brystkreftutvikling. Brystkreft er den mest diagnostiserte krefttypen hos kvinner, og den flest kvinner dør av. Det er den andre mest vanlige når man kombinerer tilfeller hos begge kjønn. I dette datasettet er brystkreftprøvene inndelt i fem undergrupper (Luminal A, Luminal B, HER2-overuttrykt, Basal-lignende, og Normal-lignende) med klinisk og prognostisk verdi. CSD_R-metoden genererte nettverk som var overrepresentert for kreftrelaterte prosesser, og videre analyse avdekket nettverksnav og moduler med endret samuttrykksmønster koblet til prosesser som kan være involvert i underliggende mekanismer som gir utvikling av kreft i de ulike undergruppene. Noen av de identifiserte genene i HER2-overuttrykt og Normal-lignende kan representere hittil ukjente gener involvert i utvikling av den gitte undergruppen. The availability of large RNA-sequencing and DNA microarray data sets has enabled research of relationships between genes through co-expression analyses. Changes in co-expression patterns are often related to changes in biological function, and differential co-expression network analyses have become a valuable tool in the comparison of co-expression patterns between different conditions. One method for differential gene co-expression analysis is the CSD method. It compares the pair-wise correlation patterns between gene pairs from different conditions to identify conserved, specific, and differentiated associations. In this thesis an alternative CSD approach (CSD_R) was employed, using bootstrap re-sampling and existing R packages to calculate correlation and variance to reduce the computation time. This method has no filtering or selection of the resulting link scores, and the arbitrary choice of keeping the top 1000 scores of each link type was used. This selection was shown to result in a similar link distribution as calculations done with the original CSD method performed with 50 of the samples from the original data sets.
The identification of different co-expression patterns facilitates the discovery of altered interactions between different conditions and potential driving mechanisms. The CSD_R was used to analyze breast cancer-related tissues available from the Molecular Taxonomy of Breast Cancer International Consortium (METABRIC), comparing them to normal breast tissue samples available from the Genotype-Tissue Expression Project (GTEx). In the first part, CSD_R was applied to histologically normal cancer-adjacent (HNCA) tissue samples extracted outside the tumor margins of breast tumors and healthy controls (HCs). HNCA breast tissue is often used as the control in breast cancer research, however, studies show HNCA as an altered intermediate state when compared to HC and breast cancer (BC) samples. Differential gene co-expression was employed with the aim of identifying changed co-expression patterns to investigate if the tumor influences the HNCA tissue. The CSD network had many maintained interactions in processes of lipid metabolism and energy homeostasis, but pointed to a changed behavior with highly connected hubs and modules with changed interactions involved in processes like transcription and immune response.
In the second part, breast cancer tissue samples were compared to the HCs from GTEx. The aim was to identify genes and modules that could be central in breast cancer development. Breast cancer is the most commonly diagnosed cancer among woman and the leading cause of female cancer deaths. It is the second most diagnosed when combining both sexes. In the data set, the breast cancer samples were divided into five intrinsic subtypes (Luminal A, Luminal B, HER2-enriched, Basal-like, and Normal-like) with clinical and prognostic value. The CSD_R method generated networks clearly enriched in cancerous behavior, and further examination revealed highly connected hubs and modules with changed co-expression patterns linked to processes that could be involved in the underlying mechanisms of the breast cancer phenotypes. Some genes identified in the HER2-enriched and Normal-like subtype may represent novel genes involved in the development of their disease phenotype.