An integrated systems biology approach to investigate transcriptomic data of thyroid carcinoma

Gulla, Marie

dc.contributor.advisor	Almaas, Eivind
dc.contributor.advisor	Voigt, André
dc.contributor.author	Gulla, Marie
dc.date.accessioned	2019-10-12T14:00:45Z
dc.date.available	2019-10-12T14:00:45Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2621725
dc.description.abstract	Som følge av store framskritt i teknologi og innovativ tenkning har det blitt mulig å måle uttrykk av gener og hvordan dette uttrykket varierer over store grupper mennesker. Sammenligning av genuttrykk gjør det mulig å forske på komplekse sammenhenger mellom genuttrykk og sykdom. CSD-metoden er et rammeverk for å undersøke systematiske forskjeller i genetiske interaksjoner som er nyttig for å identifisere forskjellene som forårsaker sykdomsutvikling. I første del av denne oppgåven har vi sett på genuttrykk målt i skjoldbruskjertelen ved kreft. Skjortbrukskjertelkreft er den mest forekommende krefttypen blant de endokrine kjertlene. Det er en vanskelig kreft å bekjempe med nåværende behandlinger, og fører derfor ofte med seg dårlige sykdomsprognoser. På The Cancer Genome Atlas be genuttrykksprøver lasted ned og benyttet for å studere genuttrykksprofilen for denne krefttypen ved å sammenligne disse med prøver fra sunt vev. Med CSD-metoden greide vi å finne mange interessante genetiske korrelasjoner som framstilte et system med overpresentasjon for kreftrelaterte prosesser. Ved å se nærmere på disse, identifiserte vi potensielle kilder til feil i reguleringen av genuttrykk, for bland annet gener som er viktige i å koordinere ulike cellulære funksjoner som syntes å oppføre seg unormalt. Komparativ analyse av genuttrykk resulterte i nye kandidatgener som markører for skjoldbruskkjertelkreft. I den andre delen av oppgaven forsøkte vi å undersøke robustheten til CSD-metoden og finne mulige forbedringspotensialer. Kvalitetskontroll, inkludert korreksjon for kilder til forstyrrelser bland målinger i datasettene, viste seg å være viktig for å forsikre pålitelighet blant resultatene. En grunnleggende del av analysemetoder basert på samenfallende mønster i genuttrykk er å beregne korrelasjoner mellom uttykksmålingene. Her ble tre nye alternativer for å gjøre dette utforsket. Først ble vektet topologisk overlapp benyttet, og resulterte i et robust likhetsmål også for mindre datasett. Dette var spesielt nyttig for å finne interessante grupperinger av korrelerte gener. Den andre metoden var å beregne gjensidig informasjon, og besto i å implementere estimering av entropi. Denne viste seg å være mer avhengig av tilstrekkelig antall målepunkter men bidro til å belyse nye viktige genetiske interaksjoner som ikke de tidligere fremgangsmåtene fanget opp. En siste alternativ metode var en forenklet versjon av CSD-metoden, motivert av redusert beregningstid for anvendelse på store mengder genuttrykksmålinger. Dog denne lettere framgangsmetoden kan være preget av noen false positiver, vil den være nyttig i anvendelse på store sett med genuttrykksmålinger. For å evaluere kvaliteten til de utviklede metodene så vi på deres evne til å fremheve biologisk relevante genetiske interaksjoner. Alternative likhetsmål som utvidelser til CSDmetoden økte kunnskapen om skjoldbruskkjertelkreft og dro fram nye geninteraksjoner som kan bidra til å forstå sykdommen bedre samt å utvikle nye behandlinger i fremtiden.
dc.description.abstract	Driven by the development of innovative approaches to quantify gene expression levels across large numbers of samples, differential transcriptome analysis is emerging as a powerful strategy to interrogate the complex interplay of genes accountable for malignancies. The CSD method is a correlation-based method to systematically classify differential genetic associations, facilitating identification of dissimilar interactions driving pathogenesis. In this work, we have used the CSD framework for analyzing gene correlation for thyroid carcinoma (THCA) patients. THCA is the most common endocrine cancer type. These tumours frequently resist standard treatments and are thus associated with poor clinical outcome. By using publicly available samples from The Cancer Genome Atlas, the transcriptomic landscape was investigated by contrasting these to normal thyroid expression profiles. The CSD method successfully pinpointed several interesting gene pairs in networks enriched for processes linked to carcinogenic behavior. Examination of gene interactions revealed relevant gene groups driving aberrant signaling and regulatory cascades. Looking into well connected network regions identified hubs coordinating destructive information processing, likely responsible for deteriorated mechanisms needed to combat tumor progression. Probing gene associations characterized by transition into abnormal character resulted in potential novel prognostic markers of thyroid carcinoma. In the second part, robustness and potential method improvements to the CSD framework were assessed. Quality control investigation demonstrated that obtaining consistent analysis results required proper data pre-processing, including batch effect correction. A fundamental step in correlation-based methods for differential studies, is quantifying gene-pair relationships from gene expression data. Here, we explored three alternatives to the conventional inference algorithm. First, weighted topological overlap (wTO) with soft thresholding was applied. This provided a robust computation, also giving meaningful results in the case of low sample sizes and appeared to produce biologically meaningful modular structures. The second method was based on computing the mutual information (MI) as a more far-reaching similarity measurement. Although it was more dependent on larger sample sizes, it elucidated numerous novel relevant gene pairs not captured by Spearman or wTO. Motivated by achieving a computational reduced footprint allowing applicability to larger data sets, the last alternative involved a simplified version of CSD omitting variance estimation. While maybe offering some false positives, the relaxed condition will produce useful result sets even for very large transcriptomic data. For quality assessment, gene interactions identified by any of the similarity measures were analyzed with regard to biological function and significance. Alternative similarity measures augment the outcomes of the original CSD method, and yield candidate genes which may contribute to deciphering the pathogenesis of THCA.
dc.language	eng
dc.publisher	NTNU
dc.title	An integrated systems biology approach to investigate transcriptomic data of thyroid carcinoma
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:2301214.pdf
Størrelse:: 3.910Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for bioteknologi og matvitenskap [1537]

Vis enkel innførsel