An integrated systems biology approach to investigate transcriptomic data of thyroid carcinoma
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2621725Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Som følge av store framskritt i teknologi og innovativ tenkning har det blitt mulig å måleuttrykk av gener og hvordan dette uttrykket varierer over store grupper mennesker. Sammenligningav genuttrykk gjør det mulig å forske på komplekse sammenhenger mellomgenuttrykk og sykdom. CSD-metoden er et rammeverk for å undersøke systematiske forskjelleri genetiske interaksjoner som er nyttig for å identifisere forskjellene som forårsakersykdomsutvikling. I første del av denne oppgåven har vi sett på genuttrykk målt i skjoldbruskjertelenved kreft. Skjortbrukskjertelkreft er den mest forekommende krefttypen blantde endokrine kjertlene. Det er en vanskelig kreft å bekjempe med nåværende behandlinger,og fører derfor ofte med seg dårlige sykdomsprognoser. På The Cancer Genome Atlas begenuttrykksprøver lasted ned og benyttet for å studere genuttrykksprofilen for denne krefttypenved å sammenligne disse med prøver fra sunt vev. Med CSD-metoden greide vi å finnemange interessante genetiske korrelasjoner som framstilte et system med overpresentasjonfor kreftrelaterte prosesser. Ved å se nærmere på disse, identifiserte vi potensielle kilder tilfeil i reguleringen av genuttrykk, for bland annet gener som er viktige i å koordinere ulikecellulære funksjoner som syntes å oppføre seg unormalt. Komparativ analyse av genuttrykkresulterte i nye kandidatgener som markører for skjoldbruskkjertelkreft.
I den andre delen av oppgaven forsøkte vi å undersøke robustheten til CSD-metoden og finnemulige forbedringspotensialer. Kvalitetskontroll, inkludert korreksjon for kilder til forstyrrelserbland målinger i datasettene, viste seg å være viktig for å forsikre pålitelighet blantresultatene. En grunnleggende del av analysemetoder basert på samenfallende mønster i genuttrykker å beregne korrelasjoner mellom uttykksmålingene. Her ble tre nye alternativerfor å gjøre dette utforsket. Først ble vektet topologisk overlapp benyttet, og resulterte i etrobust likhetsmål også for mindre datasett. Dette var spesielt nyttig for å finne interessantegrupperinger av korrelerte gener. Den andre metoden var å beregne gjensidig informasjon,og besto i å implementere estimering av entropi. Denne viste seg å være mer avhengig avtilstrekkelig antall målepunkter men bidro til å belyse nye viktige genetiske interaksjonersom ikke de tidligere fremgangsmåtene fanget opp. En siste alternativ metode var en forenkletversjon av CSD-metoden, motivert av redusert beregningstid for anvendelse på storemengder genuttrykksmålinger. Dog denne lettere framgangsmetoden kan være preget avnoen false positiver, vil den være nyttig i anvendelse på store sett med genuttrykksmålinger.For å evaluere kvaliteten til de utviklede metodene så vi på deres evne til å fremhevebiologisk relevante genetiske interaksjoner. Alternative likhetsmål som utvidelser til CSDmetodenøkte kunnskapen om skjoldbruskkjertelkreft og dro fram nye geninteraksjoner somkan bidra til å forstå sykdommen bedre samt å utvikle nye behandlinger i fremtiden. Driven by the development of innovative approaches to quantify gene expression levels acrosslarge numbers of samples, differential transcriptome analysis is emerging as a powerfulstrategy to interrogate the complex interplay of genes accountable for malignancies. TheCSD method is a correlation-based method to systematically classify differential geneticassociations, facilitating identification of dissimilar interactions driving pathogenesis. In thiswork, we have used the CSD framework for analyzing gene correlation for thyroid carcinoma(THCA) patients. THCA is the most common endocrine cancer type. These tumoursfrequently resist standard treatments and are thus associated with poor clinical outcome.By using publicly available samples from The Cancer Genome Atlas, the transcriptomiclandscape was investigated by contrasting these to normal thyroid expression profiles. TheCSD method successfully pinpointed several interesting gene pairs in networks enrichedfor processes linked to carcinogenic behavior. Examination of gene interactions revealedrelevant gene groups driving aberrant signaling and regulatory cascades. Looking into wellconnected network regions identified hubs coordinating destructive information processing,likely responsible for deteriorated mechanisms needed to combat tumor progression. Probinggene associations characterized by transition into abnormal character resulted in potentialnovel prognostic markers of thyroid carcinoma.
In the second part, robustness and potential method improvements to the CSD frameworkwere assessed. Quality control investigation demonstrated that obtaining consistent analysisresults required proper data pre-processing, including batch effect correction. A fundamentalstep in correlation-based methods for differential studies, is quantifying gene-pair relationshipsfrom gene expression data. Here, we explored three alternatives to the conventionalinference algorithm. First, weighted topological overlap (wTO) with soft thresholding wasapplied. This provided a robust computation, also giving meaningful results in the case oflow sample sizes and appeared to produce biologically meaningful modular structures. Thesecond method was based on computing the mutual information (MI) as a more far-reachingsimilarity measurement. Although it was more dependent on larger sample sizes, it elucidatednumerous novel relevant gene pairs not captured by Spearman or wTO. Motivated byachieving a computational reduced footprint allowing applicability to larger data sets, thelast alternative involved a simplified version of CSD omitting variance estimation. Whilemaybe offering some false positives, the relaxed condition will produce useful result setseven for very large transcriptomic data. For quality assessment, gene interactions identifiedby any of the similarity measures were analyzed with regard to biological function andsignificance. Alternative similarity measures augment the outcomes of the original CSDmethod, and yield candidate genes which may contribute to deciphering the pathogenesisof THCA.