dc.description.abstract | Som følge av store framskritt i teknologi og innovativ tenkning har det blitt mulig å måle
uttrykk av gener og hvordan dette uttrykket varierer over store grupper mennesker. Sammenligning
av genuttrykk gjør det mulig å forske på komplekse sammenhenger mellom
genuttrykk og sykdom. CSD-metoden er et rammeverk for å undersøke systematiske forskjeller
i genetiske interaksjoner som er nyttig for å identifisere forskjellene som forårsaker
sykdomsutvikling. I første del av denne oppgåven har vi sett på genuttrykk målt i skjoldbruskjertelen
ved kreft. Skjortbrukskjertelkreft er den mest forekommende krefttypen blant
de endokrine kjertlene. Det er en vanskelig kreft å bekjempe med nåværende behandlinger,
og fører derfor ofte med seg dårlige sykdomsprognoser. På The Cancer Genome Atlas be
genuttrykksprøver lasted ned og benyttet for å studere genuttrykksprofilen for denne krefttypen
ved å sammenligne disse med prøver fra sunt vev. Med CSD-metoden greide vi å finne
mange interessante genetiske korrelasjoner som framstilte et system med overpresentasjon
for kreftrelaterte prosesser. Ved å se nærmere på disse, identifiserte vi potensielle kilder til
feil i reguleringen av genuttrykk, for bland annet gener som er viktige i å koordinere ulike
cellulære funksjoner som syntes å oppføre seg unormalt. Komparativ analyse av genuttrykk
resulterte i nye kandidatgener som markører for skjoldbruskkjertelkreft.
I den andre delen av oppgaven forsøkte vi å undersøke robustheten til CSD-metoden og finne
mulige forbedringspotensialer. Kvalitetskontroll, inkludert korreksjon for kilder til forstyrrelser
bland målinger i datasettene, viste seg å være viktig for å forsikre pålitelighet blant
resultatene. En grunnleggende del av analysemetoder basert på samenfallende mønster i genuttrykk
er å beregne korrelasjoner mellom uttykksmålingene. Her ble tre nye alternativer
for å gjøre dette utforsket. Først ble vektet topologisk overlapp benyttet, og resulterte i et
robust likhetsmål også for mindre datasett. Dette var spesielt nyttig for å finne interessante
grupperinger av korrelerte gener. Den andre metoden var å beregne gjensidig informasjon,
og besto i å implementere estimering av entropi. Denne viste seg å være mer avhengig av
tilstrekkelig antall målepunkter men bidro til å belyse nye viktige genetiske interaksjoner
som ikke de tidligere fremgangsmåtene fanget opp. En siste alternativ metode var en forenklet
versjon av CSD-metoden, motivert av redusert beregningstid for anvendelse på store
mengder genuttrykksmålinger. Dog denne lettere framgangsmetoden kan være preget av
noen false positiver, vil den være nyttig i anvendelse på store sett med genuttrykksmålinger.
For å evaluere kvaliteten til de utviklede metodene så vi på deres evne til å fremheve
biologisk relevante genetiske interaksjoner. Alternative likhetsmål som utvidelser til CSDmetoden
økte kunnskapen om skjoldbruskkjertelkreft og dro fram nye geninteraksjoner som
kan bidra til å forstå sykdommen bedre samt å utvikle nye behandlinger i fremtiden. | |
dc.description.abstract | Driven by the development of innovative approaches to quantify gene expression levels across
large numbers of samples, differential transcriptome analysis is emerging as a powerful
strategy to interrogate the complex interplay of genes accountable for malignancies. The
CSD method is a correlation-based method to systematically classify differential genetic
associations, facilitating identification of dissimilar interactions driving pathogenesis. In this
work, we have used the CSD framework for analyzing gene correlation for thyroid carcinoma
(THCA) patients. THCA is the most common endocrine cancer type. These tumours
frequently resist standard treatments and are thus associated with poor clinical outcome.
By using publicly available samples from The Cancer Genome Atlas, the transcriptomic
landscape was investigated by contrasting these to normal thyroid expression profiles. The
CSD method successfully pinpointed several interesting gene pairs in networks enriched
for processes linked to carcinogenic behavior. Examination of gene interactions revealed
relevant gene groups driving aberrant signaling and regulatory cascades. Looking into well
connected network regions identified hubs coordinating destructive information processing,
likely responsible for deteriorated mechanisms needed to combat tumor progression. Probing
gene associations characterized by transition into abnormal character resulted in potential
novel prognostic markers of thyroid carcinoma.
In the second part, robustness and potential method improvements to the CSD framework
were assessed. Quality control investigation demonstrated that obtaining consistent analysis
results required proper data pre-processing, including batch effect correction. A fundamental
step in correlation-based methods for differential studies, is quantifying gene-pair relationships
from gene expression data. Here, we explored three alternatives to the conventional
inference algorithm. First, weighted topological overlap (wTO) with soft thresholding was
applied. This provided a robust computation, also giving meaningful results in the case of
low sample sizes and appeared to produce biologically meaningful modular structures. The
second method was based on computing the mutual information (MI) as a more far-reaching
similarity measurement. Although it was more dependent on larger sample sizes, it elucidated
numerous novel relevant gene pairs not captured by Spearman or wTO. Motivated by
achieving a computational reduced footprint allowing applicability to larger data sets, the
last alternative involved a simplified version of CSD omitting variance estimation. While
maybe offering some false positives, the relaxed condition will produce useful result sets
even for very large transcriptomic data. For quality assessment, gene interactions identified
by any of the similarity measures were analyzed with regard to biological function and
significance. Alternative similarity measures augment the outcomes of the original CSD
method, and yield candidate genes which may contribute to deciphering the pathogenesis
of THCA. | |