Circulating miRNA and Lung Cancer: - a More Comprehensive Analysis of Available Data
Abstract
Bakgrunn: Denne rapporten ser på mulighetene for å diagnostisere lungekreft ved hjelp av sirkulerende miRNA. Det har vært mye forskning på dette feltet, men lite forskning fra et maskinlæringsperspektiv.
Motivasjon: Å bruke maskinlæring for å diagnostisere lungekreft er praktisk siden dagens metoder for å diagnostisere lungekreft er ressurskrevende og svulsten blir vanligvis oppdaget ved senstadium når overlevelsesraten er lav.
Eksperimenter: Jeg prøvde å samle alle tilgjengelige datasett om sirkulerende miRNA og lungekreft. Deretter prøvde jeg å finne ut om det var noen mønstre knyttet til kasus/kontroll-status ved å bruke forskjellige statistiske tester. Dette inkluderer å finne korrelasjonen i log2 foldendring, å finne andelen av miRNA-sekvenser som ble differensielt uttrykt likt, hierarkisk klynging av datasettene og å finne hvor konsistent det differensielle uttrykket var for de miRNAene som metaanalysene har funnet kan prediktere lungekreft. Jeg har gjort maskinlæring internt i de ulike datasettene og eksternt på tvers av flere datasett. Det var noen forsøk på å finne høyere konsistens, inkludert å sette en nedre terskel på gjennomsnittlig RPM for sekvenseringsdata og å fjerne prinsipalkomponenter som ble antatt å skyldes støy. Jeg har også laget en webapplikasjon for å visualisere dataene fra de forskjellige datasettene.
Bidrag: Hovedbidraget til dette prosjektet er å omgjøre alle tilgjengelige datasett om sirkulerende miRNA og lungekreft til et felles format slik at dette prosjektet kan bygges videre på av andre forskere, samt en webapplikasjon som kan brukes av forskere for å visualisere dataene.
Resultater: Resultatet av dette prosjektet er at jeg ikke var i stand til å finne noen mønstre i differensielt kasus/kontroll-uttrykk som replikerte på tvers av datasett, med noen få unntak. Videre var maskinlæring på tvers av ulike datasett i de fleste tilfeller ikke i stand til å finne noen mønstre, til tross for gode resultater ved bruk av maskinlæring internt i enkeltdatasett. De viktigste mønstrene som ble funnet var at (1) stratifisering av datasett noen ganger ga signifikant forbedring i AUC ved maskinlæring på tvers av datasett, (2) det å sette en nedre terskel på gjennomsnittlig RPM i sekvenseringsdatasettene førte til høy AUC på tvers av sekvenseringsdatasettene, (3) prediksjoner fra modellene korrelerte signifikant med kasus/kontroll-status selv når gjennomsnittlig AUC var nær 0,50 og (4) kasus/kontroll-status bidro til pluraliteten av variasjon i modellprediksjoner i en PCA-analyse.
Konklusjon: Onkologi er et forskningsfelt med lav replikasjonsrate, noe som betyr at det er viktig å prøve å replikere resultater for å sikre at de er gyldige. Dette prosjektet forsøkte å gjøre dette i forbindelse med diagnostisering av lungekreft ved bruk av sirkulerende miRNA, og fant at resultater i enkeltstudier sjelden har ekstern validitet. Background: This report looks at the possibility of diagnosing lung cancer using circulating miRNA. There has been a lot of research in this field, but little research from a machine learning perspective.
Motivation: Using machine learning to diagnose lung cancer is practical as current methods for diagnosing lung cancer are resource-intensive and the tumor is typically found at a late stage when the survival rate is low.
Experiments: I tried to collect all available datasets on circulating miRNA and lung cancer. Then I tried to find whether there were any patterns in case-control characteristics using different statistical tests. This includes trying to find the correlation in log fold change, looking at the proportion of miRNAs that were differentially expressed in the same way, hierarchical clustering of the datasets and looking at the consistency in differential expression of miRNAs that meta-analyses have found to be predictive of lung cancer. I have done machine learning internally in the different datasets and externally across multiple datasets. There were some attempts at trying to find higher consistency, including setting an RPM threshold for sequencing data and removing principal components conjectured to be noise. I also made a web application for visualizing the data in the different datasets.
Contributions: The main contributions of this project are to make all available datasets on circulating miRNA and lung cancer into a common format so that the work can be built upon by other researchers, and a web application that can be used by researchers to visualize the data.
Results: The result of this project is that I was not able to find any patterns in case-control characteristics that could replicate across datasets, with only a few exceptions. Furthermore, machine learning across different datasets was not able to learn any patterns in most cases, despite good results when using machine learning internally in a dataset. The most important exceptions were that (1) stratification of datasets sometimes gave significant improvement in AUC when using machine learning across datasets, (2) using an RPM threshold on sequencing dataset lead to high AUC across the sequencing datasets, (3) model predictions correlated significantly with case status even when average AUC was close to 0.50 and (4) case status contributed to the plurality of variance in model predictions in a PCA analysis.
Conclusions: Oncology is a field with a low replication rate, which means that it is important to try to replicate results in order to ensure that they are valid. This project tried to do this in connection with diagnosis of lung cancer using circulating miRNAs, and found that findings in single studies rarely have external validity.