Identifying a cross-cohort circulating microRNA signature for Lung Cancer prediction using Random Forests
Abstract
Lungekreft er en sykdom hvor tidlig diagnose er spesielt viktig for pasientoverlevelse. Screeningteknikker som brukes i dag fokuserer ofte på pasienter i risikogrupper fordi de er invasive, kostbare og har lav spesifisitet. MikroRNA er små ikke-kodende RNA som sirkulerer i blod og har potensial som ikke-invasive biomarkører for en rekke ulike sykdommer. Disse små RNA-ene har viktige regulatoriske funskjoner i planter, virus og dyr, og det har blitt bevist at disse er differensielt uttrykt i mange ulike krefttyper, inkludert lungekreft. Nylige fremskritt innen sekvenseringsteknologi har muliggjort kvantifisering og identifisering av mikroRNA på massiv-parallel skala. Ved å sekvensere blodprøvene til pasienter for mikroRNA og deretter sammenstille disse dataene med deres prognostiske og diagnostiske utfall, kan man trene veiledete maskinlæringsmodeller som kan skille lungekreftspasienter fra kontroller ved å kun bruke mikroRNA som er uttrykt i pasientenes blodprøver. Denne type data fra fire europeiske longitudinelle kohorter, en diagnostisk og tre prediagnostiske, ble i denne studien brukt til å trene en slik modell som kan predikere lungekreft på tvers av kohorter og dermed brukes til diagnoseformål. Random forest er en maskinlæringsmetode som er spesielt velegnet til å modellere komplekse mikroRNA-ekspresjonsprofiler og som samtidig muligjør en grad av tolkbarhet i modellene: de viktigste mikroRNA-ene for prediksjoner kan hentes direkte ut fra modellen.
Dette prosjektet er av en utforskende art: flere ulike eksperimenter ble gjennomført vedrørende ekstrahering av de mest interessante forklaringsvariablene og samplingmetodene. Hovedresultatet ble en random forest modell trent på en linærtransformert versjon av de prediagnostiske kohortene som kunne predikere lungekreft i den diagnostiske kohorten med relativt god spesifisitet og sensitivitet. De viktigste mikroRNA-ene fra denne modellen ble deretter videre analysert for deres rolle i biologiske og regulatoriske gennettverk, og disse gennettverkene viste seg å korrelere med kreftrelaterte nettverk. Videre arbeid og mer avanserte statistiske metoder er likevel nødvendig for å kunne modellere lungekreft i de prediagnostiske kohortene. Modeller som skiller diagnoser fra kontroller i disse kohortene vil være i stand til å predikere lungekreft opptil flere år før diagnosen blir satt med klassiske metoder, og denne typen modell vil være svært verdifull i medisinsk praksis. Lung cancer is a disease in which early diagnosis is of particular importance for patient survival. Current screening techniques are focused on at-risk populations because of their invasiveness, cost, and low specificity. MicroRNAs are small non-coding RNAs circulating in blood that hold potential as non-invasive biomarkers for many different diseases. These small RNAs have important regulatory functions in plants, viruses, and animals and have been proven to be differentially expressed in a wide range of human cancers - including lung cancer. Recent advances in sequencing technology has opened up for the identification and quantification of microRNA at massively parallel scales. By sequencing the microRNAs present in a patient's blood sample and pairing these with their diagnostic and prognostic outcomes, one could train supervised machine learning models that distinguish cancer patients from controls using only the microRNAs that are expressed in their blood samples. Using data of this kind from four European longitudinal cohort studies, three prediagnostic and one diagnostic, this study aimed to train such a model to create a cross-cohort lung cancer predictor that might be useful as a diagnostic tool. Random forests were found to be well suited for this task, as they can model the complex biological nature of the microRNA expression profiles while also adding a layer of interpretability; the most important features for doing predictions can be extracted directly from the model.
This project is of an exploratory nature, and as such, many different experiments for feature extraction and sampling were carried out. The main finding was a random forest model that when trained on linearly transformed prediagnostic training data could predict lung cancer in a separate diagnostic cohort with fair specificity and sensitivity. This model's top microRNAs were then further analysed for their role in biological and regulatory gene pathways, and these were found to be cancer related. Further work and more advanced statistical methods are needed to model lung cancer in the prediagnostic cohorts. Models that perform well on the prediagnostic cohorts would be capable of predicting lung cancer years before current diagnostic techniques, and this kind of model would be highly valuable in medical practice.