Modelling Cell Cycle Phase Distribution in Cell Cultures
Master thesis
Permanent lenke
http://hdl.handle.net/11250/2647443Utgivelsesdato
2019Metadata
Vis full innførselSamlinger
Sammendrag
Vi benytter oss av enkeltcelle RNA genekspresjonsdata for å studere cellesyklusen. To metoder for enkeltcelle RNA genekspresjonskvantifisering sammenlignes. Vi analyserer både tellematrisene og ytelsen på begge metodene. Ved å benytte prinsipialkomponentanalyse utvikler vi en metode for å bestemme en ordning av cellene med hensyn på deres posisjon i cellesyklusen. Genenes ekspresjonsprofiler modelleres så som funksjoner av syklisk tid ved hjelp av glattende splineinterpolasjon. En delvis minstekvadraters regresjon benyttes deretter ved å bruke splinemodellene som inndata for å finne de genutrykksprofilene som viser signifikant cellesyklisk-periodiske uttrykk innenfor et signifikansnivå. Vi bestemmer deretter om settet av de signifikante cellesykliske genprofilene har kjente biologiske funksjoner relatert til cellesyklusen. Vi analyserer tre enkeltcelle datasett med den utviklede metoden.
Vi bestemmer et sett med nye kandidatgener ved å se på overlappet av signifikant cellesyklusuttrykte gener mellom datasettene. En korrelasjonsanalyse utføres for å finne et sett med gener som viser konsistente uttrykksprofiler på tvers av datasettene. Deretter analyserer vi om settet av kandidatgener har kjente biologiske funksjoner tilknyttet cellesyklusen. Analysen viser at metoden er i stand til å identifisere gener med kjente biologiske cellesyklusfunksjoner. We use single cell RNA gene expression data to study the cell cycle. We compare two methods for single cell RNA gene expression quantification and analyze both the resulting count matrices and their performance. A method is developed for ordering the cells with respect to their position in the cell cycle by using Principal Component Analysis. The gene expression profiles are modelled as function of cyclic time using smoothing cubic splines. We perform Partial Least Squares regression with the modelled gene expression profiles as input and determine which expression profiles that are cell cycle periodic within a significance threshold. The results are analyzed by functional enrichment for biological processes. The method is applied to three single cell RNA data sets.
A set of new candidate genes are found by performing a correlation analysis to find candidate genes that have consistent expression profiles in all three data sets. Enrichment analysis on the candidate genes show that our method is able to identify genes that have known cell cycle functions.