Convolutional networks for video-based infant movement analysis. Towards objective prognosis of cerebral palsy from infant spontaneous movements
Abstract
Norsk sammendrag
Cerebral parese (CP) er en samlebetegnelse på motoriske funksjonsforstyrrelser grunnet skade på hjernen tidlig i barnets utvikling. Det er særlig spedbarn med medisinske risikofaktorer, som for eksempel for tidlig fødsel, pustebesvær og infeksjoner, som står i fare for å utvikle CP. CP har innvirkning på barnets holdning og motorikk, men gir også andre utfordringer og komplikasjoner. Som følge av manglende tidlige symptomer blir ofte ikke diagnosen satt før 1-2 års alder. Tidlig gjenkjenning av CP hos spedbarn er viktig for å kunne starte målrettet behandling, forebygge komplikasjoner og redusere bekymring hos foreldre.
Undersøkelse av spedbarnets spontane bevegelser med metoden General Movement Assessment (GMA) kan indikere om et barn har CP allerede før 5 måneders alder. GMA utføres ved observasjon av et spedbarns spontane bevegelser i en video. Ettersom dette avhenger av tilgang til erfarne og trenede observatører er denne undersøkelsen ikke tilgjengelig for alle. Maskinlæringsbasert CP-prediksjon har blitt utforsket som et alternativ til GMA, men foreløpig har man ikke lyktes med å lokalisere de spontane bevegelsene til et spedbarn i en video på en presis måte. Samtidig er man avhengig av menneskelige eksperter for å kunne velge ut relevante egenskaper i spedbarnsbevegelsene og for å utvikle prediksjonsmodeller.
Konvolusjonelle nettverk kan tilpasse seg komplekse oppgaver gjennom automatisk utvelgelse av relevante egenskaper ved bruk av tilpassede nettverksarkitekturer. Formålet med denne avhandlingen var å undersøke presisjonen og beregningseffektiviteten til bildebaserte konvolusjonelle nettverk (ConvNets) for lokalisering av spedbarns spontane bevegelser i videoopptak, og å evaluere nøyaktigheten til grafbaserte konvolusjonelle nettverk (GCNs) for prediksjon av CP.
Resultatene fra dette doktorgradsarbeidet viser at ConvNets er i stand til å lokalisere spedbarnsbevegelser i video like godt som det et menneske gjør samtidig som videoen prosesseres i sanntid. En GCN-basert prediksjonsmodell for CP kan videre oppnå like god nøyaktighet som det kliniske eksperter gjør ved bruk av GMA ved 3 måneders alder. Prediksjonsmodellen har også svært god evne til å forutsi gående eller ikke-gående funksjon hos barn med CP og å skille mellom spedbarn som utvikler ensidig og tosidig lammelse.
Denne avhandlingen viser at konvolusjonelle nettverk kan brukes til videobasert bevegelsesanalyse av spedbarn for nøyaktig automatisk prediksjon av CP. Tidlig og objektiv gjenkjenning av CP hos spedbarn med medisinske risikofaktorer kan inspirere til utvikling av maskinlæringsbasert klinisk beslutningsstøtte og oppmuntre til videre forskning i grenseflaten mellom moderne medisinsk teknologi og klinisk ekspertkunnskap. English summary
Cerebral palsy (CP) is the most common physical disability in childhood, with a particularly high prevalence in infants with medical risk factors (i.e., high-risk infants), like preterm birth. CP is caused by injury to the developing brain which affects a child’s movement and posture but also involve associated impairments and complications. The lack of early pathological signs of CP, typically delays the diagnosis until 12 to 24 months of age. However, early detection of CP is necessary to improve function through targeted intervention.
The quality of spontaneous movements of infants has evolved as an accurate marker for CP before 5 months of age. The qualitative General Movement Assessment (GMA) enables early prediction of CP from infant spontaneous movements in a video. However, the dependency on highly experienced human GMA experts questions its scalability. Machine learning-based CP prediction has attempted to replicate the predictive accuracy of GMA, but currently lack precise motion capture of infant spontaneous movements in videos and require human expert involvement in selecting movement features and designing prediction models.
Convolutional networks have ability to adapt to complex tasks through automatic feature extraction with dedicated network architectures. In this thesis, we investigate the localization performance and computational efficiency of imagebased convolutional networks (ConvNets) in video-based motion capture of infant spontaneous movements, and the predictive accuracy of graph-based convolutional networks (GCNs) for prediction of CP.
Results show that video-based motion capture harnessing ConvNets can approach human-level localization performance with real-time processing speeds. Moreover, a prediction model for CP utilizing GCNs can achieve predictive accuracy non-inferior to the clinically recommended human expert-based GMA in high-risk infants at 3 months age. Such a prediction model can also distinguish infants with ambulatory CP from non-ambulatory CP and infants with unilateral CP from bilateral CP.
This thesis demonstrates the potential of convolutional networks in videobased infant movement analysis. The knowledge acquired may pave the way for early, objective detection of CP in high-risk infants, encourage implementation of machine learning-based clinical decision support, and inspire future research to discover fruitful collaborations between contemporary medical technology and clinical expert knowledge.
Has parts
Paper 1: Groos, Daniel; Ramampiaro, Heri; Ihlen, Espen Alexander F.. EfficientPose: Scalable single-person pose estimation. Applied intelligence 51, 2518–2533 (2021) https://doi.org/10.1007/s10489-020-01918-7 This article is licensed under a Creative Commons Attribution 4.0 International License (CC BY 4.0)Paper 2: Groos, Daniel; Adde, Lars; Støen, Ragnhild; Ramampiaro, Heri; Ihlen, Espen Alexander F.. Towards human-level performance on automatic pose estimation of infant spontaneous movements. Computerized Medical Imaging and Graphics 2022 ;Volum 95. https://doi.org/10.1016/j.compmedimag.2021.102012 This is an open access article under the CC BY-NC-ND license
Paper 3: Groos, Daniel; Adde, Lars; Aubert, Sindre Aarnes; Boswell, Lynn; De Regnier, Raye-Ann; Fjørtoft, Toril Larsson; Gaebler-Spira, Deborah; Haukeland, Andreas; Loennecken, Marianne; Msall, Michael; Moinichen, Unn Inger; Pascal, Aurelie; Peyton, Colleen; Ramampiaro, Heri; Schreiber, Michael D.; Silberg, Inger Elisabeth; Songstad, Nils Thomas; Thomas, Niranjan; van den Broeck, Christine; Øberg, Gunn Kristin; Ihlen, Espen Alexander F.; Støen, Ragnhild. Development and Validation of a Deep Learning Method to Predict Cerebral Palsy From Spontaneous Movements in Infants at High Risk. - The final published article is availale in JAMA Network Open 2022 ;Volum 5.(7) https://doi.org/10.1001/jamanetworkopen.2022.21325 This is an open access article distributed under the terms of the CC-BY License.