Enhancing Median Nerve Segmentation in Forearm Ultrasound Imaging Using Deep Learning Techniques
Abstract
Å diagnostisere karpaltunnelsyndrom gjøres vanligvis med en nevrofysiologisk undersøkelse, som både er kostbar og ubehagelig for pasientene. Bruk av ultralydavbildning for å måle tverrsnittetarealet til medianusnerven kan muligens tilby et mindre invasivt og mer kostnadseffektivt alternativ for å diagnostisere karpaltunnelsyndrom. Manuell annotering av ultralydbilder er imidlertid tidkrevende og nøyaktigheten kan påvirkes av hvem som annoterer. Ved å bruke dyp læring kan segmenteringsprosessen muligens automatiseres. Denne masteroppgaven har som mål å implementere et standard U-Net og deretter utforske ulike modifikasjoner. Dette inkluderer å teste ut binær versus flerklasse-segmentering, å øke antall nivåer i U-Nettet, samt å utvide modellen med 3D-teknikker for å ta hensyn til nærliggende ultralydbilder.
Seks ulike U-Net-arkitekturer ble analysert ved bruk av data fra 48 deltakere, hvorav 25 hadde diagnosen karpaltunnelsyndrom. Resultatene viser generelt at de mest komplekse modellene i denne studien gir mer nøyaktige segmenteringer av medianusnerven. Den beste modellforbedringen ble observert med 3D-modellen, hvor to ConvLSTM-lag ble plassert foran 2D U-Nettet. Denne modellen ble kalt convLSTM+U-Net, og den integrerer informasjon fra tidligere ultralydbilder når den segmenterer det nåværende bildet. Dette resulterte i en betydelig økning i Dice Similarity Coefficient (DSC), hvor verdien steg fra 0.663 (med et standard U-Net) til 0.736.
Mer forskning er nødvendig før segmenteringsmodellen kan betraktes som relevant for klinisk bruk. Det bør undersøkes om det er hensiktsmessig å gjøre modifikasjoner i convLSTM+U-Net-strukturen, justere diverse hyperparametere eller bruke ytterligere dataaugmentering for å øke mengden treningsdata. Resultatene fra convLSTM+U-Net-modellen representerer likevel et viktig skritt mot å muliggjøre en alternativ metode for å diagnostisere CTS. Carpal Tunnel Syndrome (CTS) diagnosis traditionally depends on nerve conduction studies (NCS), which are costly and uncomfortable for the patients. Utilizing ultrasound (US) imaging to calculate the cross-section area (CSA) of the median nerve might offer a less invasive and more cost-effective alternative as a diagnostic test for CTS. However, manual segmentation of US images is time-consuming and prone to inter-observer variability. Utilizing deep learning approaches could possibly automate the segmentation process. This thesis aims to implement a standard U-Net and explore modifications such as switching between binary and multi-class segmentation, increasing the levels of the U-Net, and extending the model with 3D techniques to consider adjacent frames.
Six different U-Net model architectures were explored, utilizing ultrasound images from 48 participants, where 25 of them had CTS. In general, results indicate that complex models in this research provide more accurate segmentations of the median nerve, compared to the less complex models. The best model improvement was observed with the 3D model, achieved by incorporating two convLSTM layers in front of the 2D U-Net. The developed model, called convLSTM+U-Net, integrates information from previous frames when segmenting the current one. This leads to a significant increase in the Dice Similarity Coefficient (DSC), from 0.663, achieved with the standard 2D U-Net, to 0.736.
Further research is necessary before the segmentation model can be considered relevant for a clinical application. This can include modifications in the convLSTM+U-Net structure, more extensive hyperparameter tuning, or further data augmentation to increase the training sample size. Still, the promising results of the convLSTM+U-Net model represent a step toward enabling an alternative method for diagnosing CTS.