Automatic brain tumor segmentation in intra-operative ultrasound images using deep learning
Abstract
Å få hjernesvulst er en alvorlig diagnose og kirurgisk fjerning av svulsten er den foretrukne behandlingsmåten. Pre-operativ magnetisk resonanstomografi (MRI) brukes som veiledning under operasjon. Men på grunn av vevsforskyvninger under operasjonen, så kan ikke MRI bildene stoles på fullt ut. Intraoperativ ultralydavbildning (US) kan brukes for å håntere dette ved å få et sanntidsbilde av svulstens plassering. Imidlertid, på grunn av variabel bildekvalitet og et begrenset synsfelt, så er disse bildene vanskelig å tolke. En automatisk segmentering av hjernesvulster i US-bilder kan derfor være et nyttig hjelpemiddel for nevrokirurger for å tolke bildene og lettere lokalisere svulstvev under operasjonen. Dyp læring kan brukes til å trene en slik model og tidligere studier konkluderer med at mer treningsdata er nødvendig for å forbedre resultatene. På grunn av dette ble det i dette prosjektet undersøkt om MRI-annoterte svulster kan brukes som en erstatning for US-annoterte svulster for å øke mengden treningsdata til en dyp lærlingsmodell for automatisk segmentering av hjernesvulster i intraoperative ultraldbilder.
For å studere dette ble annoterte pre-operative MRI-bilder og tilhørende intraoperative US-bilder tatt før påbegynt svulstfjerning, med og uten manuelle tumorannotasjoner, brukt. De MRI-annoterte svulstene ble samregistrert med de tilhørende US-bildene for å overføre svulstannotatsjonene til US-bildene som ikke har US-annotatsjoner. Deretter ble US-bildene med samregistrerte MRI-annoterte svulster og US-annoterte svulster brukt i forskjellige kombinasjoner, sammen og separat, for å trene en nnU-Net-modell for å studere modellene basert på de gitte treningsdataene. I tillegg ble 6 3D ultralydbilder manuellt annotert av forfatteren og validert av en erfaren nevrokirurg, og de ble sammenlignet med publiserte annotasjoner for å måle interobservasjonsvariabiliteten for å få et mål på hvor god modellen bør være.
Resultatene viste at å trene en dyp læringsmodell ved bruk av kun MRI-annoterte svulster oppnådde samme resultater som å trene med US-annoterte svulster. De beste resultatene ble oppnådd for en modell trent på begge typer annotasjoner. Denne modellen oppnådde en gjennomsnittlig Dice-score på 0,62. Dette er noe lavere enn den gjennomsnittlige Dice-scoren på 0,67, som ble målt for interobservasjonsvariabilitet på samme testsett. Imidlertid, for testbildene med et svulstareal større enn 200 mm^2, var modellen på nivå med nevrokirurgene, med en gjennomsnittlig Dice-score på 0,81 sammenlignet med 0,77 for interobservasjonsvariabilitet. I tillegg ble det observert en økning på nesten 43 % i den gjennomsnittlige Dice-scoren når kun bilder med et svulstsareal større enn 200 mm^2 ble brukt til trening, noe som tilsvarer kun 21 % av den tilgjengelige treningsdataen.
MRI-svulstannotasjoner kan dermed brukes som erstatning for US-svulstannotasjoner for å trene en automatisk hjernesvulstsegmenteringsmodell for intraoperative ultralydbilder. I tillegg er kvaliteten på treningsdataene viktig, ikke bare mengden treningsdata, og resultatene viste at det er mye å hente på å undersøke forskjellige konfigurasjoner av de tilgjengelige dataene for å optimalisere treningsdatasettet. Fremtidige studier bør også fokusere på å forbedre resultatene for bildene med små svulstareal og undersøke andre evalueringsmetrikker som ikke er følsomme for strukturstørrelser før klinisk implementering er mulig. For patients with the severe condition of having a malignant brain tumor, brain tumor resection surgery is the preferred treatment option. Pre-operative magnetic resonance imaging (MRI) images are used for guidance during surgery. Because of a phenomenon called brain shift, which is tissue displacement during surgery, the MRI images can not be fully trusted. To deal with this, intra-operative ultrasound imaging (US) can be used to get a real-time image of the location of the tumor. However, they are difficult to interpret due to variable image quality and limited field of view. An automatic segmentation of brain tumors in US images could thus be helpful for neurosurgeons to understand the images, and facilitate localization of tumor tissue during resection. Deep learning can be used to train such a model, and previous studies conclude that more data is needed to improve the result. Therefore, this project investigated whether MRI annotated tumors can be used as a substitute for US annotated tumors to enlarge the training set of a deep learning model for automatic brain tumor segmentation in intra-operative ultrasound images.
To study this, annotated pre-operative MRI images and corresponding intra-operative ultrasound images acquired before tumor resection, with and without manual tumor annotations, were used. The MRI annotated tumors were co-registered to the corresponding ultrasound images to transfer the tumor annotations to the ultrasound images without annotations. Next, the ultrasound images with the co-registered MRI annotated tumors and US annotated tumors were used in different combinations, together and separately, to train a nnU-Net model to study the performance based on the training data given. In addition, manual tumor annotations in the intra-operative ultrasound images were performed by the author and validated by an experienced neurosurgeon and compared to published annotations to measure the inter-observer variability to get a score of how good the model should be.
The results demonstrated that training a deep learning model using only MRI annotated tumors as labels achieved the same results as a model trained with US annotated tumors. Moreover, the best performance was found when the model was trained on both types of annotations. For this model, an average Dice score of 0.62 was obtained. This is slightly lower than the average Dice score of 0.67, which was measured for the inter-observer variability on the same dataset. However, for images with a tumor area larger than 200 mm^2, the model achieved results at the level of expert neurosurgeons with an average Dice score of 0.81 compared to 0.77 for the inter-observer variability. In addition, an increase of almost 43 % in the average Dice score was observed when only the images with a tumor area larger than 200 mm^2 were used for training, which corresponds to 21 % of the available training data.
MRI tumor annotation can thus indeed be used as US tumor labels to train an automatic brain tumor segmentation model for intra-operative ultrasound images. In addition, the quality of the training data is important, not just the quantity, and there is much to be gained by investigating different configurations of the available data to optimize the training dataset. Future studies should also focus on improving the results for images with small tumor areas and investigate other evaluation metrics that are not sensitive to structure sizes before a possible clinical implementation.