Artificial intelligence-based automatic segmentation for breast cancer radiotherapy
Abstract
Bakgrunn og formål: Nøyaktig inntegning av målvolum og risikoorganer er avgjørende for resultatet av pasientbehandling med stråleterapi. Manuell inntegning av strukturer er kjent som denstørste usikkerheten i stråleterapiprosessen. Automatisk segmentering ved bruk av kunstig intelligens (AI) kan gi en raskere og mer konsistent måte å tegne inn strukturer på. Målet med dennestudien var å undersøke to forskjellige AI-metoder for automatisk segmentering av relevante strukturer for strålebehandling av brystkreftpasienter. Dette inkluderte å evaluere en dyp læring (DL)-thoraxmodell, implementert i et kommersielt doseplanleggingssystem, og å trene og teste maskinlæring (ML)-modeller, implementert i Python.
Materiale og metode: All pasientdata var fra venstresidig brystkreftpasienter som har blitt behandlet med ekstern stråleterapi med fotoner ved St. Olavs hospital, ved bruk av pustestyring.DL-thoraxmodellen ble evaluert kvantitativt og klinisk for 20 pasienter ved å generere inntegningerfor hjertet, lungene, ryggmargen og spiserøret. For segmentering av brystbenet, venstre bryst oghjertet, ble ML-modeller som bruker lineær støttevektorklassifisering trent med 20 og 30 pasienterog evaluert kvantitativt. Dice score (DSC), Hausdorff-avstand (HD)-persentiler og gjennomsnittligHD (AVD) ble brukt til kvantitativ evaluering.
Resultater: DL-thoraxmodellen brukte i gjennomsnitt 3 minutter på å generere AI-segmenteringerfor én pasient. Gjennomsnittlig DSC for hjerte og lunger var henholdsvis 0,92 ± 0,02 og 0,97 ±0,01; gjennomsnittlig AVD for hjerte og lunger var henholdsvis 2,9 ± 1,1 mm og 0,9 ± 0,4 mm.I den kliniske analysen passerte de AI-genererte segmenteringene i 42 % av tilfellene for hjertet,100 % av tilfellene for lungene, 85 % av tilfellene for ryggmargen og 70 % av tilfellene for spiserøret. Kjøretiden for ML-modellene var på 30 sekunder til 5 minutter. For modellene trent med30 pasienter, var gjennomsnittlig DSC for brystbenet, venstre bryst og hjertet henholdsvis 0,65 ±0,06, 0,64 ± 0,10 og 0,66 ± 0,05; gjennomsnittlig AVD for brystbenet, venstre bryst og hjertet varhenholdsvis 1,8 ± 0,6 mm, 2,3 ± 0,5 mm og 2,4 ± 0,5 mm.
Konklusjon: Strukturer kan enkelt tegnes inn med en DL-thoraxmodell for brystkreftpasienter.Sammen med høy nøyaktighet var et stort flertall av segmenteringene klinisk aksepterte, og mangeav de ikke-aksepterte segmenteringene krevde kun mindre manuelle korreksjoner. Dette innebærerat modellen har et potensiale til å forbedre både konsistensen og effektiviteten av segmenteringi klinisk praksis. ML-algoritmen kan lett trenes til å tegne inn strukturer for brystkreftpasienter;ML-modellene må imidlertid forbedres ytterligere før de kan brukes i klinisk praksis. Background and purpose: Accurate segmentation of target volumes and organs at risk is criticalfor the patient treatment outcome in radiotherapy. Manual segmentation of structures is knownas the largest uncertainty in the radiotherapy process. Auto-segmentation based on artificial intelligence (AI) may lead towards a faster and more consistent way of contouring. The aim of thisstudy was to investigate two different methods using AI for automatic segmentation of relevantstructures for radiotherapy treatment planning of breast cancer patients. This included evaluatinga deep learning (DL) thorax model, implemented in a commercial treatment planning system, andtraining and testing machine learning (ML) models, implemented in Python.
Materials and method: All patient data was from left-sided breast cancer patients previouslytreated with external photon beam radiotherapy at St. Olavs Hospital, using deep inspiration breathhold. The DL thorax model was evaluated quantitatively and clinically for 20 patients by generating segmentations for the heart, the lungs, the spinal cord, and the esophagus. For segmentationof the sternum, the left breast, and the heart, ML models using linear support vector classificationwere trained with 20 and 30 patients and evaluated quantitatively. The Dice similarity coefficient(DSC), percentile Hausdorff distances (HDs), and the average HD (AVD) were used for quantitativeevaluation.
Results: The DL thorax model used on average 3 minutes on generating AI segmentations for onepatient. The average DSC for the heart and lungs were 0,92 ± 0,02 and 0,97 ± 0,01, respectively;the average AVD for the heart and the lungs were 2,9 ± 1,1 mm and 0,9 ± 0,4 mm, respectively.In terms of clinical acceptability, the AI-generated segmentations passed in 42 % of the cases forthe heart, 100 % of the cases for the lungs, 85 % of the cases for the spinal cord, and 70 % of thecases for the esophagus. The runtime for the ML models was on 30 seconds to 5 minutes. For themodels trained with 30 patients, the average DSC for the sternum, the left breast, and the heartwere 0,65 ± 0,06, 0,64 ± 0,10, and 0,66 ± 0,05, respectively; the average AVD for the sternum,the left breast, and the heart were 1,8 ± 0,6 mm, 2,3 ± 0,5 mm, and 2,4 ± 0,5 mm, respectively.
Conclusion: Regions of interest (ROIs) can easily be contoured with a DL thorax model for breastcancer patients. Along with high accuracy, a large majority of the segmentations were clinicallyacceptable, and many of the non-accepted segmentations required minor manual corrections. Thisimplies that the model has the potential to improve both consistency and efficiency of segmentationin the clinic. The ML algorithm can easily be trained to contour ROIs for breast cancer patients;however, the ML models need further improvements in order to be clinically useful.