Automatic annotation of structures in echocardiography using deep learning
Abstract
I dag utføres ultralydundersøkelse av hjertet vanligvis av en lege som har tilegnet seg spesialisering i tolkning av ultralydbilder. Som et resultat kan det være utfordrende for ikke-eksperter å bruke ekkokardiografi. Å motta en rask tilbakemelding på hvilke strukturer i hjertet som er på bildet under undersøkelsen, vil være en god hjelp for brukeren til å tolke hjertets anatomi.
Denne masteroppgaven utforsker bruken av dyp læring for automatisk å oppdage de forskjellige strukturene i hjertet i ultralydbilder. Objektdeteksjonsnettverket YOLO versjon 5 er implementert, trent og vurdert på et datasett som inneholder ekkokardiografibilder i de apikale 2-kammer, 4-kammer og langakse visningene. For enkelhets skyld ble de tre strukturene brukt: venstre ventrikkel (LV), venstre atrium (LA) og mitralventil (MV). Dataen var hentet fra 62 ulike pasienter, som inkluderte 195 opptak, noe som resulterte i totalt 1260 bilder med tilsvarende fasitannoteringer (eng: ground truth annotations). Hensikten med oppgaven er å skaffe en robust objektdeteksjonsmodell som kan integreres i ultralydundersøkelsen av hjertet. Derfor utføres implementeringer og analyser for å finne den beste modellen som er i stand til å oppdage hjertestrukturene i alle typer scenarier.
Resultatene oppnådd fra den beste modellen er en gjennomsnittlig snittpresisjon (eng: mean average precision) lik 0.984 for en IoU lik 0.5 og 0.631 for en IoU i intervallet mellom 0.5 og 0.95. I tillegg, ga resultatet i deteksjonen en konfidens på 82% på LV, 84% på MV og 94% på LA i den apikale langaksevisningen, 67% på LV, 82% på MV og 69% på LA i den apikale 2-kammervisningen og 88% på LV, 77% på MV og 78% på LA i den apikale 4-kammervisningen. Derimot kan modellen mislykkes med å finne strukturene i tilfeller der bildekvaliteten er dårlig og/eller at andre hjertestrukturer er i fokus. Som en konklusjon viser modellen lovende resultater for å oppdage de ulike hjertestrukturene. Ytelsen og robustheten kan økes ved å legge mer arbeid i data prosesseringen, i tillegg til å eksperimentere mer med data augmentering. Today, the cardiac ultrasound examination is typically performed by a clinician who has acquired specialized training in the interpretation of ultrasound images. As a result, non-experts may find it challenging to utilize echocardiography. Receiving instant feedback on which structures are in the frame during the examination can benefit the user in interpreting the internal view of the human heart.
This master thesis explores the use of deep learning to automatically detect the different structures of the heart in cardiac ultrasound images. The object detection network YOLO version 5 is implemented, trained and assessed on a dataset containing echocardiography images in the apical two-chambers, four-chambers and long-axis cardiac views. For simplicity, the structures used were the left ventricle, left atrium and mitral valve. The data was provided from 62 different patients, which included 195 recordings, resulting in a total of 1260 images with corresponding ground truth annotations. This thesis intends to obtain a robust object detection model which can be integrated into the ultrasound examination. Therefore, implementations and analyses are performed in order to find the best model capable of detecting the cardiac structures in all types of situations.
The results achieved from the best model are a mean average precision of 0.984 for an IoU equal to 0.5 and 0.631 for an IoU in the interval of 0.5 to 0.95. In addition, the detection gave a confidence of 82% on LV, 84% on MV and 94% on LA in the apical long-axis view, 67% on LV, 82% on MV and 69% on LA in the apical two-chambers view and 88% on LV, 77% on MV and 78% on LA in the apical four-chambers view. However, the model can fail to locate the structures in cases where the image quality is poor and other structures are in focus. As a conclusion the model shows promising results in detecting the structures. The performance and robustness can be increased with putting more work in data preprocessing in addition to experimenting more with data augmentation.