Basal Strain Estimation in Transesophageal Echocardiography using Unsupervised Deep Learning
Abstract
Pasienter med behov for hjertekirurgi løper en risiko for alvorlige komplikasjoner under og etter inngrepet, og blir derfor overvåket gjennom den perioperative perioden. Ekkokardiografisk evaluering kan være en viktig del av denne overvåkningen, men ettersom visuell inspeksjon er den dominerende metoden er slik evaluering i høy grad kvalitativ. I senere år har det vært stor interesse for å standarisere kvantitative indikatorer for hjertefunksjon, og en mye brukt slik indikator er myokardiell strain. Strainavbildningsteknologi er i dag tilgjengelig fra de fleste større leverandører av ultralydutstyr og -programvare, men disse krever at personell med opplæring annoterer bildene manuelt. Det er også vist at det er stor variasjon i slike målinger, både mellom observatører og mellom leverandører av utstyr, noe som gjør det ønskelig å standardisere automatiske strainmålinger. Fortsatt rask utvikling innen transøsofagal ekkokardiografi (TØE) er ventet å fasilitere denne automatiseringen.
Denne oppgaven har som mål å bidra til full automatisering av ekkokardiografisk overvåkning i den perioperative perioden. Her undersøkes muligheten for rask automatisk longitudinal strainestimering i basalsegmentene fra transøsofagale 4-kammer-, 2-kammer- og lang-aksebilder gjennom bruk av ikke-veiledet (eng: unsupervised) dyp læring. Det blir foreslått en metode i fire steg, der de to viktigste er deteksjon av gjenkjennbare punkter på myokardium og estimering av bilde-til-bilde forflytning. De estimerte forflytningene brukes til å følge de detekterte punktene gjennom hjertesyklusen, og avstanden mellom dem gir et estimat av strain. Punktdeteksjonen antar at mitralanullus’ posisjon er kjent, og filtrerer bildene i flere omganger for å fremheve de mest distinkte punktene på basalsegmentet under. Forflytningene blir estimert av et konvolusjonelt nevralt nettverk og kubisk B-splineinterpolasjon, inspirert av nylig publisert arbeid innen bilderegistrering. Nevralnettet estimerer et lavoppløst forflytningsfelt som så interpoleres til et felt med full oppløsning, med én forflytningsvektor per piksel i bildene. Nevralnettet trenes uten veiledning slik at de sanne forflytningene ikke behøver å være kjent.
Tre konvolusjonelle nevralnett ble trent og evaluert på undersøkelser fra 94 pasienter (57 til trening, 14 til validering, 23 til testing). Det beste nettverket viser lovende resultater på 4- og 2-kammerbildene, spesielt der bildekvaliteten er høy. Dette nettverket oppnår en gjennomsnittlig absolutt differanse (GD) på (2.96 ± 3.13)% i det inferoseptale segmentet i 4-kammerbilder når det sammenlignes med en kommersiell metode. I resten av segmentene ligger GD mellom 4.04% og 6.17%, med verst ytelse på lang-aksebildene. Størst avvik ble observert i undersøkelser med lav bildekvalitet. Det leder til konklusjonen om at strainestimering med denne metoden er mulig dersom robustheten forbedres eller om bildekvaliteten kan garanteres. Patients undergoing cardiac surgery run the risk of serious complications during and after the intervention, and have their hearts monitored through the perioperative period. Echocardiographic assessment of the contractility of the heart can be an important component in this monitoring, but is often highly qualitative as visual inspection remains the dominant technique. In recent years, efforts have been made to develop standardized quantitative measures of cardiac function, strain being one of them. Strain imaging technology is available from the major vendors of ultrasound equipment and software, but currently requires manual annotation of the images. In addition, the available technology suffers from high inter- and intra-observer variability, making automation of the strain estimation task desirable. Continuing advances in transesophageal echocardiography (TEE) are believed to facilitate this automation.
This thesis aims to contribute towards the full automation of perioperative echocardiographic monitoring through investigating the feasibility of fast, automatic longitudinal strain estimation in the basal segments from unselected 4-chamber, 2-chamber, and long-axis TEE images using unsupervised deep learning methods. A strain estimation pipeline is proposed, composed of two major components: myocardial landmark detection and frame-to-frame displacement estimation. Using the estimated displacements, the detected landmarks can be tracked through the cardiac cycle and used to estimate strain. The landmark detection algorithm assumes known mitral annulus location and employs a series of filtering operations to highlight a suitable landmark in the myocardial segment below it. The displacements are estimated using a fully convolutional neural network (CNN) and cubic B-spline interpolation, inspired by recent work in image registration. The CNN is trained in an unsupervised manner, removing the need for manual annotation of the ground truth, and estimates a low-resolution displacement field. This low-resolution field is then interpolated to produce a dense displacement field describing the motion of each individual pixel between two consecutive frames.
Three CNN models were trained and evaluated on samples from 94 patients (57 for training, 14 for validation, 23 for testing). The most succesful model shows promising results in the 4- and 2-chamber views, especially when the images are of high quality. Notably, it achieves a mean absolute difference (MD) of (2.96 ± 3.13)% on strain estimates in the inferoseptal segment in the 4-chamber view when compared to a commercially available method. In the other segments, the MD ranged from 4.04% to 6.17%, performing worst on the long-axis samples. The largest differences were observed in samples where the image quality was poor, leading to the conclusion that strain estimation using this method is feasible if efforts are made to improve robustness or if image quality can be guaranteed.