Machine Learning for Classification of Myocardial Infarction and Heart failure Using Longitudinal Myocardial Strain
Abstract
Venstre-ventrikkels ejeksjonsfraksjon (EF) har lenge blitt brukt som en indikator på hjertetilstand av pasienter i klinisk kardiologi. De siste årene har bruken av myokardiell tøyning til diagnostikk også blitt mer utbredt. Digitaliseringen av sykehus sine databaser, og innsamling av store mengder ekkokardiografiske data har åpnet opp for muligheten for å anvende maskinlæringsalgoritmer for å automatisere tidkrevende arbeidsoppgaver som datamerking, samt for bruk av maskinlæringsalgoritmer for å stille diagnoser. Denne oppgaven forsøker å bidra til den sistnevnte anvendelsen.
Dette arbeidet bruker et dataset som består av 199 pasienter, og er del av IMPROVE studien som er en pågående kardiologisk studie. I datasettet er det 60 pasienter med ST-elevasjonsinfarkt, 39 pasienter med non-ST-elevasjonsinfarkt, 70 pasienter med andre hjerte-og karsykdommer og 30 friske kontrollpasienter. Datasettet er også delt i forhold til hvilke pasienter som har hjertesvikt, hvorav 100 pasienter med hjertesvikt og 99 pasienter uten hjertesvikt. For hver pasient har datasettet inneholdt tre globale longitudinale tøyningskurver, og 18 regionale longitudinale tøyningskurver. Disse kurvene er hentet fra de tre ultralydsnittene, 4-kammer snittet, 2-kammer snittet og det apikale-langaksesnittet, som er tilgjengelig ved transthorakal ekkokardiografi. Hvert venstre-ventrikkels segment ble også gitt en "Wall motion score" som gir et inntrykk av graden av funksjonssvikt i segmentet.
Det er tre binære målvariabler som vurderes i dette arbeidet: Hjertesvikt (Ja/Nei), Pasienthelse (Frisk/Syk), og tilstand til venstre-ventrikkelssegmenter (Normal/Unormal). Hoveddelen av arbeidet ble gjort for teste om tidsrekkeklynging og kunstige nevrale nettverk kan brukes for å predikere de tre målvariablene ved anvendelse på longitudinale tøyningskurver. For å danne et sammenligningsgrunnlag for tidsrekkeklyngemodellen ble klynging av punktverdier gjennomført på punkter ekstrahert fra de longitudinale tøyningskurvene under systolen i kombinasjon med EF. For å danne et sammenligningsgrunnlag for det kunstige nevrale nettverket ble det anvendt elleve forskjellige veiledede klassifiseringsalgoritmer på punktverdier ekstrahert fra de longitudinale tøyningskurvene i kombinasjon med EF. Modellene ble evaluert på deres nøyaktighet, sensitivitet, spesifisitet og med en indeks ved navn ''Diagnostic Odds Ratio'' (DOR).
Klyngemodellen anvendt på punktverdier av tøyningskurver og EF var modellen som gjorde det best på å predikere hjertesvikt blant pasienter. Modellen oppnådde en nøyaktighet på 0.76, en sensitivitet på 0.81, en spesifisitet på 0.72, og en DOR på 10.85. Det skal bemerkes at alle modellene ble utklassert av en enkel terskel-vurderingsalgoritme som forutså at alle pasienter med en EF under 45% hadde hjertesvikt. Terskelvurderingsalgoritmen oppnådde en nøyaktighet på 0.77, en sensitivitet på 0.86, en spesifisitet på 0.69, og en DOR på 13.48. Modellen som gjorde det best på å predikere pasienthelse var en veiledet klassifiseringsalgoritme som heter "K Nearest Neighbors". Den brukte en kombinasjon av punktverdier fra globale og regionale longitudinale tøyningskurver, og oppnådde en nøyaktighet på 0.93, en sensitivitet på 0.95, en spesifisitet på 0.82, og en DOR på 84.53. Det kunstige nevrale nettverket var modellen som gjorde det best på å predikere tilstanden til venstreventrikkelssegmenter. Den oppnådde en nøyaktighet på 0.74, en sensitivitet på 0.74, en spesifisitet på 0.75, og en DOR på 8.38.
Det konkluderes med at fremtidig arbeid gjort på dette temaet kan se på metoder for å redusere antall kurver brukt for å representere hver enkelt pasient, spesielt for tidsrekkeklyngemodellen. Arkitekturen til det kunstige nevrale nettverket viste seg å være for komplekst for dette datasettet, så fremtidig arbeid kan også gå på å redusere kompleksiteten til arkitekturen. De veiledede klassifiseringsalgoritmene ble brukt med ganske standardiserte hyperparametre, siden de i utgangspunktet kun var ment som et sammenligningsgrunnlag for det kunstige nevrale nettverket. Videre arbeid kan også bli gjort på å tilpasse disse algoritmene mer til problemet, og det tilgjengelig datasettet. The use of left ventricle Ejection Fraction (EF) in diagnosing heart failure is well established in clinical cardiology. In the past few years, clinicians have started using myocardial strain for diagnosing more often as well. The digitization of hospital databases and the collection of large amounts of echocardiographic data have opened up the possibility for application of machine learning algorithms to automate labor-intensive tasks for clinicians such as data annotation and to assist clinicians with the diagnostic process. This work attempts to contribute to the latter.
This work has used a dataset of 199 patients, a part of the IMPROVE study, which is an ongoing cardiology study. In the dataset, there were 60 patients with ST Elevation Myocardial Infarction, 39 with Non-ST Elevation Myocardial Infarction, 70 with other heart diseases, and 30 control patients. The dataset is also labeled by heart failure, and there were 100 patients with heart failure and 99 patients without. For each patient there were given three Global Longitudinal Strain curves, and 18 Regional Longitudinal Strain curves from the 4-Chamber, 2-Chamber and Apical-Long-Axis views yielded with transthoracic echocardiography. Each left ventricle segment was also given a label according to the wall motion score, indicating the degree of dysfunction of each segment.
Three binary target variables are considered: Heart failure (Yes / No), patient diagnosis (Healthy / Unhealthy), and regional myocardial segment indication (Normal / Abnormal). The bulk of the work has been towards testing if Time-series Clustering (TSC) and Artificial Neural Network (ANN) could be applied to predict the three target variables when applied on longitudinal strain curves. To benchmark the TSC model, regular clustering of point values was performed on peak systolic strain of the longitudinal strain curves in combination with EF. To benchmark the Artificial Neural Network (ANN), eleven different supervised classifiers were trained on peak values of longitudinal strain curves in combination with EF. The models were evaluated with accuracy, sensitivity, specificity, and Diagnostic Odds’ Ratio (DOR).
It was a clustering model applied to peak systolic global longitudinal strain in combination with EF that performed best at predicting heart failure among patients. The model attained an accuracy of 0.76, a sensitivity of 0.81, a specificity of 0.72, and a DOR of 10.85. However, it was found that all the models were outperformed by a simple EF threshold classifier set at 45%, which attained an accuracy of 0.77, sensitivity of 0.86, specificity of 0.69 and DOR of 13.48. The model that performed best at predicting patient diagnosis was the K Nearest Neighbors classifier trained on a combination of peak systolic global and regional longitudinal strain values. It attained an accuracy of 0.93, a sensitivity of 0.95, a specificity of 0.82, and a DOR of 84.53. The model that performed best at predicting the indication of regional myocardial segments was the ANN. It attained an accuracy of 0.74, a sensitivity of 0.74, a specificity of 0.75, and a DOR of 8.38.
It was found that future work to be done on this topic could include dimensionality reduction of the multiple strain curves used to represent the patients for the time-series clustering model. The architecture of the ANN was found to be too complex for the dataset at hand, so improvement could be gained by reducing the complexity of the architecture. The supervised classifiers were applied with fairly standard hyperparameters as they were meant to serve as a benchmark for the ANN, so further work could be put into optimizing the hyperparameters of the classifiers for the dataset at hand.