Vis enkel innførsel

dc.contributor.advisorKiss, Gabriel Hanssen
dc.contributor.advisorLindseth, Frank
dc.contributor.authorObrestad, Kåre Fosli
dc.date.accessioned2022-09-20T17:21:04Z
dc.date.available2022-09-20T17:21:04Z
dc.date.issued2022
dc.identifierno.ntnu:inspera:112046434:32208017
dc.identifier.urihttps://hdl.handle.net/11250/3019912
dc.description.abstractIntraoperativ bildetagning av hjertet og bruken av hybride operasjonsstuer for hjerteoperasjoner, blir stadig vanligere. 3D transøsofageal ekkokardiografi (TEE) gir kirurger en måte å se de detaljerte anatomiske strukturene i hjertet i sanntid, som ikke skade pasienten. Automatisk justering av disse ultralydbildene vil gjøre det slik at bildene kan presenteres effektivt til kirurgen. En måte å gjøre dette på, vil være å detektere anatomiske landemerker i hjertet. Dette kan også gjøre det enklere å produsere standardutsnitt av TEE-bilder til diagnostisk bruk. I de siste tiårene har "deep learning"-metoder blitt brukt til mer og mer avanserte oppgaver innen datasyn, slik som objektdeteksjon. Oppfinnelsen av Konvolusjonelle Nevrale Nettverk (CNN), markerte et gjennombrudd i forskningen innen datasyn. I løpet av de siste to årene har det blitt introdusert en ny klasse nevrale nettverk som heter Vision Transformers. Disse kjemper mot CNN om hvem som gjør det best i ulike oppgaver innen datasyn. Basert på disse nyvinningene innen deep learning, presenterer denne avhandlingen en studie innen utviklingen av en metode for automatisk lokalisering av aortaklaffen i 3D TEE-bilder. Studien forsøker å sammenligne ytelsen til CNNer mot transformere, og evaluere styrkene og svakhetene til de to nettverkstypene. Avhandlingen presenterer et CNN, en transformer og en hybrid av disse to. Disse skal representere de ulike nettverkstypene. De fremlagte metodene bruker hele 3D-volumet som input. De brukes som egenskapsuthentere til et enkelt fullkoblet regresjonshode som predikerer avgrensningsbokse rundt aortaklaffen. Flere eksperimenter ble utført for å undersøke hvordan hyperparametersøk påvirker nettverkene. Nettverkene evalueres på gjennomsnittet av den euklidske avstanden fra hjørnepunktene i avgrensningsboksene. Modellene trenes på 84 3D TEE-bilder gitt av Universitetssykehuset St. Olavs Hospital i trondheim. Disse ble merket av forfatteren av avhandlingen. Modellen med de beste resultatene er en 3D-versjon av ResNet-50, og oppnådde en gjennomsnittlig feilverdi på 17.40mm på testdataen.
dc.description.abstractIntraoperative cardiac imaging and the use of hybrid operating theatres for cardiac surgery, are becoming more common. 3D transesophageal echocardiography (TEE) enables a harmless way for the physician to see the finer anatomical structures of the heart in real-time. A fully automated alignment of the acquired ultrasound images would allow the images to be presented to the surgeon, in an effective manner. A way to do this would be to detect anatomical landmarks of the heart. This could also help in producing standard TEE views for diagnostic purposes. In recent years, deep learning methods have been applied to increasingly advanced computer vision tasks, such as object detection. The invention of the convolutional neural network (CNN), marked a breakthrough in this area of research. In the last two years, a new class of deep learning methods known as vision transformers have also been introduced, competing with CNNs for the best performance. Motivated by these innovation in deep learning, this thesis presents a study on the development of such a method for automatic localisation of the aortic valve in 3D TEE volumes. The study wishes to compare the performance of CNNs against transformers, and evaluate strengths and weaknesses of the two network types. The thesis presents a CNN, a transformer and a hybrid architecture to represent the different network types. The proposed methods uses the entire 3D volumes as inputs. They are used as feature extractors for a simple, fully connected regression head, predicting bounding boxes around the aortic valve. Several experiments are done to research how hyperparameter tuning affects the networks. They are evaluated on the mean euclidean distance of the corner points of the bounding boxes. The models are trained on 84 3D TEE recordings provided by the University Hospital of St. Olav, Trondheim, and annotated by the thesis author. The best performing method is a 3D version of ResNet-50, which obtained an error of 17.40mm on the test set.
dc.languageeng
dc.publisherNTNU
dc.titleAortic Valve Localisation in 3D Transesophageal Echocardiography Volumes using Deep Learning
dc.typeMaster thesis


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel