Efficient multilabel tissue segmentation of histopathological images using hybrid vision transformer

Drange, Markus Mangersnes

Drange, Markus Mangersnes

Master thesis

Permanent lenke

https://hdl.handle.net/11250/3097120

Utgivelsesdato

2023

Metadata

Vis full innførsel

Samlinger

Institutt for datateknologi og informatikk [6620]

Beskrivelse

Full text not available

Sammendrag

Histopatologi er et sentral felt innen medisin, og gjør det mulig for klinikere å gi nøyaktige diagnoser på cellenivå for sykdommer som spenner fra kreft til infeksjoner. Studiet av mikroskopiske bilder er imidlertid krevende arbeid og krever omfattende ekspertise. Automatisering og digitalisering av arbeidsflyten innen patologi er nødvendig pga manglende rekruttering til yrket og kan dessuten muliggjøre høyere effektivitet, mindre variasjon mellom operatører og raskere analyser.

Helt siden gjennombruddet med konvolusjonelle nevrale nettverk (CNN) har feltet maskinlæring for medisinsk bildeanalyse hatt en rask og omfattende utvikling. Nylig innføring av transformer-modeller førte til videreutvikling av feltet. Denne fremgangen har gjort at forskere har tatt i bruk både transformere og CNN-er til forskjellige medisinske bildemodaliteter og sykdomsområder.

Denne masteroppgaven tar sikte på å undersøke begge arkitekturer anvendt på histopatologisk multi-label bildeklassifisering, og utforske hvordan ulike treningskonfigurasjoner påvirker ytelsen.

Modellene vil bli trent ved å bruke Atlas of Digital Pathology datasettet, bestående av 17 668 biter av bilder (såkalte patches) ledsaget av etiketter som beskriver de forskjellige vevstypene som finnes. Bildene stammer fra 100 lysbilder av humane histopatologiske undersøkelser av forskjellige diagnoser, hentet fra flere kroppsdeler, alt fra hjernen til nyrene.

Denne masteroppgaven presenterer tre CNN-er, en vision transformer og to hybridmodeller og sammenligner ytelsen. I tillegg vil ulike konfigurasjoner av pre-trening og dataforsterkning bli utforsket.

Resultatene viser at en lettvekt hybridmodell, MobileViT, som kombinerer egenskaper fra både CNN-er og transformere, oppnår de beste resultatene etter forhåndstrening på en selvovervåket måte. Nevnte modell oppnådde en F1-score på 0.835. Resultatene viste også at ResNet50 og ViT-16/B uten selvovervåket trening var de modellene med høyest ytelse med en F1-score på henholdsvis 0.821 og 0.822. Det ble demonstrert at bruk av dataforsterkningsteknikker kan forbedre prediksjonsytelsen til vision transformers for histopatologisk bildeklassifisering, mens fargemanipulasjon (augmentation) kan redusere ytelsen.

Histopathology is a central part of medicine, enabling clinicians to provide accurate diagnoses for diseases ranging from cancer to infections. The study of microscopic images is however tedious labour and necessitates extensive expertise. Automation and digitization of pathology workflows could enable higher throughput, less interoperator variation, and faster turnaround times.

Ever since the breakthrough of convolutional neural networks, the field of machine learning for medical image analysis has seen rapid development. The introduction of the new paradigm of transformer models led to further development of the field. This progress has led to researchers adopting both transformers and CNNs to different medical image modalities.

This thesis aims to investigate both architectures applied to histopathological multilabel image classification, and explore how different training configurations affect their performance.

The models will be trained using the Atlas of Digital Pathology dataset, consisting of 17 668 patches accompanied by labels describing the different tissue types present. The images are derived from 100 slides of human histopathological examinations of different diagnoses, obtained from several body parts, ranging from the brain to the kidney.

This study presents three CNNs, one vision transformer and two hybrid models and compares their performance. In addition, different configurations of pre-training and data augmentation will be explored.

The results find that a lightweight hybrid model, the MobileViT, combining properties from both CNNs and transformers, achieves the best results, after pretraining in a self-supervised manner. Said model obtained an F1-score of 0.835. The results also showed that without self-supervised pertaining, the ResNet50 and the ViT-16/B were the best-performing models with an F1-score of 0.821 and 0.822, respectively. It was demonstrated that using data augmentation techniques can improve the prediction performance of vision transformers for histopathological image classification, whereas color augmentations might degrade performance.

Utgiver

NTNU