Multi-Level Magnification with Transformer-Based Architectures for Enhanced Cell Detection and Classification in Computational Pathology
Abstract
Celledeteksjon og klassifisering er en viktig oppgave for å bistå patologer medpasientbehandling og utarbeidelse av prognose, innen Computational Pathology(CPATH), en gren under digital patologi som utvikler metoder for analyse av pasi-entprøver. En spesifikk anvendelse er celletelling i brystkreftprøver. Brystkreft stofor 31% av all kreft observert hos kvinner i 2023. Ettersom celletelling er tidskre-vende og potensielt kan påvirke menneskeliv, er automatisering, forklarbarhet ogpresise prediksjoner viktig. Utarbeidelse av store annoterte datasett er dessverrevanskelig og krever mye tid og kompetanse.
Når patologer skal stille en diagnose, undersøker de vanligvis flere nivåer av for-størrelse i cellevevet. Nylige etablerte metoder er inspirert av dette og går utpå å bruke maskinslæringsmodeller som utnytter forholdet mellom celler og detomkringliggende vevet. I tillegg er det utgitt et nytt datasett kalt OCELOT, sominneholder annoterte, overlappende celle- og vevsbilder, basert på Hematoxylinand Eosin (H&E)-fargede Whole-Slide-Images (WSIs) av flere organer.
Denne avhandlingen undersøker hvordan transformer-baserte arkitekturer kanbrukes for å øke ytelsen til maskinslæringsmodeller på oppgaven med overlap-pende celle- og vevsbilder og undersøker hvordan tilleggsinformasjonen utnyttesav modellene. Vi finner ut at en sofistikert kombinasjon av vevs og celleinformas-jonen er avgjørende for modellenes ytelse og foreslår en ny arkitektur, den AdditiveJoint Pred-to-decoder modellen. Den har en U-Net-liknende arkitektur, en kombin-ert kostfunksjon og bruker overlapped patch merging for vevsprediksjonene. Denoppnår en høyere score på det offisielle OCELOT-testsettet enn høyeste observertescore under konkurransen. Ved å legge til Test-Time Augmentation (TTA), oppnården en høyere score enn hva vi har observert hos relaterte vitenskaplige artiklerpå testsettet.
For å oppsummere, presenterer vi en ny State-of-the-art (SOTA) arkitektur foroppgaven i OCELOT og viser at de beste modellene kombinerer informasjonen fravevs- og cellebildene på en intelligent måte, noe som gjør de i stand til å bådeutnytte cellenes morfologi og vevskonteksten. Cell detection and classification is an important task for aiding patient prognosisand treatment planning in Computational Pathology (CPATH), a branch of digitalpathology that develops methods for the analysis of patient specimens. One spe-cific application is cell counting of breast cancer specimens, which alone accoun-ted for 31% of all female cancers in 2023. As cell counting is a tedious task andpotentially can impact human lives, automation, interpretability of the methods,and accurate predictions are critical. However, developing large annotated data-sets is challenging as it requires significant time and effort from domain experts.
Pathologists usually consider different levels of magnification when making dia-gnoses. Inspired by this, recent methods have been proposed using the cell-tissuerelationship for the development of Machine Learning (ML) models. Additionally,a new dataset named OCELOT has been released, containing overlapping cell andtissue annotations based on Hematoxylin and Eosin (H&E) stained Whole-Slide-Images (WSIs) of multiple organs.
This thesis explores how transformer-based architectures can be used to improveperformance on the overlapping cell and tissue task, and investigates how the ad-ditional information is utilized by these complex models. We learn that the intel-ligent combination of the additional information is critical to the model perform-ance, and propose a new architecture for utilizing the cell-tissue relationship, theAdditive Joint Pred-to-decoder model. With a U-Net-like architecture, a joint lossfunction and an implementation of overlapped patch merging of tissue predic-tions, this model achieves a higher mean F1 score on the official OCELOT test setthan all submissions on the OCELOT grand challenge’s leaderboard. When addingTest-Time Augmentation (TTA) to the model, we achieve a higher score than anyother publication on the official test set, to the best of our knowledge.
In summary, we provide a new State-of-the-art (SOTA) model architecture forthe OCELOT task and show that the best models intelligently combine the ad-ded tissue information to the cell images, allowing them to take both the cells’morphology as well as tissue context into consideration.