Novel Applications of Sampling Methods and Backbone Architectures for Histopathological DINOv2
Abstract
Histopatologi, læren om sykdom i vev, avhenger av bruk av vevpreparat for presis diagnostisering. Feltet er i en moderniseringsprosess, hvor stadig flere sykehus skanner og digitaliserer preparatene sine. Å ha tilgang til digitaliserte preparater muliggjør bruk av dataassisterte verktøy for patologer, noe som gjør diagnostiseringen raskere og mer presis. En konsekvens av denne digitaliseringsprosessen, er at det skapes store datasett av Whole Slide Images (WSI), noe Dyp Læring (DL) kan ta nytte av. Selvveiledet Læring (SSL) er en teknikk innen DL som utmerker seg i å bruke store mengder data til å trene DL modeller med generell kunnskap, noe som har vist seg nyttig for mange bruksområder innen histopatologi.
I denne oppgaven analyseres bruken av et anerkjent rammeverk for visuell SSL, DINOv2, på WSI-er. Forskjellen mellom preparatbilder og naturlige bilder blir tatt i betraktning, og hvilke teknikker som gir best resultat på nedstrømsoppgaver blir undersøkt. Oppgaven undersøker effekten av datasettstørrelse, hvordan flere zoom-nivåer kan utnyttes i DL treningen, samt om modellarkitekturen brukt av DINOv2 kan endres til en mer nylig arkitektur.
I eksperimentene sammenlignes et datasett på 1 341 preparatbilder med et datasett på 33 897 preparatbilder, og det blir funnet at et større datasett betraktelig forbedrer resultatene fra pretreningsmetoden. Det presenteres to nye algoritmer for valg av bildedimensjoner, som på en bedre måte utnytter zoom-nivåene som finnes i WSI-er, og det vises at dette gir bedre nedstrømsresultater enn de tradisjonelle metodene. Det presenteres også nye metoder for å kombinere Mamba arkitekturen med DINOv2. Modellene utviklet med disse metodene viser en høy nøyaktighet på kreft-klassifisering, og kan bidra til en ny standard innen datamaskinassistert diagnostikk hvis trent på større, kuraterte datasett. Histopathology, the analysis of disease in tissue, relies on tissue slides for accurate diagnosis. The field as a whole is being modernized, with more and more hospitals scanning and digitizing their slides. Having access to digitized slides makes it possible for pathologists to employ computer assistance during their work, making diagnosis faster and more accurate. This digitization ends up creating big databases of Whole Slide Images (WSI), and opens up a path for Deep Learning (DL) methods to further assist in diagnosis. Self-Supervised Learning (SSL) is a technique within DL that excels in using large amounts of data to train models with general knowledge, which have proven to be useful across many tasks within histopathology.
In this thesis we analyze the application of DINOv2, a state-of-the-art visual SSL framework, on slide images. We consider the differences between slide images and natural images in this context, and research techniques that can be employed for the best downstream performance. We examine the effects of dataset size, how one can benefit from utilizing multiple image magnifications during training, and whether one can switch the model architecture used by DINOv2 to a more recent architecture.
In our experiments we compare a dataset of 1 341 slides to a dataset of 33 897 slides, and found that a bigger dataset significantly improves pre-training performance. We present two new sampling strategies that make use of the scaling power innate in WSIs, and show an improved downstream performance across the board compared to traditional methods. We also present novel methods of combining Mamba architectures with DINOv2, and found that the VMamba architecture performs well when trained on WSIs using DINOv2. The models developed with these methods demonstrate a high accuracy when tested on cancer classification, and could contribute to a new state of the art within computational pathology if trained on larger, curated datasets.