Multi-label image classification with language-image models: an approach for a fine-grained domain-specific dataset
Abstract
Nylige framskritt innen selvveiledede bildemodeller (self-supervised pre-trained image models) har gjort det mulig å bygge gode modeller for oppgavespesifikk (task-specific) bildeklassifisering lettere og med mindre treningsdata enn før. Dette har senket terskelen for å lage modeller for nye oppgaver. Utviklingen innen språk-bilde-modeller og utgivelsen av modeller som OpenAIs CLIP tillater sågar eksempelløse (zero-shot) bildeklassifikatorer – klassifikatorer konstruert uten noen oppgavespesifikke eksempelbilder – uten annet enn naturlig språk til å definere klassene. For finkornet (fine-grained) klassifisering har eksempelløs bruk av CLIP vist seg å egne seg i svært varierende grad. I noen tilfeller fungerer det godt, i andre tilfeller ikke. Vi undersøker hvor godt denne modellen fungerer som basis for en finkornet flerannotasjonsklassifikator (fine-grained multi-label classifier) på et datasett med spesialiserte militærrelaterte bilder med inkonsekvente tekstannotasjoner. Dette gjør vi ved å bruke språk-bilde-egenskapene til CLIP til å konstruere og evaluere en eksempelløs klassifikator, samt ved å bruke CLIPs innlærte bilderepresentasjoner direkte til å utvikle rent bildebaserte modeller inspirert av k-nærmeste naboer og hurtigminnemodeller (cache models) som drar nytte av bilder med kjente annotasjoner uten å måtte trenes. Under utviklingen av modellene studerer vi effekten av ulike designvalg, blant annet om det lønner seg å trene deler av modellen videre. Siden datasettet har norske tekstannotasjoner, undersøker vi også hvilken effekt valget av språk har på den eksempelløse klassifikatoren.
Vi finner at det for våre data, som tilhører et spesialisert domene, gir mye bedre resultater å lage en klassifikator som bruker CLIPs bilderepresentasjoner direkte, og som sammenligner med bilder med kjente annotasjoner, enn å bruke den til å lage en eksempelløs språk-bilde-klassifikator. Språk-bilde-klassifikatoren gjør det betydelig dårligere enn referansen, en bildebasert 1-nærmeste nabo-modell, mens våre bildebaserte modeller gjør det bedre enn referansen. Det viser seg også at språket i tekstannotasjonene er viktig for hvor godt språk-bilde-klassifikatoren yter. Engelske annotasjoner gjør det bedre enn norske, og manuelle engelske oversettelser av høy kvalitet gjør det bedre enn automatiske oversettelser. Vi peker på forhold vi tror hindrer språk-bilde-klassifikatoren i å nærme seg ytelsen til de bildebaserte klassifikatorene. Den best egnede modellen vi finner, er et søk som finner de bildene blant en mengde referansebilder som ligner mest på søkebildet, og vekter annotasjonene deres ut fra hvor mye de ligner. Recent development in self-supervised pre-trained image models has made it possible to build good models for task-specific image classification more easily and with less training data than before. This has lowered the barrier to creating models for new tasks. The development of language-image pre-training and the release of models like OpenAI's CLIP even allow for zero-shot image classifiers – classifiers built without a single task-specific image sample – using natural language to specify the classes. For fine-grained image classification tasks, zero-shot usage of CLIP is shown to have unpredictable performance, doing well with some tasks but not with others. We explore the effectiveness of this model as a basis for a multi-label fine-grained classifier on a dataset of specialized domain military-related images with inconsistent text labels. We do this by using the language-image properties of CLIP to create and evaluate a zero-shot classifier as well as using its learned image representations directly to develop purely image-based models inspired by k-nearest neighbors and cache models which utilize available images with known labels while not requiring any training. As part of the development of the models, we study the effects of various model design choices, one of which is whether to fine-tune parts of the model. As the dataset has Norwegian text labels, we also investigate the effects of the language of the labels on the zero-shot classifier.
We find that, for our specialized domain data, making a classifier that uses CLIP's image representations directly and utilizes images with known labels is drastically more effective than using it to make a zero-shot language-image classifier. The results of the language-image classifier are considerably worse than an image-based 1-nearest neighbor baseline, whereas our image-based models' results are better than this baseline. We also find that the language of the labels is important for the language-image classifier's performance, with English labels performing better than Norwegian labels, and manual, high-quality translation into English performing better than automatic translation. We point to issues that we believe keep the language-image classifier from coming close to the performance of the image-based classifiers. The best performing model we find is a search procedure that identifies the most similar images from a set of reference images and weights their labels according to their similarity to the query image.