Identification of salient iconography features in artwork analysis
Abstract
Ikonografi studerer det visuelle innholdet i kunstverk ved å vurdere temaene som er portrettert i dem, og deres representasjon. Computer Vision har blitt brukt til å identifisere ikonografifag i malerier og Convolutional Neural Networks (CNN) muliggjorde en effektiv klassifisering av tegn i kristne kunstmalerier. Det må imidlertid fremdeles demonstreres om klassifiseringsresultatene oppnådd av CNN er avhengige av de samme ikonografiske egenskapene som menneskelige eksperter utnytter når de studerer ikonografi. En passende tilnærming for å eksponere klassifiseringsprosessen ved nevrale modeller er avhengig av klasseaktiveringskart, som understreker områdene i et bilde som bidrar mest til klassifiseringen. Dette arbeidet sammenligner toppmoderne algoritmer (CAM, Grad-CAM, Grad-CAM++ og Smooth Grad-CAM++) når det gjelder deres evne til å identifisere ikonografiske attributter som bestemmer klassifiseringen av tegn i kristne kunstmalerier. Kvantitative og kvalitative analyser viser at Grad-CAM, Grad-CAM++ og Smooth Grad-CAM++ har lignende ytelser mens CAM har lavere effekt. Smooth Grad-CAM++ isolerer flere frakoblede bilderegioner som identifiserer små ikonografisymboler godt. Grad-CAM produserer bredere og sammenhengende områder som dekker store ikonografisymboler bedre.Den illustrerte analysen er et skritt mot datastøttet studie av variasjonene av ikonografiske elementers posisjonering og gjensidige relasjoner i kunstverk, og åpner veien for automatisk oppretting av avgrensningsbokser for å trene detektorer av ikonografisymboler i kristne kunstbilder. Iconography studies the visual content of artworks by considering the themes portrayed in them and their representation. Computer Vision has been used to identify iconography subjects in paintings and Convolutional Neural Networks (CNN) enabled the effective classification of characters in Christian art paintings. However, it still has to be demonstrated if the classification results obtained by CNNs rely on the same iconographic properties that human experts exploit when studying iconography. A suitable approach for exposing the process of classification by neural models relies on Class Activation Maps, which emphasize the areas of an image contributing the most to the classification. This work compares state-of-the-art algorithms (CAM, Grad-CAM, Grad-CAM++, and Smooth Grad-CAM++) in terms of their capacity of identifying the iconographic attributes that determine the classification of characters in Christian art paintings. Quantitative and qualitative analyses show that Grad-CAM, Grad-CAM++, and Smooth Grad-CAM++ have similar performances while CAM has lower efficacy. Smooth Grad-CAM++ isolates multiple disconnected image regions that identify small iconography symbols well. Grad-CAM produces wider and more contiguous areas that cover large iconography symbols better.The illustrated analysis is a step towards the computer-aided study of the variations of iconography elements positioning and mutual relations in artworks and opens the way to the automatic creation of bounding boxes for training detectors of iconography symbols in Christian art images.