Structured Object Detection

Kaaby, William Emanuel Skreien; Rosenlund, Stig André

dc.contributor.advisor	Mester, Rudolf
dc.contributor.advisor	Stahl, Annette
dc.contributor.author	Kaaby, William Emanuel Skreien
dc.contributor.author	Rosenlund, Stig André
dc.date.accessioned	2022-10-13T17:20:22Z
dc.date.available	2022-10-13T17:20:22Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112046434:22118409
dc.identifier.uri	https://hdl.handle.net/11250/3026017
dc.description.abstract	CNNer er ofte brukt til å løse visuelle oppgaver slik som bildeklassifikasjon og objektdeteksjon. Imidlertid er det utfordrende å forklare hvorfor de interne strukturene fører til en bestemt hypotese. Denne avhandlingen har som mål å utforske og utvikle et system som kan utføre objektdeteksjon i tillegg til å øke tolkbarheten av nettverkets hypoteser. Hoveddelen av arbeidet er rettet mot klassifikasjonsaspektet ved objektdeteksjon med et mindre fokus på lokalisering. Denne økte tolkbarheten oppnås ved å utnytte sammensetningen mellom et objekt og dets tilhørende deler. Med dette i mente har vi utviklet to ulike undersystemer som utfører ulike oppgaver tilknyttet bruken av objektets delsammensetning: deldetektorer som detekterer et objekts bestanddeler og et fellesstruktursystem som tar inn deldeteksjonene og gir ut en klassehypotese. Vår tilnærming representerer, så vidt vi vet, en ny metode for å lage deldetektorer. Deldetektorene er laget fra filtrene til en forhåndstrent VGG16. Valget av filtre er gjort ved å se på distribusjonen av aktiveringsintensiteter som er produsert av filtrene gitt ulike klasseinstanser. Vi velger de filtrene som har størst separasjon av distribusjoner. Valgprosessen er utviklet på bakgrunn av eksisterende forskning på nettverksdisseksjon. Vi tilpasser en logistisk regresjonsmodell til filtrenes utdata, som igjen produserer et sannsynlighetskart over sannsynligheten for at en del er i en gitt posisjon. Gjennom en evaluering av deldetektorene, som ble gjort ved hjelp av en Bag of Words klassifikasjonsmodell basert på delforekomster, oppnår vi en tilsvarende ytelse som VGG16 til tross for at vi kun bruker en delmengde av filtrene fra VGG16. Med andre ord reduseres grunnmodellen samtidig som vi opprettholder god ytelse. Dessuten fører bruken av probabilistiske deldetektorer til at vårt system har økt tolkbarhet sammenlignet med VGG16. Avslutningsvis utførte vi noen innledende forsøk på objekt deteksjon ved å bruke de utviklede klassifikasjonssystemene til å lokalisere objekter.
dc.description.abstract	CNNs are frequently used to solve visual tasks such as image classification or object detection. However, explaining why the internal structures produce a particular hypothesis remains challenging. This thesis aims to explore and develop a system capable of performing object detection while increasing the explainability of the network's hypotheses. The majority of work is oriented toward the classification aspect of object detection, with a lesser focus on localization. The increased explainability is achieved by leveraging the compositionality between an object and its constituent parts. To that end, we have endeavored to develop two subsystems that target different tasks associated with using compositionality: part detectors that can detect the constituent parts of an object and a joint structure system that takes the part detections as inputs and outputs a class hypothesis. Our approach represents, to our knowledge, a novel method of creating part detectors. The part detectors are created from the filters of a pre-trained VGG16. The selection of filters is made by looking at the activation intensity distributions that the filters produce from instances of different classes. We select those filters that have the highest distribution separation. The selection process was developed based on previous research on network dissection. We fit a logistic regressor to the filter outputs, which produces a probability map that contains the probability of a part being present at each location of an input. When evaluating our part detectors using a Bag of Words classification model based on part occurrences, we find that we can achieve comparable performance to VGG16 despite using only a subset of filters from VGG16. In other words, we prune the base model while maintaining good performance. Furthermore, using probabilistic part detectors means that our system has acquired increased explainability compared to VGG16. Finally, we conducted some preliminary experiments on object detection using the developed classification systems to localize objects.
dc.language	eng
dc.publisher	NTNU
dc.title	Structured Object Detection
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:112046434:2211 ...
Størrelse:: 32.16Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6552]

Vis enkel innførsel