Lightweight Livestock Monitoring with Vision Transformer

Lien, Andreas Kilde

dc.contributor.advisor	Ullah, Mohib
dc.contributor.advisor	Cheikh, Faouzi Alaya
dc.contributor.author	Lien, Andreas Kilde
dc.date.accessioned	2023-07-31T17:19:45Z
dc.date.available	2023-07-31T17:19:45Z
dc.date.issued	2023
dc.identifier	no.ntnu:inspera:139586733:21448254
dc.identifier.uri	https://hdl.handle.net/11250/3082010
dc.description	Full text not available
dc.description.abstract	Betydelige fremskritt har blitt gjort innen identifikasjon av individuelle husdyr ved bruk av konvolusjonelle nevrale nettverk (CNNs). Til tross for disse fremskrittene, er det fortsatt rom for å forbedre deres ytelse. Nylig har Vision Transformer (ViT) dukket opp som en ledende teknikk innenfor datavisjon og har blitt vellykket implementert i mange oppgaver. Gitt den imponerende ytelsen til ViT, ble vi inspirert til å undersøke om den kunne gi overlegen nøyaktighet for gjenkjennelse av griser. Denne avhandlingen presenterer MobileViTPig, en foreslått løsning for gjenkjennelse av griser. MobileViTPig er en strømlinjeformet modell for gjenkjennelse av griser som integrerer både konvolusjonelle og transformer strukturer. Denne modellen har fordelen av å være lett, krever mindre treningsdata og databehandlingsressurser sammenlignet med en standard ViT-modell. Dessuten er den mer beleilig utplasserbar på kantenheter. Omfattende benchmarking tester viser at MobileViTPig kan opprettholde et høyt ytelsesnivå. Den oppnådde en gjenkjenningsnøyaktighet på 97.13% på et spesifikt datasett, betydelig overgående ytelsen til andre lette modeller basert på konvolusjonelle strukturer som MobileNet og EfficientNet. Merkbar, oppnådde den dette med fem ganger færre parametere og flyttallsoperasjoner (FLOPs) enn ResNet-50, en modell med sammenlignbar gjenkjenningsnøyaktighet.
dc.description.abstract	Considerable advancements have been made in the identification of individual livestock using convolutional neural networks (CNNs). Despite these strides, there remains room for enhancing their performance. Recently, the Vision Transformer (ViT) has emerged as a leading-edge technique in the field of computer vision and has been successfully implemented in numerous tasks. Given the impressive performance of the ViT, we were inspired to investigate whether it could provide superior accuracy for pig recognition. This thesis presents MobileViTPig, a proposed solution for pig recognition. MobileViTPig is a streamlined pig recognition model that integrates both convolutional and transformer architectures. This model has the advantage of being lightweight, requiring less training data and computational resources compared to a standard ViT model. Moreover, it is more conveniently deployable on edge devices. Extensive benchmarking tests demonstrate that MobileViTPig can maintain a high level of performance. It achieved a recognition accuracy of 97.13% on a specific dataset, significantly surpassing the performance of other lightweight models based on convolutional structures such as MobileNet and EfficientNet. Notably, it achieved this with five times fewer parameters and floating-point operations (FLOPs) than ResNet-50, a model with comparable recognition accuracy.
dc.language	eng
dc.publisher	NTNU
dc.title	Lightweight Livestock Monitoring with Vision Transformer
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6831]

Vis enkel innførsel