Vis enkel innførsel

dc.contributor.advisorUllah, Mohib
dc.contributor.advisorCheikh, Faouzi Alaya
dc.contributor.authorLien, Andreas Kilde
dc.date.accessioned2023-07-31T17:19:45Z
dc.date.available2023-07-31T17:19:45Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:139586733:21448254
dc.identifier.urihttps://hdl.handle.net/11250/3082010
dc.descriptionFull text not available
dc.description.abstractBetydelige fremskritt har blitt gjort innen identifikasjon av individuelle husdyr ved bruk av konvolusjonelle nevrale nettverk (CNNs). Til tross for disse fremskrittene, er det fortsatt rom for å forbedre deres ytelse. Nylig har Vision Transformer (ViT) dukket opp som en ledende teknikk innenfor datavisjon og har blitt vellykket implementert i mange oppgaver. Gitt den imponerende ytelsen til ViT, ble vi inspirert til å undersøke om den kunne gi overlegen nøyaktighet for gjenkjennelse av griser. Denne avhandlingen presenterer MobileViTPig, en foreslått løsning for gjenkjennelse av griser. MobileViTPig er en strømlinjeformet modell for gjenkjennelse av griser som integrerer både konvolusjonelle og transformer strukturer. Denne modellen har fordelen av å være lett, krever mindre treningsdata og databehandlingsressurser sammenlignet med en standard ViT-modell. Dessuten er den mer beleilig utplasserbar på kantenheter. Omfattende benchmarking tester viser at MobileViTPig kan opprettholde et høyt ytelsesnivå. Den oppnådde en gjenkjenningsnøyaktighet på 97.13% på et spesifikt datasett, betydelig overgående ytelsen til andre lette modeller basert på konvolusjonelle strukturer som MobileNet og EfficientNet. Merkbar, oppnådde den dette med fem ganger færre parametere og flyttallsoperasjoner (FLOPs) enn ResNet-50, en modell med sammenlignbar gjenkjenningsnøyaktighet.
dc.description.abstractConsiderable advancements have been made in the identification of individual livestock using convolutional neural networks (CNNs). Despite these strides, there remains room for enhancing their performance. Recently, the Vision Transformer (ViT) has emerged as a leading-edge technique in the field of computer vision and has been successfully implemented in numerous tasks. Given the impressive performance of the ViT, we were inspired to investigate whether it could provide superior accuracy for pig recognition. This thesis presents MobileViTPig, a proposed solution for pig recognition. MobileViTPig is a streamlined pig recognition model that integrates both convolutional and transformer architectures. This model has the advantage of being lightweight, requiring less training data and computational resources compared to a standard ViT model. Moreover, it is more conveniently deployable on edge devices. Extensive benchmarking tests demonstrate that MobileViTPig can maintain a high level of performance. It achieved a recognition accuracy of 97.13% on a specific dataset, significantly surpassing the performance of other lightweight models based on convolutional structures such as MobileNet and EfficientNet. Notably, it achieved this with five times fewer parameters and floating-point operations (FLOPs) than ResNet-50, a model with comparable recognition accuracy.
dc.languageeng
dc.publisherNTNU
dc.titleLightweight Livestock Monitoring with Vision Transformer
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel