Sheep Detection in UAV Footage Using Mask R-CNN

Leistad, Ralf

dc.contributor.advisor	Hvasshovd, Svein-Olaf
dc.contributor.author	Leistad, Ralf
dc.date.accessioned	2022-10-20T17:20:01Z
dc.date.available	2022-10-20T17:20:01Z
dc.date.issued	2022
dc.identifier	no.ntnu:inspera:112296943:64215112
dc.identifier.uri	https://hdl.handle.net/11250/3027415
dc.description	Full text not available
dc.description.abstract	Hvert år slippes over 2 millioner sauer ut i naturen for å beite. Ved slutten av beiteperioden er det bondens ansvar å finne og samle inn alle sauene sine. Dette kan potensielt være en svært tidkrevende oppgave på grunn av Norges enorme og varierende natur. Teknologiske fremskritt har åpnet muligheten for ubemannede luftfartøyer til å bistå i en rekke oppgaver. En av disse er lokalisering av sau som vandrer i naturen mot slutten av beiteperioden. Denne oppgaven foreslår en dyp læringsløsning for å hjelpe bønder med å lokalisere sauene sine. Den foreslåtte løsningen bruker en flertrinns detektor, Mask R-CNN. Flere nevrale nettverk er utviklet for å undersøke hvordan ulike nevrale nettverksarkitekturer og inngangsoppløsninger påvirker ytelsen. Det beste resultatet oppnådd er ved å bruke Mask R-CNN-rammeverket med en ResNet-50 og funksjonspyramidenettverksryggrad, trening med 832x832 bilder og testet på 1024x1024, som nådde en gjennomsnittlig presisjon på 0.73 med et skjæringspunkt over unionsterskel på 0.5. Dette resultatet er ikke optimalt, men det antyder at Mask R-CNN kan brukes til å lokalisere sauer i UAV-opptak med litt mer arbeid. Videre ble den foreslåtte løsningen sammenlignet med en ett-trinns detektor, YOLOv3, trent for samme oppgave og på samme data. Det ble funnet at YOLOv3 klarte å overgå den foreslåtte løsningen i denne oppgaven. Til slutt er det et par trusler mot gyldigheten av den foreslåtte løsningen. For det første består de oppgitte dataene for dette prosjektet av bilder fra samme område, som hindrer det nevrale nettverket fra å generalisere riktig. For det andre ble modelltrening avkortet på grunn av komplikasjoner, noe som førte til at de nevrale nettverkene potensielt ikke kunne nå deres fulle potensialet.
dc.description.abstract	Every year, over 2 million sheep are released into nature to graze. At the end of the grazing period it is the farmer's responsibility to find and round up all their sheep. This can potentially be a very time consuming task due to the vast and varying nature of Norway. With recent advances in technology, unmanned aerial vehicles are able to greatly aid in a variety of tasks. One of these are locating sheep wandering in nature towards the end of the grazing period. This thesis proposes a deep learning solution to aid farmers with locating their sheep. The proposed solution uses a multi-stage detector, Mask R-CNN. Several neural networks are developed in order to examine how different neural network architectures and input resolutions affect performance. The best result achieved is by using the Mask R-CNN framework with a ResNet-50 and feature pyramid network backbone, training with 832x832 images and tested on 1024x1024, which reached a mean average precision of 0.73 with a intersection over union threshold of 0.5. This result is not optimal, however, it suggests that Mask R-CNN can be used to locate sheep in UAV footage with some more work. Furthermore, the proposed solution was compared to a single-stage detector, YOLOv3, trained for the same task and on the same data. It was found that YOLOv3 was able to severely outperform the proposed solution in this thesis. Finally, there are a couple of threats to the validity of the proposed solution. Firstly, the provided data for this project consists of images from the same area, which restrain the neural network from generalising properly. Secondly, model training was cut short due to complications, leading to the neural networks potentially not being able to reach their full potential.
dc.language	eng
dc.publisher	NTNU
dc.title	Sheep Detection in UAV Footage Using Mask R-CNN
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6788]

Vis enkel innførsel