Vis enkel innførsel

dc.contributor.advisorHvasshovd, Svein-Olaf
dc.contributor.authorLoennechen, Jan
dc.contributor.authorTorbjørnsen, Marius
dc.date.accessioned2023-09-29T17:23:04Z
dc.date.available2023-09-29T17:23:04Z
dc.date.issued2023
dc.identifierno.ntnu:inspera:145904930:34601466
dc.identifier.urihttps://hdl.handle.net/11250/3093232
dc.descriptionFull text not available
dc.description.abstractHvert år slippes mer enn 1.4 millioner sauer ut i Norge, for å beite på mer enn 6500 km². På høsten, ved slutten av beitesesongen, må sauene sankes inn. Dette kan være en tidkrevende prosess for bøndene. Tidligere masteroppgaver har foreslått bruk av drone for å redusere arbeidet med saues- anking, og forsket på hvordan maskinlæring kan brukes for dette formålet. Denne masteroppgaven fortsetter forskning på bruk av maskinlæring for sanntid-detektering av sauer. Tre lettvekts objekt- detekorer ble sammenliknet på to forskjellige datasett, ett med originale dronebilder og det andre med oppdelte bilder. Objekt-detektorene ble trent og testet med disse datasettene, på forskjellige bildeoppløsninger, for å undersøke avveiningen mellom ytelse og inferenstid på en Raspberry Pi 4b. Objekt-detektoren som ga høyest AP-verdier, med hensyn til bildeoppsløning og datasett, ble brukt for videre testing. Denne testingen omhandler to ny aspekter. Det ene aspektet var påvirkingen av datasettstørrelse på ytelsen. Det andre aspektet var hvordan en ferdig trent modell ville yte på usette bilder. Til slutt ble bilde-klassifisering undersøkt som et alternativ til objekt detektering. Objekt-detektorene YOLOv7, YOLOv8 og NanoDet ble sammenlignet. Dataen besto av 2837 originale dronebilder av sau i forskjellige landskap, med oppløsningen 4056 × 3040 og 4000 × 3000. De originale bilde ble delt opp i 15 deler for å lage et oppdelt datasett. Bildene er tatt fra fem lokasjoner. Forskingen som ble utført viste at når oppløsningen økte, økte ytelsen. I tillegg økte inferenstiden til modellene. For de to laveste oppløsningene, presterte de oppdelte bildene det bedre enn originale bilder. Dette gjaldt for alle tre objekt-detektorer. Objekt-detektorene oppnådde høyest ytelse på den høyeste oppløsningen. Sett bort i fra inferenstid, var YOLOv8 den detektoren som oppnådde best ytelse ved oppløsningen 3040 × 3040, på originale bilder. Inferenstiden for denne modellen var 19641 ms. For å kunne defineres som sanntid-detektering, burde inferenstiden være under 5.65 sekunder. 5.65 sekunder er tiden dronen som ble brukt for å samle flertallet av bildene i datasettet bruker på å ta et bilde, flytte seg og ta et nytt bilde. Den modellen som oppnådde høyest ytelse, mens samtidig hadde under 5.65 sekund i inferenstid var YOLOv8, på oppløsningen 1024 × 1024, med originale bilder. Trening av modellene på datasett av ulik størrelse, viste minkende forskjell i AP50, ved datasett som inneholdt over 20% av det totale antallet bilder. Den beste ytelsen ble heller ikke oppnådd ved 100% av det totale antallet bilder. AP50-95, ved 60%, var innenfor 2.6% av den reduserte modellen med best ytelse. Disse faktorene kan være et produkt av et begrenset datasett, som besto av for like bilder. Det ble funnet en betydelig forskjell i ytelse når alle bilder fra en geografisk lokasjon ble ekskludert i et datasett, og inkludert i et annet. Dette resultatet indikerer at modellen overtilpasser datasettet. Klassifisering resulterte i lavere inferenstid, sammenliknet med de samme oppløsningene og data- settene som ble brukt i objekt-detektering. Ytelsen ved klassifisering på originale bilder, ved en oppløsning på 3040 × 3040, var lav. Klassifiseringsmodellen som ble trent på oppdelte bilder, ved 608 × 608, oppnådde god nøyaktighet. Inferenstiden for begge modellene var for høy for sanntid- detektering.
dc.description.abstractEvery year, more than 1.4 million sheep are released for grazing in Norway, across more than 6500 km². In the autumn, at the end of the grazing season, the sheep need to be gathered. This can be a time-consuming process for the farmers. Earlier master’s theses have proposed the use of a UAV, to alleviate the process of gathering sheep, and researched how machine learning can be used for this purpose. This thesis further investigates the use of machine learning for real- time detection of sheep. Three lightweight object detectors were compared using two datasets, one with original UAV images, and the other containing tiled images. The detectors were trained and tested on these datasets using different image resolutions, to investigate the trade-off between performance and inference time on a Raspberry Pi 4b. The object detector yielding the highest AP-scores, considering image resolution and dataset, formed the basis for further testing. This testing involved two new aspects. One aspect was the impact of dataset size on performance. The other aspect was how a trained model would perform on previously unseen images from a new location. Finally, the use of image classification as an alternative to object detection was analyzed. The object detectors YOLOv7, YOLOv8 and NanoDet were compared. The data consisted of 2837 original UAV images of sheep in different terrains, with image resolutions of 4056 × 3040 and 4000 × 3000. The original images were divided into 15 tiles each, to create the tiled dataset. The images were captured from five locations. The research conducted showed that increasing the resolution of the images increased the perform- ance, as well as the inference time, of the models. For the two lowest resolutions, the tiled images perform better than the original images for all three object detectors. However, all the object detectors achieved the highest performance at the highest resolution. Disregarding inference time, the detector that achieved the best performance was YOLOv8 at the resolution of 3040 × 3040 and using the original images. However, the inference time for this model was 19641 ms. For it to be considered real-time detection, the inference time should be below 5.65 seconds. For the UAV that captured the majority of the images, 5.65 seconds is the time used to relocate and capture one image. The model that achieved the highest performance and had an inference time below 5.65 seconds was YOLOv8 at the resolution of 1024 × 1024 using the original images. Training models on datasets of different sizes revealed decreasing difference in AP50, above 20% of the total number of images. Furthermore, the best performance was not achieved at 100% of the images. The AP50-95 scores at 60% was within 2.6% of the best performing reduced-model. These facts were attributed to a limited dataset consisting of too similar images. This limits the information the model can learn from. A model trained on a dataset excluding a location, revealed a significant performance difference, between including the location and excluding it. This result could indicate that the model overfit the training data. The use of classification resulted in lower inference time, compared to the same resolutions and datasets for object detection. The performance of classification on original images, at a resolution of 3040 × 3040, was poor. The classification model trained on tiled images, at 608 × 608, achieved good accuracy. However, the inference times for both, were too high for real time detection.
dc.languageeng
dc.publisherNTNU
dc.titleDetecting sheep in aerial imagery using real-time object detection
dc.typeMaster thesis


Tilhørende fil(er)

FilerStørrelseFormatVis

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel