Towards Improved Sheep Roundup - Using Deep Learning-Based Detection on MultiChannel RGB and Infrared UAV Imagery

Johannessen, Kari Meling

dc.contributor.advisor	Fan, Hongchao
dc.contributor.advisor	Hvasshovd, Svein-Olaf
dc.contributor.author	Johannessen, Kari Meling
dc.date.accessioned	2021-09-20T16:04:51Z
dc.date.available	2021-09-20T16:04:51Z
dc.date.issued	2020
dc.identifier	no.ntnu:inspera:55924330:23111610
dc.identifier.uri	https://hdl.handle.net/11250/2779322
dc.description.abstract	Hvert år slippes cirka 2,1 millioner sauer for å beite fritt i store, skogkledde og fjellrike områder i hele Norge. På slutten av beitesesongen må bøndene finne og samle inn sauene sine. Dette kan være en tidkrevende og utfordrende prosess på grunn av beite-områdets store og uoversiktlige natur. Denne masteroppgaven foreslår et system for automatisk gjenkjenning av sauer ved å bruke UAV-bilder for å hjelpe bønder med å finne sauene deres mot slutten av beitesesongen. Målet er å foreslå og utvikle en dyp læringsmodell som automatisk oppdager sauer i RGB og infrarøde UAV-bilder og evaluere hvor godt denne modellen oppfyller kravene til ytelse og prosesseringshastighet. Videre sammenlignes ytelsen til modeller som kombinerer RGB og infrarøde bilder med modeller som bruker enten RGB eller infrarøde bilder, og undersøker effekten av varierende modellkompleksitet, nettverkslokasjon for sammenslåing av RGB og infrarød data og bildeoppløsning. Basert på en gjennomgang av tidligere arbeid med flerkanals bildefusjonsnettverk og den moderne dyp læringsteknologiens evne til objektgjenkjennelse, er det utviklet en modellarkitektur spesifikt designet for å håndtere oppgaven med automatisk gjenkjenning av sauer i RGB og infrarøde bilder. På grunn av oppgavens lave kvalitetskrav til lokalisering, kreves det ikke at nettverket nødvendigvis skal finne hver enkelt sau. I stedet vil modelen predikere en enkel ruteformet sannsynlighetsmaske som sier noe om sannsynligheten for sau innenfor et gitt område. Flere modeller ble trent med ulike konfigurasjoner for å identifisere settet med løsninger som gir optimal avveining mellom gjennomsnitlig presisjon og rask prosesseringstid. Resultatene viser at fusjon av RGB og infrarød data i en modell gir bedre resultater enn å bruke disse dataene hver for seg. De beste modellene oppnår gjennomsnitlig presisjon på mellom 69,9% og 96,3% med prosesseringstider mellom 0,1 og 0,6 sekunder per bilde. Med en konfidensterskel på 0,5, oppnår den mest nøyaktige modellen en presisjon på 97,7% og en tilbakekalling på 90,1%. Dvs. at av 97,5% av sauene i valideringsdatasettet ble identifisert. Dette viser at automatisk gjenkjennelse av sau i flerkanals UAV-bilder har stort potensiale til en forbedret og mer effektiv saueinnsamling.
dc.description.abstract	Each year, approximately 2.1 million sheep are released to graze freely in vast, forest-covered, and mountainous areas throughout Norway. At the end of the grazing season, farmers must find and round up their sheep. This can be a time consuming and challenging process because of the large and cluttered nature of the sheep grazing environment. This thesis proposes a system for automatic sheep detection using UAV images to aid farmers in finding their sheep at the end of the grazing season. The goal is to propose and develop a deep learning model that automatically detects sheep in RGB and infrared UAV images and evaluate how well this model meets performance and processing speed requirements of a real-world application. Furthermore, the research questions compare performance of models that fuse RGB and infrared data with models using either RGB or infrared as input, and explore the impact of varying model complexity, fusion location, and input resolution on performance. Based on a review of previous work on multi-channel image fusion networks and the current state of deep learning and object detection, a model architecture is designed to specifically address the task of automatic sheep detection in RGB and infrared images. Due to the low localisation quality requirement of the task, bounding box outputs are not required. Instead, the model head outputs a simple fixed size grid probability mask. Several models were trained with a range of configurations to identify the set of optimal solutions for maximising average precision and minimising inference time. Results show that fusion of RGB and infrared data in a single model yields better average precision results than using data separately. The set of optimal solutions achieve average precision scores in the range of 69.9% to 96.3% with inference times ranging from 0.1 to 0.6 seconds per image. At a confidence threshold of 0.5, the most accurate network achieves a grid precision of 97.7% and a recall of 90.1%. This corresponds to the detection of 97.5% of the sheep in the validation dataset. The high-performance results achieved shows that automatic detection of sheep in multi-channel UAV images can be a great contribution towards improved sheep round up.
dc.language
dc.publisher	NTNU
dc.title	Towards Improved Sheep Roundup - Using Deep Learning-Based Detection on MultiChannel RGB and Infrared UAV Imagery
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:55924330:23111 ...
Størrelse:: 28.02Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for bygg- og miljøteknikk [4705]

Vis enkel innførsel