Show simple item record

dc.contributor.advisorJahre, Magnus
dc.contributor.authorBoganes, Jørgen
dc.date.accessioned2021-09-15T16:52:43Z
dc.date.available2021-09-15T16:52:43Z
dc.date.issued2020
dc.identifierno.ntnu:inspera:53184405:33731950
dc.identifier.urihttps://hdl.handle.net/11250/2778101
dc.description.abstractInnenfor agrikulturell teknologi - eller agritech - er det å høste inn frukt en dyr og tidkrevende prosess. Dette er vanligvis utført av menneskelig arbeidskraft, og agritech er derfor et felt hvor automatisering har stort potensiale. Per i dag ser man en mangel på effektive og billige måter man kan automatisere denne typen arbeid på. Relevant litteratur beskriver en mengde metoder som kan brukes for å gjenkjenne frukter. Disse er bruker vanligvis svært avanserte metoder og ukonvensjonelt utstyr, og bruker massive mengder datakraft. For gjennomsnittsbonden er et billigere og mer overkommelig system derfor ønskelig. Det er dessverre vanskelig å finne den absolutt beste måten man kan utvikle et lignende system på, og det å undersøke dette videre kan ta mye tid, og kan bli usedvanlig dyrt. Denne avhandlingen prøver derfor å lage en nøyaktig maskinlæringsmodell for bruk innen agritech, med et mål om å aksellerere den på et passende innvevd system. Dette er oppnådd ved å overføre parameterene fra et ferdig trent nevralt nettverk, for å så trene videre på egen data. Denne dataen består av modne klaser med Piccolo-tomater, og ble filmet i et drivhus under kontrollerte lysforhold. Metodene som blir presentert i denne avhandlingen oppnår en maksimal nøyaktighet i objektdeteksjon på 90%. Etter dette blir fire forskjellige maskinvareløsninger undersøkt teoretisk, med et mål om å kjøre modellen på den mest passende av dem. Modellen klarer å kjøre uten problemer på alle fire, og oppfyller som regel alle krav som ble satt, basert på oppgavens omstendigheter. Disse inkluderer antall bilder analysert per sekund, effektforbruk, og hvor kompleks utviklingen er. Avhandlingen konkluderer med at å kjøre en slik modell på en FPGA mest sannsynlig ville resultert i minst mulig latens i objektdeteksjon. Den utolig kompliserte utviklingen som kreves for FPGAer impliserer dog at å heller kjøre modellen på en SoC, som f.eks en fra NVIDIAs Tegra-serie, vil gi et like tilferdsstillende resultat, uten å være for kompleks.
dc.description.abstractIn agricultural technology -- or agritech -- harvesting ripe fruit is a costly and time consuming process. This is usually done by human laborers, and agritech is thus a field where automation has a lot of potential. However, there is currently a lack of efficient and cheap ways for greenhouse farmers to automate these types of processes. Relevant literature describes a plethora of ways to detect ripe fruit on and off the vine -- often employing advanced techniques, utilizing non-conventional equipment and massive amounts of computational power. For the average farmer, a cheaper and more manageable system is desired. But the most advantageous way of going about developing such a system is not always apparent -- finding it can take a lot of time, and can get very expensive. In this thesis, we attempt to create an accurate machine learning model for an agritech scenario, with the aim of accelerating it on suitable embedded systems. This is achieved by first using transferred weights from a pre-trained neural network architecture, and then training the model further on custom data. This data consists of ripe clusters of Piccolo tomatoes, and was gathered in a greenhouse under controlled light conditions. The methods presented in this thesis achieve a maximum object detection accuracy of 90%. Four different hardware solutions are then theoretically examined, with an end goal of deploying the model to the most suitable of them. The model is able to run comfortably on all of them, according to reasonable requirements that were set based on the particularities of the task at hand, including metrics such as inferences per second, power consumption, and complexity of development. The thesis concludes that running such a model on a Field-Programmable Gate Array (FPGA) would likely result in the least amount of latency, but the tremendously complex development required when mapping such models to FPGA suggests that deploying the model on a simpler System-on-Chip (SoC) solution, such as one from the NVIDIA Tegra series, would give a satisfying result, while remaining less complex.
dc.languageeng
dc.publisherNTNU
dc.titleAccelerating Object Detection for Agricultural Robotics
dc.typeMaster thesis


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record