Hardware Acceleration of a Deep Neural Network on a FPGA

Hordnes, Vebjørn

dc.contributor.advisor	Svarstad, Kjetil
dc.contributor.author	Hordnes, Vebjørn
dc.date.accessioned	2020-03-06T15:00:08Z
dc.date.available	2020-03-06T15:00:08Z
dc.date.issued	2019
dc.identifier.uri	http://hdl.handle.net/11250/2645874
dc.description.abstract	Maskinlæring har blitt et populært emne i nyere tid, siden det viser seg å ha et betydelig fortrinn over tradisjonelle håndskrevede algoritmer i bestemte applikasjoner. Et mangfold av forskjellig modeller er nå i bruk i forskjellige systemer, som stemme- og bildegjenkjenning. I utviklingsfasen av en maskinlæringsmodell utarbeides arkitekturen tilpasset formålet. Modellen har et stort antall parametere som må justeres gjennom trening av nettverket. Store mengder data må til for å oppnå ønsket ytelse, slik at takler utfordringer i den virkelige verden. Den ferdigtrente modellen kan brukes som en selvstendig frittstående applikasjon for problemløsning. En typisk løsning i dag er bruken av konvolusjonelle nevrale nettverk, hvilket medfører tunge regneoperasjoner og kompleks databehandling. Avanserte modeller med høy ytelse i form av kunstig intelligens og konkludering har ofte datakraft som en begrensende faktor. Industrien fokuserer derfor nå på å hanskes med problemet. Dette gjøres både ved å modifisere modellene til å være mer effektiv, og ved å ta i bruk forskjellige fastvareløsninger med raskere prosesseringsevner for den gitte oppgaven. For å løse oppgaven er FPGAer (Field Programmable Gate Array) et interessant verktøy som potensielt har egenskapene som er nødvendig for å forbedre ytelsen av nevrale nettverk betydelig. I denne masteroppgaven er en implementasjon av en bransjeledende nevral nettverks-modell for bildegjenkjenning undersøkt. DenseNet er et spesifikt konvolusjonell nevralt nettverk og har en arkitektur som skiller seg fra typiske konvolusjonelle nevrale nettverk ved at data blir gjenbrukt innad nettverket gjennom hele beslutningsfasen ved bildegjenkjenning. Ettersom dataforflytning ofte er en begrensende faktor for ytelsen til en FPGA, antas det at å være en ytelsesforbedring av betydning ved å kjøre denne modellen på en FPGA i sammenligning til andre konvolusjonelle nevrale nettverk. Tilgjengelig verktøy og metoder har blitt undersøkt, og modellen er konvertert og kjørt på FPGAen. Nettverksmodellen oppnår en ytelse på 38 FPS (Bilder per sekund) med 323 GFLOP/s. Andre muligheter er kartlagt og foreslått for videre arbeid.
dc.description.abstract	Machine learning has become a hot topic in recent times, as it shows to have a significant advantage over traditional algorithms explicitly designed by humans in certain applications. A large number of different models are now being used in applications such as speech and image recognition. In the development phase of a machine learning model, a network model is designed with an architecture suitable for the purpose. The model contains a great amount of parameters which is adjusted by training the network. Big amounts of data is required to train and optimize the model, in order to tackle the demands of real world applications. The trained model can be used as a stand-alone application in problem solving. A common approach today is the use of convolutional neural networks, which involves high computation demands and storage complexity. Advanced models with high performance in terms of artificial intelligence and inference are often limited by computational power, so therefore the industry are attempting to bypass this issue. This is done by modifying the models to be more computational efficient and by utilizing better hardware solutions. To carry out this process FPGAs (Field Programmable Gate Array) is an interesting tool with the potential characteristics to improve the performance of neural networks drastically. In this master thesis an implementation of a state-of-the-art neural network model for image recognition is explored. DenseNet, a densely connected convolutional neural network, has a different architecture than typical convolutional neural networks. The special architecture causes processed data to be reused within the network throughout inference of an image recognition task. As data movement often is a limiting factor in throughput on a FPGA, it is believed to have a substantial performance increase when running on the FPGA compared to other convolutional neural networks. Available tools and methods have been investigated, and the model is converted and applied to the FPGA. The network reaches a throughput of 38 FPS (Frames per second) with 323 GFLOP/s. Some other possibilities are mapped out and suggested for further work.
dc.language	eng
dc.publisher	NTNU
dc.title	Hardware Acceleration of a Deep Neural Network on a FPGA
dc.type	Master thesis

Tilhørende fil(er)

Filer	Størrelse	Format	Vis

Denne innførselen finnes i følgende samling(er)

Institutt for elektroniske systemer [2286]

Vis enkel innførsel