En Konfigurerbar og Fleksibel Arkitektur for Laveffekt, Energieffektiv Maskinvareakselerasjon av Nevrale Nettverk basert på Foldning

Christensen, Steinar Thune

Christensen, Steinar Thune

Master thesis

Åpne

no.ntnu:inspera:2547981.pdf (3.599Mb)

Permanent lenke

http://hdl.handle.net/11250/2624692

Utgivelsesdato

2019

Metadata

Vis full innførsel

Samlinger

Institutt for elektroniske systemer [2351]

Sammendrag

Nevrale nettverk basert på foldning (CNNs) har blitt essensielle i dagens Kunstig-Intelligensog Maskinlærings-anvendelser. Dette gjelder særlig bildegjenkjenning. Denne masteroppgaven presenterer en konfigurerbar, allsidig og fleksibel arkitektur for maskinvareakselerasjon av CNNs som er basert på å lagre og akkumulere hele feature maps i lokalt minne inne i akseleratoren. Dette har blitt gjort med et mål om å være i stand til å prosessere enhver type CNN med så lavt effektforbruk og så høy energieffektivitet som mulig. Energieffektivitet viser til antall operasjoner per energienhet (målt i antall multiplikasjon-akkumulasjon-operasjoner per energienhet, MACs/s/W eller MACs/J). Flere ulike utgaver av arkitekturen har blitt syntetisert og testet med ulike konfigurasjoner. Sammenliknet med dagens beste akseleratorer preseterer den godt, den oppnår en energieffektivitetøkning med faktor større enn 5 for utvalgte CNN-lag. Den mest energieffektive konfigurasjonen oppnår 175 MACs/s/W med et effektforbruk på 2.3 mW og et arealforbruk på 585 KGEs (Kilo Gate Equivalents) med 1V forsyningsspenning og en klokkefrekvens på 100 MHz. Dette er en betydelig forbedring over Eyeriss [YuH17b] (en av dagens beste akseleratorer) som har en maksimal energieffektivitet på 122.8 MACs/s/W.

Convolutional neural networks (CNNs) have become paramount in today’s Artificial Intelligence (AI) and Machine Learning applications. This is true for image recognition in particular. This thesis presents a configurable, versatile and flexible architecture for hardware acceleration of CNNs that is based on storing and accumulating the entire feature maps in local memory inside the accelerator. This has been done while aiming to be able to process any type of CNN while consuming as low power as possible and achieving the highest possible energy efficiency, which refers to the number of operations per unit energy (measured in Multiply-Accumulate operations per unit energy, MACs/s/W or MACs/J). Several different versions of the architecture have been synthesized and tested using different configurations. It performs well when compared to the state-of-the-art, achieving an improved energy efficiency of over a factor 5 for select CNN layers. The most efficient

configuration achieves 175 GMACs/s/W, while consuming 2.3 mW of power and occupying 585 KGEs (Kilo Gate Equivalents) of area at 1V supply voltage and a 100MHz clock. This is a significant improvement over Eyeriss [YuH17b] (a state-of-the-art accelerator) which has a maximal energy efficiency of 122.8 GMACs/s/W.

Utgiver

NTNU