Understanding the Key Performance Trends of Optimized Iterative Stencil Loop Kernels on High-End GPUs

Farstad, Martin Rebne

dc.contributor.advisor	Jahre, Magnus
dc.contributor.author	Farstad, Martin Rebne
dc.date.accessioned	2022-01-06T18:19:25Z
dc.date.available	2022-01-06T18:19:25Z
dc.date.issued	2021
dc.identifier	no.ntnu:inspera:74730513:26416696
dc.identifier.uri	https://hdl.handle.net/11250/2836412
dc.description.abstract	Iterative stensil-løkker (ISL) er hovedberegningskjernen til mange applikasjoner innen beregningsvitenskap. Denne masteroppgaven utforsker de viktigste ytelsestrendene for ISL-applikasjoner ved hjelp av spesielt kraftige graﬁkkprosessorer ved å gjennomføre en omfattende ytselsesanalyse av individuelle og kombinasjoner av optimaliseringer. Optimaliseringene inkluderer bruk av delt minne, trådforgrovning og autotuning av trådblokkdimensjoner for å optimalisere "Reverse Time Migration"-stensiler for to- og tredimensjonale domener. Vi evaluerer applikasjonen vår på to moderne arkitekturer: Pascal (P100) og Volta (V100), og observerer ytelsesforbedringer på opp til 20.3x (12.7x) og 6.07x (3.34x) for Volta’s kjerne med delt minne i forhold til Pascal’s enkleste kjerne for todimensjonale (tredimensjonale) domener med domenestørrelser henholdsvis på 128 MiB og 8 GiB. Vi oppdager at skrivehastigheten til hovedminnet (lokalt minne) er en ﬂaskehals for applikasjonen vår med to (tre) dimensjoner på Volta og indikerer at hurtigminne utgjør ﬂaskehalsen for Pascal. Optimaliseringene våre forbedrer kjerneytelsen i forhold til arkitekturenes respektive enkleste kjerner med opp til 1.47x (1.36x) på Volta og 3.64x (1.44x) på Pascal for todimensjonale (tredimensjonale) domener ved å forbedre ﬂaskehalsene. Videre utvider vi optimaliseringsmetoden vår til å anvende opp til 16 V100 graﬁkkprosessorer. Ved å fordele arbeidsmengden mellom graﬁkkprosessorerene klarer vi å oppnå tilnærmet lineær ytelsesskalering som øker ytelsen i forhold til én graﬁkkprosessor med opp til 14.8x.
dc.description.abstract	Iterative Stencil Loops (ISLs) are the main computational kernel of many applications within computational science. This thesis explores the key performance trends of ISLs on high-end GPUs through an extensive performance analysis of individual and combinations of optimizations. The optimizations include utilizing shared memory, thread coarsening, and autotuning thread block dimensions for optimizing Reverse Time Migration stencils in 2D and 3D domains. We benchmark our ISL application on two modern GPU architectures: Pascal (P100) and Volta (V100), observing up to 20.3x (12.7x) and 6.07x (3.34x) increased performance for Volta’s shared memory kernel over Pascal’s baseline kernel in 2D (3D) for 128 MiB and 8 GiB domains, respectively. We crucially ﬁnd that device memory write (local memory) throughput bottlenecks our 2D (3D) kernels on Volta and suggests that cache utilization composes the performance bottleneck for Pascal. Our optimizations improve the kernels’ performance over the architectures’ respective baseline kernels by up to 1.47x (1.36x) on Volta and 3.64x (1.44x) on Pascal in 2D (3D) by improving the bottlenecks. Finally, we extend our optimization approach by utilizing up to 16 V100 GPUs. Our multi-GPU scheme achieves near-linear performance scaling by ofﬂoading the workload onto more devices, increasing performance over single-GPU by up to 14.8x.
dc.language	eng
dc.publisher	NTNU
dc.title	Understanding the Key Performance Trends of Optimized Iterative Stencil Loop Kernels on High-End GPUs
dc.type	Master thesis

Tilhørende fil(er)

Filnavn:: no.ntnu:inspera:74730513:26416 ...
Størrelse:: 20.91Mb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Institutt for datateknologi og informatikk [6547]

Vis enkel innførsel