NAX Near-Data Approximate Computingayazdanb/publication/slides/nax-ac16-slides.pdfNAX Near-Data...

transcript

NAXNear-Data Approximate Computing

Georgia Institute of Technology

Amir Yazdanbakhsh Jacob Sacks Choungki Song1

Hadi EsmaeilzadehPejman Lotfi-Kamran2 Nam Sung-Kim3

1 University of Wisconsin-Madison

3 University of Illinois at Urbana-Champaign

2 The Institute for Research in Fundamental Sciences

Approximate ComputingEmbracing Imprecision

Relax theabstractionof“nearperfect” accuracy in

Acceptimprecision toimprove

performanceenergy dissipationresourceutilizationefficiency

DataProcessing Storage Communication

VirtualReality

DataAnalytics

MachineLearning

MultimediaProcessing

SM SM SM SM

VirtualReality

DataAnalytics

MachineLearning

MultimediaProcessing

SM SM SM SM

DiverseclassesofGPUapplications

areamenableto“approximation”.

Neural Transformation for GPUs

NeuralNetwork

Neural Network Operations

xj,ixj,0 xj,n

wj,i wj,n

...wj,0

...yj =

sigmoid(

wj,0 ⇥ xj,0 +

wj,i ⇥ xj,i +

wj,n ⇥ xj,n +

Runtime Breakdown of Baseline GPU

AmirYazdanbakhsh,etal.,“NeuralAccelerationforGPUThroughputProcessors”,MICRO2015.

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

time Data Processing Data Communication

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

Runtime Breakdown of NGPU

AmirYazdanbakhsh,etal.,“NeuralAccelerationforGPUThroughputProcessors”,MICRO2015.

time Data Processing Data Communication

In-DRAM Computing Challenges

DRAMiscost-sensitive!

DRAMisunderpower constraint!

core core core core core core core core

GPUisSIMD!

L2Cache

Memory Controller

MemoryPartition

StreamingMultiprocessor

DRAM Logic

AcceleratorLogic

Near-Data Approximate Computing

In-DRAMCtrl

Near-Data Approximate Computing

A B C DI/O S/ACO

COLDEC

RD RD RD RD

IOCNTBitline

...Arithmetic

UnitArithmetic

Sigmoid LUT

Weight Register

Arithmetic Unit

Sigmoid LUT

Read Data

Write Data

Half-bank Half-bank Half-bank Half-bank

L2Cache

Memory Controller

MemoryPartition

DRAM Logic

AcceleratorLogic

NAX Execution Flow

1In-DRAM

L2Cache

Memory Controller

MemoryPartition

DRAM Logic

AcceleratorLogic

NAX Execution Flow

In-DRAMCtrl

L2Cache

Memory Controller

MemoryPartition

DRAM Logic

AcceleratorLogic

NAX Execution Flow

3In-DRAM

L2Cache

Memory Controller

MemoryPartition

DRAM Logic

AcceleratorLogic

NAX Execution Flow

4In-DRAM

L2Cache

Memory Controller

MemoryPartition

DRAM Logic

AcceleratorLogic

NAX Execution Flow

5 In-DRAMCtrl

L2Cache

Memory Controller

MemoryPartition

DRAM Logic

AcceleratorLogic

NAX Execution Flow

In-DRAMCtrl

NAX Microarchitectures

input register

shifter shift register

output register

S00 = (00110)2

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

FloatingPoint

FixedPoint

Simplification of Integrated Arithmetic

input register

output register

S00 = (00110)2

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

input register

output register

S00 = (00110)2

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

input register

output register

S00 = (00110)2

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

input register

output register

S00 = (00110)2

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

input register

output register

S00 = (00110)2

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

input register

output register

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Iteration 1

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

T1 = Xi�6 + 0 = (8000)10

Error = 28.9%

S00 = (00110)2

(8000)10

input register

output register

S01 = (00100)2

S02 = (00011)2

S03 = (00001)2

Iteration 2

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

T2 = Xi�4 + T1 = (10000)10

Error = 11.2%

(2000)10

input register

output register

S02 = (00011)2

S03 = (00001)2

Iteration 3

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

T3 = Xi�3 + T2 = (11000)10

Error = 2.3%

(1000)10

input register

output register

S03 = (00001)2

Iteration 4

Wi = (01011010)2 = (90)10

Xi = (01111101)2 = (125)10

Yi = Xi x Wi = (11,250)10

T4 = Xi�1 + T3 = (11250)10

Error = 0.0%

(250)10

Experimental Setup

Power Model • TechnologyNode40nm(3-LayersMetal)

• Synopsys,Cadence• GPUWattch,McPAT andCACTI,Verilog

GPU Simulator• GPGPU-SimCycle-LevelSimulator

• Fermi-basedGTX480,Shader CoreFrequency1.4GHz

• NVCCCompiler–O3

MachineLearning,Finance,Vision3DGaming,MedicalImaging

NumericalAnalysis,ImageProcessing

NAX Speedup Compared to NGPU

NAX-AFxPNAX-FxPNAX-FP

NAX-AFxP provides 1.2x speedup compared to NGPU.

NAX Energy Saving Compared to NGPU

NAX-AFxP provides 4.8x energy saving compared to NGPU.

xxxxxxx

xx NAX-AFxPNAX-FxPNAX-FP

DRAM System PowerD

NAX-AFxP yields to a 0.7x lower DRAM system power.

Lower is better

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

Application Quality LossQ

Quality loss is below 10% in all applications except one.

NAX: Near-Data Approximate Computing

4.8X Energy Saving1.2X Speedup

PU2% Area Overheadper DRAM Chip

≤ 10% Quality Loss

0.7X DRAM System Power

NAX Near-Data Approximate Computingayazdanb/publication/slides/nax-ac16-slides.pdfNAX Near-Data...

Documents