1、制约AI产业发展的硬件瓶颈陈怡然陈怡然杜克大学电子与计算机工程系副教授杜克进化智能中心联合主任美国自然科学基金委新型可持续智能计算中心主任制约制约AI产业发展的硬件瓶颈产业发展的硬件瓶颈The Hardware Bottlenecks Hindering Development of AI Industry人工智能发展的三次浪潮人工智能发展的三次浪潮ENIACUNIVAC IIBM 7090Pentium IVIBM 360/75CDC 7600SDS 920DEC-CK-10Apple IISun-2Sun-3AT&T Globalyst 600Power Tower 180eFijitsu
2、 SPARC64 VIIIfxGateway-486DX2/66IBM PCMAC IIfxIBM PS/2 90PowerMac 8100/80AMD Athlon FX-57Mac G4DELL 340/2GMac G3Intel Core 2 QX9770第一次第一次兴兴起起Perception,1957 第二次第二次兴兴起起MLP,19862012 AlexNet2014 GoogleNet2014 VGG192015 ResNet1522016 DenseNet2502012,GTX 5802013,GTX780Ti2014,GTX9802014,GTX9802015,GTX9802
3、015,GTX9802016,GTX10802016,GTX1080第三次第三次兴兴起起CNN,2012GPU相对性能相对性能相对网络深度相对网络深度https:/ 计算、存储分离计算、存储分离v 串行计算串行计算v 计算精度高计算精度高 单线程性能受限于所运行指令单线程性能受限于所运行指令之间的数据依赖关系之间的数据依赖关系 内存带宽瓶颈内存带宽瓶颈 片上功率密度上限片上功率密度上限现有现有AI计算芯片计算芯片2014-2018v硬件神经元v高速存储,高速互联v经典机器学习算法寒武纪2014-2017vSP:流式处理器vSM:流式多处理器vSFU:特殊函数处理器英伟达GPU2014-2017
4、v基于算法优化的FPGA神经网络硬件加速器赛灵思深鉴科技2016-2018vTPU脉冲阵列v混合精度计算部件v加速神经网络推断和训练v谷歌云TPU服务谷歌TPU一:大容量存储和高密度计算一:大容量存储和高密度计算ILSVRC12:AlexNet8 层层/1.4G 操作操作ILSVRC15:ResNet34152 层层/3.9G 操作操作ILSVRC14:VGG1619 层层/15.5G操作操作模型复杂度越来越高模型复杂度越来越高剪枝(剪枝(Pruning)非结构化剪枝结构化剪枝尽可能减少权重数量极大减小存储空间在AlexNet等网络上压缩10 x以上剪枝同时维持结构化的存储访问减小存储的同时提
5、高运算速度达到3x左右的速度提升非0值0值无效访问有效访问结构化剪枝结构化剪枝CNN:剪除部分通道,缩小卷积核,剪除整层(W.Wen et al.,2016)5.175.17倍加速倍加速低精度量化低精度量化0.8 0.75 spike probabilities-1 1 0.5 0.1 0.20 0.60 0.3 connectivity probabilities p 1 1 spike samples(a)Tea learning(b)Tea deploying x y w x w y z z connectivity samples c1 c0 ON!ON!OFF!低精度量化低精度量化最
6、小化目标最小化目标:概率正则化概率正则化a=b=0.5零偏差零偏差最大化偏差最大化偏差低精度神经网络训练低精度神经网络训练参数服务器p=p+p降低通信开销DistBelief by Google三值量化降低通信开销三值量化降低通信开销Wei Wen et al.,CEI NIPS,2017截取前截取前截断后截断后三值量化三值量化最终结果最终结果降低训练的通信开销降低训练的通信开销Wei Wen et al.,CEI NIPS,2017v降低梯度的精度降低梯度的精度v训练加速训练加速v保证网络模型的保证网络模型的精确性精确性生产环境测试生产环境测试:128:128节点节点GPUGPU集群;高速互
7、连网络集群;高速互连网络参参数数服服务务器器计计算算节节点点TernGradTernGrad3x 3x 训练加速,训练加速,2%2%精确性降低精确性降低手势识别手势识别医疗诊断医疗诊断自动驾驶自动驾驶目标定位目标定位机器翻译机器翻译语音识别语音识别二:面向特定领域的架构设计二:面向特定领域的架构设计应用场景越来越丰富应用场景越来越丰富面向面向RNN的优化的优化CE隐隐藏藏CE 输输出出CE输输出出CE 输输出出CE输输出出 多功能管理单元(多功能管理单元(TMUTMU)数据重用数据重用v内存效率内存效率 内在并行内在并行 数据模式转换数据模式转换 激活函数近似激活函数近似v资源利用资源利用 定
8、制化定制化PEPEv设计可扩展性设计可扩展性相比相比CPU平台(平台(Intel Xeon E5-2630),),性能提高性能提高16倍,能耗倍,能耗降低降低60.7倍倍面向面向LSTM的优化的优化蓝色条带:蓝色条带:LSTMLSTM中的隐藏结构中的隐藏结构结构化稀疏结构化稀疏LSTMLSTM中的隐藏结构中的隐藏结构下一层权重下一层权重x hhWei Wen et al.,CEI ICLR,2018优化后模型性能提升优化后模型性能提升10.5910.59倍倍面向面向GAN的优化的优化GANGANFan Chen et.al,CEI,ASPDAC,2018 相比于相比于GPUGPU平台,性能提升
9、平台,性能提升240240倍倍 能效提升能效提升9494倍倍三:三:“云云-终端终端”平台特点不同平台特点不同高安全性低能耗低延迟v 数据采集v 终端推理v 终端训练v 海量数据存储v 海量数据处理v 云端训练及推断高并行高带宽高存储 高时延 传输安全性移动平台的神经网络训练移动平台的神经网络训练分布式训练架构分布式训练架构v传输优化传输优化 TernGrad 1-Bit Quantization梯度量化:梯度量化:v并行性优化并行性优化 针对不同手针对不同手机计算能力机计算能力的查找表的查找表移动平台的神经网络推断移动平台的神经网络推断卷积层卷积层优化优化全连接层全连接层优化优化卷积层卷积层
10、计算量巨大计算量巨大全连接层全连接层参数巨大参数巨大系统性能随节点数呈线性提升系统性能随节点数呈线性提升MobileNets:Efficient Convolutional Neural Networks for Mobile Vision Applications MoDNN:Local distributed mobile computing system for Deep Neural Network四:芯片设计要求高,周期长,成本昂贵四:芯片设计要求高,周期长,成本昂贵https:/ Xie et al.CEI,ICCAD 18架构及工艺面临挑战架构及工艺面临挑战摩尔定律放缓摩尔定律放
11、缓忆阻器(忆阻器(memristormemristor)是一种被动)是一种被动电子元件,被认为是电路的第四电子元件,被认为是电路的第四种基本元件。忆阻器的特性与神种基本元件。忆阻器的特性与神经元突触类似经元突触类似忆阻器单元忆阻器单元“三明治三明治”结结构构上电极上电极金属氧化层金属氧化层下电极下电极矩阵乘运算矩阵乘运算新型器件新型器件忆阻器忆阻器交叉开关阵列交叉开关阵列HP lab,2012神经元突触神经元突触神经神经网络网络忆阻器人工智能芯片忆阻器人工智能芯片20152016.022016.052016.102017.02Test keys脉冲脉冲忆阻器忆阻器700 x700 m700 x
12、700 m2 2脉冲脉冲忆阻器忆阻器3152x3152 m3152x3152 m2 2ML1ML1SL1SL2SL2TestTestML2BSBMCLF1LF1 LF2LF2脉冲脉冲忆阻器忆阻器2520 x2520 m2520 x2520 m2 2脉冲脉冲忆阻器忆阻器2520 x2520m2520 x2520m2 2电压忆阻器电压忆阻器2847x2471 m2847x2471 m2 2基于忆阻器的加速芯片基于忆阻器的加速芯片CNNCNN加速器加速器图加速器图加速器DGlobal IO Row BufferController Memory SubarrayConnectionDriverGlo
13、bal Row DecoderI&FMorpSubarrayDriverI&FMorpSubarrayDriverActivationActivationDriverI&FMorpSubarrayDriverI&FMorpSubarrayDriverDriverI&FMorpSubarrayDriverI&FMorpSubarrayDriverActivationActivationDriverI&FMorpSubarrayDriverI&FMorpSubarrayDriverDataAddr_ColAddr_RowbbaacdeIVth CounterCu+uouou+ttTiming Co
14、ntrolK2Vi(t)DiVprgVo.VoK1cDPDN-&LUTDConfigurationRegVo相比于相比于GPUGPU平台,平台,v性能提升性能提升42.542.5倍倍v能效提升能效提升7.177.17倍倍相比于相比于GPUGPU平台,平台,v性能提升性能提升16.0116.01倍倍v能效提升能效提升33.8233.82倍倍Linghao song et.al,CEI,HPCA,2017Linghao song et.al,CEI,HPCA,2018适应性适应性(AD)性能性能(PE)功效功效(PO)可编程可编程(PR)扩展性扩展性(SC)APPPSCPUGPGPU通用硬件平台通
15、用硬件平台P.J.Fox,Tech.Report,2013 Graf et al,NIPS,2009 APPPSASICASICMisra et al,Neurocomputing,2010 ADPEPOPRSC可编程硬件可编程硬件Graf et al,NIPS,2009 Misra et al,Neurocomputing,2010 APPPS基于新型器件的可编程设计基于新型器件的可编程设计H.Li,HPEC,2010 4,DAC,2015NSF IUCRC ASIC CenterMembers include faculty across three research sites:Yira
16、n ChenCenter/Site DirectorHai Helen LiCenter/Site Co-DirectorRobert CalderbankKrish ChakrabartyXin LiMiroslav PajicChaoli WangPatrick J.FlynnYiyu ShiSite DirectorSharon HuSite Co-DirectorDanny ChenWalter ScheirerMichael NiemierSite Co-DirectorQinru QiuSite DirectorYanzhi WangSite Co-DirectorChilukur
17、i MohanJae OhVir PhohaPramod VashneySenem VelipasalarBei YuBenjamin LeeCenter/Site Co-DirectorIndustry partners:The Alternative Sustainable and Intelligent Computing(ASIC)Center is a multi-site,multidisciplinary consortium that explores research frontiers in emerging computing platforms for cognitive applicationsWhat is ASIC?