深度学习PPT幻灯片课件(PPT 45页).pptx_163文库

资源描述

1、深度学习及其硬件加速深度学习及其硬件加速1第1页，共45页。报告提纲报告提纲深度学习概念及其算法深度学习概念及其算法1 1深度学习硬件加速方式深度学习硬件加速方式2 2典型神经网络芯片介绍典型神经网络芯片介绍3 32第2页，共45页。v人工智能人工智能为机器赋予人的智能为机器赋予人的智能人工智能、机器学习与深度学习人工智能、机器学习与深度学习人工智能人工智能机器学习机器学习深度学习深度学习 1950s 1960s 1970s 1980s 1990s 2000s 2010s 模拟、延伸和扩展人的模拟、延伸和扩展人的智能的理论、方法、技智能的理论、方法、技术及应用系统的技术科术及应用系统的技术科学

2、学;让机器象人一样思考让机器象人一样思考应用：国际跳棋程序应用：国际跳棋程序人工智能的分支，研究机人工智能的分支，研究机器模拟或实现人类的学习器模拟或实现人类的学习行为，以获取新的知识技行为，以获取新的知识技能，并改善自身性能能，并改善自身性能应用：垃圾邮件过滤应用：垃圾邮件过滤一种机器学习方法，模拟一种机器学习方法，模拟人脑机制解释数据，通过人脑机制解释数据，通过组合低层特征形成更加抽组合低层特征形成更加抽象的高层属性类别或特征象的高层属性类别或特征应用：谷歌视频寻猫应用：谷歌视频寻猫3第3页，共45页。v训练阶段训练阶段:l输入大量输入大量带标注带标注动物图片动物图片，训练，训练网络学会辨

3、别网络学会辨别v推理阶段：推理阶段：l输入未标注图片输入未标注图片l提取图片内容的低层特征，如轮廓提取图片内容的低层特征，如轮廓l分析提取高层的结构特征，如四肢分析提取高层的结构特征，如四肢l分析获得顶层的抽象概念，如动物类型分析获得顶层的抽象概念，如动物类型l基于前期训练结果，预测图片内容基于前期训练结果，预测图片内容深度学习的流程深度学习的流程4第4页，共45页。v深度学习典型算法为卷积神经网络，以深度学习典型算法为卷积神经网络，以2层卷积为例，算法为：层卷积为例，算法为：输入图像与滤波器、偏置进行卷积，产生卷积层的特征映射图输入图像与滤波器、偏置进行卷积，产生卷积层的特征映射图卷积层特征

4、映射图经求和，加权值，偏置，函数处理得到采样层卷积层特征映射图经求和，加权值，偏置，函数处理得到采样层采样层重复上述流程处理后产生新的采样层采样层重复上述流程处理后产生新的采样层全连接层提取归类获得足够好的高层特征表达信息全连接层提取归类获得足够好的高层特征表达信息深度学习的算法深度学习的算法5第5页，共45页。v一层卷积学到的特征是局部的，层数越高，特征就越全局化。一层卷积学到的特征是局部的，层数越高，特征就越全局化。v卷积和采样具体过程为：卷积和采样具体过程为：卷积过程：滤波器卷积过程：滤波器fx卷积输入图像后，加偏置项卷积输入图像后，加偏置项bx，得卷积层，得卷积层Cx采样过程：每邻域采

5、样过程：每邻域4个像素求和得一个像素，通过标量个像素求和得一个像素，通过标量Wx+1加权，加偏置项加权，加偏置项bx+1，通，通过过sigmoid激活函数产生缩小激活函数产生缩小4倍的特征图倍的特征图Sx+1深度学习的算法深度学习的算法6第6页，共45页。v深度学习深度学习开源开源框架层出不穷，框架层出不穷，用来实现深度学习算法用来实现深度学习算法避免重复工作，降低算法门槛避免重复工作，降低算法门槛Google、Microsoft、Facebook 等均发布深度学习框架等均发布深度学习框架v谷歌谷歌TensorFlow占绝对优势占绝对优势强大的人工智能研发水平、快速的迭代更新强大的人工智能研发

6、水平、快速的迭代更新深度学习的开源框架深度学习的开源框架7第7页，共45页。v谷歌谷歌2015年底发布开源深度学习框架年底发布开源深度学习框架TensorFlowTensor（张量）：多维数组在高维空间的数学运算（张量）：多维数组在高维空间的数学运算Flow（流）：基于数据流图的计算（流）：基于数据流图的计算vTensorFlow关键特性关键特性代码简洁代码简洁多语言支持多语言支持分布式算法执行效率分布式算法执行效率高高移值灵活伸缩性好移值灵活伸缩性好支持多种神经网络算法支持多种神经网络算法深度学习的开源框架深度学习的开源框架8第8页，共45页。报告提纲报告提纲深度学习概念及其算法深度学习概念

7、及其算法1 1深度学习硬件加速方式深度学习硬件加速方式2 2典型神经网络芯片介绍典型神经网络芯片介绍3 39第9页，共45页。深度学习硬件加速方式深度学习硬件加速方式v当前深度学习硬件加速方式主要有当前深度学习硬件加速方式主要有 CPU、GPU、FPGA、DSP、ASIC10第10页，共45页。深度学习硬件加速方式深度学习硬件加速方式CPUv通用级加速方式，高度灵活性和易用性通用级加速方式，高度灵活性和易用性v架构上有先天弱势架构上有先天弱势运算能力较弱运算能力较弱访存带宽受限访存带宽受限v代表：代表：Intel Xeon Phi系列芯片、高通骁龙系列芯片、高通骁龙820v案例：案例：Goog

8、le Brain项目用项目用16000个个CPU Core的并行计算平台保证训练算法速度，通过观看的并行计算平台保证训练算法速度，通过观看YouTube的视频，识别出猫的视频，识别出猫11第11页，共45页。vSIMD方式，计算能力强，并行度支持好方式，计算能力强，并行度支持好v通用性，并非针对深度学习通用性，并非针对深度学习运行效率受影响运行效率受影响能耗仍较大能耗仍较大v代表：代表：NVIDIA Tesla P100 GPUv案例：基于案例：基于GPU深度学习加速受到谷歌、微软、深度学习加速受到谷歌、微软、IBM以及百度等企业青睐；在以及百度等企业青睐；在汽车和先进驾驶辅助系统汽车和先进驾

9、驶辅助系统(ADAS)方面与众多车企进行合作方面与众多车企进行合作深度学习硬件加速方式深度学习硬件加速方式GPU12第12页，共45页。v能效较高且硬件配置灵活能效较高且硬件配置灵活顶级顶级GPU性能的性能的1/51/5，能效相当，能效相当相比相比CPU，性能提升，性能提升1 1个数量级，能效提升个数量级，能效提升2 2个数量级个数量级增长的门资源和内存带宽带来更大的设计空间增长的门资源和内存带宽带来更大的设计空间省去省去ASIC方案所需流片过程方案所需流片过程v代表：代表：DeephiTech（深鉴科技）、（深鉴科技）、Xilinx、Alterav案例：微软用案例：微软用Altera FPG

10、A 实实现基于卷积神经网络的数据中心加速，现基于卷积神经网络的数据中心加速，效效能优异。算法用能优异。算法用于图像分类、图像识别及自然语言处理于图像分类、图像识别及自然语言处理深度学习硬件加速方式深度学习硬件加速方式FPGA13第13页，共45页。v用传统用传统SIMD/DSP架构来适配架构来适配运算逻辑作修改，以适用卷积神经网络运算逻辑作修改，以适用卷积神经网络对深度学习全面计算能力支持不足对深度学习全面计算能力支持不足核心数量较少，并行性支持较差核心数量较少，并行性支持较差v代表：代表：Cadence的的Tensilica Vision P5处理器、处理器、Synopsys的的EV处理器、

11、中星微处理器、中星微视频处理芯片星光智能一号视频处理芯片星光智能一号v案例：星光智能一号广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人案例：星光智能一号广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域等嵌入式机器视觉领域深度学习硬件加速方式深度学习硬件加速方式DSP14第14页，共45页。v阻碍深度学习发展的瓶颈仍是算法速度阻碍深度学习发展的瓶颈仍是算法速度v传统处理器需要多条指令才能完成一个神经元的处理传统处理器需要多条指令才能完成一个神经元的处理vASIC根据深度学习算法定制：处理效率、能效均最高根据深度学习算法定制：处理效率、能效均最高v代表：代表：Camb

12、ricon（寒武纪科技）（寒武纪科技）DianNao芯片、谷歌的芯片、谷歌的TPU芯片、芯片、Horizon Robotics（地平线机器人）（地平线机器人）BPU芯片芯片v案例：基于案例：基于TPU的的AlphaGo与围棋冠军李世石人机大战，总比分与围棋冠军李世石人机大战，总比分4:1获胜获胜深度学习硬件加速方式深度学习硬件加速方式ASIC15第15页，共45页。深度学习硬件加速方式比较深度学习硬件加速方式比较加速方式加速方式优点优点缺点缺点CPU通用结构、可独立工作通用结构、可独立工作通用性导致效率和能效比低通用性导致效率和能效比低GPU强大的并行计算能力强大的并行计算能力通用性导致效率受

13、影响、通用性导致效率受影响、能耗大能耗大FPGA灵活性好、设计空间大、灵活性好、设计空间大、省去流片过程省去流片过程效能与功耗上不能更紧密适配算效能与功耗上不能更紧密适配算法、成本高法、成本高DSP改动小、改动小、计算能力较高计算能力较高缺乏深度学习全面缺乏深度学习全面计算计算能力、能力、核核心数量较少，并行性支持较差心数量较少，并行性支持较差ASIC能效比最好能效比最好灵活性差、缺乏通用潜力、灵活性差、缺乏通用潜力、成本较高成本较高16第16页，共45页。v上述均为基于深度学习的加速芯片。作为人工神经网络芯片，还有另外一支，是从类似或模上述均为基于深度学习的加速芯片。作为人工神经网络芯片，还

14、有另外一支，是从类似或模拟生物神经系统来实现的神经形态网络芯片（类脑芯片）拟生物神经系统来实现的神经形态网络芯片（类脑芯片）v代表：代表：IBM TrueNorth（真北）、（真北）、Brainchip等等其他人工神经网络芯片其他人工神经网络芯片17第17页，共45页。报告提纲报告提纲深度学习概念及其算法深度学习概念及其算法1 1深度学习硬件加速方式深度学习硬件加速方式2 2典型神经网络芯片介绍典型神经网络芯片介绍3 318第18页，共45页。vIBM，2014年发布能模拟人类大脑的超大规模神经突触芯片年发布能模拟人类大脑的超大规模神经突触芯片TrueNorth基于类似人脑、非冯基于类似人脑、

15、非冯诺依曼的计算架构诺依曼的计算架构含有含有100万神经元，通过万神经元，通过 2.56 亿个突触彼此通信亿个突触彼此通信4096个神经突触，每秒可执行个神经突触，每秒可执行 46 千兆突触运算千兆突触运算三星三星28nm工艺，工艺，54亿晶体管，功耗仅为亿晶体管，功耗仅为70mW典型神经网络芯片典型神经网络芯片IBM TrueNorth19第19页，共45页。vTrueNorth芯片结构、功能、物理形态图芯片结构、功能、物理形态图典型神经网络芯片典型神经网络芯片IBM TrueNorth20第20页，共45页。v人脑分成三个层次人脑分成三个层次神经突触、脑功能区和脑皮层神经突触、脑功能区和脑

16、皮层每个突触由诸多神经元组成，每个脑功能区由诸多突触组成，一个能完每个突触由诸多神经元组成，每个脑功能区由诸多突触组成，一个能完整执行任务的皮层由诸多个功能区组成整执行任务的皮层由诸多个功能区组成vTrueNorth芯片架构对应分为三个层次芯片架构对应分为三个层次突触对应硬件突触对应硬件neurosynaptic core，有，有256个输出与输入及对应的存个输出与输入及对应的存储，并集成神经信号的路由器储，并集成神经信号的路由器芯片有芯片有4096个个core，组成脑功能区，组成脑功能区芯片与芯片间互联，实现完整的脑皮层功能芯片与芯片间互联，实现完整的脑皮层功能vTrueNorth基于脉冲神

17、经网络设计，采用基于脉冲神经网络设计，采用1KHz帧时钟模拟生物上的脉冲，因而没有全局时钟帧时钟模拟生物上的脉冲，因而没有全局时钟控制的信号传递；数据和数据之间采用异步方式通讯，实现低功耗。控制的信号传递；数据和数据之间采用异步方式通讯，实现低功耗。典型神经网络芯片典型神经网络芯片IBM TrueNorth21第21页，共45页。vIBM用用48块块TrueNorth芯片构建一个电子的啮齿类动物大脑，每一块芯片都可芯片构建一个电子的啮齿类动物大脑，每一块芯片都可以模拟大脑的一个基本功能区。系统可模拟以模拟大脑的一个基本功能区。系统可模拟4800万个神经细胞，与小型啮齿万个神经细胞，与小型啮齿动

18、物大脑的神经细胞数齐平动物大脑的神经细胞数齐平v基于该模拟大脑编写的程序可识别照片和语音，并理解一些自然语言基于该模拟大脑编写的程序可识别照片和语音，并理解一些自然语言典型神经网络芯片典型神经网络芯片IBM TrueNorth22第22页，共45页。v2016年年12月月，IBM公布了公布了TrueNorth芯片的最新成果芯片的最新成果美国陆军研究实验室利用美国陆军研究实验室利用TrueNorth芯片的低功耗和实时模式识别特性，芯片的低功耗和实时模式识别特性，帮助在部署数据收集时，减少延迟、降低数据复杂性、减少传输宽带需帮助在部署数据收集时，减少延迟、降低数据复杂性、减少传输宽带需求，同时解决

19、分布式系统终端的数据存储需求求，同时解决分布式系统终端的数据存储需求美国空军研究实验室利用美国空军研究实验室利用TrueNorth横向扩展系统来执行并行数据的文本提横向扩展系统来执行并行数据的文本提取和识别任务。图像文本被分割成单独的字符后被取和识别任务。图像文本被分割成单独的字符后被TrueNorth系统进行并行系统进行并行字符识别。归类之后的结果将会被传送到基于推理的自然语言模型中来重建字符识别。归类之后的结果将会被传送到基于推理的自然语言模型中来重建单词和句子单词和句子劳伦斯劳伦斯利弗莫尔国家实验室训练一个利弗莫尔国家实验室训练一个16块块TrueNorth芯片组成的网络追踪激光熔芯片组

20、成的网络追踪激光熔化机的焊点质量，可以识别化机的焊点质量，可以识别7种等级。实时焊点质量监控使得闭环工艺改进和立即种等级。实时焊点质量监控使得闭环工艺改进和立即排除缺陷部件成为可能排除缺陷部件成为可能典型神经网络芯片典型神经网络芯片IBM TrueNorth23第23页，共45页。v对对TrueNorth的评价的评价不同于冯诺依曼架构，将处理、存储、通信集成在一起不同于冯诺依曼架构，将处理、存储、通信集成在一起尝试在硅片中模仿人脑以大规模平行方式处理信息尝试在硅片中模仿人脑以大规模平行方式处理信息向社会步入认知计算机时代迈出重要一步向社会步入认知计算机时代迈出重要一步v短期看，短期看，True

21、North情况不乐观情况不乐观生态系统差编程困难生态系统差编程困难缺乏高效的训练算法缺乏高效的训练算法不具备调整的灵活性不具备调整的灵活性典型神经网络芯片典型神经网络芯片IBM TrueNorth24第24页，共45页。v2016年中科院计算所正式发布神经网络处理器寒武纪年中科院计算所正式发布神经网络处理器寒武纪针对深度学习领域的专用芯片针对深度学习领域的专用芯片性能、功耗和面积上，比性能、功耗和面积上，比CPU/GPU有百倍有百倍优势优势v寒武纪系列已包含四种原型处理器：寒武纪系列已包含四种原型处理器：寒武纪寒武纪1号（英文名号（英文名DianNao，面向神经网络的原型处理器结构），面向神经

22、网络的原型处理器结构）寒武纪寒武纪2号（英文名号（英文名DaDianNao，面向大规模神经网络），面向大规模神经网络）寒武纪寒武纪3号（英文名号（英文名PuDianNao，面向多种机器学习算法），面向多种机器学习算法）寒武纪寒武纪4号（英文名号（英文名ShiDianNao，面向视频处理特定领域，面向视频处理特定领域）v配套首个深度学习指令集配套首个深度学习指令集Cambricon(DianNaoYu)直接面对大规模神经元和突触的处理直接面对大规模神经元和突触的处理一条指令即可完成一组神经元的处理一条指令即可完成一组神经元的处理对神经元和突触数据传输提供一系列支持对神经元和突触数据传输提供一系列

23、支持典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao25第25页，共45页。v片上存储：芯片内含三块片上存储，用于存储片上存储：芯片内含三块片上存储，用于存储input的的NBin、output的的NBout和神和神经网络模型权重参数的经网络模型权重参数的SB；片上存储与片外通过；片上存储与片外通过DMA通信通信v运算逻辑：核心计算部件为由三级流水线组成运算逻辑：核心计算部件为由三级流水线组成NFUvNFU和片上存储的时分复用：和片上存储的时分复用：运行时，网络模型参数依次被加载到运行时，网络模型参数依次被加载到SB，每层神经，每层神经layer的输入数据被依次加载到的输入数据被依次

24、加载到NBin，layer计算结果写入到计算结果写入到NBoutNFU里基础计算不会与具体里基础计算不会与具体的神经元或权重参数绑定的神经元或权重参数绑定灵活性和尺寸相较于全硬件灵活性和尺寸相较于全硬件方案有明显改进方案有明显改进典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao26第26页，共45页。vDianNao是寒武纪系列的第一个原型处理器结构是寒武纪系列的第一个原型处理器结构单核，主频单核，主频0.98GHz，峰值性能每秒，峰值性能每秒4520亿次神经网络基本运算亿次神经网络基本运算65nm工艺，面积工艺，面积3.02mm2，功耗，功耗0.485W，性能超主流性能超主流C

25、PU核核100倍，面积和功耗仅为倍，面积和功耗仅为1/10性能与主流性能与主流GPU相当，面积和功耗仅为相当，面积和功耗仅为1/100典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao27第27页，共45页。vDaDianNao在在DianNao的基础上进一步扩大处理器的规模的基础上进一步扩大处理器的规模16个处理器核和更大的片上存储个处理器核和更大的片上存储多芯片间直接高速互连，避免内存访问开销多芯片间直接高速互连，避免内存访问开销28nm 工艺，主频工艺，主频606MHz，面积，面积67.7mm2，功耗，功耗16W性能超过主流性能超过主流GPU 21倍，能耗仅为主流倍，能耗仅为主流

26、GPU的的1/330典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao28第28页，共45页。v多用途机器学习处理器多用途机器学习处理器PuDianNao支持支持k-最近邻、支持向量机、神经网络等近十种代表性机器学习算法最近邻、支持向量机、神经网络等近十种代表性机器学习算法主频为主频为1GHz，峰值性能每秒，峰值性能每秒10560亿次基本操作亿次基本操作65nm工艺工艺，面积面积3.51mm2，功耗，功耗0.596W性能与主流性能与主流GPU相当，面积和功耗仅为主流相当，面积和功耗仅为主流GPGPU百分之一量级百分之一量级典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao29第

27、29页，共45页。v2016年成果年成果ShiDianNao传感器可直接对图像进行流式识别处理，消除对图像的读写操作传感器可直接对图像进行流式识别处理，消除对图像的读写操作用比较小的卷积神经网络在芯片上处理，消除对模型的读写操作用比较小的卷积神经网络在芯片上处理，消除对模型的读写操作65nm工艺工艺，面积面积4.86mm2，功耗，功耗0.32W性能与性能与CPU/GPU/专用加速器比，有专用加速器比，有50/30/2倍的提升倍的提升典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao30第30页，共45页。v应用案例：应用案例：ShiDianNao在系统中进行深度学习的模式识别，经训练后

28、具有类在系统中进行深度学习的模式识别，经训练后具有类似人脑的识别能力，可从图像中识别出猫似人脑的识别能力，可从图像中识别出猫v正在进行商业化推广，将寒武纪正在进行商业化推广，将寒武纪IP盒子或芯片嵌入到传统手机或个人电脑主板，极大提高盒子或芯片嵌入到传统手机或个人电脑主板，极大提高处理速度处理速度典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao31第31页，共45页。v寒武纪系列芯片的技术突破：寒武纪系列芯片的技术突破：突破了内存带宽的主要性能瓶颈，通过突破了内存带宽的主要性能瓶颈，通过 EDRAM 技术及多芯片互联，保技术及多芯片互联，保证神经网络模型完整放于片上，证神经网络模型完

29、整放于片上，完全无需访问内存完全无需访问内存突破了片上通讯导致的延迟和功耗，分成的每块内部包含运算部件、神经元突破了片上通讯导致的延迟和功耗，分成的每块内部包含运算部件、神经元数据、突触数据，数据、突触数据，可以减少可以减少 90%以上片上通讯时间以上片上通讯时间突破了机器学习算法、变种众多的困难，采用可编程突破了机器学习算法、变种众多的困难，采用可编程 VLIM 处理其结构处理其结构以及灵活的运算部件，以及灵活的运算部件，支持几乎所有现有的主流机器学习算法支持几乎所有现有的主流机器学习算法典型神经网络芯片典型神经网络芯片寒武纪寒武纪DianNao32第32页，共45页。v2016年谷歌

30、透露其机器学习专用芯片张量处理器年谷歌透露其机器学习专用芯片张量处理器TPU，并于，并于2017年年4月月官方详细介绍官方详细介绍TPU专为专为深度学习框架深度学习框架TensorFlow进行的进行的ASIC设计设计脉动阵列处理结构：数据向运算阵列传递和处理有严格流程规定脉动阵列处理结构：数据向运算阵列传递和处理有严格流程规定处理峰值处理峰值92TOPS，比，比 GPU 和和 CPU 快快 15 到到 30 倍倍功耗功耗75W，能效比，能效比 GPU 和和 CPU提升了提升了30 到到 80 倍倍典型神经网络芯片典型神经网络芯片谷歌谷歌TPU33第33页，共45页。v针对深度学习的定制化设计针

31、对深度学习的定制化设计主要计算部件是黄色主要计算部件是黄色256*256的的8位矩阵乘法单元、非线性神经元计算单元位矩阵乘法单元、非线性神经元计算单元（Activation），及用于归一化和池化的计算单元），及用于归一化和池化的计算单元输入是蓝色的权重数据队列输入是蓝色的权重数据队列FIFO和蓝色的统一缓冲（和蓝色的统一缓冲（Unified Buffer）输出是蓝色的累加器（输出是蓝色的累加器（Accumulators）归一化和池化计算单元的运算数据返回统一缓冲区归一化和池化计算单元的运算数据返回统一缓冲区典型神经网络芯片典型神经网络芯片谷歌谷歌TPU34第34页，共45页。v大规模片上内存大

32、规模片上内存蓝色为数据缓存：蓝色为数据缓存：37%，24MB的局部内存，的局部内存，4MB的累加器内存及用于与主控的累加器内存及用于与主控处理器进行对接的内存处理器进行对接的内存黄色为计算单元：黄色为计算单元：30%绿色为绿色为I/O端口：端口：10%红色为控制逻辑：红色为控制逻辑：2%典型神经网络芯片典型神经网络芯片谷歌谷歌TPU35第35页，共45页。v脉动脉动（Systolic）阵列处理结构阵列处理结构最早由美籍华人计算机科学家孔祥重最早由美籍华人计算机科学家孔祥重等等提出提出矩阵乘法和卷积运算中数据是可复用的，同一数据需和不同权重相乘并累加。不矩阵乘法和卷积运算中数据是可复用的，同一数

33、据需和不同权重相乘并累加。不同时刻，数据输入只有同时刻，数据输入只有少数少数新数据需从外面新数据需从外面获获取，取，多数多数数据是上一时刻数据的数据是上一时刻数据的移位移位脉动式数据流脉动式数据流，最大化数据复用，减小内存访问次数最大化数据复用，减小内存访问次数、内存带宽压力内存带宽压力和访存和访存能量能量消耗消耗典型神经网络芯片典型神经网络芯片谷歌谷歌TPU36第36页，共45页。v脉动阵列处理脉动阵列处理结构结构进行矩阵乘法运算的过程进行矩阵乘法运算的过程a11每次向右移一格，依次与每次向右移一格，依次与b11、b12、b13相乘相乘b11每次向下移一格，依次与每次向下移一格，依次与a11

34、、a21、a31相乘相乘以此类推以此类推典型神经网络芯片典型神经网络芯片谷歌谷歌TPU37第37页，共45页。v低精度（低精度（8bit）计算）计算使用低精度而非使用低精度而非32bit全精度浮点计算已成深度学习界共识全精度浮点计算已成深度学习界共识低精度运算准确率损失小，硬件低精度运算准确率损失小，硬件上上功耗功耗、运算、运算速度速度、运算单元运算单元面积、面积、内存带宽需内存带宽需求求受益明显受益明显vTPU被设计为在被设计为在PCIe I/O总线上的协处理器总线上的协处理器像像GPU一样直接接入数据中心一样直接接入数据中心主机服务器发送主机服务器发送TPU指令来供其执行指令来供其执行典型

35、神经网络芯片典型神经网络芯片谷歌谷歌TPU38第38页，共45页。vTPU指令共十余条，遵循指令共十余条，遵循CISC指令传统，其中有指令传统，其中有5条条关键指令关键指令读主机存储读主机存储：从从CPU主存读数据到统一缓冲主存读数据到统一缓冲读权重读权重Read_Weights：从权值存储器读权值数据到权值队列，作为矩阵单元的从权值存储器读权值数据到权值队列，作为矩阵单元的输入输入矩阵乘矩阵乘/卷积卷积MatrixMultiply/Convolve：驱动矩阵单元执行一次矩阵乘或一次驱动矩阵单元执行一次矩阵乘或一次卷积，将统一缓冲中的数据计算卷积，将统一缓冲中的数据计算并并输出输出到到累加器累

36、加器激活激活Activate：执行人工神经的非线性函数，输入是累加器结果，函数执行人工神经的非线性函数，输入是累加器结果，函数计计算后算后输出到统一缓冲。同时也执行卷积所需池化操作输出到统一缓冲。同时也执行卷积所需池化操作写主机存储写主机存储Write_Host_Memory：将数据从统一缓冲写将数据从统一缓冲写回回CPU主存主存其他指令：备用主机内存读其他指令：备用主机内存读/写，设置配置，同步，中断主机，调试，空操作和停写，设置配置，同步，中断主机，调试，空操作和停止止典型神经网络芯片典型神经网络芯片谷歌谷歌TPU39第39页，共45页。v谷歌谷歌TPU与英特尔与英特尔Haswell Xe

37、on E5 处理器和英伟达处理器和英伟达 K80的对比的对比TPU使用使用8位整数数学运算器，拥有位整数数学运算器，拥有256GB主机内存及主机内存及32GB内存，内存带宽最大内存，内存带宽最大34GB/秒，处理速度达秒，处理速度达92 TOPS TPU芯片工作功耗芯片工作功耗40W，服务器工作功耗，服务器工作功耗384WTPU各方面表现要强于前两者各方面表现要强于前两者典型神经网络芯片典型神经网络芯片谷歌谷歌TPU40第40页，共45页。vCPU、GPU和和TPU处理不同批量大小推理任务的吞吐量处理不同批量大小推理任务的吞吐量批量大小为批量大小为200，响应时间为，响应时间为7毫秒时，提供毫

38、秒时，提供225000个个IPS运行推理基准，是其峰值运行推理基准，是其峰值性能的性能的80批量大小为批量大小为250，响应时间为，响应时间为10毫秒时，提供毫秒时，提供280000个个IPS运行推理基准，达到峰值运行推理基准，达到峰值性能性能典型神经网络芯片典型神经网络芯片谷歌谷歌TPU41第41页，共45页。vGPU服务器、服务器、TPU服务器、服务器、CPU服务器的能效比对比服务器的能效比对比其中，其中，TPU是改进版的是改进版的TPU；总和（；总和（Total）包含主机）包含主机CPU服务器功耗，增量服务器功耗，增量（incremental）减去主机）减去主机CPU服务器功耗；服务器功

39、耗；GM和和WM分别是几何学图形与加权分别是几何学图形与加权平均值平均值总和能效比，总和能效比，TPU是是Haswell的的17倍到倍到34倍，是倍，是K80的的14倍到倍到16倍倍增量能效比，增量能效比，TPU比比CPU高高41倍到倍到83倍，比倍，比GPU高高25倍到倍到29倍倍典型神经网络芯片典型神经网络芯片谷歌谷歌TPU42第42页，共45页。v服务器单芯片功率，跟随神经网络平台负载变化的情况服务器单芯片功率，跟随神经网络平台负载变化的情况其中，服务器具有其中，服务器具有2颗颗CPU芯片与芯片与8颗颗GPU芯片或者芯片或者4颗颗TPU芯片，通过归一化处理，芯片，通过归一化处理，处理为单

40、芯片功率处理为单芯片功率在在100%负载下，负载下，CPU服务器加上服务器加上4颗颗TPU增加功耗少于增加功耗少于20%，但运行神经网络速，但运行神经网络速度比单度比单CPU服务器快服务器快80倍（倍（4个个TPU对比对比2颗颗CPU）典型神经网络芯片典型神经网络芯片谷歌谷歌TPU43第43页，共45页。v在在Google数据中心，数据中心，TPU的应用案例有：的应用案例有：人工智能系统人工智能系统RankBrain，用来帮助谷歌处理搜索结果，用来帮助谷歌处理搜索结果街景街景Street View，用来提高地图与导航的准确性，用来提高地图与导航的准确性下围棋的计算机程序下围棋的计算机程序Alp

41、haGo，起初跑在，起初跑在CPU+GPU上，在上，在2015年年10月和樊麾比赛月和樊麾比赛时使用，当时李世石看到对弈过程后对人机大战很有信心。几个月后的时使用，当时李世石看到对弈过程后对人机大战很有信心。几个月后的2016年年3月月，谷歌把运行谷歌把运行AlphaGo硬件平台换成硬件平台换成TPU，对战局势变得艰难，对战局势变得艰难，AlphaGo程序以程序以4:1的总比分获胜；随后该程序在棋类网站上以的总比分获胜；随后该程序在棋类网站上以Master为帐号与中日韩围棋高手进行快为帐号与中日韩围棋高手进行快棋对决，连续棋对决，连续60局无一败绩局无一败绩典型神经网络芯片典型神经网络芯片谷歌

42、谷歌TPU44第44页，共45页。vTPU 的的性能优越的原因：性能优越的原因：针对深度学习的定制化研发针对深度学习的定制化研发大规模片上内存大规模片上内存:24M 24M局部内存，局部内存，6M6M的累加器内存的累加器内存低精度低精度(8bit)(8bit)计算：计算：功耗功耗、速度速度、运算面积运算面积、带宽带宽优势优势脉动阵列结构：最大化数据复用，减少内存访问脉动阵列结构：最大化数据复用，减少内存访问软硬件持续优化软硬件持续优化v预测谷歌预测谷歌TPUTPU不会替代不会替代GPUGPU和和CPUCPUTPUTPU是一款推理芯片，是一款推理芯片，训练仍借助其他芯片训练仍借助其他芯片TPUTPU通用性太差，通用性太差，谷歌表示不会售卖谷歌表示不会售卖TPU英伟达宣称最新产品英伟达宣称最新产品P80推理性能比推理性能比TPU强强2倍倍典型神经网络芯片典型神经网络芯片谷歌谷歌TPU45第45页，共45页。

展开阅读全文