你正在下载：《

基于 CPU 的深度学习推理优化方案及实践.pptx

》 [预览]

格式：PPTX ，页数：36 ，大小：2.51MB ,
文档编号：2519591 下载积分：30 文币

快捷下载

登录下载

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

优惠套餐

温馨提示：若手机下载失败，请复制以下地址【https://www.163wenku.com/d-2519591.html】到电脑浏览器->登陆（账号密码均为手机号或邮箱；不要扫码登陆）->重新下载（不再收费）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1: 试题类文档的标题没说有答案，则无答案；主观题也可能无答案。PPT的音视频可能无法播放。请谨慎下单，一旦售出，概不退换。
2: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户（无敌的果实）主动上传，所有收益归该用户。163文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

1，本文（基于 CPU 的深度学习推理优化方案及实践.pptx）为本站会员（无敌的果实）主动上传，163文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。
2,用户下载本文档，所消耗的文币（积分）将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（发送邮件至3464097650@qq.com或直接QQ联系客服），我们立即给予删除！

基于 CPU 的深度学习推理优化方案及实践.pptx

1、 CPU p p p CPU p p np p CPU p p AI GPU p np CPU p p StorageSystemrequestBatch &StreamManagergRPC/HTTPclientModel v1ModelLoaderVersionManagerServingInterfaceModel v2responseServing System20min/500ms/200ms/I/O200 / 100 / 50 QPS 100 QPS (precision) 99.3% (recall) 97.8% (accuracy) 95.1%CPU Tensorboard,

2、Timeline Visual DL Vtune Dtracestrace Plockstatlockstat Compiler Option MKL-DNN Intel OpenVINO PerfSarNumactl iostat vmstatblktrace Vtunep p n CPU p p 1. MKL-DNN, Open VINOResnet50MobileNetInceptionV4IntelOpen VINOSDK02468CompilerOptionMathLibrarywith vinowith mkl only Xeon E5-2650 v4 CPUbatchsize=1

3、CPUs=8Mem=16GIntel CPUs 1. MKL-DNN MKL-DNN Tensorflow or 1. Open VINO Open VINO DockerDeep Learning applicationIR modelOriginalmodelModelOptimizer ToolDL Inference Engine APIHeterogeneous Execution EngineCPU PluginMKL-DNNGPU Plugincl-DNN 1. OpenMP OMP 120 fps 100806040200 KMP_BLOCKTIME = 10 KMP_AFFI

4、NITY=granularity=fine, verbose,compact,1,0 OMP_NUM_THREADS = number of cpu coresmobilenetomp_num_threads=2Resnet-50omp_num_threads=4omp_num_threads=16in containeromp_num_threads=8 Xeon E5-2650 v4 CPUbatchsize=1CPUs=8Mem=16G 1. CPU CPU 700 fps6005004003002001000 CPU batchsize KPI CPU alexnet, bs =1al

5、exnet, bs=1 28cpus=2 cpus=4 cpus=8 cpus=12 cpus=24 Xeon E5-2650 v4 CPU1 1. CPU CPU f 120 fps100806040200Boardwell Xeon E5-2650 v4Skylake Gold 6148E5-2650Gold 6148InceptionV4MobileNetRestNet-50 batchsize=1CPUs=4Mem=16G 1. NHWC vs NCHW NHWCTensorflow CPU NHWC MKL-DNN Tensorflow NCHW NCHW 1. NUMA 20 fp

6、s151050InceptionV4Resnet-50NUMA(0-3)NUMA(0-2,12)NUMA(0-1,12-13)A Xeon E5-2650 v4 CPUbatchsize=1NUMA node node 5% 10% 2. 1. 2. mkl 2. 1. 2. MKL 2. 720 ()1412108 - - 6420 3. Batchsize (fps)m )353025201510516001400120010008006004002000 batchsize latency batchsize batchsize0InceptionResnet16 32Inception

7、Resnet16 3212481248 Xeon E5-2650 v4 CPUCPUs=4Mem=16G 3. Post-training Quantization Training-aware Quantization TF-lite 2-5 Caffe 1-3 4. 4. CPU DockerCustomized Serving applicationModelOptimizer ToolVINOmodelDockerSchedulerMesosDockerOpenVINO Inference EngineDockerTensorflow ServingModelTransform ToolTF modelServerServerTensorflow with MLK-DNN 4. Web 4. LOCUST a) b) VINO p p p CPU np CPU CPU 100+ GPU MKL-DNN - CNN 1-4 Open VINO - CNN 2-8 CPU SKYLAKE GPU (P4) / pipeline p p p CPU p nl l l CPU l l l l