1、AI计算系统设计与优化:从实验到生产浪潮人工智能浪潮浪潮AI高速成长高速成长浪潮全栈浪潮全栈 AI 计算产品布局计算产品布局 020040060020172018AI市场增长预测市场增长预测浪潮浪潮AI增速增速全球全球AI增速增速600%150%AIAI浪潮浪潮 57%57%Other Other 43%43%AIAI业务增长率业务增长率 600%600%,市场,市场 份额份额 57%57%AI仍然是全球最热技术全球人工智能市场增长预测全球人工智能市场增长预测Gartner,20180123合同分析合同分析物体检测、避障与导航物体检测、避障与导航目标识别与追踪目标识别与追踪自主地形探测自主地形
2、探测图像文本问答图像文本问答社交媒体推送社交媒体推送维护预测维护预测病患数据处理病患数据处理图像识别、分类、标注图像识别、分类、标注交易策略算法改进交易策略算法改进市场市场未来25年大量AI技术从创新期走向生产期2018年年AI技术成熟度曲线技术成熟度曲线AI 开发工具开发工具AI相关相关C/S服务服务自然语言生成自然语言生成聊天机器人聊天机器人DNN ASICs智能引用智能引用深度神经网络深度神经网络(DNNs)VPA 无线音箱无线音箱机器学习机器学习虚拟助手虚拟助手FPGA 加速技术加速技术计算机视觉计算机视觉商用无人机商用无人机知识管理工具知识管理工具虚拟现实虚拟现实GPU 加速加速集成
3、学习集成学习语音识别语音识别技术技术应用应用70%62%39%26%17%11%8%7%0%10%20%30%40%50%60%70%80%01000200030004000500060002017 2018 2019 2020 2021 2022 2023 2024 2025Business Value Growth$10BYear推动AI发展,计算投资越来越大US$M239.41231.32186.33215.24472.25898.3 170.71 564.49 1,135.75 1,742.16 2,336.03 2,912.87 3,408.83 414.3%77.6%47.1%39
4、.1%31.9%60.0%230.7%101.2%53.4%34.1%24.7%17.0%00.511.522.533.544.50 1,000 2,000 3,000 4,000 5,000 6,000 2016201720182019202020212022PRC AI Spending Market Size&Forecast,2016-2021PRC AI Spending Market Size&Forecast,2016-2021AI SpendingGrowth Rate投资投资GPU Server Market Size&Forecast,2016-2022GPU Server
5、 Market Size&Forecast,2016-2022GPU ServerGrowth Rate算力算力 IDC,2018AI计算的发展趋势2012年以前 AI主要采用CPU计算2014年-2016年 10-100 GPU集群或云计算2016年以后 出现FPGA/TPU定制化计算2012年-2014年 1-8 GPU单机计算 模式模式:从科研实验到应用生产:从科研实验到应用生产 规模:从单机计算到大规模集群或云计算规模:从单机计算到大规模集群或云计算 架构架构:从通用:从通用CPU计算到定制化计算计算到定制化计算AI计算面临巨大的挑战shallowshallow882215212072
6、8.20%25.80%16.40%11.70%6.70%3.57%2.99%0.00%5.00%10.00%15.00%20.00%25.00%30.00%110100100010000ILSVRC10LSVMILSVRC11FV+SVRILSVRC12AlexNetILSVRC13ZFNetILSVRC14GoogleNetILSVRC15ResNetILSVRC16model ensemble人工设计模型人工设计模型计算量计算量操作数模型层数错误率4E4E260P640P9.2E190E22E传统机器学习算法256200005001000150020002500ResNet(人工设计)Na
7、sNet-A(机器自动学习)GPU-HOURSAUTOML模型模型计算量计算量“事实证明,我们真正需要的是超过现在 100万倍万倍 的计算能力,而不只是区区几十倍的增长。”Jeff Dean参考Jeff DeanHot Chips 2017演讲:AI对计算机系统设计的影响提高AI计算系统性能与效率将尤为重要n 计算规模从单机到集群再到大规模云计算 性能与性能的可扩展性n 计算架构从单一通用架构CPU+GPU到混合异构架构CPU+GPU+FPGA+XPU 异构并行与协同计算n 计算环境从单用户、单任务、单场景到多用户、多任务、多场景 任务调度与负载均衡AI计算系统设计与优化的几个层面AI计算平台
8、设计与优化计算平台设计与优化AI平台管理设计与优化平台管理设计与优化AI计算框架优化计算框架优化AI应用性能优化应用性能优化AI计算平台设计优化频繁参数交换通信性能高密度计算计算性能线下大规模训练高性能、高扩展在线实时推理低延迟、低能耗计算密集型线下训练平台MXNetCaffeTensorFlowPaddlePaddleAlexNetVGGNetGoogLeNetResNet参数密集型线上推理平台计算框架分布式架构计算扩展计算平台需结合模型算法、应用场景特点进行Co-Design浪潮全线AI计算平台:与计算场景的Co-DesignAGX-2专注于AI训练场景高速Nvlink互联8颗GPUNF5
9、280M5-V专注于视频监控场景2U8 P4,大容量存储专注于AI云场景4U8 V100/4U16 P4NF5468M5GX4专注于PCIE解耦灵活扩展AI计算模块F10A专注于AI推理1.5TFlops,32GB内存SR-AI Rack专注于AI大规模训练场景与百度联合研制的4*16GPU Box最新发布的AGX-5 AICC 强大的GPU互联架构最先进的NVSwitch互联结构,2.4TB/s全芯片群高速交换逻辑,实现低延时参数通信512GB的全局共享内存,支持大模型极高的计算性能2 PetaFlops最高单机AI计算性能单机配置16Tesla V100最强GPUAGX-5 AI计算性能2
10、x性能2.7x性能AI推荐器机器翻译模型2*AGX-2AGX-5AI平台管理设计与优化计算资源管理优化,从分散到集中计算资源配额优化,针对不同用户计算资源共享与独享,针对不同应用计算资源的负载均衡策略优化数据预处理模型开发模型训练推理应用AIStation计算管理平台容器化安装与部署可视化开发与调试集中化管理与调度 GPU ClusterP40_shareGPU ClusterP40_exclusiveGPU Cluster1080ti_shareGPU Cluster1080ti_exclusive用户数据:代码,模型存储GPU Cluster1080P_debug8AGX2+104GX4:
11、500+卡训练数据下载GPU利用率40%提升到70%作业吞吐从200+提升到600+实现AI开发与运维的统一管理实现CPU与GPU共同并行计算,进一步提高资源利用率采用混合精度或半精度计算,发挥计算芯片的效率计算采用异步或半异步通信机制实现计算与通信隐藏合并小数据,提升通信效率通信采用多线程的数据读取机制数据预取、数据IO与计算异步并行IOAI计算框架优化方法优化后AI计算框架性能与扩展性表现开源地址:https:/ GPUsimages/sNo.of GPUsInspur Caffe-MPIInspur TensorFlow-Opt实现512块GPU 24分钟完成imagenet数据集训练,
12、成功打破Facebook的世界纪录针对训练端AI应用性能优化方法1、应用性能分析2、硬件系统适配优化,如存储、网络、CPU与GPU配置,CPU-GPU通信拓扑3、软件系统适配优化,如框架版本、cuDNN版本、CUDA版本4、针对GPU架构特点优化,如混合精度训练、RDMA、GPU参数优化5、针对框架特点优化,如并行IO、异步通信6、针对网络与算法特点优化,如超参数设置、算法通信优化05001000150020002500300035004000base平台平台IO优化优化通信优化通信优化系统参数优化系统参数优化混合精度优化混合精度优化Images/sAGX-2性能加速(性能加速(Resnet1
13、52)2.6X00.511.522.533.544.5Base平台平台+81080Ti GPUAGX-2+8V100 GPUSpeed-up ratioAGX-2性能加速性能加速(Resnet50)4X人脸识别AI训练应用优化案例性能提升:1.9X扩展效率:96%性能提升:3.6X扩展效率:91%00.511.522.533.58 GPUs16 GPUsSamples/s应用应用1模型训练性能模型训练性能0501001502002503003504004GPUs16 GPUsSamples/s应用应用2模型训练性能模型训练性能机器翻译AI训练应用优化案例针对推理端AI应用性能优化方法nAI推理
14、端计算架构:从通用到定制化计算发展GPUFPGATPUnAI推理应用性能的发挥,需要算法与硬件的协同优化提高数据并行粒度,充分利用计算资源模型压缩,实现片上访存参数量化,实现低精度计算FPGA计算加速引擎计算加速引擎TF2Trained ModelTransform Kit Runtime EngineResultDataSetsCompressed ModelFPGA F10ATF2020406080100Top1(%)Top5(%)P4F10A144014501460147014801490FPS(images/s)P4F10A020406080功耗(W)P4F10A移位计算模型压缩与量化测试模型:SqueezeNet全球首创的FPGA上DNN的移位运算技术总结n AI面临巨大的计算挑战,提高AI计算系统性能与效率尤为重要,需从系统的角度综合考虑n AI计算系统设计与优化的4个方面 通过计算平台与算法、应用场景的Co-Design 通过计算平台管理优化,提升计算吞吐与并发 通过计算框架的并行优化,提升扩展效率与性能 通过计算应用自身的优化,提升应用性能谢 谢