1、Intel OPA介绍与使用介绍与使用服务服务与实施部与实施部人工智能与高性能人工智能与高性能产品服务交付处产品服务交付处认识认识OPA网络网络Intel OPA产品介绍产品介绍OPA网络环境部署网络环境部署OPA网络环境网络环境检查检查OPA网络性能测试及优化网络性能测试及优化认识认识OPA网络网络集群常见高速网络集群常见高速网络InfiniBandOmni-Path ArchitectureRDMA over Converged Ethernet点对点双向串行链路,低延迟,解放点对点双向串行链路,低延迟,解放CPU资源,资源,以应用程序为以应用程序为中心,子网管理服务中心,子网管理服务(o
2、pensm)。)。英特尔收购了英特尔收购了QLogic的的InfiniBand产品线和产品线和Cray互互联部门,结合两种网络架构的优点,开发出全新的联部门,结合两种网络架构的优点,开发出全新的Omni-Path网络网络架构,其已经脱离架构,其已经脱离IBTA制定的制定的InfiniBand标准,标准,所以在所以在软硬件上与软硬件上与InfiniBand设备设备互不互不兼容。兼容。RoCE,一种允许通过以太网使用,一种允许通过以太网使用RDMA的网的网络协议,不需要子网管理络协议,不需要子网管理(Subnet Manager)服务,不支持服务,不支持IB协议下的高可用服务。协议下的高可用服务。
3、服务与实施部1 认识认识OPA网络网络1 认识认识OPA网络网络已有高速网络技术已有高速网络技术服务与实施部1 认识认识OPA网络网络已有高速网络技术已有高速网络技术服务与实施部1 认识认识OPA网络网络Omni-Path Architecture服务与实施部1 认识认识OPA网络网络Omni-Path Architecture服务与实施部1 认识认识OPA网络网络OPA链路链路层的创新架构层的创新架构应用程序产生应用程序产生消息包消息包消息包被拆分成包裹消息包被拆分成包裹最大最大MTU大小大小直到分拆的包裹直到分拆的包裹传传送完成送完成,整个,整个消息消息包传送完成。包传送完成。Infini
4、Band每个包裹分装每个包裹分装在在65-bit的的容器容器Flow Control Digits or Flits1 Flit = 65 bits将将16 Flits(带带CRC)封装封装成成 Link Transfer Packets(LTPs)直到直到Flits传送传送完成完成,整个,整个消息包消息包传送完成。传送完成。Omni-Path Fabric16 Flits = LTP服务与实施部1 认识认识OPA网络网络1.5链路层确保链路层确保网络的网络的可靠性可靠性细粒度控制细粒度控制描述描述优势优势通讯流控通讯流控的优化的优化OPA更优化的服务质量更优化的服务质量(QoS),除了基于除
5、了基于VL&SL消息包发消息包发送机制,送机制,OPA采用固定长度的采用固定长度的Flits和和LTP封装数据包,提封装数据包,提供更细颗粒度的消息包传递控制;供更细颗粒度的消息包传递控制;数据包传递的优先级控制,高优先级包优先传递,低优先数据包传递的优先级控制,高优先级包优先传递,低优先级包等待。级包等待。确保高优先级的消息包(如确保高优先级的消息包(如MPI包)包)优先快速传递优先快速传递-更快完成作业;更快完成作业;稳定的延迟性能稳定的延迟性能-减少减少MPI和大块存和大块存储数据混合环境下,多次运行任务,储数据混合环境下,多次运行任务,延迟性能不一致的问题。延迟性能不一致的问题。消息包
6、消息包完整性保护完整性保护OPA不增加额外延迟的情况下,快速的透明的修复传输错不增加额外延迟的情况下,快速的透明的修复传输错误的链接;误的链接;只需重传更小的携带只需重传更小的携带error的的LTPs(仅仅1056bits),而不是,而不是整个数据包整个数据包(IB FEC);重传只发生在主机到交换机或交换机间,而无需整个链路重传只发生在主机到交换机或交换机间,而无需整个链路的重传,极大减少延迟惩罚。的重传,极大减少延迟惩罚。更效的链路层错误修复,对比更效的链路层错误修复,对比IB标准标准定义的定义的Forward Error Correction(FEC);无需无需CPU负担,除非错误修复
7、发生在负担,除非错误修复发生在主机到交换机。主机到交换机。动态链路动态链路扩展扩展OPA在在4x链路上,有链路上,有1x或多或多x的的link失效后,保存重启或失效后,保存重启或返回前一个返回前一个checkpoint,继续保持,继续保持link可用性;可用性;应用任务继续运行,直到修复。对比当前应用任务继续运行,直到修复。对比当前Infiniband,通,通常是断掉整个常是断掉整个4xlinks。确保确保workload继续完成,减少任务继续完成,减少任务运行失败概率。运行失败概率。1 认识认识OPA网络网络OPA交换机路由特性交换机路由特性描述描述优势优势 静态路由静态路由 传统的传统的I
8、nfinband路由方式路由方式 最短路径最短路径 分散路由分散路由 允许源允许源/目的多路径对目的多路径对 通讯负载均衡通讯负载均衡 支持乱序包支持乱序包 可用于可用于Intel PSM MPIs SHMEM 自适应式路由自适应式路由 基于分散路由支持的交换机基于分散路由支持的交换机 自动切换失效路径自动切换失效路径/拥塞拥塞服务与实施部1 认识认识OPA网络网络OPA软件实现软件实现服务与实施部1 认识认识OPA网络网络ASIC级别的性能及特征提升级别的性能及特征提升TrueScale HCA(1 port)Intel OPA HFI(1 port)Improvement FactorPC
9、Ie InterfaceGen2 x8 = 4 GB/sGen3 x16 = 16 GB/s4xFabric interfaceQDR = 4GB/s100 Gbps = 12.5 GB/s3.125xAchievable uni BW3.3 GB/s (PCIe limited)12-12.5 GB/s3.6x - 3.8xAchievable bi BW6.4 GB/s (PCIe limited)24-25 GB/s3.7x - 3.9xMaximum uni message rate36 Million/sec160 Million/sec4.4xMaximum bi message
10、rate72 Million/sec320 Million/sec4.4xTX pin-to-pin latency220ns160ns30% reduction Decreases end-to-end latency by 130nsRX pin-to-pin latency220ns150nsContexts16 (user) + 1 (kernel)160 (configurable)8.9xSDMA Engines11616xMTU Size2KB (deployed)8KB (HPC), 10KB (jumbo)4x - 5xSend buffers272KB (PIO), 132
11、KB (SDMA)1 MB (PIO), 392KB (SDMA)3.8x (PIO), 3x (SDMA)Receive array entries18K (eager) + 9K (expected)64K (configurable, moreefficient rx mappings)2.4xLink-level RX Buffer32KB148KB4.6x服务与实施部1 认识认识OPA网络网络性能增强:性能增强:Verbs改进改进优势优势更大的最大传输单元更大的最大传输单元MTU支持支持(8K and 10K)特别对文件系统通讯,大消息包传递有好处今减少操作的数据包个特别对文件系统通
12、讯,大消息包传递有好处今减少操作的数据包个数,减少传递数据包时数,减少传递数据包时CPU利用率,最大化带宽的利用。利用率,最大化带宽的利用。16 SDMA引擎引擎拉式机制,特别适用于大数据包。每个引擎将数据从主机端拉出,拉式机制,特别适用于大数据包。每个引擎将数据从主机端拉出,并发送出去。越多引擎,并行并发送出去。越多引擎,并行verb的交换路径更多,性能更好。的交换路径更多,性能更好。160发送发送contexts + 160接收接收contexts推出机制,特别有利于小包优化其延迟和消息包转发频率。使用推出机制,特别有利于小包优化其延迟和消息包转发频率。使用CPU发送数据包到链路上,更多发
13、送数据包到链路上,更多contexts去映射更大去映射更大CPU核数。核数。更灵活的接收端扩展更灵活的接收端扩展更高效的在多更高效的在多CPU核上分发接收到的数据包,加速消息包的处理。核上分发接收到的数据包,加速消息包的处理。网卡自动的数据包包头产生网卡自动的数据包包头产生在网卡上实现基于数据包顺序产生包头,减少在网卡上实现基于数据包顺序产生包头,减少CPU利用率。利用率。PIO发送的使用发送的使用驱动增强了通过切换驱动增强了通过切换PI0和和SDMA传输数据方式,优化不同特征类传输数据方式,优化不同特征类型消息包的性能。型消息包的性能。代码路径优化代码路径优化大规模大规模CPU核数,减少跨核
14、数,减少跨CPU核冲突。核冲突。中断聚集中断聚集增加增加CPU效率,累积一定数量的中断再产生效率,累积一定数量的中断再产生CPU中断。中断。服务与实施部1 认识认识OPA网络网络Omni-Path vs InfiniBand EDR服务与实施部Intel OPA产品介绍产品介绍 2 Intel OPA产品介绍产品介绍Omni-Path架构产品架构产品线线单单端口端口X8和和X16 HFI网卡网卡HFI网卡网卡1U 24和和48端口端口边缘交换机边缘交换机边缘交换机边缘交换机QSFP端口端口192和和768端口端口模块化核心交换机模块化核心交换机核心交换机核心交换机OEM定制设计定制设计HFI和
15、和Switch芯片芯片芯片芯片服务与实施部 2 Intel OPA产品介绍产品介绍Omni-Path生态系统生态系统服务与实施部OPA网络环境部署网络环境部署3 OPA网络环境部署网络环境部署OPA Configurator服务与实施部3 OPA网络环境部署网络环境部署OPA Configurator服务与实施部3 OPA网络环境部署网络环境部署OPA驱动驱动IFS版本包含版本包含opafm服务服务服务与实施部3 OPA网络环境部署网络环境部署OPA驱动技术文档驱动技术文档服务与实施部3 OPA网络环境部署网络环境部署OPA驱动技术文档驱动技术文档服务与实施部3 OPA网络环境部署网络环境部署
16、OPA驱动技术文档驱动技术文档服务与实施部3 OPA网络环境部署网络环境部署OPA交换机技术交换机技术文档文档服务与实施部3 OPA网络环境部署网络环境部署OPA交换机技术文档交换机技术文档服务与实施部3 OPA网络环境部署网络环境部署OPA交换机技术文档交换机技术文档服务与实施部3 OPA网络环境部署网络环境部署OPA驱动安装驱动安装服务与实施部3 OPA网络环境部署网络环境部署OPA驱动安装驱动安装服务与实施部3 OPA网络环境部署网络环境部署OPA驱动安装驱动安装服务与实施部3 OPA网络环境部署网络环境部署OPA驱动安装驱动安装服务与实施部OPA网络环境网络环境检查检查4 OPA网络环
17、境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA环境确认环境确认服务与实施部4 OPA网络环境网络环境检查检查OPA交换机登录交换机登录服务与实施部4 OPA网络环境网络环境检查检查OPA交换机登录交换机登录服务与实
18、施部4 OPA网络环境网络环境检查检查OPA交换机登录交换机登录服务与实施部4 OPA网络环境网络环境检查检查OPA交换机登录交换机登录服务与实施部OPA网络性能测试及优化网络性能测试及优化5 OPA网络性能测试及优化网络性能测试及优化OPA benchmark测试测试服务与实施部5 OPA网络性能测试及优化网络性能测试及优化OPA Bandwidth服务与实施部5 OPA网络性能测试及优化网络性能测试及优化OPA Latency服务与实施部5 OPA网络性能测试及优化网络性能测试及优化系统环境优化系统环境优化服务与实施部5 OPA网络性能测试及优化网络性能测试及优化BIOS设置优化设置优化服务与实施部5 OPA网络性能测试及优化网络性能测试及优化OPA网卡参数优化网卡参数优化服务与实施部认识认识OPA网络网络Intel OPA产品介绍产品介绍OPA网络环境部署网络环境部署OPA网络环境检查网络环境检查OPA网络性能测试及优化网络性能测试及优化谢谢 谢谢