2021中国DPU行业发展白皮书_38页_6mb.pdf
中国DPU行业发展白皮书 赛迪顾问股份有限公司 2021 前言 伴随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施中的两个重要 的发展方向。随着网络传输带宽的增加,数据中心的计算资源被愈加复杂的基础设施操作 所占据,使得业务处理遭遇瓶颈。DPU的提出背景就是应对数据中心的数据量和复杂性的 指数级增长带来的性能瓶颈。DPU对数据中心来说,是通过更明细的分工来实现效率的提 升、实现总体系统的成本最优化。 本白皮书内容共分4章内容,包括智能网卡的简介及趋势分析、DPU的简介及分析、 DPU产业分析及NVIDIA的DPU前景展望等。 第一章为智能网卡的简介及趋势分析。该章节介绍了智能网卡的发展背景,并与通用网 卡的框架做对比,介绍了网卡及智能网卡的技术差别,对比了各种智能网卡不同实现的技 术要点,分析了智能网卡发展的优劣势,引出了DPU在数据中心的发展。 第二章为DPU的简介及分析,介绍了DPU的发展背景和DPU的定义,对DPU介绍并分 析了其优势和未来技术发展路径。并从NVIDIA BlueField-3 DPU产品技术特点、产业定 位分析、技术优势分析、和技术对比等方面综合介绍了NVIDIA BlueField-3 DPU产品技 术情况。 第三章为DPU的产业宏观分析,分别列举出目前市场上主流产品的产品技术特点,分 析了DPU行业的市场竞争格局,概述了DPU应用市场的发展现状,研究了DPU行业的发展 趋势,展望了数据中心的未来前景。 第四章为NVIDIA DPU的前景分析,从结构通用化、功能多样化、应用广泛化,场景 丰富化四个方面对NVIDIA DPU的前景进行了相关分析与展望。 一、智能网卡简介和趋势分析 1 (一)智能网卡发展背景及技术简介 1 1.智能网卡发展背景 1 2.网卡及智能网卡技术简介 1 (二)智能网卡的优劣势分析 5 二、DPU简介及分析 7 (一)DPU发展背景与定义 7 1.DPU发展背景 7 2.DPU定义及综述 7 (二)DPU优势及发展趋势分析 8 1.DPU优势分析 8 2.DPU技术发展趋势分析 9 (三)NVIDIA BlueField-3 DPU产品定位及优势分析 10 1.BlueField-3 DPU产品简介 10 2.BlueField-3 DPU技术特点 12 3.BlueField-3 DPU产业地位分析 13 4.BlueField-3 DPU优势分析 13 (四)NVIDIA BlueField-3 DPU技术分析和技术对比 15 1.BlueField-3 DPU技术分析 15 2.智能网卡及DPU分析 19 三、DPU产业分析 21 (一)DPU产业宏观分析 21 1.DPU产业分析 21 2.DPU竞争格局 21 (二)DPU产业现状与趋势 25 1.DPU产业发展现状 25 2.DPU产业发展趋势 26 四、DPU前景分析 28 目录 图1 网卡架构示意图 1 图2 智能网卡架构示意图 2 图3 智能网卡不同技术实现示意图 2 图4 智能网卡与DPU架构示意图 6 图5 DPU产品示意图 7 图6 DPU实现业务与基础设施的操作分离 8 图7 OpenShift部署DPU前后性能对比 9 图8 DPU和网络计算成为以数据为中心计算架构的核心 10 图9 NVIDIA DPU产品发展路线图 11 图10 BlueField-3 DPU产品示意图 11 图11 NVIDIA DOCA软件开发包 12 图12 BlueField-3 DPU实现无阻塞通信后的性能表现实例 14 图13 NVIDIA DOCA软件栈 15 图14 BlueField-3 DPU总体架构 16 图15 RDMA技术通过远程直接内存访问实现低延迟 17 图16 GPU-Direct RDMA技术示意图 17 图17 英特尔IPU概念图 24 图18 OCTEON 10系列DPU架构 25 图19 全球DPU市场规模 26 图20 中国DPU市场规模 27 表1 智能网卡不同技术实现参数对比 3 表2 网卡与智能网卡性能参数对比 3 表3 BlueField DPU系列的优势 10 表4 BlueField-3 DPU解决网络高速传输数据安全瓶颈 13 表5 BlueField-2和BlueField-3 DPU技术指标对比 14 表6 智能网卡和DPU对比分析 20 表7 DPU竞争格局 22 图目录 表目录 2021中国DPU行业发展白皮书 1 (一)智能网卡发展背景及技术简介 1、智能网卡发展背景 网卡(Network Interface Card,简称NIC)是将电脑接入局域网的设备,网卡插在计算机主板的总 线插槽中,负责将用户要传递的数据转换为网络设备能够识别的格式,通过网络介质传输。 智能网卡(Smart NIC),也称智能网络适配器,除了能完成标准网卡所具有的网络传输功能之外, 还提供内置的可编程、可配置的硬件加速引擎,提升应用的性能和大幅降低CPU在通信中的消耗,为应用 提供更多的CPU资源。例如,在高度虚拟化的环境中,主机CPU需要运行OVS(Open Virtual Switch) 相关任务,同时CPU还要处理存储、数据包的在线加解密或离线加解密、数据包深度检查、防火墙、复杂 路由等操作,这些操作不仅消耗大量的CPU资源,同时由于不同业务之间的CPU资源争夺,导致业务的性 能不能发挥到最佳。网卡作为连接各种业务的枢纽,在网卡上对于上述业务进行加速,成为了最理想的场 所。智能网卡的出现,为解决这个问题提供了新的思路,我们可以通过智能网卡来将OVS操作从CPU卸载 下来,并完成存储加速、数据加密、深度包检测和复杂路由等各种功能,将花费在处理这些工作负载上的 大量的CPU周期返回给主机CPU,同时解决了不同业务之间的冲突问题,大幅提升了各项业务的性能,也 确保了服务器CPU能为应用提供最大的处理能力或者提供更多的虚拟机(VM)服务,创造更大的价值。 2、网卡及智能网卡技术简介 (1)网卡架构技术特点 网卡的架构如图所示,一个典型的NIC由一个处理网络流量的处理器、一对处理数据移动的DMA引擎 和一个用于缓冲区和Doorbell的本地存储器(通常是RAM)组成。 一、智能网卡简介和趋势分析 网卡架构示意图图1 数据来源: ISLPED03, 赛迪顾问整理 2021,11 2 (2)智能网卡架构技术特点 智能网卡是具有独立的计算单元,能完成特定的基础设施功能操作的网卡,如智能网卡可完成特定 的重组加速、安全加速等操作,相对于普通网卡可以带来较大的性能提升。智能网卡上的可编程ASIC或 FPGA单元有可以运行自定义软件的计算层,计算层可以为网络流量提供服务,并可以执行特定网络及数据 中心基础设施功能,还为外部网络和服务器OS之间提供了额外的安全层(也就是将安全保障由ToR交换机 转移向了该设备)。 智能网卡简介和趋势分析 (3)各种智能网卡实现的技术要点对比 目前的智能网卡有ASIC、FPGA和片上系统(SoC)三种实现。 智能网卡不同技术实现示意图 智能网卡架构示意图图2 图3 数据来源 :公开资料, 赛迪顾问整理 2021,11 数据来源: Vmware官网,赛迪顾问整理 2021,11 2021中国DPU行业发展白皮书 3 (4)网卡与智能网卡的性能对比(如表2所示) 不同实现方式的智能网卡在成本、编程的简易性和灵活性方面存在各种权衡。ASIC非常具有成本效 益,可以提供最佳的性价比,但它的灵活性受ASIC中定义的功能的限制。 基于FPGA智能网卡则可以在可用逻辑门约束范围内,花费足够的时间和成本来相对有效地支持几乎 任何功能。但FPGA编程简易性较差且价格昂贵。 对于更复杂的、更广泛的用例,基于SoC(如NVIDIA的BlueField DPU)提供了最佳的智能网卡实施 选项:良好的性价比、易于编程且高度灵活。 智能网卡不同技术实现参数对比表1 网卡与智能网卡性能参数对比表2 数据来源: 赛迪顾问 2021,11 ASIC FPGA SoC 性价比 高 低 中 易编程度 中 低 高 灵活性 低 中 高 功耗 低 高 中 能力 Capability 加速工作负载 Workloads Accelerated 网卡 NIC 智能网卡 Smart NIC 入门级虚拟化与数据移动 Entry Level Virtualization and Data Movement TCP/IP 加速 TCP/IP Acceleration 企业工作负载 Enterprise workloads 虚拟化NIC (SR-IOV) NIC Virtualization (SR-IOV) 企业工作负载 Enterprise workloads 网络虚拟化 Network Virtualization (VXLAN) 多租户工作负载 Multi-tenant workloads 数据传输加速和可编程数据面 Data Transport Acceleration & Programmable Data Plane RoCE 加速 RoCE Acceleration 虚拟机、存储、大数据、人工智能/机器 学习 VM, Storage, Big Data, Al/ML 4 数据平面开发套件 DPDK 虚拟化网络功能 Virtualized Network Functions Spark加速 Spark Acceleration 大数据 Big Data NVMe-oF存储 NVMe-over-Fabrics Storage (NVMe-oF) 存储 Storage OVS硬件加速 OVS Hardware Acceleration 高效、可扩展的虚拟化应用程序 Efficient, Scalable Virtualized Apps QoS 和 ACL 加速 QoS and ACL Acceleration 网络服务器/内容分发网络 Web Servers/ Content Distribution Networks 流量监控/报告 Flow monitoring/reporting 可视性、网络数据包代理、IBN Visibility, Network Packet Broker, IBN 流匹配/动作引擎 Flow match/action engine 软件定义网络 Software Defined Networking 完全可编程数据面 Fully Programmable Data Plane 网络功能虚拟化 Network Function Virtualization ASAP 2 虚拟交换/路由 ASAP 2 Virtual Switching/Routing NAT、负载均衡、无状态防火墙 NAT, Load Balancing, stateless fire- wall 智能网络和虚拟化 Smart Networking & Virtualization 虚拟交换政策引擎 Virtual Switch Policy Engine OVS控制面 OVS Control Plane (*) 分析引擎 Analytics engine DPI网络监控与诊断 DPI, Network Monitoring and Diag- nostics (*) 容器加速 Container Acceleration 多样(AI/ML,大数据,分析) Various (AI/ML, Big Data, Analytics) (*) 智能云虚拟化 Smart Cloud Virtualization 服务器分解与资源共享 Server Disaggregation & Resource Sharing 安全、压缩、网络功能虚拟化、存储 Security, Compression, Network Function Virtualization, Storage 公钥加密、RNG Public Key Crypto, RNG 认证、密钥交换Authentication, Key Exchange 故障域隔离/HA Fault Domain Isolation/HA 裸金属云 Bare Metal Cloud 智能网卡简介和趋势分析 2021中国DPU行业发展白皮书 5 数据来源: 公开资料,赛迪顾问整理 2021,11 (*)该功能FPGA型的智能网卡不具备,DPU具备 (*)该功能ASIC型的智能网卡不具备,DPU具备 IP/ACL状态防火墙 Stateful IP/ACL filtering 过滤负载均衡IPD/IDS/UTM Load Balancing IPD/IDS/UTM 存储:哈希、ECC、压缩 Storage: Hashing, ECC, Com- pression 除编码、精简配置、重复数据删除 Erasure Coding, Thin Provisioning, Dedup 加密/解密 Encryption/Decryption 静态/动态数据 Data at Rest or on-the-fly 安全VNF卸载 Security VNF Offloading 防火墙、IDS、IPS、反恶意软件、防 DDos Firewall, IDS, IPS, Anti-malware, An- ti-DDos (二)智能网卡的优劣势分析 智能网卡为数据中心网络提供了几项重要优势,包括: 1) 对于运营大型数据中心的公共云服务提供商而言,智能网卡可以释放CPU核来为最终用户运行业务 应用程序,从而可能实现更高的服务器利用率。 2) 各种基础设施操作卸载。例如RDMA融合以太网(RoCE)、传输控制协议(TCP)、NVMe- oF(NVMe-over-Fabrics)、互联网安全协议(IPSec)、安全传输层协议(TLS)、深度报文检测 (DPI)、OVS(Open Virtual Switch)等。 3) 某些类别的智能网卡是可编程的,可以针对广泛的应用程序进行定制,并且可以重新组装以满足新 的要求。 智能网卡并非没有缺点,在智能网卡被更广泛的采用之前,需要解决以下问题: 1) 与标准网卡相比,智能网卡的价格显着溢价。考虑到相同的端口速度,溢价可能会影响智能网卡的 普及,尤其是在批量生产时需要降低价格。 2) 智能网卡的功耗较普通网卡高,一般20W80W,随着更多功能的集成,功耗也会越来越高。 3) 鉴于智能网卡上支持的功能越来越多,其可编程性和复杂性也越来越高,它们可能会消耗大量工程 资源来进行开发和调试,从而导致实施时间长且成本高。 基于以上考虑,主要的云服务提供商和网卡供应商已经基于不同的解决方案开发了智能网卡:基于 ARM的SoC、FPGA和定制ASIC。这些解决方案中的每一个都提供不同程度的卸载和可编程性, 本文中将 会对于不同的实现进行对比。 在智能网卡发展的过程中,NVIDIA将智能网卡升级为DPU(Data Processing Unit)。DPU延续了 智能网卡的基本功能,并将通用工作任务做了加速处理。如图4所示,相比智能网卡在数据层面上实现加 速,DPU的最大的区别是能在实现智能网卡的功能的基础之上实现控制面的加速。 6 智能网卡与DPU架构示意图图4 数据来源: NVIDIA官网,赛迪顾问整理 2021,11 智能网卡简介和趋势分析 2021中国DPU行业发展白皮书 7 DPU产品示意图图5 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 (一)DPU发展背景与定义 1、DPU发展背景 随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施的相辅相成的两个重要发展方 向。若数据中心仅关注计算能力的提升,通信基础设施的提升跟不上,那么数据中心的整体系统性能依然 受限,无法发挥出真正的潜力。DPU的提出背景就是应对这些数据量和复杂性的指数级增长。未来,需要 将计算移至接近数据的位置,这是目前业界所公认的以数据为中心的体系结构下的创新。综上,DPU对数 据中心来说,是通过更明细的分工来实现效率的提升、实现总体系统的成本最优化。 2、DPU定义及综述 二、DPU简介及分析 DPU(Data Processing Unit)市场仍处于百家争鸣的早期发展阶段,各家厂商定义略有不同。目前市 场上主流的DPU定义是NVIDIA提出的,即 DPU是集数据中心基础架构于芯片的通用处理器 。它结合了: 1) 行业标准的、高性能及软件可编程的多核CPU,通常基于已应用广泛的ARM架构,与其它的SoC组 件密切配合。 2) 高性能网络接口,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到GPU和 CPU。 8 DPU实现业务与基础设施的操作分离图6 数据来源 :NVIDIA官网,赛迪顾问整理 2021,11 3) 各种灵活和可编程的加速引擎,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。 4) 具备开放性集成功能,未来支持更多功能集成。例如NVIDIA计划未来在Bluefield-4产品中,将GPU 集成至DPU中以完成数据中心的架构的终极整合。 5) NVIDIA DPU的软件开发包DOCA,提供了统一的面向各种应用的编程接口,让用户可以不用关注 DPU的底层硬件接口而直接对硬件进行编程。 DPU的出现实现了以数据为中心的业务和基础设施操作的分离,大幅降低了业务的长尾延时,对于实现 安全的、裸性能的、云原生的下一代大规模计算至关重要。 (二)DPU优势及发展趋势分析 1、DPU优势分析 (1)DPU实现了业务与基础设施的操作分离 DPU将基础设施任务从CPU转移至DPU,释放CPU的资源,使更多的服务器CPU核可用于运行应用程 序,完成业务计算,从而提高服务器和数据中心的效率。如通过在DPU上运行OVS,使业务域和基础设施 域分离,实现VM和VM间的高效安全通信,如图6所示,传统应用场景中会使用CPU来执行OVS操作,其 效率较低,消耗CPU核较多,且VM之间的通讯延时较长。Red Hat在部署了DPU后,用DPU来执行同样 的OVS操作,其效率大幅提升,几乎不消耗CPU核,VM之间的通讯延时也得到了大幅缩减,大幅减少了长 尾延时,从而提升了应用的性能。 (2)DPU卸载网络数据实现性能提升 DPU针对云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理 等服务。如图7所示,红帽Red Hat的容器化云平台即服务(PaaS)OpenShift上,借助DPU优化数据中 心资源利用率,将网络相关的数据处理(如VxLan和IPSec等)卸载到DPU加速执行,在25Gb/s网络条件 下,OpenShift部署DPU用来加速,可以只用1/3的CPU占用了来达到25Gb/s性能,而在100Gb/s网络条 件下,未部署DPU的场景将达不到100Gb/s网络线速,DPU可以带来10倍的性能优势。 DPU简介及分析 以数据为中心的计算架构成为了趋势 网络计算和DPU成为以数据为中心计算架构的核心 实现了业务和基础设施操作的分离,大幅降低了长尾延时 CPU执行基础设施操作(OVS为例)DPU执行基础设施操作(OVS为例) 以数据为中心的计算架构成为了趋势 网络计算和DPU成为以数据为中心计算架构的核心 实现了业务和基础设施操作的分离,大幅降低了长尾延时 CPU执行基础设施操作(OVS为例)DPU执行基础设施操作(OVS为例) 2021中国DPU行业发展白皮书 9 OpenShift部署DPU前后性能对比图7 数据来源 :Red Hat官网,赛迪顾问整理 2021,11 (3)DPU可以提供零信任安全保护 零信任(Zero Trust)是一种以安全性为中心的模型,其基于以下思想:企业不应对其内外的任何 事物授予默认信任选项。零信任可以减少数据泄露、拒绝未授权的访问,因此在数据安全方面价值巨大。 DPU可以为企业提供零信任保护,通过将控制平面由主机下放到了DPU,实现主机业务和控制平面的完全 隔离,数据将无法进行穿透,保证安全性。DPU的出现相当于为每个服务器配备了一台“计算机前的计算 机”以提供独立、安全的基础设施服务,并与服务器应用域安全隔离。如果主机遭受入侵,安全控制代理 与被入侵主机之间的DPU隔离层可防止攻击扩散至整个数据中心。这样DPU就解决了企业不愿直接在计算 平台上部署安全代理的情况。通过在完全隔离于应用程序域的DPU上部署安全代理,企业不仅能获得对应 用程序工作负载的可见性,还能在其基础设施中执行一致的安全策略。 (4)DPU助力实现“算存分离” DPU的BlueField SNAP技术方案通过在服务器系统的数据入口处引入计算资源,在DPU上独立实现 面对应用需求的存储方案,帮助存储厂商在数据中心中低成本地灵活部署、升级高级存储协议,而完全不 需要对现有软件栈进行任何更改。存储厂商可以把自家团队为各行业应用开发的开放系统的直连式存储 (DAS)、纵向扩展(Scale-UP)、横向扩展(Scale-OUT)、超融合架构(Hyperconverged)等存储解 决方案,零开销地推广到各个应用领域的现有业务处理平台和数据中心基础架构中,而所有的安全加密、 数据压缩、负载均衡等复杂又必须的功能则完全由DPU透明地卸载。存储行业的革新算法和实现,可以在 DPU架构中,独立于服务器操作系统进行部署。DPU技术帮助存储厂商实现真正的“算存分离”,完全发 挥自家产品的技术优势,打通最高效服务应用需求的通路。 2.DPU技术发展趋势分析 目前DPU以数据为中心作为计算架构,能针对数据中心的安全、网络、存储、AI、HPC等业务进行加 速。从DPU概念的提出者NVIDIA的现有技术发展趋势来看,未来的技术发展趋势将会是高度集成化的片 上数据中心的模式(Data Center Infrastructure on a chip),即一个GPU、CPU、DPU共存的时代。 NVIDIA布局的数据中心从核心到边缘(Edge)都采用了统一的一个计算架构CPU、GPU、DPU,如 图所示,形成了“3U”一体架构。3U一体的统一计算单元架构将会让管理程序、调度程序都会变得非常容 易。通过CPU、GPU、DPU之间的协调计算,可以在数据中心和边缘端都可以达到高性能与高安全性。 10 DPU和网络计算成为以数据为中心计算架构的核心图8 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 (三)NVIDIA BlueField-3 DPU产品定位及优势分析 1、BlueField-3 DPU产品简介 现代超大规模云技术推动数据中心走向了新的架构,利用一种专门针对数据中心基础架构软件而设 计的新型处理器,来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷, 这种产品即BlueField DPU系列。NVIDIA 创始人兼首席执行官黄仁勋表示:“现代超大规模云正在推 动数据中心的新架构。需要一种旨在处理数据中心基础设施软件的新型处理器来卸载和加速虚拟化、网 络、存储、安全和其它云原生AI服务的巨大计算负载。BlueField DPU的时代已经到来。”如表3所示, BlueField DPU系列产品优势有:从外围设备到服务器都具备安全性、适用不断扩展的工作负载的数据存 储、高性能且高效的网络、软件定义的基础架构等。 图1 BlueFieldDPU系列的优势表3 特点 优势 详情 安全性 从设备到数据皆 安全无虞 BlueField DPU支持零信任的全方位安全架构,其安全性覆盖范围从硬件 设备到数据传输,再到恶意攻击的安全加速引擎,确保从内到外的防护。 可扩展性 适用不断扩展的 工作负载的数据 计算与存储 借助于对NVMe over Fabrics SNAP(NVMe-Of SNAP),GPUDirect Storage(存储)、加密(Encryption)、弹性存储(Elastic Storage)、数 据完整性(Data Integrity)、压缩(Decompression)和重复数据删除 (Deduplication)的支持,BlueField可提供高性能存储访问,而其远程存储 延迟可媲美直连式存储。 DPU简介及分析 20 数据中心的变革已经来临 数据中心成为了新的计算单元 GPU Accelerates AI & Machine Learning Every workload will become accelerated AI DPU Accelerates Data Intensive Tasks Networking, Security, Storage Data Processing UnitAI & ML Accelerated Computing Software-Defined, Hardware-Accelerated GPU DPU CPU 2021中国DPU行业发展白皮书 11 数据来源: NVIDIA官网, 赛迪顾问整理 2021,11 NVIDIADPU产品发展路线图图9 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 网络性能 高性能且高效的 网络 BlueField是一款强大的数据中心服务加速器,可为传统应用程序和现代 GPU加速的应用程序提供高达400Gb/s的以太网和InfiniBand的带宽,同时 释放主机CPU核心以运行其它的应用程序。 可开发性 软件定义的基础 架构 借助NVIDIA DOCA软件开发套件(SDK),开发者可以不必考虑DPU 底层的硬件加速接口,直接利用行业标准API轻松创建软件定义的高性能 云原生DPU加速服务。 NVIDIA DPU 路线图 芯片级可编程数据中基础架构 BlueField-4 DPU Arm CPU Computing A100 GPU Accelerated Computing InfiniBand/Ethernet/PCIe Network Computing/Storage/Security Framework Data Acceleration 2020 2022 1X 10X 100X BlueField-2 7B Transistors 9 SPECint* 0.7 TOPS 200 Gbps BlueField-3 22B Transistors 42 SPECint* 1.5 TOPS 400 Gbps BlueField-4 64B Transistors 160 SPECint* 1000 TOPS 800 Gbps 2024 DOCA null ONE DEVELOPMENT ARCHITECTURE * SPECint2k17-rate BlueField-3DPU产品示意图图10 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 5 关于NVIDIA BLUEFIELD-3 DPU 首款400Gb/s速度的DPU 22B transistors 400Gb/s Ethernet & InfiniBand Connectivity 400Gb/s Crypto Acceleration 16 ARM CPU Cores 300 Equivalent x86 Cores 18M IOP/s Elastic Block Storage 12 NVIDIADOCA软件开发包图11 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 NVIDIA的BlueField DPU产品发展路线图如图所示,包括了已有的二代产品BlueField-2,目前即 将面世的首款达400Gb/s速度的BlueField-3 DPU,以及未来整合了NVIDIA GPU功能,可达800Gb/s的 BlueField-4 DPU。 BlueField-3 DPU是首款达400Gb/s为AI和加速计算而设计的DPU,助力各企业在任何规模的应用上 都能实现业内领先的性能和数据中心的安全性。一个BlueField-3 DPU所提供的数据中心服务可相当于多 达300个CPU核才能实现的服务,从而释放宝贵的CPU资源来运行关键业务应用。这款DPU针对多租户、 云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。 2、BlueField-3 DPU技术特点 BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来,实现了由传统基础 设施到现代基于“零信任”环境的转型,可对数据中心的每个用户进行身份认证,保障了企业从云到核心 数据中心,再到边缘的安全性,同时在效率和性能上有了更大的提升。 BlueField-3 DPU是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。BlueField-3 DPU可为NVIDIA的基于AI技术的网络安全平台,Morpheus提供实时的网络可视化、网络威胁的检测与响 应、以及监控、遥测和代理服务。BlueField-3 DPU将传统计算环境转变为安全且加速的虚拟私有云,使 组织能够在安全的多租户环境中运行应用程序。BlueField-3 DPU采用NVIDIA的网络计算技术,支持下一 代超级计算平台,提供最佳裸机性能和对多节点租户隔离的原生支持。 DPU简介及分析 15 NVIDIA DOCA 软件开发包 Software Development Framework for BlueField DPUs Offload, Accelerate, and Isolate Infrastructure Processing Support for Hyperscale, Enterprise, Supercomputing and Hyperconverged Infrastructure Software Compatibility for Generations of BlueField DPUs DOCA is for DPUs what CUDA is for GPUs 助力BlueField合作生态系统 CYBER SECURITY EDGESTORAGE PLATFORM INFRASTRUCTURE ORCHESTRATION MANAGEMENT TELEMETRY SECURITY NETWORKING STORAGE ACCELERATION LIBRARIES DOCA 2021中国DPU行业发展白皮书 13 BlueField-3 DPU利用NVIDIA DOCA1.1 软件开发包的优势,为开发者提供一个完整、开放的软 件平台,开发者在BlueField DPU上开发软件定义和硬件加速的网络、存储、安全和管理等应用。DOCA 包含利用BlueField DPU来创建、编译和优化应用的运行时环境,用于配置、升级和监控整个数据中心数 千个DPU的编排工具,以及各种库、API和日益增加的各种应用,如深度数据包检测和负载均衡等。每一 代BlueField DPU都支持DOCA开发包,随着每代DPU的演进,原先开发的应用程序可以完全向后兼容, 且DPU路线图上的后续的产品依然保证完全向前兼容。这意味着在目前BlueField DPU上运行的应用程序 和数据中心基础设施,在不久的未来将能不加修改地加速运行在 BlueField-4 DPU等后续产品上。 3、BlueField-3 DPU产业地位分析 BlueField-3 DPU的出现解决了目前产业无法完全确保数据安全的问题。在零信任的大环境下,产业 原本是无法完全确保数据安全的。举例来说,数据中心想支持IPSec协议(即通过加密与验证等方式,为IP 数据包提供安全服务),当它在100Gb/s的网络传输数据下,对每一个数据包都进行IPSec加密时,CPU资 源会急速耗尽,却依然无法完成在网络高速传输时对每一个数据包都进行IPsec加密的操作。如表4所示, BlueField-3 DPU具备了平台安全、可加密加速、可执行安全策略、深度包检测与隔离安全控制平面的特 点,将这个网络层面上确保数据安全的不可能瓶颈打破。 图1 数据来源: NVIDIA官网, 赛迪顾问整理 2021,11 BlueField-3DPU解决网络高速传输数据安全瓶颈表4 特点 详情 平台安全 通过使用硬件信任根(Root of Trust)实现安全和可追溯的操作系统启动,保护计 算平台免受硬件级攻击 加密加速 通过硬件加速、在线IPsec、TLS线速数据加密和MACSec线速数据加密来保护数 据中心通信和Web应用程序交付 分布式安全策略 执行 通过启用NVIDIA的高级交换和数据包处理(ASAP 2 )技术在硬件中执行分布式安全 策略 深度包检测 通过使用内置数据格式(build-in pattern)匹配加速对传入流量执行深度数据 包检查来检测恶意活动 隔离安全控制平面 在受信任的DPU环境中部署安全应用程序,与主机系统隔离,以防止横向移动并 减少攻击面 4、BlueField-3 DPU优势分析 1) BlueField-3 DPU拥有更强大的ARM核计算能力和更快的加解密速度,它与CPU、GPU和内存的 互连速度也更快。 14 图1 数据来源: NVIDIA官网, 赛迪顾问整理 2021,11 BlueField-2和BlueField-3DPU技术指标对比表5 Feature BlueField-2DPU BlueField-3DPU Bandwidth 200Gb/s 400Gb/s DPDK Max msg Rate 215Mpps 250Mpps RDMA Max msg Rate 215Mpps 330Mpps Compute SPECint2017: 9 SPECint2017: 42 VirtIO Acceleration 40Mpps (*) 80Mpps (*) IPsec Acceleration 100Gb/s 400Gb/s TLS Acceleration 200Gb/s 400Gb/s MACsec Acceleration X 400Gb/s bi-dir BlueField SNAP 5.4M IOPs 4K 12M-18MIOPS 4K *Total packet rate for the sum of Tx and Rx 2) 通过BlueField-3 DPU执行HPC通信框架,可以实现无阻塞通信,即让计算与通信可并行同时发 生。目前的超算网络中大多数是有阻塞通信,有阻塞通信是通信与计算不可同时发生,即有通信时不计 算,有计算时不通信。目前BlueField-3 DPU在无阻塞集合通信卸载操作上更为成熟,用户可使用配套 的MPI库来加速科学计算应用的执行,特别是针对于大规模的的无阻塞all-to-all通信。如图所示,应用 BlueField DPU后,计算和无阻塞all-to-all集合通信的之间可100%重叠,如使用DPU加速P3DFFT应用程 序(3D快速傅里叶变换)后,应用的总体执行时间减少了25%以上,涵盖了各种大小的网格大小。 DPU简介及分析 BlueField-3DPU实现无阻塞通信后的性能表现实例 图12 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 2021中国DPU行业发展白皮书 15 3) 在兼容性上,通过使用DOCA库,BlueField-3与上一代DPU上开发的应用保持完全的软件兼容 性,软件运行方式没有变化,并得到更高的性能和可扩展性。DOCA在底层硬件API上提供一个抽象层给上 层的业务,开发者可以使用标准的API更快速、更轻松地进行开发,实现和上层业务的集成,并经优化后 提供出色的性能,或者和底层接口合作达到更精细的控制。且DOCA具备基于容器化服务的DPU调配和部 署,包含用于简化DPU设置、配置和服务编排的工具。 NVIDIADOCA软件栈图13 数据来源 :NVIDIA官网, 赛迪顾问整理 2021,11 17