欢迎来到报告吧! | 帮助中心 分享价值,成长自我!

报告吧

换一换
首页 报告吧 > 资源分类 > PDF文档下载
 

超融合数据中心网络白皮书.pdf

  • 资源ID:120627       资源大小:14.11MB        全文页数:24页
  • 资源格式: PDF        下载积分:15金币 【人民币15元】
快捷下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录  
下载资源需要15金币 【人民币15元】
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,下载共享资源
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

超融合数据中心网络白皮书.pdf

超融合数据中心网络白皮书 2021 数据中心高质量发展大会 2021-5-13工业时代 ,电力是带动经济增长的关键要素 ,而迈入数字时代的今天 ,算力正成为新的发展动力 。在国家 数字经济与企业数字化转型双轮驱动的背景下 ,数据中心正在向算力中心演进 。从数据中挖掘价值 ,数据中心 为产业升级与商业模式创新注入强劲动力,可实现 C2B2C 的商业闭环,改善消费体验。 作为算力的重要组成部分 ,数据中心网络贯穿数据存储 、计算与应用的全流程 。在云化升级 、存储全闪存 化等变革之下 ,数据中心网络正在向全以太化的超融合架构迈进 。基于物理网络的全无损以太架构 、管控析一 体的管理融合 、以及全场景的服务化能力融合 ,超融合数据中心网络架构可打破协议 、管理与场景限制 ,最大 化实现数据的无障碍流动 ,有效提升算力能效比 ,显著降低网络建网与运营成本 ,带来积极的商业价值与社会 价值。 本研究报告介绍了数据中心网络对于算力的意义 ,归纳出影响数据中心全以太化演进的因素 ,以及超融合 数据中心网络架构的典型特征与价值 。结合业界在超融合数据中心网络技术中的实践与探索 ,对超融合数据中 心网络架构的未来发展进行了展望。 前言编写委员会 顾问组 中国信息通信研究院云计算与大数据研究所所长 何宝宏 百度系统部总经理 张炳华 华为数据中心网络领域总裁 王雷 起草组 中国信息通信研究院 郭亮、王少鹏 百度 蒋浩 中国电信研究院 王峰 美团 唐广明 中国移动研究院 唐本亭、王瑞雪 腾讯 程传胜 中移动信息技术有限公司 顾戎、王祎晨 京东 陶春雷、魏学群 中国科学技术大学 李京 南京大学 田臣 华为 罗江淦、孙黎阳、宁泽宇1加速企业数字化转型,数据中心向算力中心演进. . 1 1.1大算力是数字经济背景下的通用需求 . 1 1.2网络是构建数据中心大算力的重要组成部分 . 1 1.3提升网络性能可显著改进数据中心算力能效比 . 2 2四大变革驱动数据中心网络向全以太化演进. . 4 2.1云计算是数据中心全以太化的首要驱动力 . 4 2.2存储全闪存化驱动 R oCE 产业生态发展 . 4 2.3CPU / GPU 去 PCIe 化,直出以太以获取极致性能 . 5 2.4IPv6 大规模部署,产业政策加速以太化进程 . 6 3超融合数据中心网络成为下一代数据中心网络发展方向. . 7 3.1超融合数据中心网络架构与核心特征 . 7 3.2超融合数据中心网络的收益分析 . 8 3.2.1全无损以太网络收益分析 . 8 3.2.2全生命周期自动管理收益分析 . 9 3.2.3全场景服务化融合收益分析 . 9 4超融合数据中心网络技术最佳实践. . 10 4.1基于无损以太技术,提升数据中心内存储网络性能 . 10 4.2基于无损以太技术,突破同城长距存储业务双活及灾备场景的性能瓶颈 . 10 4.3适配高性能计算场景需求,实现低时延总线级传输能力 . 11 4.3.1优化静态时延:从 us 降低至百 ns . 11 4.3.2优化动态时延:亚 us 级动态时延 . 12 4.3.3降低网络跳数:大规模组网新拓扑实现跳数下降 20% . 12 4.3.4减少入网次数:网算一体技术提升通信效率 . 13 4.4基于网络自动驾驶技术实现数据中心内管理融合 . 13 4.4.1基于意图的专家推荐系统 . 13 4.4.2可视化运维能力 . 14 4.5将网络自动驾驶及服务化技术融入多云企业数据中心环境 . 14 5总结与展望. . 16 4 云计算是数据中心全以太化的首要驱动力 . 存储全闪存化驱动 R oCE 产业生态发展 . CPU / GPU 去 PCIe 化,直出以太以获取极致性能 . IPv6 大规模部署,产业政策加速以太化进程 . 3超融合数据中心网络成为下一代数据中心网络发展方向 . . 超融合数据中心网络架构与核心特征 . 超融合数据中心网络的收益分析 . 全无损以太网络收益分析 . 全生命周期自动管理收益分析 . 全场景服务化融合收益分析 . 4超融合数据中心网络技术最佳实践 . . 目录1 1加速企业数字化转型,数据中心向算力中心演进 随着 5 G 、大数据 、物联网 、 A I 等新技术融入人 类社会的方方面面 ,可以预见 ,在未来二三十年间 人类将迈入基于数字世界的万物感知 、万物互联 、 万物智能的智能社会 。如何抓住变革机遇 ,加速数 字化转型与科技创新 ,成为企业亟需思考的问题之 一。 “联接 + 算力 ”已成为企业数字化转型的双引 擎 。数据通过多场景联接汇聚到数据中心进行分析 和应用 ,产生的信息 ( i n s i g h t s )支持业务决策 ,驱 动商业模式创新 。作为承载数据存储 、分析 、计算 的唯一载体 ,数据中心贯穿了数据从生产要素到商 业价值转换的全流程 ,开始改变企业的开发 、生产 和运营模式 。数据中心算力成为新的生产力 ,数据 中心量纲也从原有的资源规模向算力规模转变。 作为数据中心基础设施的重要组成部分 ,数据 中心网络如何快速适应业务变化 、助力数据中心 1 0 0 % 释放算力 ,已成为企业数字化转型中的重要 课题。 1.1 大算力是数字经济背景下的通用需求 数字经济对于经济增长具有明显的杠杆效应, 中国政府大力倡导加速数字经济建设。牛津经济研 究院研究分析表明 :数字技术投资每增加一美元 , 便可撬动 G D P 增加 2 0 美元 ;数字技术投资的平均 回报是非数字技术投资的 6 . 7 倍 。中国信息通信院 和国家统计局的研究结果也表明 ,数字经济对经济 增长的贡献率显著高于三大产业对经济增长的贡献。 自 2 0 1 7 年以来 , “数字经济”已经连续四年 被写入中国政府工作报告 。 2 0 2 1 年政府工作报告及 “中国十四五规划与 2035 年远景目标纲要” 中再一 次明确了 “加快数字化发展, 打造数字经济新优势, 协同推进数字产业化和产业数字化转型 ,加快数字 社会建设步伐 ,提高数字政府建设水平 ,营造良好 数字生态,建设数字中国”的战略方针。 2014 2015 2016 2017 2018 2019 80% 70% 60% 50% 40% 30% 20% 10% 0% 数字经济对GDP增长的贡献 第二产业对GDP增长的贡献 第一产业对GDP增长的贡献 第三产业对GDP增长的贡献 图1 数字经济对经济增长的贡献高于三大产业 1 从国家数字经济到企业数字化转型,大算力是 通用性诉求。随着 5 G 、大数据 、物联网 、 A I 等新技 术的跨越式发展, 以及无人驾驶汽车、 5G 智造工厂、 智能风控 、人脸识别等应用的成熟商用 ,企业对于 数据中心基础设施的核心诉求已不再是通过虚拟化 技术提升资源使用率及业务弹性 ,而是转化为单位 能耗下数据中心支撑应用所需的运算性能及质量的 要求,算力中心的概念被业界广泛接受。 1.2 网络是构建数据中心大算力的重要组成 部分 数据中心内数据处理包括数据的存储 、计算和 应用三个环节,分别对应三大资源区: 1数据来源:中国信息通信研究院、国家统计局2 数据存储区 : 存储服务器内置不同的存储介质, 如机械硬盘(HDD, Har d Disk Driv e)、闪存 盘(S SD, Solid- S t a t e Driv e)、 蓝 光 等, 对 于 数据进行存储 、读写与备份 ,存储节点间通过 存储网络互联。 高性能计算区 :服务器较少虚拟化 ,配置 CPU、 GPU 等计算单元进行高性能计算或 AI 训 练,服务器节点间通过高性能计算网络互联 通用计算区 :服务器大量使用 V M ( V i r t u a l M a c h i n e )或容器等虚拟化技术 ,通过通用计 算网络 (又称为应用网络、 业务网络、 前端网络) , 与外部用户终端对接提供服务。 业务在某个区域内或多个区域间的数据流动 , 依赖于网络提供高质量的服务 ;例如 :某电商平台 每天产生数据 5 0 T B ,每天访问用户 4 0 0 0 万人次 , 产生点击次数 、浏览时长 、交易 、商铺 、商品等海 量用户行为数据 。这些数据经过清洗 ,在高性能计 算集群中进行 A I 训练 ,得到不同的智能推荐算法 。 算法在网站上应用 ,一方面根据用户偏好进行个性 化推荐, 另一方面为店家提供辅助营销等增值服务。 存储网络 通用计算 网络 通用计算区 数据存储区 高性能计算 网络 高性能计算区 跨区网络互联 图2 电商业务场景数据中心网络承载数据处理流程 2ODC C -2020-01008数据中心算力白皮书 在这个持续循环的过程中 ,网络就像联接计算 和存储资源的中枢神经 ,贯穿数据处理的全生命周 期 。数据中心算力水平不仅取决于计算服务器和存 储服务器的性能 ,很大程度上也受到网络性能的影 响。 如果网络算力水平无法满足要求, 则会引发 “木 桶效应”拉低整个数据中心的实际算力水平。 网络 计算 存储 算力 图3 数据中心算力构成 1.3 提升网络性能可显著改进数据中心算力 能效比 数据中心算力是数据中心的服务器通过对数据 进行处理后实现结果输出的一种能力 。在服务器主 板上 ,数据传输的顺序依次为 C P U 、内存 、硬盘和 网卡, 若针对图形则需要 GPU。 所以, 从广义上讲, 数据中心算力是一个包含计算、 存储、 传输 (网络) 等多个内涵的综合概念 ,是衡量数据中心计算能力 的一个综合指标 2 。 在 O D C C 数据中心算力白皮书中 ,定义数 据中心算力 (CP, Comput a tionalP o w er) 的模型 如下: CP=f( 通用算力, 高性能算力, 存储能力, 网络能力3 定 义 数 据 中 心 算 效(CE,Comput a tional E ffi c i e n c y )为数据中心算力与所有 I T 设备功耗的 比值, 即 “数据中心 IT 设备每瓦功耗所产生的算力” (单位:FL OP S/W): 在服务器规模不变的情况下,提升网络能力可 显著改善数据中心单位能耗下的算力水平。 ODC C 2 0 1 9 年针对基于以太的网算一体交换机的测试数据 表明 3 , 在 HPC (High-P erf ormanc eComputing, 高性能计算 )场景同等服务器规模下 ,相对于传 统 RoCE(Remo te Direct Memor y Ac c ess over Conv er g ed E t h e r n e t ,基于融合以太的远程内存 3ODC C -2019-05002数据中心AI及三网合一技术白皮书 直接访问协议 )网络 ,网算一体技术可大幅度降低 H P C 的任务完成时间 ,平均降幅超过 2 0 % 。即 : 单位时间提供的算力提升 2 0 % ,同等算力下能耗 成本降低 2 0 % 。在存储网络场景 ,采用基于 N V M e ove r F a b r i c 的无损以太网络 ,可实现同等服务器规 模 下, 存 储 IOP S(Input / Output Oper a tions per S e c o n d ,每秒进行读写操作的次数)性能相对于传 统 Fibr e C h a n n e l (下文简称 F C )网络最高可提升 87%,这也将大幅减少业务端到端运行时长。 由此可见 ,重构数据中心网络可以实现在单位 I C T 能耗下对算力的极大提升 ,更好满足绿色节能 数据中心的建设要求 。在大算力需求持续高涨的情 况下,为企业带来更加直接的价值4 4IDCQuart erlyDa t ac ent erNe tw orksQ Vie w2020Q2R ele ase 5IDCQuart erlyEnt erpriseSto ra ge Sys t emsT r ack er2020Q4 2四大变革驱动数据中心网络向全以太化演进 随着移动互联网 、大数据 、云计算 、区块链相 关应用的广泛部署 ,以及 5 G 智能工控 、 H P C 仿真 验证 、 A I 风控等强体验类应用在数据中心的兴起 , 数据中心已经成为数字经济时代流量和业务的制高 点,IaaS (Infr as truc tur e as a Ser vic e, 基 础 设 施 即服务)等各类技术创新与变革异常活跃。 就服务对象而言 ,数据中心网络联接计算和存 储服务器 ,承载服务器资源间的数据传输与交互 , 与计算和存储一起服务于云计算的各类上层应用 。 在这个交互链条中 ,云 、计算 、存储 ,任何一个服 务对象的变化,都将触发数据中心网络的变革。 在云化加速 、存储全闪存化 、计算单元去 P C I e (P eripher al Component Int er c onnec t e xpr ess) 等变革之下,数据中心网络正在向以太化演进。 2.1 云计算是数据中心全以太化的首要驱动力 云计算作为企业 I T 基础架构基石 ,已发展成为 汇聚各类信息技术 、覆盖不同区域部署 、兼顾垂直 行业特定需求的新一代云平台生态系统 。它更好地 支持了企业的云原生应用、 自动化管理和业务创新, 满足用户在任何时间 、任何地点对任何应用的响应 需求。 当前各类数字创新技术, 如大数据、 人工智能、 区块链、 数字货币都建立在云计算的基础底座之上。 云的关键特征在于按需自助服务和快速弹性 。 开放的以太网可以很好地满足云业务诉求 ,可天然 被云调用和管理 ,并具备良好的互通性 、弹性 、敏 捷性以及多租户安全能力 ,当前已经成为通用计算 网络的事实标准 。而在数据中心内的集中式存储以 及高性能计算区域, 传统网络采用较为封闭的 F C 以 及 InfiniBand( 下 文 简 称 IB) 技 术。 这 些 技 术 互 通 性与弹性不足且演进缓慢 ,无法匹配数据中心云化 发展诉求。 根 据 IDC 4 数据 , F C 在数据中心市场规模仅为 以太网的 5 % , I B 则不到 1 % 。随着以太网交换机发 货量占比在数据中心持续稳健增长 , F C 和 I B 的市 场逐步萎缩 。 I D C 分析师表示 ,数据中心中云计算 技术的快速采用正在助长网络对以太网交换需求的 增长,以太网是当前以及未来主要的技术。 90% 91% 92% 93% 94% 95% 96% 97% 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 图4 IDC2016-2024 年数据中心以太网交换机发货量占比 (含预测) 2.2 存储全闪存化驱动 RoCE 产业生态发展 数据激增和数据价值挖掘,催生了存储介质的 革新,HDD 迅速向 SSD 切换。 根据 I D C 全球数据 统计 5 ,2018 年 开 始 S SD 发 货 量 超 越 HDD, 且 发 货量差距逐年攀升。 相比 H D D , S S D 介质在短时间内将存储性能提 升了近 1 0 0 倍 ,实现了跨越式的发展 ,而 F C 网络5 技术无论是从带宽或时延已成为存储网络场景的系 统瓶颈, 存储业务开始呼唤更快、 更高质量的网络。 为此, 存储与网络从架构和协议层进行了深度重构, NVMeove r F abric 应运而生。 -100% -50% 0% 50% 100% 150% 0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 2014 2015 2016 2017 2018 2019 2020 单位:US$M HDD 发货量 SSD 发货量 SSD 高于HDD 百分比 图5 全球 S SDHDD 发货量差距逐年攀升 在新一代存储网络技术的选择上 ,业界存在 NVMeove r F C、 NVMeove r R oCE 等多条路径。 然而, F C 网络始终无法突破三大挑战: 第一 、 F C 网络技术及互通性相对封闭 ,整体产 业生态与连续性面临着很大挑战; 第二 、由于产业规模受限 , F C 技术的发展相对 迟缓 ,目前最大带宽只有 3 2 G 且已长达 6 年没有出 现跨代式技术; 第三 、同样由于产业规模受限 , F C 网络运维人 员稀缺, 能够运维 F C 网络的技术人员不足以太网络 维护人员的 1/10。 这造成 F C 网络运维成本居高不下, 故障解决效率低下。 相比 F C 网络,NVMe ove r R oCE 技术无论从产 业规模 、技术活跃度 、架构扩展性 、开放生态 、和 多年 SDN(Softw ar e -Defined Ne tw ork,软件定义 网络 )管理运维能力积累上都具有明显的优势 ,已 成为下一代存储网络技术的最优选择。 2.3 CPU/GPU 去 PCIe 化,直出以太以获 取极致性能 随着人工智能技术的快速发展 , P C I e 总线瓶颈 凸显 。 P C I e 是英特尔在 2 0 0 1 年提出的高速串行计 算机扩展总线标准 ,接口速度决定了 C P U 间的通信 速度,而接口数量则决定了主板的扩展性。 2003年 PCIe 1.0 2.5GT/S PCIe 2.0 5GT/S PCIe 3.0 8GT/S PCIe 4.0 16GT/S PCIe 5.0 32GT/S 2006年 2010年 2017年 2019年 图6 PCIe 演进时间历程 当前 ,占据数据中心服务器 C P U 市场绝对地位 的 Int el x86 架 构 普 遍 使 用 PCIe 3.0,PCIe 3.0 单 通 道仅支持 8G T /s 的传输速率, 且通道扩展数量有限。 在 AI 超算服务器已经全面迈入 100GE 网卡的时代, PCIe 3 . 0 架构速率成为大吞吐高性能计算场景下的 性能瓶颈。 为此 ,业界开始探索计算单元去 P C I e 之路 。 2019 年,Hab ana 公 司 发 布 了 在 AI 芯 片 处 理 器 片 内 集 成 R oCE 以 太 端 口 的 处 理 器 Gaudi,Gaudi 将 10 个 基 于 融 合 以 太 网 的 R oCE-RDMA 100GE 端 口 集 成到处理器芯片中 ,每个以太网端口均支持 R o C E 功能 ,从而让 A I 系统通过标准以太网 ,在速度和 端口数方面获得了几乎无限的可扩展性 ,提供了过 去的芯片无法实现的可扩展能力 。同年 ,华为的达 芬奇芯片昇腾 9 1 0 集成了 R o C E 接口 ,通过片内 R oCE 实现节点间直接互联, 为构建横向扩展 (Sc ale Out) 和 纵 向 扩 展(Sc ale U p )系统提供了灵活高 效的方法6 C P U / G P U 去 P C I e 成为数据中心网络全以太化 的又一助力。 2.4 IPv6 大规模部署,产业政策加速以太 化进程 IPv6 的 全 称 是 Int erne t Pr o t oc ol V er sion 6, 其 中,Int erne tP r o t o c o l 译为 “互联网协议” , I P v 6 即互联网协议第 6 版 ,是互联网工程任务组设 计的用于替代 I P v 4 的下一代 I P 协议 。 I P v 6 不仅能 解决网络地址资源数量的问题 ,而且还解决了多种 接入设备连入互联网的障碍问题 ,具有更大的地址 空间和更高的安全性 。从人人互联到万物智联 ,网 络对 I P 地址的需求量指数级增加 ;数据中心作为智 能世界的算力中枢,IPv6 成为互联的基础诉求。 中华人民共和国国民经济和社会发展第十四 个五年规划和 2035 年远景目标纲要 中明确指出 “全 面推进互联网协议第六版 ( I P v 6 )商用部署” 。在 I P v 6 基础连通性要求之上 ,工信部 2 0 2 1 年工业 和信息化标准工作要点 提出了 IPv6+ 的指导意见, 要求推进 “ I P v 6 + 及下一代互联网”等新技术新产 业新基建标准制定, 确保网络满足大带宽、 低时延、 确定性体验、智能自愈等要求。 当前数据中心内高性能计算与集中式存储采用 I B 和 F C 专网架构 ,与 I P v 6 + 的能力演进方向存在 一定的差距 。以太网基于协议创新与自动化运维能 力的积累,正在成为 IPv6+ 代际下的新选择7 3超融合数据中心网络成为下一代数据中心网络发展方向 随着数据中心全以太技术的快速发展与成熟 , 传统数据中心内烟囱式的三张物理网络必将走向统 一 。为此 ,数据中心基础设施架构也在不同的层面 上进行持续的探索与尝试 。以小型数据中心场景为 例 ,一体机方案 ( H C I )实现了单个机架范围内的资 源融合 ,依托网络整合计算与存储资源 ,可降低投 资成本并提升运维效率 。但是从网络角度上看 ,该 方案仍存在三大瓶颈: 在物理联接层上 ,虽然一体机方案在单机架场 景可以提升性能且具备一定的可扩展性 ,但在 大规模组网场景下 ,网络无法满足计算 、存储 等业务不同的传输质量要求 。网络丢包将导致 计算、存储性能的急剧下降。 在管控层面上 ,单机架内各类资源的管理相对 割裂且封闭 ,不同厂商一体机方案管理存在兼 容性挑战 。业务发放及运维定位复杂 ,无法支 撑海量业务的弹性扩展以及自动化运维诉求。 在场景适应性上 ,当前的一体机方案相对固化 且约束较多, 无法响应多云互联, MEC (Mobile Ed ge C o m p u t i n g ,移动边缘计算)及中心云 不同业务对网络的差异化诉求。 为此 ,下一代数据中心网络需要突破一体机方 案规模受限 、管控割裂 、厂商封闭以及场景适应性 上的约束,实现更大范围与丰富场景下的融合。 3.1 超融合数据中心网络架构与核心特征 下一代超融合数据中心网络需具备如下特征 , 实现三个层面的融合: 全以太 高性能计算集群 CPU / GPU 通用计算集群 CPU 存储集群 存储 金融 政府 大企业 基于开放底座 , 实现多行业场景服 务化体验融合 , 打破区域与场景限制 全场景服务化体验 基于统一数据采集平台 , 自动驾驶 网络技术实现智能运维 , 打破分散 管理限制 全生命周期自动管理 基于全以太架构 , 构建通用计算/ 高性能计算/存储网络 , 打破分散 架构限制 全无损以太网 图7 超融合数据中心网络架构 全无损以太网络,实现流量承载融合:通用计 算 、存储 、高性能计算网络统一承载在 0 丢包 以太网技术栈上 ,实现大规模组网协议统一 , T C P 、 R o C E 数据混流运行 ,打破传统分散架构 限制; 全生命周期自动管理,实现管控析融合:基于 统一网络数字孪生底座, 加以大数据及 AI 手段, 实现规划 、建设 、维护 、优化全生命周期自动 化, 代替人工处理大量重复性、 复杂性的操作, 并可基于海量数据提升网络预测和预防能力 , 打破多工具多平台分散管理限制; 全场景服务化能力,实现全场景融合:抽象数 据中心网络 “物理网络服务” 、 “逻辑网络服务” 、 “应用服务” 、 “互联服务” 、 “网络安全服务” 、 “分析服务 ”等核心服务能力 ,基于开放服务 化架构实现多厂家 、离线与在线数据的灵活接 入 。满足多私有云 、多公有云 、混合云 、以及 丰富行业场景下的网络统一编排需求 ,支持算 力跨云灵活智能调度,打破区域与场景限制8 3.2 超融合数据中心网络的收益分析 超融合数据中心网络架构可显著降低建网与运 维成本 ,对于数据中心绿色节能具有重要意义 。超 融合数据中心网络的收益量化分析如下。 3.2.1 全无损以太网络收益分析 组网一中 ,高性能计算区 、存储区和通用计算 区网络分别使用 I B 、 F C 和以太网络构建 ,高性能计 算区的服务器需要配置以太和 I B 双网卡 ,存储区的 服务器需要配置以太和 F C 双网卡。 以 太 互 联 IB 互 联 以 太 互 联 IB 互 联 以 太 互 联 FC 互 联 以 太 互 联 FC 互 联 以 太 互 联 以 太 互 联 高性能计算区 存储区 通用计算区 IB交换机 FC 交换机 以太交换机 图8 组网一(IB 联接高性能计算,F C 联接存储,以太联 接通用计算) 组网二是全无损以太的组网架构 。可以看出 , 与组网一相比,架构明显简化。 以 太 互 联 以 太 互 联 以 太 互 联 以 太 互 联 以 太 互 联 以 太 互 联 高性能计算区 存储区 通用计算区 以太交换机 图9 组网二(全以太网络架构) 为比较两种组网模式的成本 ,我们可做如下假 设: 1.计算服务器数量为 N c ,存储服务器数量为 N s ,通用计算服务器数量为 N a ; 2.IB、FC、Eth 交换机每端口价格分别为 P i 、 P f 、P e ; 3.IB 网卡每端口价格为 P ni ,FC 网卡每端口价 格为 P nf ,Eth 网卡每端口价格为 P ne ; 4. 成本估算时取 N c =1000,N s =1000, N a =5000,以 Eth 交换机每端口价格 P e (约 1000)为基准,估计 P i =3*P e ,P f =3*P e , P ni =3*P e ,P nf =3*P e ,P ne =3*P e 。 为了简化证明 ,我们将数据中心组网收敛比默 认为 1 : 1 ,其他收敛情况下 ,也可按照下面证明方式 开展 ,方法类似 。在上述假设的前提下 ,采用全以 太网络架构后预估成本下降 36.4%。 除成本优势外 ,全以太网络架构具有完善开放 的生态,可有效对冲专网带来的业务连续性风险。 表1 全以太无损网络收益分析 组网 IB 端 口数 FC 端 口数 Eth 端口数 IB 网卡 数量 FC 网 卡数量 以太网卡数量 成本计算 成本估算 成本下降 百分比 组网一(IB+F- C+Eth) 3N c 3N s 3N c +3N s +3N a N c N s N c+ N s +N a 3N c *P i +3N s * P f+ (3N c +3N s +3N a )* P e + N c* P ni + N s* P nf + (N c +N s +N a )* P ne 66000*P e / 组网二 ( 全以太 ) 0 0 3N c +3N s +3N a 0 0 N c+ N s +N a (3N c +3N s +3N a )* P e + (N c +N s +N a )* P ne 42000*P e 36.49 3.2.2 全生命周期自动管理收益分析 在数据中心的整个生命周期中 , 8 0 % 以上的时 间都是在运维 ,运维效率决定了数据中心的运行效 率。 经过十余年的发展, 数据中心中积累了数量繁多、 功能各异的网络辅助管理软件 ,在运营商场景中 , 历史上使用过的工具数量甚至可超过千种 。这些运 维工具可分为四大类别, 网元管理类、 网络配置类、 状态监控类、 数据分析类。 多套运维工具独立运行, 一方面功能覆盖有限 ,只能解决运维生命周期某个 阶段的问题 ,端到端效率改进有限 ;另一方面运维 数据和分析结果在不同工具间不能共享 ,无法及时 分析出端到端的故障根因 ,运维人员需要介入进行 二次分析 ,导致业务体验难以管理 ,网络部门收到 的用户投诉一半以上与业务体验有关。 当网络管理层实现管理、 控制、 分析能力融合后, 基于统一的 T e l e m e t ry 大数据实现网络的管理界面 融合 ,一套智能运维系统可以实现从规划 、建设 、 维护 、优化全生命周期管理 ,减少或者无需人工二 次介入 。以业务发放为例 ,网络部署耗时可从 3 5 天降低为数分钟,显著提升业务部署效率。 3.2.3 全场景服务化融合收益分析 为了满足核心业务稳定的同时快速响应市场变 化 ,企业数据中心基础设施通常使用敏态与稳态业 务双架构。 稳态业务如核心交易系统和财务系统对可靠性 、 连续性以及安全性要求较高 ;而数据库 、人工智能 计算 、高性能计算业务则更加关注整体性能 。通常 情况下, 将稳态业务部署在私有云上运行更加可靠、 高效、安全。 敏态业务指对计算要求相对较低 ,但对扩展性 灵活性要求较高的 W e b 、 A P P 等应用 。该类业务通 常采用 D e v O p s 模式 ,升级频繁 ,波峰波谷极有可 能导致计算资源忙闲不均 。因此 ,这部分业务部署 到公有云上运行更加经济高效。 数据保存在私有云 , W e b 、 A P P 等应用部署在 公有云 ,将成为数据中心业务的新常态 。但是跨云 业务当前严重依赖人工在多云间进行网络配置 ,单 个应用耗时需要 2 周 。如果采用多云业务服务化调 度方案 ,对多云间的网络进行自动化编排 、业务发 放 、配置仿真校验 ,则单个应用的开通效率可以提 升 40%。 除了优化成本提升效率外 ,多云算力调度可最 大化实现数据要素跨区域流通 ,满足节能减排 、绿 色转型的政策要求10 4超融合数据中心网络技术最佳实践 基于全无损以太的超融合数据中心网络技术正 在迅猛发展 ,在存储 、高性能计算 、通用计算等场 景得到了较好地商业实践。 4.1 基于无损以太技术,提升数据中心内存 储网络性能 众所周知 ,标准以太网络采用尽力而为的工作 机制 ,天然有丢包的特性对存储的性能和稳定性带 来了极大的影响 。在故障场景下 ,标准以太网络只 能做到秒级收敛, 这会造成存储业务体验急剧下降。 此外 ,虽然通用计算网络场景以太网络的 S D N 、 ADN(A ut onomous Driving Ne tw ork, 自 动 驾 驶 网络 )等智能运维手段已经非常成熟 ,但在存储网 络场景下 ,以太网络的自动化以及可维护能力仍需 要持续泛化 。为此 ,以太网络在无损 、可靠 、运维 三个方面进行了积极创新。 在无损网络方向 ,标准以太网络虽然有 Q o S 以 及流量控制能力 ,但执行机制简单粗暴 ,通常通过 静态水线控制 。静态水线无法适应千变万化的存储 业务流量 ,设置过高可能引发丢包 ,设置过低则无 法充分释放存储的 IOP S 性能。 为了解决这个难题, 业界将 A I 机制引入到交换机中 ,一方面交换机可毫 秒级感知流量变化 ,另一方面基于海量存储流量样 本持续训练获得的 A I 算法可通过智能动态调整队列 水线实现亚秒级流量精准控制 ,最大程度释放存储 性能。 挑战:以太网丢包难题 多打一,超过接收端带宽 节点越多,丢包越严重 实时流量模型 千万级随机样本 场景自适应 满吞吐0 丢包 规模自适应 方案:引入智能算法,实现精准控速 丢包 图 10通过 AI 机制实现以太网 0 丢包 在可靠性方面 ,业界正在推动网络与存储在故 障场景下的联动标准化方案 。通过交换机毫秒级主 动通告故障 ,并联动存储协同倒换 ,可支持亚秒级 的网络故障倒换 ,真正实现网络单点故障存储业务 无感知。 8秒 切换时间 1秒 切换时间 主备切换 备链路 X 交换机 实时监测故障 通告服务器 插件主动切换 主链路 应用多次发送失败 才能检测到故障 主备切换 主链路故障 备链路 主链路 标准以太:链路故障8 秒切换 改进后:链路故障1 秒切换 X 图 11存储场景亚秒级链路倒换 在网络易用性与运维方面 ,业界发布了以太网 络环境下的存储即插即用最佳实践 ,相比传统以太 逐节点 、逐 Z O N E 手工配置方式 ,可以做到业务单 点配置、全网同步,实现存储设备的即插即用。 Zone2 Zone4 Zone2 Zone2 Zone1 在单台交换机上配置后 ,自动 同步到全网交换机 全网Zone批量创建 ,存储 设 备即插即用 图 12存储设备即插即用 4.2 基于无损以太技术,突破同城长距存储 业务双活及灾备场景的性能瓶颈 由于传统 F C 网络当前主流商用端口带宽只有 8 G ,最大端口带宽只有 3 2 G ,同城 1 0 0 G 存储传输11 往往需要 4 1 0 条以上的链路 。相比之下 ,以太网 络 1 0 0 G / 4 0 0 G 接口能力已经成熟商用 ,可以大幅 减少同城链路资源 。然而 ,在同城双活及灾备场景 中 ,跨城传输时延增大 ,短距流控反压机制存在严 重的滞后性 。以同城 7 0 公里传输场景为例 , R T T (R ound- T rip T i m e )时延往往大于 1 毫秒 ,导致 传统流控机制彻底失效。 为此 ,智能无损以太网络技术在短距基础上再 次升级 ,通过引入时间 、空间维度以及预测算法 , 根据现有流量变化趋势 ,在源端设备预测下一时刻 流量的变化范围 ,从而实现在流量拥塞前预测性调 整流量控制策略 。该技术实践最大可突破 7 5 公里长 距 1 0 0 G 大带宽的存储双活互联问题 ,使得同城间 链路互联成本最高可减少 90%。 无损算法升级,攻克以太网75公里0 丢包难题 短距无损算法 + 时空变量 (距离/ 时延/ 抖动等) 长距无损算法 业务诉求 流量模型 网络状态 图 13长距无损算法 4.3 适配高性能计算场景需求,实现低时延 总线级传输能力 高性能计算在金融、 证券、 教育、 工业、 航天、 气象等行业广泛应用 ,而时延是关键性能指标之 一 。由于以太网丢包 、传输转发机制等诸多原因 , 基于传统以太的数据中心网络时延大多处于毫秒级 水平 ,无法支撑高性能计算业务 。要使得 D C as a C o m p u t e r 成为可能 ,数据中心网络时延需要向总 线级看齐。 网络时延由四部分组成: 动态时延 :主要由排队时延产生 ,受端口拥塞 影响; 静态时延 :主要包括网络转发 (查表 )时延和 转发接口时延 ,一般为固定值 ,当前以太交换 静态时延远高于超算专网; 网络跳数:指消息在网络中所经历的设备数; 入网次数:指消息进入网络的次数。 新一代无损以太网络在动态时延 、静态时延 、 网络跳数以及入网次数几个方面均做出了系统性优 化 ,大幅优化了网络性能 ,可满足高性能计算场景 的实际诉求。 4.3.1 优化静态时延:从 us 降低至百 ns 传统的以太交换机在转发层面 ,因需要考虑兼 容性和众多协议支持等问题 ,导致转发流程复杂 、 转发时延较大 。与此同时 ,以太查表算法复杂 、查 表时延大 ,导致整体转发处理时延长 。目前业界主 流商用以太交换机的静态转发时延大约在 6 0 0 n s - 1us 左右。 总线级数据中心网络技术提出了极简低时延以 太转发机制 ,利用虚拟短地址实现了快速线性表转 发 。基于虚拟地址路由转发技术 ,解决了传统二层 环路和链路利用率的问题 ,同时保证了规模部署和 扩展灵活性。极简转发机制原理如图 14 所示。 拓扑 管理 虚地址分配 路由下发 控制单元 交换机 1 2 服 务 器 极简低时延以太网络 服 务 器 ARP 请求报文完 成源 虚地 址学 习 ARP 回应报文完 成目 的虚 地址 学习 交换机 3 发送基于虚地址 的业 务报 文 层次化虚拟短地址( 替 代原始48-bit MAC 地址) Device ID 10b UID 8b MAC-PREFIX 24b LID 用于路由 PID 6b 用于标识 虚机地址 厂家标识 图 14以太低时延转发机制原理图12 根据应用实测 ,业界低时延机制转发机制能实 现 3 0 n s 以太芯片报文处理 ,实现 1 0 0 n s 左右端到 端单跳转发静态时延 。相比于业界主流欧美厂商的 以太芯片转发时延改进了 6-10 倍。 4.3.2 优化动态时延:亚 us 级动态时延 网络拥塞会引起数据包排队甚至导致队列溢出 而丢弃,这是导致网络高动态时延的主要原因。 总线级数据中心网络技术创新性地提出了收发 混合驱动的网络拥塞控制机制 。数据报文分为无调 度 (Unscheduled) 和有调度 (Scheduled) 两类 : 无调度报文在端口级有限窗口控制下直接发送

注意事项

本文(超融合数据中心网络白皮书.pdf)为本站会员(幸福)主动上传,报告吧仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知报告吧(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642号


收起
展开