20240324_中信建投_计算机行业:以太网Infiniband还是NVLink?以及光还是铜?_32页.pdf
以 太网,Infiniband,还是NVLink?以 及光 还 是铜?证券研究报告 行业动态发布日期:2024 年3 月24日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。分 析 师:杨 伟 松SAC 编号:S1440522120003分 析 师:刘 永 旭SAC 编号:S1440520070014分 析 师:阎 贵 成SAC 编号:S1440518040002SFC 编号:BNS315分 析 师:武 超 则SAC 编号:S1440513090003SFC 编号:BEM208 核 心 观 点 以太网 or Infiniband?在传统云计算数据中心领域,以 太 网 技 术 的 产 品 市 占 率 保 持 绝 对 领 先 的 地 位;但 是 在HPC领域,对 于 网 络 的 性 能 要 求 越 高,IB 的 渗 透 率 越 高。我 们 认 为,IB 网 络 短 期 内 在AI 领 域 仍 然 具 备 较 强 的 优 势,但 是 以 太 网ROCE的发展也有可能会使得其渗透率有一定的提升。NVLink-Network 或 成 最 终 赢 家。我 们 认 为NVLink 依 靠 其 数 倍 于PCIe 的 带 宽 优 势,单 位 算 力 成 本 有 望 具 备 很 强 的 性 价比,或 成 最 终 赢 家。英 伟 达 采 用NVLink-Network 进 行 超 多 节 点 互 连 的 尝 试 始 于GH200,在B 系列GPU 的 产 品 上 全NVLink连接的节点数提升超一倍,有望成为未来主力产品。GB200 NVL72是机架级产品,可认为是GH200 NVL32 的 升 级 版。GB200 NVL72若 通 过IB/以太网搭集群,GPU:1.6T=1:2.5;若通过NVLink-Network 搭576集群,GPU:1.6T=1:9。网络带宽作用凸显,计算效率大幅提升。Copper or Optics?IEEE P802.3df 发 布 的 目 标 中 单 通 道100Gbps 速 率 的 电 信 号 传 输 的 距 离 为2m。对 于 单 通 道200Gbps 电 信 号 的 传 输 距 离,谷 歌 的 在 报 告 中 论 证 过 达 到1m 的 可 行 性,Intel 认 为 在 优 良 材 料 上 可 达 到1m。在GB200NVL72 中,单 个 差 分 对 预 计 为200Gbps,Rack 内 可 传 输1m,铜 线 可 以 受 益。但 是 到 下 一 代 更 大 带 宽 的GPU 产 品 中,我们预计铜线传输距离大大缩短,光学方案将逐步替代。投 资 建 议:英 伟 达Blackwell 架构的GPU 需 求 有 望 持 续 高 速 增 长,随 之 带 来1.6T 光 模 块 广 阔 的 市 场 空 间,将 打 消 市 场 对2025 年 光 模 块 市 场 需 求 的 担 忧。海外云厂商及算力巨头供应链的进入壁垒较高,光模块更新迭代的节奏大幅加快,光模 块 的 行 业 格 局 预 计 将 更 加 集 中,建 议 重 点 关 注 头 部 光 模 块 及 光 器 件 公 司,新易盛、中 际 旭 创 和 天 孚 通 信 等。云 厂 商 在提 升 光 模 块 性 能 以 及 降 低 成 本、功 耗 方 面 的 动 力 较 强。建 议 关 注 薄 膜 铌 酸 锂、硅光、OCS、LPO 和CPO 等 行 业 新 技 术的发展,包括源杰科技、光库科技、德科立和腾景科技等公司。WUDWuNsPpMrQpRnOmRtMnM8OcMaQoMpPsQmQfQoOnOfQnPqNaQqQzRNZsOqNxNsPpM三、光还是铜?一、以 太网还是Infiniband?四、投资建议目录五、风险提示二、NVLink-Network 或成最终赢家 1.1 以太网 VS Infiniband?在 传 统 云 计 算 数 据 中 心 领 域,以 太 网 技 术 的 产 品 市 占 率 保 持 绝 对 领 先 的 地 位。以 太 网 领 域 的 头 部 厂 商,充 分 享 受 云 计 算 快 速 发 展 带 来的强劲需求,包 括 博 通、Marvell、Arista 和 思 科 等 厂 商。在HPC领域,对 于 网 络 的 性 能 要 求 越 高,IB 的 渗 透 率 越 高,全 球 前10 大 超 算 中 心,IB 市 占 率70%。IB 市 场 上,主 要 是Nvidia(收购的Mellanox公司)和Intel(收购的Qlogic公司)两 大 玩 家。IB 虽 然 性 能 更 好,但 价 格 较 贵。随着ChatGPT 的 横 空 出 世,AIGC 的 大 模 型 引 爆 了 算 力 的 需 求,大 模 型 的 训 练 对 于 网 络 性 能 要 求 较 高,因此Mellanox 的IB 产 品 受 到 了绝 大 部 分 客 户 的 青 睐。2024 财 年 四 季 度,英 伟 达 的 网 络 部 分 收 入 增 长 了 两 倍,需 求 保 持 强 劲。虽然IB 的 时 延 具 有 很 大 的 优 势,尤 其 在训 练 场 景 下,但 是 基 于RDMA 的 以 太 网 技 术ROCE 也 保 持 较 低 的 时 延,且 成 本 优 势 较 大,性价比更高。我们认为,IB短期内在AI领域仍 然 具 备 较 强 的 优 势,但 是 以 太 网 联 盟 的 发 展 也 会 使 得 其 渗 透 率 有 一 定 的 提 升。图表1:全球TOP10 和TOP100 超算 中心采 用不同 网络技 术统计 图 图表2:超级 以太网 联盟主 要成员资料来源:The Next Platform,UEC,中信建投 esYLXL0g5RNL8MmpGYh4TLzkDSe1RnSOm2svFrHBRVnPe0rDOUgIGnmN1u935qQH 1.2.1 以太网:全球局域网最通用的网络协议标准 以 太 网 是 目 前 全 球 应 用 最 广 泛 的 局 域 网 技 术,由IEEE 的802.3 标 准 制 定 相 关 的 技 术 标 准。标 准 中 包 括 了 物 理 层 的 连 接、电 信 号 以 及 介质 访 问 控 制 等 内 容。除了IEEE 标 准 组 织,还 有 以 太 网 技 术 联 盟(ETC)和 超 级 以 太 网 联 盟(UEC)等 组 织 也 会 发 布 相 关 标 准。凭借着 高 可 靠 性、低 成 本、易 于 管 理 以 及 高 速 等 优 势,以 太 网 技 术 广 泛 应 用 于 自 动 化、自 动 驾 驶、企 业 网 和 云 计 算 等 领 域。以 太 网 起 源 于Xerox PARC 公司。1976 年,Bob Metcalfe 及 其 助 手 发 表 了 以 太 网:区 域 计 算 机 网 络 的 分 布 式 数 据 包 交 换 技 术,1977年 他 们 取 得 了CSMA/CD(Carrier Sense Multiple Access with Collision Detection),即 带 有 冲 突 检 测 的 载 波 侦 听 多 址 访 问 的 专 利,以太 网 正 式 诞 生。后来Metcalfe 离 开 施 乐 公 司 创 立3Com 公司,与 英 特 尔、DEC 和 施 乐 等 公 司 共 同 将 以 太 网 实 现 了 标 准 化。1980 年,首个通 用 以 太 网 标 准DIX 1.0诞生,随 着 从 总 线 拓 扑 走 向 星 型 结 构 化 布 线 以 及 光 缆 传 输 技 术 的 快 速 发 展,以 太 网 迎 来 了 快 速 发 展 的 时 代。图表3:以太网 下游应 用领域 广泛 图表4:以太网 拓扑结 构从总 线型走 向星型资料来源:Ethernet Alliance,中信建投 1.2.2 以太网:带宽持续提升,调制方式不断丰富 通 过 以 太 网,用 户 终 端 可 以 与 多 台 终 端 进 行 通 信。每 台 终 端 设 备(电脑、手 机 等)都 拥 有 全 球 唯 一 的 48 位 MAC 地址,从而保证以太网 上 所 有 节 点 能 互 相 区 分,并 且 每 台 终 端 必 须 通 过 物 理 层 介 质 传 输 信 息,包 括 无 线 电 磁 波 或 有 线 电 缆 等,这 些 传 输 通 道 也 被 称 之 为 以太(Ether)。物 理 层 硬 件 也 从 同 轴 电 缆 到 双 绞 线、光 纤 光 缆,NIC 网 卡 和 交 换 机 的 出 现 也 加 速 了 以 太 网 的 发 展。随 着 下 游 应 用 领 域 的 快 速 发 展,带 宽 的 需 求 也 在 爆 发 式 增 长。IEEE 发 布 的 第 一 个 以 太 网 标 准10 BASE5带宽为10M。1995 年,100M 带宽 的 快 速 以 太 网 时 代 开 启,1998 年 千 兆 带 宽 的 以 太 网 标 准 发 布,2002 年10G 以 太 网 标 准 发 布。到2020 年,ETC 发 布 了800G 以 太 网 的 标准,预计1.6T 以 太 网 标 准 也 将 发 布。带 宽 的 不 断 升 级,也 带 来 了 调 制 方 式 的 变 化,从NRZ 到PAM4,以 及 相 干QPSK等调制方式。图表5:以太网 带宽 升 级路 径 图 图表6:以太 网 各种 调 制方 式资料来源:Ethernet Alliance,中信建投 1.3.1 InfiniBand 快速发展,Mellanox市占率全球第一 20世纪90 年代,PCI 升 级 缓 慢 导 致I/O 遇 到 瓶 颈 限 制HPC 发 展 愈 发 成 为 重 要 的 问 题。HP、IBM、Intel、Mellanox、Microsoft、Oracle和QLogic 等 公司 于1999 年 联 合 成 立Infiniband 贸易联盟(InfiniBand Trade Association),旨 在 用IB 取代PCI 的I/O、以 太 网 的 算 力 集群互连等。2000 年,InfiniBand 架 构 规 范 的1.0 版 本 正 式 发 布。2002 年,Intel 开 始 着 眼 于 开 发PCI Express,微 软 终 止IB 研发,至2008 年 仅 剩Mellanox、Cisco、QLogic 和Voltaire 等 主 要 参 与 者,IB 的发 展 受 到 一 定 的 影 响。2009 年,思 科 开 始 重 点 研 发 以 太 网 交 换 机。2010 年 左 右,Mellanox 和Voltaire 公司合并,市 场 上 只 剩 下 一 个 竞争者QLogic。2012 年,Intel收购QLogic 的IB技术,至此,Mellanox 在InfiniBand 领 域 占 据 绝 对 优 势 地 位。2012 年 开 始,随着HPC 的 快 速 发 展,IB 产 品 需 求 大 增,其 市 场 份 额 持 续 扩 张。2015 年,IB 在TOP500榜 单 中 占比51.4%,首 次 超 越 以 太网。在收 购 硅 光 技 术 公 司Kotura 和 并 行 光 互 连 芯 片 厂 商IPtronics 后,Mellanox 在 全球IB 市 场 的 市 占 率 达80%,成为全球网络 领 域 的 领先 提供商。2019 年,英 伟 达 以69 亿 美 元 收 购Mellanox。图表7:InfiniBand 发展历程1999 20022000 2008 2012InfiniBand 架构规范的1.0版 本发布主要参与者仅剩Mellanox、Cisco、QLogic 和VoltaireIntel收购QLogic 的InfiniBand 技术2010 20152019英 伟 达 收购MellanoxIBTA 成立多家企业相继退出InfiniBand 市场Mellanox 和Voltaire 公司合并InfiniBand 产品在TOP500榜单中份额首次超越以太网资料来源:IBTA,中 信建投 1.3.2 RDMA 协议降低数据传输时延,SHARP 技术提升计算效率 InfiniBand 最 重 要 的 一 个 特 点 是 采 用RDMA协议(远程直接内存访问),从而实现低时延。相较于传统TCP/IP 网 络 协 议,RDMA 可 以 让 应 用 与 网 卡之 间直 接 进行 数 据读写,无 需 操 作 系 统 内 核 的 介 入,从而使得 数据 传 输 时 延 显著 降低。在 大 规 模 并行 计 算 机 集群 中,低 时 延 能够 有效 提 升 算 力设 施的 利 用 效 率。InfiniBand 技 术 以 端 到 端 流 量 控 制 为 网 络 数 据 包 收 发 的 基 础,能 够 确 保 无 拥 塞 发 出 报 文,从 而 大 幅 降 低 规 避 丢 包 所 导 致 的 网 络性能下降的风险。SHARP 技术(可扩展分层聚合和归约协议)的引入使得InfiniBand 系 统 能 够 在 转 发 数 据 的 同 时 在 交 换 机 内进行计算,以 降低 计 算 节 点间 进行 数 据 传 输的 次数,从 而 大幅 提升 计 算 效 率。图表8:InfiniBand 采用RDMA协议 图表9:SHARP 技 术原理 示意图资料来源:鲜枣课 堂,Nvidia,中 信 建投 1.3.3 IB 带宽24年可达1.6T,加速AI 发展 随着AI 的 快 速 发 展,IB 在 算 力 集 群 发 挥 着 关 键 的 作 用。InfiniBand 作 为 一 个 用 于高 性 能 计 算的 网络 通 信 标准,其 优 势 在 于 高吞吐 和 低延迟,可以 用 于 计 算机 和计 算 机、计算 机和 存 储 以 及存 储之 间 的 高 速交 换互 连。HPC 领 域 对 带 宽 有 更 高 的 要 求,InfiniBand 目 前 传 输 速 度 达 到400Gb/s。根 据 技 术 发 展 路 线 图,2024年IBTA 计 划 推 出XDR 产品,四通道对应速率800Gb/s,八 通 道 对 应 速 率是1600Gb/s,并将于2年 后 发布GDR 产品,四 通道 速 率达1600Gb/s。InfiniBand系统的硬件 由 网卡适配器、交 换机、电 缆和 光 模块 组成。图表10:InfiniBand 发展路 线图 图表11:InfiniBand 技术产 品示意 图资料来源:IBTA,Nvidia,中 信 建投 三、光还是铜?一、以 太网还是Infiniband?四、投资建议目录五、风险提示二、NVLink-Network 或成最终赢家 2.1 以太网 VS Infiniband?NVLink-Network 或成最终赢家 由 于 以 太 网 和Infiniband 在 数 据 中 心 和 超 算 中 心 有 着 较 长 的 应 用 历 史 以 及 良 好 的 客 户 基 础,因此在AI 时代,我 们 通 常 会 谈 论 这 两 者 之间 的 竞 争。目前Infiniband 得 益 于 更 优 秀 的 性 能 以 及 英 伟 达 的 一 体 化 销 售 战 略,在AI 市 场 处 于 绝 对 领 先 的 地 位,但 是 昂 贵 的 价 格 以 及以 太 网 众 多 玩 家 在 技 术 和 产 品 上 的 持 续 突 破,似 乎 竞 争 愈 演 愈 烈。然而,我们认为NVLink 依 靠 其 数 倍 于 以 太 网 和IB的带宽优势,单 位 算 力 成 本 有 望 具 备 很 强 的 性 价 比,或 成 最 终 赢 家。目前NVLink4.0的双向带宽为900GB/s,单 向 带 宽3.6Tbps(450GB/s),是 以 太 网 和IB网络800Gbps带宽的4倍多。英 伟 达 采 用NVLink-Network 进 行 超 多 节 点 互 连 的 尝 试 始 于GH200,在B 系列GPU 的 产 品 上 全NVLink 连 接 的 节 点 数 进 一 步 提 升。超高的 互 连 带 宽 意 味 着 更 短 的 传 输 时 间 以 及 更 高 的 算 力 利 用 效 率。而 在 需 求 侧,对 光 模 块 和 交 换 机 等 产 业 链 将 产 生 重 大 的 影 响。图表12:NVLink 技 术发展路 线图资料来源:Nvidia,中 信建投 2.2 NVLink 初衷取代PCIe,随GPU 同步升级 在NVLink 面 世 前,PCIe 是最常见的高速互连标准之一,广 泛 用 于CPU、GPU 间 的 高 速 互 连,但 是 带 宽 提 升 的 节 奏 远 远 低 于 需 求。2003 年,PCIe 1.0 规范发布,支持每通道2.5GT/s(250MB/s)的传输速率,最 大 总 传 输 速 率 为4GB/s。经过20 年 的 发 展,PCIE 由1.0 版本迭代至6.0,每 通 道 传 输 速 率 提 高 至64GT/s。然而,PCIe 带 宽 的 提 升 远 远 落 后 于 算 力 的 增 加,成 为 算 力 系 统 明 显 的 瓶 颈。和Infiniband 技 术 一 样,为 了 应 对PCIe 迭 代 速 度 缓 慢 导 致GPU I/O 带 宽 成 为 整 个 算 力 系 统 的 瓶 颈,Nvidia 专 门 研 发 了NVLink 技术。NVLink用于连接GPU之间以及GPU 与CPU之间,其允许GPU 芯 片 间 以 点 对 点 的 方 式 通 信,可 以 突 破 传 统PCIe 互 联 带 宽 限 制,实 现 更高 带 宽、更 低 延 迟 的 数 据 互 连。随着GPU 的 不 断 升 级,NVLink 也 在 快 速 迭 代,以确保GPU 之 间 的 高 速 互 连。目前H100 的GPU 对应NVLink 4.0技术,而NVLink 5.0 也 有 望 很 快 发 布。资料来源:PCI-SIG,Nvidia,中 信 建投图表13:PCIe 不同 代际技 术参数 示意图 图表14:GPU 与NVLink 同 步升 级 2.3 NVLink 在2014年推出,NVSwitch 在2018年推出 2014 年,NVLink 1.0 发布,并 应 用 于P100 芯片。NVLink 1.0 一 条 差 分 对 单 向 速 率 为20 Gb/s,每个通道有8 条 差 分 对,拥有4 条 通 道 的P100 的NVLink 1.0 单 向 传 输 带 宽 可 达80 GB/s,整 个 系 统 的 双 向 带 宽 则 为160GB/s。2017 年,NVLink 2.0推出,其 带 宽 接 近NVLink 1.0 的2 倍。两个GPU V100间 通 过6 条NVLink 通 道 互 连,每条link通道包括8 条 差 分 对,每 条 差 分 对 的 速 率 提 升 至25Gb/s,则每条NVLink 单 向 带 宽 为25 GB/s,故V100的NVLink 双 向 带 宽 从160GB/s 几 乎 翻 倍 至300 GB/s。2018 年,为 了 实 现8 颗GPU之间的all-to-all互连,英 伟 达 发 布 了NVSwitch 1.0产品。NVSwitch 1.0 类 似 交 换 机 的ASIC芯片,含有18 个端口,每 个 端 口 的 带 宽 是50GB/s,双 向 总 带 宽900GB/s,用6 个NVSWitch可以实现8 颗V100 的all-to-all连接。资料来源:Nvidia,中 信建投图表15:NVLink 1.0 技术 应用于P100 上 图表16:NVSwitch 1.0 实现V100 all-to-all连接 2.4 NVLink3.0带宽600GB/s,NVLink 4.0达到900GB/s 英伟达于2020 年推出NVLink 3.0 版本,双 向 总 带 宽 提 升 至600GB/s,同 期 发 布NVSWitch 2.0 产品。两颗A100 GPU 之间的NVLink 数量增加至12条,每条NVLink 中的差分对为4 条,单条 差 分 对 的单 向带 宽 为50Gb/s。8 颗A100芯 片与4个NVSwitch 2.0 芯片组合而成DGX A100服务器。2022年,NVLink 升级到4.0版本,NVSwitch 升 级 至3.0 版本。单 条 差 分 对 单 向 带 宽 再 次 翻 倍 至100Gb/s,两个H100芯 片 从A100的12 条 通 道 提 升 至18条,双 向 总 带 宽 提 升 到900GB/s。同时,Nvidia发布第三代NVSwitch,包含64 个 端 口。DGX H100服 务 器由8个H100芯片与4个NVSwitch 3.0芯片组成。图表17:NVLink 发展路线 图 图表18:NVSwitch 发展路线图资料来源:Nvidia,中 信建投2016 2017 2020 2022 2024NVLink 代际 NVLink 1.0 NVLink 2.0 NVLink 3.0 NVLink 4.0 NVLink 5.0NVLink 数量 4 6 12 18 18通道数 32 48 48 36 36单通道带宽 5GB/s 6.25GB/s 12.5GB/s 25GB/s 50GB/s调制方式 NRZ NRZ NRZ PAM4 PAM4总双向带宽 160GB/s 300GB/s 600GB/s 900GB/s 1800GB/s2017 2020 2022 2024NVSwitch 代际 NVSwitch 1.0 NVSwitch 2.0 NVSwitch 3.0 NVSwitch 4.0配套NVLink NVLink 2.0 NVLink 3.0 NVLink 4.0 NVLink 5.0配套GPU 架构 Volta Ampere Hopper Blackwell端口数 18 36 64 72单端口带宽 50GB/s 50GB/s 50GB/s 100GB/s总双向带宽 900GB/s 1800GB/s 3200GB/s 7200GB/s 2.5 NVLink-Network 初尝试,GH200性能大幅提升 2023 年,英 伟 达 宣 布 生 成 式AI引擎NVIDIA DGX GH200现 已 投 入 量 产。GH200 通过NVLink 4.0的900GB/s 超 大 网 络 带 宽 能 力来提升算力,服 务 器 内 部 可 能 采 用 铜 线 方 案,但服务器之间可能采用光纤连接。对于单个256 GH200芯片的集群,计算侧1 个GH200对应9 个800G光模块;对于多个256 GH200集群,计算侧1个GH200对应12个800G 光 模块。相比较传统的IB/Ethernet的网络,GH200采用的NVLink-Network 网 络 部 分 的 成 本 占 比 大 幅 增 长,但 是 因 为 网 络 在 数 据 中 心 中的 成 本 占 比较 低,因 此 通 过提 升网 络 性 能 来提 升算 力 性 价 比很 高。图表19:DGX GH200 在 大模型方 面的性 能表现 图表20:256 颗GH200 的网络连接 示意图资料来源:Nvidia,中 信建投 2.6 GH200 NVL32为机架级集群,亚马逊为首个云厂商客户 2023 年11 月,在AWS 的Re:Invent大会上,AWS 和NVIDIA 宣布AWS 将成 为 第一 个 提 供NVIDIA GH200 Grace Hopper 超级芯片的 云 服 务 提供 商,在Amazon EC2上运行。NVIDIA GH200 NVL32 是针对 NVIDIA GH200 Grace Hopper 超级芯 片 的 机 架级 参考设计,通过 NVLink 连接,面向超大规模数据中 心。NVL32 不 但 在 训 练 上 性 能 更 加 优 异,而 且 在 推 理 上 也 具 备 显 著 的 优 势。NVL32 相 比 较 传 统 的H100 以 太 网 连 接 系 统 方 案,在LLM训练上快1.7 倍,在LLM 推 理上 快 两倍,在 训练 算 法训 练 上 快8倍,在 图 形 训练 上 快6 倍。图表21:GH200 NVL32 在LLM 推理上 比传统H100 快两倍 图表22:GH200 NVL32 机 架 级方 案资料来源:Nvidia,中 信建投 2.7 GH200 NVL32的技术参数介绍图表23:GH200 NVL32 机 架示意图资料来源:Nvidia,中 信建投GH200:32颗芯片16 个GH200 Tray 盘每个Tray 盘2 颗GH200内存:19.5TBCPU:LPDDR5X 480GB x 32GPU:HBM3e 144GB x 32算力:127PFlops FP8单颗GH200:3.96PF FP8总带宽:28.8TB/s双向采用NVLink 4.0:900GB/sNVLink 4.0:900GB/s双向18 个NVLink,36 个112Gb 通道NVSwitch 3.0:18颗芯片9 个NVSwitch Tray 盘每个Tray 盘2 颗NVSwitch 芯片单 颗 芯片:64x50G=3.2TB/s物理连接:Cable Cartridge预 计 单个差 分对速 率为100Gbps 2.8 2024年英伟达GTC 发布GB200 产品,网络产品带宽均翻倍 2024 年3 月,英 伟 达 在2024 年GTC 大 会 上 推 出Blackwell 新 一 代 计 算 平 台。Blackwell 构架B200 GPU 的AI 运 算 性 能 在FP8 及新的FP6 上都可达20 petaflops,是 前一 代Hopper 构架 的H100运 算性 能8 petaflops 的2.5 倍,同 时支 持 全 新FP4/FP6格式。英 伟 达还推出了GB200超级芯片,它基于两个B200 GPU,外加一个Grace CPU。英伟达发布NVLink 5.0 和NVSwitch 4.0。NVLink 5.0具有1.8 TB/s的双向带宽,单 条 差 分 对单 向带 宽 达 到200Gbps,通道数为18个。NVSwitch 4.0 有72个端口,每个端口有2 个 单向 带 宽200G Serdes的通道,总 双 向 带 宽为7.2TB/s,可 以 支持4 个NVLink。图表24:GH200 NVL32 在LLM 推理上 比传统H100 快两倍 图表25:GH200 NVL32 机 架级方案资料来源:Nvidia,中 信建投 2.9 GB200 NVL72也是机架级产品,可认为是GH200 NVL32的升级版图表26:GB200 NVL72 机 架示意图资料来源:Nvidia,中 信建投GB200:36颗GB20018 个GB200 Tray 盘每个Tray 盘2 颗GB200内存:30.38TBCPU:LPDDR5X 480GB x 72GPU:HBM3e 192GB x 2 x72算力:720PFlops FP8GB200:20PF FP8总带宽:129.6TB/s采用NVLink 5.0:1800GB/sNVLink 5.0:1800GB/s双向18 个NVLink,36 个224Gb 通道NVSwitch 4.0:18颗芯片9 个NVSwitch Tray 盘每个Tray 盘2 颗NVSwitch 芯片单 颗 芯片双 向:72x100G=7.2TB/s物理连接:Cable Cartridge预 计 单个差 分对速 率为200Gbps 2.10 GB200 NVL72若通过IB/以太网搭集群,GPU:1.6T=1:2.5 GB200 NVL72为机架级产品,内部72 颗Blackwell 的GPU 通过NVLink 实 现 互 连。由 于 机 架 级 产 品 的Tray 盘 之 间 的 距 离 较 短,因 此 可 以 通过 高速 电 连 接 器进 行连 接。若 需 要 搭 建 千 卡 甚 至 万 卡 级 别 的 集 群,GPU 和 光 模 块 的 比 例 平 均 可 以 认 为 是1:2.5。如 果 以GB200 NVL72 为 单 元,用IB或以太网实现超大规模的集群搭建,若采用Fat-tree 网络 架 构,那么GPU 和光 模 块 的比 例 将达 到1:2(两层),1:3(三层)。图表27:英 伟达以 太网和IB 的800Gbps 交换机 图表28:Fat-tree 网络架构 示意图(为200G 光模块)资料来源:Nvidia,中 信建投A100 GPU 200 网卡第一层交换机第二层交换机第三层交换机A100:200G 光 模块=1:6同样的,H100:400G 光 模块=1:6H100:800G 光 模块=1:3 2.11 GB200 NVL72若通过NVLink-Network 搭576集群,GPU:1.6T=1:9 GB200 NVL72通过NVLink-Network搭建成576 只GPU 的SuperPod,可 以 认 为 是GH200 256的 升 级 版。在 英 伟 达 的 官 方 技 术 文档中,为客户提供了576只GPU 全NVLink 连接的集群方案,能 够以1.8TB/s 的 超 大 带宽 实 现超 大 内存 的 高 速共 享。若 需 要 搭 建576 只GPU 的全NVLink 连 接 的 集 群,假 设 采 用fat-tree 的 架 构,那么GPU:1.6T 的 比 例 可 以 达 到1:9 以上。NVLink5.0的单向带宽为7.2Tbps,若 只 有一 层 用 光,那 么单 只GPU 对 应的 光 模块 的 数量 为7.2T/1.6T*2=9。图表29:Fully connected NVLink 576 GPU 的结构示意 图(预测)资料来源:Nvidia,中 信建投 三、光还是铜?一、以 太网还是Infiniband?四、投资建议目录五、风险提示二、NVLink-Network 或成最终赢家 3.1 电信号带宽提升,趋肤效应导致传输损耗增加 电 信 号 在 铜线 中传 输 存 在 以下 几种 损 耗:导体损耗,随着交 流频率升高,电流 由于趋肤效应集中 在导体表面而不是 在导体内部,因此 受到的阻抗增大,同时,铜箔表面的 粗糙度也会加剧导体 损耗;介质损耗,主要 是 由于介质 的极化,介质中的 电偶极 子 极化方向 由于交 流 电场不断 变化,能 量被不断 消耗;耦合到邻 近走线,指串扰,造成信 号 自身衰减 的同时 对 邻近铜线 中信号 产 生干扰;阻抗不连 续,反 射 会导致传 输的信 号 损失部分 能量;辐 射 损耗,虽然辐 射引起 的信号 衰减相 对较小,但是 会带来EMI问题。图表30:电 信号传 输损耗 分解图 图31:信号频率 变化的 趋肤效 应示意 图资料来源:CSDN,Eeiq,中 信建投电信号传输损耗介质损耗 导体损耗 耦合至邻线 阻抗不连续 辐射损耗趋肤效应 表面粗糙度*黄色为电传输线,蓝色为电信号 3.2 100Gbps电信号在铜线中传输2m,200G速率预计传输1m 我 们 认 为 通 信 带宽 每 升 级 一 代,损耗增加,传 输距 离 都 要 显 著 缩短。通 信 带 宽 提升,趋 肤 效 应 导致 在 铜 线 和PCB Trace 中 传输损耗增加,连接器头子损耗增 加,封装Trace 损 耗 增加,因此 有 效 传输 距 离将 明 显 缩短。从2022 年11 月IEEE P802.3df 发 布 的 目 标 来 看,单通道100Gbps 速 率 的 电 信 号 传 输 的 距 离 为2m,而谷歌在2021年的报告中,论证 单 通 道200Gbps 传 输 距 离 达 到1m 的 可 行 性,仍 然 需 要BGA/via 的 优 化、Serdes 性 能 提 升 等。2021年的Photonics Summit 大会上,Intel 认为单通道200Gbps的电信号若在优良 材料上传 输,有效 传 输 距离 可 达到1m。到单通道400Gbps时代,我 们 预 计 铜 线 传输 距 离 将缩 短 到0.5m,铜 线的 应 用场 景 将 大大 受 限。图表32:Intel 关于电 信号和 光信号 传输距 离的观 点 图33:谷歌 论证200G 单通 道 采用copper 传输的可行 性资料来源:IEEE,谷歌,中信 建 投 3.2 100Gbps电信号在铜线中传输2m,200G速率预计传输1m(续)图表34:IEEE P802.3df 目标 参数 示意 图资料来源:IEEE,中信建 投 3.3 GB200 NVL72虽然铜线短期受益,但光进铜退是大势所趋 在GB200 NVL72 中,高 速 背 板 连 接 器 中 单 个 差 分 对 预 计 为200Gbps,Rack 内 可 传 输1m,铜线可以受益。但是到下一代GPU 产品中,我 们预 计铜 线 传 输 距离 大大 缩 短,光学 方案 将 逐 步 替代。英伟达One Giant GPU的概念,在 物 理 层面 上将 所 有GPU 通过NVLink 连接起来,但 铜 线 可 覆 盖 的物 理 范 围将 越 来越 小,将 逐 步 转为 光 学方 案。由于芯片之间连接的铜线trace 直 径太 小,因此 带 宽升 级 后 损耗 较 大,因 此在CPO 领 域 硅光I/O 的 必 要 性 也 在大 幅 增 强。因此,我们认为,无论是Tray 盘之间的连接,还 是 芯 片 之 间 的 互 连,未 来 光 学 方 案 的 渗 透 率 都 将 大 幅 提 升。而 短 期 内 光 学 方案 的 功 耗 和成 本问 题,将 会有 新技 术 或 新 产品 来解 决,但 是底 层仍 然 会 是 光学 方案。图表35:英 伟达GPU 中 硅光I/O 结构示意图 图36:光进 铜退逐 步渗透 到芯片 和芯片 之间资料来源:Nvidia,Intel,中信 建投 三、光还是铜?一、以 太网还是Infiniband?四、投资建议目录五、风险提示二、NVLink-Network 或成最终赢家 投 资 建 议 AIGC 的 快 速 发 展 带 来 了 算 力 的 爆 发 性 需 求,网络在整个AI 数 据 中 心 的 作 用 愈 发 重 要,可 以 显 著 提 升 算 力 的 效 率。800G光 模 块 的 需 求 大 幅 提 升,1.6T 光 模 块 的 量 产 进 程 大 幅 加 速,预 计 将 成 为2025 年 的 需 求 主 力。英 伟 达Blackwell 架 构 的GPU 需求有望持续高速增长,随之带来1.6T 光模块广阔的市场空间,将打消市场对2025 年 光 模 块 市 场 需 求 的 担 忧。海外云厂商及算力巨头供应链的进入壁垒较高,光模块更新迭代的节奏大幅加快,光模块的行业格局预计将更加集中,建议重点关注头部光模块及光器件公司,新易盛、中际旭创和天孚通信等。随着AI 算 力 基 础 设 施 中 的 网 络 架 构 愈 发 重 要,光模块的需求量显著增加,且速率迭代周期加快,云厂商在提升光模块性能以及降低成本、功耗方面的动力较强。建议关注薄膜铌酸锂、硅光、OCS、LPO 和CPO 等行业新技术的发展,包括源杰科技、光库科技、德科立和腾景科技等公司。三、光还是铜?一、以 太网还是Infiniband?四、投资建议目录五、风险提示二、NVLink-Network 或成最终赢家 风 险 提 示 AIGC 的快速发展,无 论 训 练 侧 还 是 推 理 侧 对 光 模 块 需 求 都 有 较 大 拉 动,若AIGC 发展不及