20240704_国信证券_计算机行业新型智算中心改造系列报告二:拉动全球电力消耗增长液冷渗透率快速提升_58页.pdf
请务必阅读正文之后的免责声明及其项下所有内容证券研究报告|2024年7月4日新型智算中心改造系列报告二:拉动全球电力消耗增长,液冷渗透率快速提升行业研究 行业专题 计算机 人工智能投资评级:优于大市(维持评级)证券分析师:熊莉021-S0980519030002联系人:艾宪0755-请务必阅读正文之后的免责声明及其项下所有内容摘要 能源测:智算中心电力消耗测算。1)单POD功率:以目前最常用的英伟达DGX H100计算集群(POD)为例,单POD(127节点)功率合计为1411.176kw,其中计算部分占比最高(为89.83%,即DGX H100服务器),其次为计算用交换机(为5.72%);2)单位算力能耗模型:以英伟达DGX H100服务器为例,假设利用率为80%,PUE为1.25,可知单台服务器对应智算中心功率消耗为11,112w,对应年度用电量为97,338KWh;TF32下单位petaFLOPS算力对应智算中心年度用电量为12,167 Kwh,FP16下单位petaFLOPS算力对应智算中心年度用电量为6,084 Kwh;3)对全球电力影响:根据华为GIV发布的智能世界2030预测,预计2030年全球AI算力将超过105ZFLOPS(FP16),对应每年638.82太瓦时用电量,以22年为基年,额外带来2.4%的全球用电增量。供电侧:多种配电方案并存。目前主流的供电方案包括交流UPS架构、高压直流架构、机架式直流架构,智能算力(单一服务器加装8张GPU算力卡)带来高功率需求,对供电侧零部件提出更高要求。冷却侧:液冷将替代传统风冷方案。1)国内液冷渗透率将进入加速期:AI算力芯片功率持续提升,设备功率密度接近风冷极限,同时叠加智算中心PUE考核趋紧,24年国内液冷渗透率将进入加速期;2)液冷市场规模快速增长:据中商产业研究院披露数据,预计24年中国液冷服务器市场规模将达到201亿人民币,预计27年将增长至682亿人民币,对应24-27年CAGR为50.3%,市场规模快速增长。投资建议:随着中国智能人工智能算力的快速发展,将拉动全社会用电量的增长;根据我们测算,FP16精度下智算中心单PetaFLOPS算力对应1年耗电量为6,084Kwh(以英伟达DGX H100服务器为例),若替换成国产算力芯片,单PetaFLOPS耗电量仍将提升(受制于芯片制程);同时,智能算力(单一服务器加装8张GPU算力卡)带来高功率需求,对配电侧提出更高要求,建议关注虚拟电厂和配网侧方向,重点关注朗新集团、国网信通。风险提示:宏观经济波动、互联网及运营商资本开支不及预期、美国继续收缩对华算力芯片出口政策、国产算力卡研发进展不及预期险等。请务必阅读正文之后的免责声明及其项下所有内容能源侧:智算中心电力消耗测算01供电侧:多种配电方案并存02目录冷却侧:液冷将替代传统风冷方案03案例研究:新型绿色智算中心分析04投资建议及风险提示05请务必阅读正文之后的免责声明及其项下所有内容智算中心:服务器机柜内外组成结构 服务器机柜内:主要包括GPU、CPU、内存(RAM)、硬盘(Hard Drive)、网络交换机(Network Switch)、配电单元(PDU)等;服务器机柜外:主要包括供电系统(功率转化器、功率分配器等)、冷却系统(制冷机、冷却塔、气/水分配系统)、安全及监控系统、网络系统(连接件)等。图1:服务器机柜内主要包括CPU、GPU、存储、硬盘、交换机、电源分配单元资料来源:Konstantin等著-Compute at Scale-A broad investigation into the data center industry-ArXiV(2023)-P5,国信证券经济研究所整理图2:服务器机柜外部包括供电系统、冷却系统、安全及监控系统、网络系统资料来源:Konstantin等著-Compute at Scale-A broad investigation into the data center industry-ArXiV(2023)-P6,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容智算中心:单一POD(集群)拆解-外部 单一POD(集群)组成:由服务器(例如英伟达DGX系统)、InfiniBand和以太网络、管理节点(Management Node/Management Racks)、存储(Storage)、电缆桥架(Cable Tray)、冷通道(Cold Aisle Containment)、跨桥通道(Aisle Crossing Bridge)组成;图3:单一Pod(集群)结构资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理图4:英伟达典型单一SU组成资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容智算中心:单一POD(集群)拆解-内部 单个SU架构:由8个服务器机柜组成,每个服务器机构中放置4台DGX H100服务器(包含8颗H100 GPU芯片)和3个配电单元(PDU),即单一SU包含32台DGX H100服务器(对应256颗H100芯片)和24个配电单元(PDU);管理机柜(Management Rack):包含网络交换机、管理服务器、存储阵列(Storage Array)和UFM控制器(Unified Fabric Manager);以英伟达管理机柜为例,其包含32个QM9700 Compute Leaves、16个QM 9700 Compute Spines、2个Compute UFMs、6个SN4600c In-Band Leaves、2个SN4600c In-Band Leaves、4个BCM Nodes、8个QM9700 Storage Leaves、4个QM9700 Storage Spines、8个SN2201 Out of-Band Leaves。图5:英伟达单个SU(Scalable Unit)架构资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理图6:英伟达管理机柜(Management Rack)架构资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容单一POD(集群)网络结构(Network Fabrics)单个POD(集群)网络结构(Network Fabrics)通常包括计算网络、存储网络、In-Band管理网络、Out-of-Band管理网络。计算网络(Compute Fabrics):主板中间的4个OSFD端口留给计算网络,每个端口直连到2颗Connect-7X卡(共计8400Gb/s端口);存储网络(Storage Fabrics):主板两侧各1个QSFP单向存储端口,连接内部ConnectX-7 card;In-Band管理网络(In-Band Management Network):主板两侧各1个In-Band管理端口,连接内部ConnectX-7 card;Out-of-Band管理网络(Out-of-Band Management Network):主板中间下部1个Out-of-Band管理端口(1GbE RJ-45端口);图7:英伟达DGX H100网络端口(服务器背面)资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership、英伟达,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容单一POD(集群)网络结构-计算网络 计算网络:AI大模型的训练,通常需要多个GPU协同工作,计算网络可实现数据跨GPU计算;计算网络层数:通常POD(集群)计算网络可包含三层交换机,分别是Leaf交换机、Spine交换机和Core交换机;在英伟达127节点计算网络中,仅使用两层交换机(Leaf和Spine,型号为Mellanox QM9700),且每个SU中有8台交换机和32台DGX H100服务器,则每台服务器应和8台交换机相连,而如前文所述,单台服务器背面仅4个800G OSFP端口(用于计算网络),则需要在端口接入光模块后,通过拓展端口将1个OSFP端口拓展成2个QSFD端口,进而实现连接。图8:127节点计算网络(Compute Fabrics)架构资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理表1:计算网络节点测算资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理(注:通常需要1个服务器用于UFM连接,所以1个SU对应31个节点)SU数量 节点数量 GPU数量InfiniBand Switch数量电缆CountLeaf SpineCompute+UFMSpine-Leaf1 31 248 8 4 252 2562 63 504 16 8 508 5123 95 760 24 16 764 7684 127 1016 32 16 1020 1024请务必阅读正文之后的免责声明及其项下所有内容单一POD(集群)网络结构-存储网络 存储网络:英伟达SuperPOD使用InfiniBand网络(每节点I/O速率要超过40GBps),以满足服务器集群共享存储的需要;存储网络层数:A100和H100超级集群均采用两层交换机,以140节点的A100超级集群存储网络为例,共使用26台交换机(包括18台leaf交换机和8台Spine交换机)。图9:140节点存储网络(Storage Fabrics)架构-DGX SuperPOD-A100资料来源:NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership,国信证券经济研究所整理图10:存储网络架构(Storage Fabrics)架构-DGX SuperPOD-H100资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理SU数量 节点数量 存储端口QM8790 Switches数量 电缆Leaf Spine To-Node To-Storage Spine1 20 24 4 2 40 36 642 40 40 6 4 80 52 963 60 40 8 4 120 52 1284 80 56 12 8 160 68 1926 120 80 16 8 240 92 2567 140 80 18 8 280 92 288表2:DGX SuperPOD-A100存储网络交换机和线缆数测算资料来源:NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership,国信证券经济研究所整理图11:MQM9700-NS2F交换机资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容单一POD(集群)网络结构-In-Band管理网络 In-Band管理网络(In-Band Management Fabrics):In-Band管理网络连接计算节点和管理节点(基于以太网),主要为集群提供以下功能:1)连接管理集群的所有服务;2)管控集群中节点访问主文件系统和存储池;3)连接集群内外服务(集群内服务:Base Commond Manager、Slurm等;集群外服务:NGC登记、代码仓库、数据资源等)。以DGX SuperPOD-A100 In-Band管理网络架构为例,140个节点对应8台交换机(6台Leaf交换机、2台Spine交换机)。图12:2个SU的In-Band管理网络架构-DGX SuperPOD-A100资料来源:NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership,国信证券经济研究所整理图13:In-Band管理网络架构-DGX SuperPOD-H100资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理SU数量 节点数量 Leaf交换机 Spine交换机1 20(Single SU)2 02 40 2 03 60 4 24 80 4 26 120 6 27 140(DGX SuperPOD)6 2表3:DGX SuperPOD-A100带内管理网络交换机测算资料来源:NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership,国信证券经济研究所整理图14:AS4610交换机资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容单一POD(集群)网络结构-Out-of-Band管理网络 Out-of-Band管理网络:使用以太网络,连接所有设备的管理端口,包括DGX服务器、管理服务器、存储、网络设备(Networking gear)、机柜PDUs以及其他设备,140个节点对应10台交换机(使用SN2201交换机)。图15:Out-of-Band管理网络架构-DGX SuperPOD-H100资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理图4:Out-of-Band管理网络交换机测算资料来源:NVIDIA DGX SuperPOD:Scalable Infrastructure for AI Leadership,国信证券经济研究所整理SU数量 节点数量 Leaf交换机1 20(Single SU)22 40 33 60 44 80 56 120 87 140(DGX SuperPOD)10图16:SN2201交换机资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容智算中心超级POD(集群)拓展测算 超级POD(集群)可根据计算要求进行拓展。目前,常见的POD由4个SU组成,对应128个计算节点(服务器)和1024颗GPU芯片,包含32个InfiniBand Switch-Leaf和16个InfiniBand Switch-Spine;目前最大可拓展至64个SU,对应2048个计算节点(服务器)和16,348颗GPU芯片,包含512个InfiniBand Switch-Leaf&Spine和256个InfiniBand Switch Core。表5:超级POD(集群)拓展测算资料来源:NVIDIA DGX SuperPOD:Next Generation Scalable Infrastructure for AI Leadership,国信证券经济研究所整理SU数量节点(服务器)数量GPU数量InfiniBand Switch数量 电缆CountLeaf Spine Core Node-Leaf Leaf-Spine Spine-Core4 128 1024 32 16-1024 1024 10248 256 2048 64 32-2048 2048 204816 512 4096 128 128 64 4096 4096 409632 1024 8192 256 256 128 8192 8192 819264 2048 16348 512 512 256 16384 16384 16384请务必阅读正文之后的免责声明及其项下所有内容智算中心:服务器拆解(以DGX H100为例)服务器拆解:以英伟达DGX H100为例,服务器通常包括GPU板组、主板、电源、风扇模块、结构件板块(前框、底架、前结构架)等,其中服务器正面提供电源按键、2个USB接口和1个VGA接口,背面提供6个电源接口以及网络端口(链接主板,实现POD内数据传输)。图17:英伟达DGX H100服务器拆解资料来源:英伟达,国信证券经济研究所整理拆解图 正面 背面前框(Bezel)风扇模块(Fan Modules)前控制板(Front Console Board)安全擦除设备(Secure Erase Drives)前结构架(Front Cage)底架(Chassis)电源装置(Power Supplies)GPU板组(GPU Tray)主板(Motherboard)前控制板2USB,1VGA,空气温度传感器83.84TB U.2 NVMe安全擦除设备(SED)12风扇模组 6机柜固定螺丝电源按键/状态LED用户身份证明按钮/LED报错LED指示灯GPU板组主板板组6电源装置请务必阅读正文之后的免责声明及其项下所有内容智算中心:服务器拆解(以DGX H100为例)服务器内部:包括2颗CPU和8颗GPU、2个网络模组(每个包含4颗ConnectX-7)、32颗内存(64GB)、PCIe Switches、NvSwitch、线缆等。负载数据流:1)当执行AI工作负载时,数据通过存储网络进入机器,经CPU处理后,送到GPU进行计算;2)GPU计算完成后,数据会被发回存储或进行进一步处理。图18:服务器内部网络连接资料来源:英伟达,国信证券经济研究所整理网卡 网络模块 存储请务必阅读正文之后的免责声明及其项下所有内容智算中心:单POD耗能测算 单POD IT耗能测算:根据英伟达披露数据,127节点POD功率合计为1411.176kw,其中计算部分占比最高(为89.83%,即DGX H100服务器),其次为计算用交换机(为5.72%)。表6:单POD耗能测算资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理服务器 交换机计算(Compute)存储(Storage)管理(Mgmt)网络(Fabric)计算(Compute)存储(Storage)In-Band管理Out-of-Band管理对应产品 DGX H100 多种PowerEdge R750NVIDIA UFM 3.1QM9700 QM9700 SN4600C SN2201数量 127/5 4 48 16 8 8平均功率(Watts)单一 10,200 2880 704 600 1,376 1,376 466 98加总 1,295,400 17,280 3,520 2,400 66,048 22,016 3,728 784峰值功率(Watts)单一 10,200 3,600 880 750 1,720 1,720 820 135加总 1,295,400 21,600 4,400 3,000 82,560 27,520 6,560 1080峰值热负荷(BTU/h)单一 34,804 12,284 3,003 2,559 5,869 5,869 2,798 461加总 4,420,088 73,702 15,013 10,236 281,706 93,902 22,384 3,685系统占比 89.83%1.50%0.31%0.21%5.72%1.91%0.45%0.07%请务必阅读正文之后的免责声明及其项下所有内容智算中心:单位算力能耗模型 单台服务器对应IT设备功率:以英伟达DGX H100服务器为例,单台服务器功率为10,200w;如前文所述,已知127节点SuperPOD中服务器部分(存储、网络、管理)和交换机部分(计算、存储、In-Band管理、Out-of-Band管理)功率,则对应单台服务器为911.62w,加总可知单台服务器对应IT设备功率要求为11,112w;单台服务器对应智算中心用电量:假设利用率为80%,PUE为1.25,可知单台服务器对应智算中心功率消耗为11,112w,对应年度用电量为97,338KWh;单位算力对应智算中心用电量:已知单台DGX H100服务器算力为8 petaFLOPS(TF32)和16 petaFLOPS(FP16),则TF32下单位petaFLOPS算力对应智算中心年度用电量为12,167 Kwh,FP16下单位petaFLOPS算力对应智算中心年度用电量为6,084 Kwh。表7:单位算力能耗模型资料来源:英伟达,NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所测算功率(W)DGX H100服务器 10,200AI算力-GPU 5600H100 SXM 700数量(颗)8其他-CPU、网络模组、PCIe Switch、NVSwitch等 4600127节点服务器-存储部分 17,280对应单节点服务器存储 136 127节点服务器-管理部分 3,520对应单节点服务器管理 28 127节点服务器-网络部分 2,400对应单节点服务器网络 19 127节点对应交换机-计算部分 66,048对应单节点服务器对应交换机-计算部分 520 127节点对应交换机-存储部分 22,016对应单节点服务器对应交换机-存储部分 173 127节点对应交换机-In-Band管理部分 3,728对应单节点服务器对应交换机-In-Band管理部分 29 127节点对应交换机-Out-of-Band管理部分 784对应单节点服务器对应交换机-Out-of-Band管理部分 6 单台服务器对应IT设备功率要求 11,112(加总)单台服务器对应IT设备功率要求 11,112(加总)利用率 80%(假设)单台服务器对应IT设备功率消耗 8,889 PUE(=数据中心总能耗/IT设备能耗)1.25(假设)单台服务器对应智算中心功率消耗 11,112 单台服务器对应智算中心年度用电量 97,338(KWh)单台DGX H100服务器对应算力TF32 8petaFLOPS单petaFLOPS对应智算中心年度用电量(TF32)12,167 Kwh/petaFLOPSFP16 16petaFLOPS单petaFLOPS对应智算中心年度用电量(FP16)6,084 Kwh/petaFLOPS请务必阅读正文之后的免责声明及其项下所有内容智算中心:对电力的影响 智算中心对全球用电量的影响:根据华为GIV发布的智能世界2030预测,预计2030年全球通用算力将达到3.3ZFLOPS(FP32),其中AI算力将超过105ZFLOPS(FP16),增长500倍。根据上文测算结果,FP16下单位petaFLOPS算力对应智算中心一年用电量为6,084kWh,则105ZFLOPS对应每年638.82太瓦时用电量,以22年为基年,额外带来2.4%的全球用电增量。但是由于智算中心全球分布不均匀,主要集中在美国、中国等地区,根据Wind数据,美国23年总计用电量为4,000.22太瓦时,假设全球智算中心美国占比60%(对应383.29太瓦时用电),则额外带来9.6%的用电增量(以23年为基年)。智算中心对中国用电量的影响:根据IDC和浪潮联合发布的2023-2024年中国人工智能计算力发展评估报告数据,预计27年中国智能算力规模将达到1117.4EFLOPS(FP16),根据上文测算结果,对应67.98亿千瓦时增量。图19:全球用电量情况(单位:太瓦时)资料来源:Wind,国信证券经济研究所整理图20:中国用电量情况(单位:亿千瓦时)资料来源:Wind,国信证券经济研究所整理47,02649,65753,22555,213 55,50059,19863,07768,44972,25575,11083,12886,37292,2415.6%7.2%3.7%0.5%6.7%6.6%8.5%5.6%4.0%10.7%3.9%6.8%0%2%4%6%8%10%12%0 10,000 20,000 30,000 40,000 50,000 60,000 70,000 80,000 90,000 100,000 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023中国用电量(亿千瓦时)yoy20,03720,47321,20921,81322,07822,61623,31124,09224,437 24,35725,78926,5732.2%3.6%2.8%1.2%2.4%3.1%3.3%1.4%-0.3%5.9%3.0%-1%0%1%2%3%4%5%6%7%0 5,000 10,000 15,000 20,000 25,000 30,000 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022全球用电量(太瓦时)yoy请务必阅读正文之后的免责声明及其项下所有内容能源侧:智算中心电力消耗测算01供电侧:多种配电方案并存02目录冷却侧:液冷将替代传统风冷方案03案例研究:新型绿色智算中心分析04投资建议及风险提示05请务必阅读正文之后的免责声明及其项下所有内容供电侧:主流供电方案 供电方案:目前主流的供电方案包括交流UPS架构、高压直流架构、机架式直流架构。交流UPS架构:当市电正常供电时,UPS为电池组充电;当市电中断时,电池组放电,经逆变电路为服务器机柜提供持续的电力供应。目前该架构为行业内最成熟的供电技术,但也存在单点故障、电能变换效率低、设备拓展性差、多机并联易出现环流等问题;高压直流架构:其具备效率高、并机方便等优势,在智算中心占比逐步提升,例如阿里巴巴杭州东冠机房采用高压直流架构,但仍存在单点故障问题,且对器件可靠性和直流断路器等设备要求较高;机架式直流架构:谷歌等公司最早提出了机架式UPS架构,将服务器、UPS设备和电池组集成到服务器机柜内部,避免了单点故障。图21:智算中心常见供电方案资料来源:叶桂森著-数据中心供电-负载协同优化运行技术研究-山东大学(2023年)-P7,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容供电侧:主流供电方案-交流UPS供电架构 交流UPS供电架构:由整流器、逆变器、蓄电池组、静态STS切换开关组成,实际应用中主要分为UPS 2N架构和市电+UPS架构。1)市电正常:市电通过整流器、逆变器向负载供电,同时为蓄电池充电;2)市电异常或中断:蓄电池作为电源,通过逆变器向负载供电;3)逆变器、蓄电池等中间环节故障:通过STS切换开关,改由交流旁路向负载供电;优势:1)输出电能品质高:对负载供电均由逆变器提供,能消除市网电压波动和干扰,实现无干扰稳压供电;2)无转换时间:市电供电或蓄电池供电,UPS内部无转化运作;劣势:1)供电效率低,电能损失严重:电能自输入系统到IT设备主板,需反复多次AC和DC转换,产生损耗;2)结构复杂,维护困难:为提高可靠性,通常采用冗余供电,导致结构负载,同时逆变、蒸馏任何环节出现故障,导致系统故障,维修难度较大;3)可靠性差:市电中断,蓄电池放电通过逆变模块输出,若其损坏,则无法供电给负载。UPS 2N架构:由两套完全独立的UPS系统、同步LBS控制器、静态STS切换开关、变压器等设备组成;两套UPS系统从不同的低压配电系统引电,平时每套系统带载一半电荷,当一套系统出现故障时,另外一套系统带载全部电荷。市电+UPS架构:由一路市电和一路UPS系统组成;平时市电作为主用电源带载全部电荷,当市电断电或者质量不满足要求时转由UPS供电。图22:交流UPS供电架构资料来源:周京华、王江博著-数据中心供电架构概述与展望-电源学报(2023)-P3,国信证券经济研究所整理图23:UPS 2N架构资料来源:周京华、王江博著-数据中心供电架构概述与展望-电源学报(2023)-P3,国信证券经济研究所整理图24:市电+UPS架构资料来源:周京华、王江博著-数据中心供电架构概述与展望-电源学报(2023)-P4,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容供电侧:主流供电方案-高压直流供电架构 高压直流供电架构:由交流配电模块、整流器、直流配电模块、蓄电池组和监控装置组成,包括336V高压直流和240V高压直流两种标准,336V为中国移动标准,需要改造设备和定制电源模块,240V为中国电信标准,配置时基本不需要进行设备改造和电源定制,应用范围更广,实际应用中主要分为240V 2N直流供电架构和市电+240V直流供电架构。工作原理:整流器为核心部件,交流电通过整流器、直流配电模块为IT设备供电,且为蓄电池充电,保障在市电中断或市电质量不满足要求时,通过蓄电池实现不间断供电;优势:1)节能:没有逆变环节,减少转换步骤和电路设备,且高压直流集肤效应小于交流电,输电损耗小;2)可靠性高:蓄电池为负载直接供电且没有逆变环节,设备数量少,故障点减少,可靠性提高;3)无“零地”电压问题:直流输入,系统无零线,避免不明故障;4)利于新能源接入:减少分布式发电系统(如光伏)及直流负荷接入电网的中间环节,进而降低接入成本,提高功率转换效率和电能质量;劣势:1)对配电开关灭弧性能要求高:由于直流电不存在零点,灭弧相对困难,直流配电所需开关性能要求高;2)换流设备成本高:直流换流站比交流变电所的设备多,结构负载,造价高,损耗大,运行费用高。240V 2N直流供电架构:由两套完全独立的2套240V直流系统组成,2套直流系统从不同的低压配电系统引电,平时每套240V直流系统带一半负载,当一套系统出现故障时,另一套系统带全部负载。市电+240V直流供电架构:由一路市电供电和一路240V直流系统供电组成,平时市电供电作为主用电源带全部负载,当市电断电或质量不满足要求时,转由240V直流系统供电。图25:高压直流供电架构资料来源:周京华、王江博著-数据中心供电架构概述与展望-电源学报(2023)-P4,国信证券经济研究所整理图26:240V 2N架构资料来源:周京华、王江博著-数据中心供电架构概述与展望-电源学报(2023)-P5,国信证券经济研究所整理图27:市电+240V直流架构资料来源:周京华、王江博著-数据中心供电架构概述与展望-电源学报(2023)-P5,国信证券经济研究所整理交流配电 整流器 直流配电 IT负载蓄电池组监控装置市电输入变压器A市电输入变压器B市电输入240V高压直流系统A240V高压直流系统BIT负载变压器A市电输入变压器B市电输入240V高压直流系统AIT负载请务必阅读正文之后的免责声明及其项下所有内容供电侧:DGX H100机架配电要求 DGX H100机架配电要求:DGX H100机架可在全球范围内部署,其机架式配电单元(rPDUs)将三相输入电路转化为200-240 VAC的单项电路;通常高密度部署模式下,首选415 VAC、32A、三相、N+1部署规格。配电冗余:DGX H100系统拥有6个内部电源接口,至少4个电源接口通电才可以保证服务器运行;从输入电路(Power Source)来看,计算机架(DGX H100服务器机架)使用N+1冗余方案(此处N=2),管理机架可以使用2N冗余方案(此处N=2)。表8:SU部署电压、电流要求资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理相(Phase)配电电压(Distribution Voltage,V)线路电压(Line Voltage,V)电流(Amps)断路器折减(Breaker Derating)电路容量(Circuit Capacity,kW)最大单机柜承载DGX H100服务器数量(个)单电路服务器峰值需求(kW)标准容量(峰值需求,kW)1 230 230 63 100%13.7 2 10.2 3.53 Delta 208 208 60 80%32.8 4 20.4 12.43 Wye 400 230 32 100%21 4 20.4 0.63 Wye 415 240 32 100%21.8 4 20.4 1.43 Wye 415 240 60 80%32.7 4 20.4 12.3注:1)电路容量计算使用0.95功率因数(Power factor);2)以上计算基于三电路N+1供电方案,没有电路承载超过50%的负载;3)从热力学角度考虑,不推荐单机柜服务器数量超过4;请务必阅读正文之后的免责声明及其项下所有内容供电侧:DGX H100机架配电要求-传统2N冗余方案(管理机柜)传统2N冗余方案:两路输入电路经由UPS(即UPS A Source和UPS B Source)进入Floor PDU,再接入rPDU(机架式PDU);在2个rPUD中每一相中选择1个电源接口连入服务器,为服务器供电。优势:传统的2N冗余方案适用于传统的IT设备和网络设备,亦适用于管理机柜,同绝大多数数据中心适配;劣势:若其中1个输入电路(Power Source)中断,则服务器通电的电源接口则少于4个,进而导致整个系统的中断,AI工作负载将中止。图28:传统2N冗余方案(管理机柜)资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容供电侧:DGX H100机架配电要求-N+1冗余方案(计算机柜)N+1冗余方案:两个UPS向电源提供三条电源通路,如下图所示,该机架承接两路来自UPS B的馈电,下一个机架将承接两路来自UPS A的馈电,将最小化对指定UPS源的依赖,并平衡其间负载。优势:提供基本的电池冗余,在系统PSU、单个rPDU或单个Floor PDU/RPP损害情况下,仍能支持AI负载工作;与大多数数据中心兼容;劣势:成本上升,结构更加复杂,3个rPDU中2个由相同的UPS供电,则主UPS(例如下图UPS B)损害或故障,将导致系统断电。增长N+1冗余方案:使用3个离散的UPS系统供电,提供3条离散的配电路径;优势:每个rPDU由离散的UPS供电,单一UPS损坏或中断,系统仍能支持AI负载工作;劣势:兼容性较差,很多数据中心的设计不支持。图29:N+1冗余方案资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理图30:增强N+1冗余方案资料来源:NVIDIA DGX SuperPOD Data Center Design,国信证券经济研究所整理请务必阅读正文之后的免责声明及其项下所有内容供电侧:弧闪危险及上游断路器脱扣风险 弧闪危险增加:弧闪指电流击穿空气形成短路电弧时的情况,发生弧闪时,电流穿过空气从一点流向另一点,在一秒钟的时间内释放出大量的能量(即入射能量),能量以热、声、光和爆炸压力