2021年版算力感知网络(CAN)技术白皮书.pdf
算力感知网络 ( CAN) 技术白皮书 ( 2021 年版 ) 中国移动研究院 算力感知网络技术白皮书 I 前 言 面对万物互联的数字新时代, 5G+边缘计算已经成为行业数字化 转型的关键使能技术。随着 5GC 的云化部署 ,通过 NFV 技术的实践初 步实现了 IT 技术在 CT 领域广泛应用。但目前 IT 与 CT 仍是两个分层 解耦的系统,无法实现深层次的协同融合。但随着边缘计算在网络中 的广泛部署,算力从集中走向分布,计算从“点”到“网”逐渐成为 网络基础设施的重要组成部分, IT 与 CT 需要进一步协同融合,为用 户提供综合 ICT 服务。面向 6G 演进的网络中,算力与网络资源将共 生, ICT 融合将走入深水区, ICT 融合的方式由 NFV 时代的“ IT 服务 于 CT”,向“ IT 与 CT 系统相互感知”演进。为了实现 IT 和 CT 的高 度协同感知,中国移动主导提出一种基于分布式系统 的计算网络融合 技术方案 算力感知网络( CAN, Computing-aware Networking), 实现 ICT系统的联合优化调度,提供端到端 ICT系统的 SLA体验保证。 算力感知网络基于无处不在的网络连接,将动态分布的计算与存储资 源互联,通过网络、存储、算力等多维度资源的统一协同调度,使海 量的应用能够按需、实时调用泛在分布的计算资源,实现连接和算力 在网络的全局优化,提供一致的用户体验。面对算网协同感知的核心 网络需求,需要从架构、协议和度量等方面协同演进构建算力感知网 络架构体系。 从架构层面上,面对边缘计算 、异构计算、人工智能等新业务, 需要从 IaaS资源层编排基础上研究向 PaaS/SaaS/NaaS等一系列上层 算法 /函数 /能力的编排演进。并进一步探索实现编排系统与网络调度 算力感知网络技术白皮书 II 系统的协作,实现 XaaS 能力按需灵活部署。 从协议层面,传统网络优化路径,实现信息在节点之间传输的 SLA,但不考虑节点内部算力的负载。未来算网融合的网络需要感知 内生算力的资源负载和 XaaS 能力和性能。选路的优化需考虑网络和 算力两个维度的性能指标。同时考虑结合数据面可编程技术如利用 SRV6 可编程性实现算网信息协同,实现控制面和数据面的多维度创 新 。 从度量来看,网络体系的建模已经很成熟,但算力体系由于异构 硬件、多样化算法,度量衡和建模还没有形成体系,属于业内研究热 点。算力感知网络需要依托统一的算力度量衡体系以及能力模板,支 撑“最优路径 +最佳算力”的新型算力路由度量机制。 本白皮书主要研究算力感知网络的架构、关键技术以及所面临的 挑战,希望通过在算力感知网络体系架构、算力度量、算力感知、算 力路由、算力管理等方面的探索,为未来面向算网融合演进的新型网 络构建提供参考。 本白皮书的版权归中国移动研究院所有 ,并受法律保护。转载、 摘编或利用其它方式使用本白皮书 文字或者观点的,应注明来源。 编写单位:中国 移动通信集团研究院 编写组成员:姚惠娟、 魏华、 付月霞、刘鹏、杜宗鹏 、孙滔、陆璐 算力感知网络技术白皮书 I 目 录 1. 算网融合发展的背景 . 1 1.1 面向算网融合的演进驱动力 . 1 1.2 计算网络融合产业发展现状 . 3 1.3 算力感知网络的价值 . 5 2. 算力感知网络体系架构 . 6 2.1 算力感知网络的概念 . 6 2.2 算力感知网络体系架构 . 7 3. 算力感知网络的关键技术 . 8 3.1 算力度量与算力建模 . 8 3.2 算力路由层关键技术 . 11 3.3 算网管理层关键技术 . 15 3.4 算力服务层关键技术 . 17 4. 算力感知网络相关标准化工作 . 18 4.1 国际标准化工作 . 18 4.2 国内标准化工作 . 19 5. 总结 . 20 缩略语列表 . 21 参考文献 . 23 算力感知网络技术白皮书 1 1. 算网融合发展的背景 1.1 面向算网融合的演进 驱动力 在当前 5G 网络发展建设的关键时期,边缘计算和 NFV 等技术都要求网络与 计算的协同发展。同时,随着物理世界和数字世界的进一步融合,行业数字化转 型获得了全方位地提升和改变,给运营商带来全新的市场和发展空间,也带来更 多的需求挑战。 数字化转型需要泛在的连接和算力 网络作为物理世界和数字世界的连接桥梁实现数据流动,是支撑数字化转型 的基础和关键技术之一,将面临带宽、时延和安全等方面的更高需求。数字化转 型的持续推进促使数据规模的成倍增长,对传统网络和云计算提出了巨大挑战, 驱动计算向边缘侧下移形成网络中分散的算力资源 。因此网络在实现分散节点互 联的同时,更需要协同调度算力;另外,产业智能化升级带来设备的多样性, IoT 传感器、摄像头等设备的应用产生愈加多样化的数据,需要 数字 世界提供 知识 、 智能 和 运算能力 ,实现数据价值化,并可反馈 对数据的 控制和策略。所以整个行 业的产业化智能升级对网络和计算都提出了更高的需求,要求基础设施 IT, CT 逐渐走向融合,需要基础设施不仅提供泛在的连接,还需要提供算力的支持。 图 1-1 物理世界和智能世界融合 边缘计算驱动算力从中央走向边缘 边缘计算在靠近数据源或用户的地方提供计算、存储等基础设施, 为边缘应 用提供云服务和 IT 环境服务,可以满足业务的低时延需求,并有效缓解网络带 宽压力。但是单个站点的算力资源有限,且无法保证在特定时间点为所有业务提 算力感知网络技术白皮书 2 供所需的 SLA 保证。为了保障用户时延、带宽、计算等服务体验,运营商在现有 网络基础上,打造面向全连接的算力平面,将计算任务调度至最优的边缘节点进 行处理。现场侧边缘计算实现业务灵活接入,为用户提供智能化接入和实时数据 处理;网络侧边缘负责承载人工智能和图像识别等新业务,就近为用户提供丰富 算力 1。边缘计算助力算力从中央走向边缘,促进基础资源层面网络与计算的融 合,算力 资源由端变网逐步实现智能化基础设施的全网覆盖。 图 1-2 计算从中央 走向边缘 网络演进推动算力网络相互感知 5G 引入 NFV 技术使网络开始逐步云化 2,具备了向 IT 技术演进的路线和基 础,使得算力开始 服务于网络并可随着网络延伸,此时的 IT 资源还仅仅作为 CT 网络一种资源提供方式,不对外直接提供 IT 服务,此阶段的 IT 与 CT 融合可称 为 ICT 纵向融合。同时, 5G 网络原生支持边缘计算, 5G 用户面下沉为边缘计算 的实现创造了网络条件,使得计算资源离用户更近,进而推动网络中的计算从集 中走向边缘,计算开始嵌入网络,计算资源逐渐成为网络基础设施的重要组成部 分, ICT 融合的方式由 NFV 时代的“ IT 服务于 CT”,向“ IT 与 CT 系统相互感知” 演进,与计算将实现资源能力两个层面全方位融合,算网协同感知成为网络演进 的核心需求 3。 面向 6G 演进,算力与网络资源将共生, IT 与 CT 系统需要具备相 互感知的能力,实现网络和算力在全网的联合优化调度,提供端到端 ICT 系统的 SLA 体验保证。 算力感知网络技术白皮书 3 1.2 计算网络融合产业发展现状 为了满足未来 IP 网络中越来越多的业务种类和不断增强的业务 SLA 诉求, 中国移动在下一代 IP 网络领域积极开展探索研究,并提出了“ IDEAS”未来 IP 网络发展的创新思路,包括智能路由、确定性 QoS、算力内生、无障碍连接和安 全性保障五大技术方向。如图 1-3 所示,中国移动 IDEAS 网络遵从 Internet“开 放互联”的原则,通过在传统 IP 网络上增加新的能力,逐步构建下一代新型 IP 网络。其中,“ E”即为算力感知网络,是算网融合趋势下中国移动提出的 IP 网络技术创新路线之一。 图 1-3 中国移动“ IDEAS”未来 IP 网络发展思路 中国移动全面布局算网融合趋势下未来网络技术研究,并积极推动相关产业 发展。 2019 年 11 月,中国移动发布了业界首个算力感知网络技术白皮书 ( 2019 年版) 4,首次向业界介绍了算力感知网络( CAN, Computing-aware Networking) 的背景与需求、体系架构、关键技术、部署应用场景及关键技术验证等内容,白 皮书中首次提出了算力感知网络体系架构 v1.0,如图 1-4 所示。 算力感知网络技术白皮书 4 图 1-4 算力感知网络功能架构 ( 2019 年版 ) 为了进一步推动算力感知网络的研究,中国移动开展了基于现网环境的算力 感知网络实验网部署测试。 2019 年 11 月,中国移动联合华为在浙江移动 MEC 节 点启动算力感知网络实验网测试,节点间平均距离约为 30km, ping 平均时延约 4ms,平均通量接近 1000Mbps。本次实验分别针对算力感知网络的 MEC 系统与 传 统 MEC 系统 进行了性能测试,并对系统算力容量和端到端平均时延两大关键性能 指标进行对比。测试结果表明,在较理想的网络负载情况下,部署算力感知网络 的 MEC 系统的算力容量比传统 MEC 系统 可提升 33.17%,端到端平均时延可提升 35.29%4。 面向计算网络融合的演进需求,业界也开展了许多研究与探索工作。 2020 年第 8 次网络 5.0 全会上,信通院联合三大运营商、华为、中兴、新华三成立了 网络 5.0 创新联盟算力网络特设组,就目前提出的算网融合趋势下不同技术路线 展开研究和探索 5,包括算力网络 6和算力感知网络 78等,旨在达成算力网络研 究共识,推动产业发展 9;此外,在 IMT-2030 6G 网络工作组也成立了算力网络 研究组,研究在 6G 网络中计算、网络融合对于未来网络架构的影响和关键使能 技术。此外, IRTF 成立了在网计算研究组( COINRG),在网计算指网络设备的 功能不再是简单的转发,而是“转发 +计算”,计算服务不再处于网络边缘,而 是嵌入网络设备中。该工作组主要面向可编程网络设备内生功能的场景、潜在有 益点展开研究,其中内生功能包括在网计算、在网存储、在网管理和在网控制 等, 是计算、网络更深层次融合的下一发展阶段,也吸引了许多研究人员的关注。 算力感知网络有望成为运营商 B5G/6G IP网络技术演进趋势的新型基础网络 算力感知网络技术白皮书 5 架构之一。 本白皮书将基于算力感知网络技术白皮书 ( 2019 年版) ,进一 步介绍中国移动算力感知网 络研究思路和最新研究进展,包括算力感知网络的功 能架构、关键技术体系、标准化工作方案等,并分享中国移动对于算网融合趋势 下未来 IP 网络演进的方向和关键技术体系的思考。 1.3 算力感知网络的 价值 综上所述,在网络和计算深度融合发展的大趋势下,网络演进的核心需求需 要网络和计算相互感 知,高度协同,算力感知网络基于无处不在的连接,将泛在 计算互联,实现云、边、网高效协同,提高网络资源、计算资源利用效率,进而 实现: 实时、快速业务调度 :基于网络层实时感知业务需求和网络、计算状态,相 比于传统的集中式云计算调度,算力感知网络可以结合实时信息,实现快速的业 务调度; 保证用户体验一致性 :网络可以感知无处不在的计算和服务,用户无需关心 网络中的计算资源的位置和部署状态。网络和计算协同调度保证用户的一致体验; 服务灵活动态调度 :网络基于用户的 SLA 需求,综合考虑实时的网络资源状 况和计算资源状况,通过网络灵活匹配、动态调度,将业务流量动态调度至最优 节点,让网络支持提供动态的服务来保证业务的用户体验。 算力感知网络技术白皮书 6 2. 算力感知网络体系架构 2.1 算力感知网络的概念 算力感知网络是计算网络深度融合的新型网络架构,以现有的 IPv6 网络技 术为基础,通过无所不在的网络连接分布式的计算节点,实现服务的自动化部署、 最优路由和负载均衡,从而构建可以感知算力的 全新网络基础设施,保证网络能 够按需、实时调度不同位置的计算资源,提高网络和计算资源利用率,进一步提 升用户体验,从而实现网络无所不达,算力无处不在,智能无所不及的愿景。 图 2-1 算网一体化演进思路 如图 2-1 所示,基于算力感知网络的概念,中国移动从新架构、新协议、新 度量等方面协同演进,构建面向算网一体化演进的新型基础网络。其中新架构方 面,主要从当前计算和网络单独管理和运维到网络计算融合演进的统一编排体系 的架构上考虑。新协议方面主要从传统网络调度到网络和计算联合调度演进,即 网络需要不仅做网络路径的优化,还需要 考虑节点的算力资源状况,为业务通过 最佳路径调度到最佳的服务节点。新度量主要考虑到算力资源作为网络基础设施 的重要组成部分,基于统一的建模和感知构建算力度量体系实现异构算力资源的 抽象表示和统一描述,这作为算力感知网络的研究基础,为算力感知和通告、算 力 OAM 和算力运维管理等功能提供标准度量准则。 算力感知网络技术白皮书 7 2.2 算力感知网络体系架构 为了实现泛在计算和服务感知、互联和协同调度,算力感知网络架构体系从 逻辑功能上可划分为算力服务层、算网管理层、算力资源层、算力路由层和网络 资源层,其中,算力路由层包含控制面和转发面,如图 2-2 所示。 图 2-2 算力感知网络体系架构图 算力服务层:承载泛在计算的各类服务及应用,可以将用户对业务 SLA 的请 求包括算力请求等参数传递给算力路由层,此外,算力服务层还可以接收来 终端用户的数据,并可以通过 API 网关实现服务分解、服务调度等功能。 算网管理层:完成算力运营及算力服务编排,完成对算力资源和网络资源的 管理,包括对算力资源的感知、度量和 OAM 管理等;实现对终端用户的算网 运营,以及对算力路由层和网络资源层的管理。 算力资源层:利用现有的计算基础设施提供算力资源,计算基础设施包括从 单核 CPU 到多核 CPU,到 CPU+GPU+FPGA 等多种计算能力的组合;为满足边缘 计算领域多样性计算需求,面向不同应用,在物理计算资源基础上,提供算 力模型、算力 API、算网资源标识等功能。 算力路由层:包含控制面和转发面;基于抽象后的算网资源发现,综合考虑 算力感知网络技术白皮书 8 网络状况和计算资源状况,将业务灵活按需调度到不同的计算资源节点中, 算力路由层是算力感知网络的核心。 网络资源层:利用现有的网络基础设施为网络中的各个角落提供无处不在的 网络连接,网络基础设施包括接入网、城域网和骨干网。 其中,算力资源层和网络资源层是算力感知网络的基础设施层, 算网管理层和算 力路由层是实现算力感知功能体系的两大核心功能模块。算力感知网络体 系架构 基于所定义的五大功能模块,实现了对算网资源的感知、控制和 管理 。 感知:算力应用与网络之间支持“用户需求”与“计算互联资源”的映射 和协商,通过对算力服务层的需求感知,网络可以获取用户或服务的算力 需求,进而可以实现网络可编程和业务自动适配;算力路由层通过对算力 资源层的资源感知,从而获取可用的算力资源,进而可以实现多样化的路 由和转发策略。 控制:算力路由层与算力资源层之间,通过感知算力资源及服务需求实现 控制信息下发,使网络对于算 力资源及服务需求实现可控。 管理: 算网管理层对算力资源层、算力路由层以及网络资源层的监控、度 量、管理, 完成设备注册、资源上报、性能监控、故障管理、计费管理等 运营管理功能 。 3. 算力感知网络的关键技术 基于算力感知网络体系架构,本章详细介绍了算力度量与算力建模、算力路 由层关键技术、算网管理层关键技术以及算力服务层关键技术。 3.1 算力度量与算力建模 作为算力感知网络的基础,如何对算力进行度量、建模,如何建立统一的算 力模型是构建算力感知 网络的基础问题。基于统一的度量体系,通过对不同计算 类型进行统一的抽象描述,形成算力能力模板,可以 为算力路由、算力设备管理、 算力感知网络技术白皮书 9 算力计费等提供标准的算力度量规则 。 3.1.1 算力度量 算力是在完成不同的计算任务过程中衡量单位时间内计算设备可处理数据 量的指标,数据处理方式包括但不限于浮点计算、稠密矩阵计算、向量计算、并 行计算等方式,数据处理过程受硬件、算法、数据提供方式等多方面因素影响。 从设备性能的角度出发,首先,可以对异构硬件设备进行算力度量,从而有 效的展示设备对外提供计算服务的能力;由于计算过程受不同算法的 影响,因此, 可以对不同算法进行算力度量的研究,从而获得不同算法运行时所需算力的度量。 最后,由于用户所需的不同服务会产生不同的算力需求,通过构建用户算力需求 度量体系,可以有效的感知用户的算力需求。 ( 1)异构硬件算力的度量 异构硬件算力的度量主要是指对不同芯片、芯片的组合以及不同形态的硬件 进行统一的算力度量,对异构芯片及硬件的度量是建立算力度量的基础。 ( 2) 多样化算法算力的度量 通过对不同的算法,如神经网络、强化学习、深度学习等算法所需的算力进 行度量,可以有效的了解应用调用算法所需的算力,从而更有效的服务于应用。 ( 3) 用户算力需求的度量 通过对网络延迟、计算量、计算类型、业务种类等需求的分析构建用户算力 需求度量体系,把用户需求映射为对应实际所需的算力资源,从而更有效的感知 用户的需求,提高与用户交互效率。 3.1.2 算力建模 通过对异构计算资源进行建模,可以建立统一模型描述语言,从而探索节点 资源性能模型,实现异构节点的统一模型化功能描述;通过探索不同算法算力需 求的功能描述结合节点资源性能模型,从而构建服务能力模型实现节点服务能力 的多维度展示。 算力建模过程中,首先需要对异构的物理资源进行建模,将 FPGA、 GPU、 CPU 等异构的物理资源构建统一的资源描述模型;然后,从计算、通信、存储等方面 对资源性能建模,构建统一的资源性能指标;最后,通过构建资源性能指标与服 务能力的映射完成对服务能力的建模,算力建模的最终目的是实现对外提供统一 算力感知网络技术白皮书 10 的算力服务能力模型。 ( 1)异构资源建模 现有的 FPGA、 GPU、 CPU 等计算 模块 通常采用了各种不同的 架构,具备的能 力也各不相同 ,通过对不同计算设备中异构的计算资源进行建模,可以对服务屏 蔽底层物理资源的异构性,建模过程需要考虑现有的 CPU、 GPU、 FPGA、 ASIC 等 多维异构资源。 统一描述语言 可以提供标准化资源描述: 名称:提供了属性名称 符号:提供了属性缩写,采用驼峰命名的方式 类型:提供了对应属性的类型 描述:提供针对属性的简要说明 ( 2) 资源性能建模 图 3-1 资源性能建模 如图 3-1 所示,从计算、通信、存储 等方 面对资源性能建模,可以构建统一 的、可度量的资源性能指标从而可以统一标识不同算力设备在各个方面的性能。 ( 3) 服务能力建模 算力建模的最终目标是实现对外提供统一的算力服务能力模型,通过建立服 务能力指标与资源性能映射机制,可以构建服务能力模型。 算力感知网络技术白皮书 11 3.2 算力路由层关键技术 算力路由层是算力感知 网络的核心功能层,支持对网络、计算、存储等多维 资源、服务的感知与通告,实现“网络 +计算”的联合调度。算力路由层包括算 力路由控制技术和算力路由转发技术实现业务请求在路由层的按需调度。 3.2.1 算力路由控制技术 算力路由控制包括多维资源和服务状态感知和通告、新型算力路由生成、多 维资源调度策略生成。 图 3-2 算力路由控制逻辑图 如图 3-2 所示, 多个 边缘 DC 分别将其位置信息、 算力资源信息、算力服务 信息等信息通过数据中心网关上报至各自就近的网络节点,实现网络对于多维资 源和服务的感知;该网络节点将接收到的算力节点 的信息进行汇聚后,选择性地 通告至网络中,实现网络对全网算力的感知和通告。另一方面,算力路由层也将 感知不同的业务需求,通过网络、计算联合路径计算,按需、动态生成业务调度 策略。 多维资源和服务感知:网络感知和通告计算节点侧状态 多维资源和服务的感知是实现动态、按需资源调度的前提,如图 3-3 所示, 不同的边缘计算节点将其资源状态信息或部署的服务状态信息发布至就近网络 节点,由网络节点在网络中通告更新。通过扩展现有路由协议,在数据包中携带 算力节点的服务状态信息,使得网络实时感知算力节点的信息。 算力感知网络技术白皮书 12 图 3-3 算力状态 感知和通告示意图 此外,为了减少网络中的信息通告量,算力网络节点支持将收到的算力节点 信息进行汇聚,如可以按照服务标识信息进行汇聚,在网络中通告汇聚后的算力 节点信息,算力状态通告有集中式和分布式两种方法。 如图 3-4 所示,集中式方法下算力网络节点将本节点连接了算力节点的信息 上报至集中式控制器,该控制器获取全网算力节点的位置信息、资源信息和服务 信息等后生成全网算力拓扑。上报至集中式控制器,该控制器获取全网算力节点 的位置信息、资源信息和服务信息等后生成全网算力拓扑。 图 3-4 集中式算力信息通告 如图 3-5所示 ,分布式方法下算力节点通告算力节点信息至就近网络节点后, 各网络节点将其连接的算力节点信息通告至临近网络节点,最终各网络节点生成 可以反映网络中算力节点分布情况、状态信息的算力拓扑。 算力感知网络技术白皮书 13 图 3-5 分布式算力信息通告 算力路由生成:网络节点生成算力感知的路由信息表 传统的路由表中只包括网络参数信息,在算力路由层中,计算网络节点基于 接收到的算力状态信息,维护本地算力信息表。路由控制面基于给定的路径 Metric 值计算方式生成算力感知的路由表,相比于传统的路由信息表,算力感 知的路由表中新增了“算力参数信息”和“网络、计 算总参数信息”。 算力感知调度:网络实现按需的算力资源、服务调度 算力感知调度基于应用需求,结合实时的网络、计算状态信息,将应用请求 沿最优路径调度至最优节点。基于“路径 +节点”联合计算和优化,从而实现可 以感知业务需求的、综合考虑“路径 +节点”状态的新型路径计算,满足业务需 求。 图 3-6 算力感知调度示意图 算力感知网络技术白皮书 14 3.2.2 算力路由转发技术 算力感知网络需要支持网络编程、灵活可扩展的新型数据面,来支撑算力服 务的最优体验。基于算力路由控制下发的算力转发信息表,算力路由转发将基于 转发表实现算力路由寻址。 算力需求感知 用户应用例如 VR/AR, V2X, AI 等支持向算力感知网络提出自身的算力和网 络接入请求,以及了解算力和网络的实时状态等信息, 通过在网络层 IPv6 数据 包中加入应用信息和需求信息等,实现网络对于用户应用的类型和需求的感知 。 具体来讲,携带的信息可以包括应用感知的 ID 信息,用来标识应用和用户 信息;以及网络性能需求信息,例如带宽、时延、抖动、丢包率、安全要求等, 以及计算需求信息,包括计算资源类型、需求量等。 基于 IPv6/SRv6 的算力路由转发 基于前期研究算力路由协议工作,本节继续完善设计算 力感知路由协议 ,结 合 IPv6/SRv6/VPN 等多种协议构建支持网络可编程、灵活可扩展的新型数据面基 于算力设计 IPv6/SRV6 等多种算力路由协议与流程。 如图 3-7 所示为基于 SRv6 实现算力路由转发 ,在入口网关处完成业务需求和转发路径的匹配与映射,基于 SRv6 实现显式路径转发。 图 3-7 基于 SRV6 实现算力路由转发示意图 如图 3-8 所示,基于 SRv6 的算力路由转发流程为: 1. 控制面通告网络、计算信息,生成路由信息表; 2. 首包探路: 用户发送携带业务需求和目的地址 service ID,发送给 入口 节点 R1; 3. 入口节点 R1 根据生成的路由信息表,完成 service ID 和 service IP 的映射,指定出口路由器 R3; 并根据策略选择路径; 4. 其中路径信息可选根据 SR-policy 生成满足用户的需求的最优路径。 算力感知网络技术白皮书 15 5. 后续报文根据 FIB 表直接转发报文。 图 3-8 基于 SRv6 的算力路由转发流程图 3.3 算网管理层关键技术 算力感知网络新型管理面包含算力设备的注册、 OAM、运营等,通过统一的 管理面对网络和算力进行管理和监测,并可生成算力服务合约以及计费策略对算 力进行 统一运营,如图 3-9 所示。 图 3-9 算力管理层 算力注册: 对算力节点的注册、更新和注销、以及相应的路由通告策略 进行管理。 算力 OAM:主要包括对算力资源层的算力性能监控、算力计费管理,算 力资源的故障管理。 算力感知网络技术白皮书 16 算力运营:基于若干个算力能力模版组合成算力合约,并生成相应的计 费策略。 算力能力模板:基于统一的算力度量体系,通过对不同计算类型进行统 一的抽象描述,形成算力能力模板。可以为算力设备管理、合约和计费 以及 OAM 提供标准的算力度量规则。 3.3.1 算力注册 算力感知 网络中遍布不同的算力,为了实现节点的管理以及业务的动态卸载, 算力感知网络需要对全网的算力节点进行注册,由算力管理平台下发各算力节点 的配置,包括算力信息的通告,和业务在计算节点之间的分配与调度策略。因此, 算力管理层需要支持算力节点注册功能,包括: 1. 区分包含算力的网络节点和传统的网络节点 2. 算力节点上线后,向算力管理平台通告其算力使能信息 3. 算力管理平台获取算力节点的参数信息,包含设备类型、芯片类型、存 储等资源 4. 算力管理平台下发配置策略,可以包括算力节点 ID 的分配等。 算力节点注册之后可以 由管理平台对各节点的算力进行存储,并订阅 /接收 算力的实时更新信息,进而向路由器下发算力节点信息,由路由器存储节点列表 并配置相应的路由通告策略。 3.3.2 算力 OAM 算力 OAM 指对设备的算力性能进行监控,通过多种类型的算力信息采集和上 报策略配置,支持最优算力节点的实时选择,并在故障时予以修复。 算力信息采集:由路由节点主动周期性地向算力节点发起探测(如通过 ICMP 协议等多种方式),或者通过下发算力探针的形式按需采集节点状态,实时收集 算力等信息,如果算力节点的链路状态或算力性能不能满足当前业务需求,则进 行链 路倒换或重新选择节点,保障最优算力服务节点的选择。 故障检测:边界路由节点作为多个算力节点的管理设备,需要感知到每个算 力节点的节点状态以及链路状态,一旦链路故障或节点故障可以及时的切换到新 的链路以及新的节点,满足低时延等极致的用户体验。 可以考虑将当前的计算能力状况、网络状况、业务请求作为 OAM 信息发布到 算力感知网络技术白皮书 17 路径当中,网络将相关的信息随数据报文转发到相应的计算节点,各节点做 OAM 信息表存储,实现最优的计算资源调度,最终实现最优的用户体验和网络利用率。 3.3.3 算力运营 算力运营包括建立算力的服务合约以及生成 相应的计费管理策略,由统一的 算力计费管理中心进行管理。 算力服务合约:服务提供商和用户双方之间协商而确定的关于算力服务质量 等级的协议或合同,而制定该协议或是合同是为了使服务提供商和用户对服务、 优先权和责任等达成共识。该合约一般可保存至用户签约数据库 HSS/AAA/UDM 等模块中。 算力计费管理:需要具备多维度多量纲的算力服务计费功能,比如按照 API 调用次数的计费,按照资源使用情况计费,或者根据用户等级计费等。同时算力 计费管理中心可以与现有的网络计费中心合设,通过扩展和增强现有的计费相关 接口和协议支持算力计 费功能,提供算网一体的新型算力系统。 针对未来网络计算融合的发展趋势,算力感知网络能够实现资源的最优调度, 需要这种算网融合的新型计费方案,不仅是对网络资源的要求,也包含计算、存 储等多种需求。同时可以基于服务等级协议 (SLA)进行算网融合精细化计费,满 足未来行业用户多样化的网络和计算资源的需求。 3.4 算力服务层关键技术 算力服务层可以承载计算的各类服务及应用,借助于微服务架构可以有效的 实现服务分解、服务调度等功能。大型应用程序分解为多个微服务时,每个微服 务可能使用不同的技术栈(开发语言,数据库等),因此,需要把 这些环境来形 成一个复杂的体系结构进行管理。目前,微服务架构上的部署依赖于以下技术: 容器技术:容器技术可以有效的将单个操作系统的资源划分到孤立的组中, 以便更好的在孤立的组之间平衡有冲突的资源使用需求。通过业务垂直拆分以及 水平的功能拆分可以将服务分解成多个细粒度的微服务,各微服务之间相互解耦, 从而可以使用容器技术进行有效的管理和部署。 容器编排:容器编排是指对容器组件及应用层的工作进行组织的流程,可以 实现海量容器的部署、管理、弹性伸缩、容器网络管理的自动化处理。服务分解 算力感知网络技术白皮书 18 后由多个解耦合的容器式组件构成,而这些组件需要通过相互间的协同合作,才 能使既定的应用按照设计运作。容器编排工具允许用户管理容器部署与自动更新、 运行状况监控以及故障转移等过程。 除微服务架构之外,基于 FaaS( Function as a Service)的 Serverless 构架也逐步为广大开发人员所采用。 Serverless 是一种按需提供后端服务的方 法。它允许用户编写和部署代码,而不必关心底层基础结构。从 Serverless 供 应商处获得后端服务的公司将根据其计算费用,而不必保留和支付固定数量的带 宽或服务器。 目前, 普遍认为 Serverless 是 FaaS 与 BaaS( Backend as a Service) 的结 合,其中, BaaS 负责提供各种后端云服务,比如云数据库、对象存储、消息队 列等。当后端云服务组件来自不同云服务提供商时,采用算力感知路由技术选择 最佳的后端云服务提供者可以有效的减少服务响应时间,从而提高用户体验。 4. 算力感知网络相关标准化工作 中国移动全面布局算力感知网络的标准化研究,先后在 ITU、 IETF、 BBF、 CCSA 等国内外标准化组织开展立项研究,积极推动算力感知网络的场景、需求、架构 和关键技术研究与 标准化工作。 4.1 国际标准化工作 4.1.1 ITU-T 中国移动在 ITU-T 开展了多项算力感知网络相关的标准化工作,在 FGNet2030 的研究报告中积极贡献算力感知网络的多项研究成果,“网络计算融 合”作为典型应用场景之一,对该场景的多项指标进行了定性分析,提出了对未 来网络的技术需求 和 管理需求 10。 此外,在未来网络研究组,中国移动主导立项了算力感知网络的场景和需 求国际标准,聚焦算力感知网络的应用场景和技术需求展开研究,目前已提交 并通过 5 篇国际标准文稿,包括算力感知网络的应用场景以及关键技术要求 11。 中国移动后续将继续开展算力感知网络的功能架构、关键技术等国际标准研究工 算力感知网络技术白皮书 19 作。 此外,在下一研究周期的讨论中,中国移动推动算力感知网络写入云计算工 作组的研究内容中,成立未来网络研究组的重要工作方向之一,奠定了中国在算 网融合领域的主导研究地位。 4.1.2 IETF 中国移动在 IETF 牵头推进需求、架构、试验等核心文稿和技术,于 2019 年 11月共同举办了算力感知网络关键技术计算优先网络 CFN的 Side meeting12-14, 获得 23 家公司 50 余名专家的支持,为推进算力感知网络的发展奠定了良好的基 础。中 国移动后续将继续细化 CFN 的架构、需求等文稿,并继续筹备推进下一次 Side meeting 等相关工作。 4.1.3 BBF 中国移动联合华为在 BBF 共同主导了城域算网的标准立项,对城域的算力感 知网络开展研究,包括对场景、需求、架构及关键技术的研究,目前已经提交并 通过多篇场景和需求文稿,后续将继续提交架构、关键技术相关文稿。 4.2 国内标准化工作 4.2.1 CCSA 中国移动在 CCSA积极布局了算力感知网络的标准化研究工作, 在 TC3 WG3(新 型网络技术组 )牵头推动了算力感知网络的关键技术研究研究课题立项, 该 立项将对算力感知网络的感知、控制和管理的关键技术体系进行研究;在 CCSA TC3 WG1(总体组)牵头推动算力感知网络的架构和技术要求行业标准成功 立项,为推进算力感知网络协议技术的标准化工作奠定了坚实的基础。后续也将 在算力感知的新型控制面协议、算力度量衡和建模方向继续推动标准化研究工作。 4.2.2 网络 5.0 联盟 中国移动在网络 5.0 联盟积极推动算力感知网络的相关研究工作,作为算力 网络特设组的联合牵头单位,与各单位共同推动算力网络的研究与产业推进工作, 牵头梳理算力感知 网络的相关架构、关键技术、组网视图等内容,后续将促进业 界达成架构、关键技术等共识。 算力感知网络技术白皮书 20 5. 总结 面向计算和网络的深度融合的发展趋势,网络演进的核心的需求是算力和网 络协同感知,将算力和网络资源的状态信息有机结合在一起,可有效解决运营商 ICT 基础设施面向云网融合、算网一体技术演进方向中面临的协同问题,大幅提 升运营商提供端到端 ICT 业务性能保证的能力,助力运营商构建面向新基建下的 算网协同的 ICT 基础设施。 中国移动提出的算力感知网络是对未来算网融合发展展望和参考。 算力感知 是算力感知网络的重要基础 ,包括对于计算、存储和网络以及业务需求的多维感 知。首先,需要基于统一的算力度量衡体系对全网泛在算力资源和算力服务进行 统一建模;之后,需要实现对于算力资源和算力服务的感知。算力感知包括对业 务算力需求的感知、多维资源感知和服务感知。 算力路由是算力感知网络的核心 内容 ,基于多维资源的感知信息,算力路由将生成网络、计算等新型多维路由, 实现算力感知的业务调度。目前,在国际上, ITU-T 正处于新研究周期, IETF 也处于新旧技术交替期,国内各方应形成合力扩大算网融合发展的影响力,算力 感知网络作为算网融合发展的先行者,需要做 到系统性的超前布局,为算网融合 发展提供坚实的基础。 为了促进算力感知网络的技术研究、产业发展及生态建设,以中国移动在算 力感知网络方面的研究与实践为基础,我们呼吁学术界、产业界各方共同投入到 算力感知网络的技术研究、接口标准、技术实践等工作中来。通过统一的体系架 构及接口标准化工作构建完整的技术体系,引导产业链各方进行产品研发、商业 运营,推动算力感知网络的进一步发展。同时, 关于算力感知网络的研究还有很 多挑战,有很多科学和工程问题需要突破。未来,我们希望更多的团体和合作伙 伴参与到算力感知网络相关的创新工作中,精诚合 作,共筑未来。 算力感知网络技术白皮书 21 缩略语列表 缩略语 英文全名 中文解释 5G 5th generation mobile networks 第五代移动通信技术 6G 6th generation mobile networks 第六代移动通信技术 AAA Authentication、 Authorization、 Accounting 验证、授权和记账 AI Artificial Intelligence 人工智能 API Application Programming Interface 应用编程接口 APN Application-aware Networking 应用感知网络 APP Application 应用程序 AR Augmented Reality 增强现实 ASIC Application Specific Integrated Circuit 专用集成电路 BBF Broadband Forum 宽带论坛 BGP Border Gateway Protocol 边界网关协议 CAN Computing Aware Networking 算力感知网络 CAN6 Computing-Aware Network for IPv6 面向 IPv6 的算力感知网络 CCSA China C