算力网络架构与技术体系白皮书.pdf
算力网络架构与技术体系白皮书 中国联通研究院 2020年10月 版权声明 本白皮书版权由中国联通研究院拥有,并受法律保护。转载、摘 编或利用其它方式使用本白皮书文字或者观点的,应注明来源。 编写单位:中国联通集团研究院 指导专家:唐雄燕,王友祥 编写组成员:曹畅,李建飞,张帅,刘莹,李铭轩,何涛,杨建军, 张传彪 在白皮书撰写过程中,网络5.0产业和技术创新联盟,中国电信 研究院,华为技术有限公司,中兴通讯股份有限公司,新华三技术有 限公司,联想,紫光展锐科技有限公司,盛科网络(苏州)有限公司, 北京邮电大学,中国科学院计算机网络信息中心,网络通信与安全紫 金山实验室,山东省计算中心(国家超级计算济南中心),云迅智能 科技南京有限公司等单位向白皮书编写组提供了大量宝贵意见,特向 上述单位的相关专家表示衷心感谢! 前 言 2019年11月,中国联通发布了业界首部算力网络白皮书,系 统阐述了在计算与网络发展紧密结合、技术相互促进、产业协同合作 的背景下,中国联通对于未来算力业务形态、平台经营方式、算网关 键技术及主要应用场景方面的观点。一年来,在包括中国联通在内的 国内运营商和设备商、高校及科研院所的共同努力下,算力网络的愿 景已在业界得到广泛的认可,算力网络在生态构建、标准制定、平台 研发等领域均取得了一定进展,并且作为我国的一项原创成果,开始 走向国际舞台。 中国联通高度重视未来计算与网络融合的发展趋势,并将算网一 体定位为暨云网融合1.0(云网协同)之后的云网融合2.0阶段。经过 深入分析和与多个单位的研讨,中国联通研究院算力网络研究团队撰 写了算力网络架构与技术体系白皮书。本册白皮书在去年算力 网络白皮书的基础上,结合新基建等最新政策导向与IPv6+时代可 能的商业模式创新,阐述了中国联通算力网络架构设计、功能模型、 层间接口与各功能层的关键技术,并结合若干场景对算力网络的应用 和部署方式进行了展望。 怀揣云网融合的初心,“算力网络”将继续尝试回答运营商转型 发展的问题。 目 录 第一章 算力网络研究背景与发展情况介绍 . 1 1.1 未来泛在计算发展趋势 .1 1.2 新基建背景下算力网络发展模式 .2 1.3 算力网络支撑云网融合由1.0走向2.0 .5 1.4 算力网络产业化进程回顾 .7 第二章 中国联通算力网络架构及技术体系 . 8 2.1 中国联通算力网络架构 .8 2.2 架构层间接口说明 .8 2.3 算力网络技术体系 .10 第三章 算力网络关键技术 . 12 3.1 电信承载网控制技术 .12 3.1.1 SRv6技术 .12 3.1.2算力资源信息感知技术 .13 3.1.3 确定性网络技术 .13 3.1.4 数据中心无损网络技术 .14 3.2 新型网络转发技术 .15 3.2.1 交换芯片 .15 3.2.2 新型硬件形态 .15 3.2.3 交换机操作系统 .15 3.2.4 融合型设备 .16 3.3 算力建模与管理技术 .16 3.4 算力服务与交易技术 .17 3.5 服务编排与调度技术 .18 3.5.1服务编排架构 .19 3.5.2服务编排功能解析 .20 第四章 算力网络主要应用场景 . 21 4.1 新媒体 .21 4.2 智能安防 .21 4.3 车联网 .22 第五章 算力网络发展展望 . 24 缩略语 . 25 参考文献 . 27 算力网络架构与技术体系白皮书 1 第一章 算力网络研究背景与发展情况介绍 1.1 未来泛在计算发展趋势 计算是人类认识世界和改造世界的重要方式。无论是集成电路时代大规模 生产制造的设备计算,或者信息化时代全球互联互通的移动计算,计算已经深 入浸透到人类生活的方方面面。同时,计算的模式也在发生着变化,从以互联 网为中心的云计算,到业务可就近闭环、实现敏捷智能的边缘计算,再到未来 云-边计算能力与端侧的联动,计算模式正在向着云-边-端多级部署的泛在架构 发展,以满足智能社会多样化的算力需求。 云计算以互联网为中心,通过云端超级计算机集群,提供给客户快速且安 全的云计算服务与数据存储。云数据中心已经取代传统数据中心成为主流,根 据思科云指数报告,2021年云流量在全球流量中的占比将高达95%。在此基础 上,云原生技术解决了跨云环境一致性问题,缩短应用交付周期,消除组织架 构协作壁垒。受网络条件制约,中心化的云计算无法满足部分低时延、大带宽、 低传输成本的场景如智慧安防,自动驾驶等需要,因此计算从云端迁移到边缘 端十分必要。且随着5G的发展普及,对边缘算力的需求将大幅增长,据IDC 数据预测,到2022年将有超过500亿的终端与设备联网,未来超过50%的数 据需要在网络边缘侧进行分析、处理与存储,边缘计算市场的价值将达到67.2 亿美元。边缘计算与云计算互相协同,共同使能行业数字化转型。云计算聚焦 非实时、长周期数据的大数据分析,能够在周期性维护、业务决策支撑等领域 发挥特长。边缘计算聚焦实时、短周期数据的分析,能更好地支撑本地业务的 实时智能化处理与执行。有研究表明,将计算部署在边缘端后,计算、存储、 网络成本可节省30%以上。 图1-1:计算由云计算走向边缘计算和泛在计算 算力网络架构与技术体系白皮书 2 未来,如图1-1所示,为满足现场级业务的计算需求,网络中的计算能力 将进一步下沉,目前已经出现了以移动设备和IoT设备为主的端侧计算。在未 来计算需求持续增加的情况下,虽然“网络化”的计算有效补充了单设备无法满 足的大部分算力需求,仍然有部分计算任务受不同类型网络带宽及时延限制, 且不同的计算任务也需要由合适的计算单元承接,因此未来形成“云、边、端” 三级异构计算部署方案是必然趋势,即云端负责大体量复杂的计算,边缘端负 责简单的计算和执行,终端负责感知交互的泛在计算模式,也必将形成一个集 中和分散的统一协同泛在计算能力框架。 结合未来计算形态云-边-端泛在分布的趋势,计算与网络的融合将会更加 紧密,由于单个节点计算能力有限,大型的计算业务往往需要通过计算联网来 实现,业界也因此提出了“算力网络”的思想。算力网络需要网络和计算高度协 同,将计算单元和计算能力嵌入网络,实现云、网、边、端、业的高效协同, 提高计算资源利用率。在算力网络中,用户无需关心网络中的计算资源的位置 和部署状态,而只需关注自身获得的服务即可,并通过网络和计算协同调度保 证用户的一致体验。 1.2 新基建背景下算力网络发展模式 2018年以来,国家提出一系列加快5G商用步伐,加强人工智能、工业互 联网、物联网等新型基础设施建设的政策建议,“新基建”的概念由此产生,其 内涵在2019年以来的多个政府报告中均有论述。2020年4月,国家发改委首 次对新基建的具体含义进行了阐述,如图1-2所示,在信息基础设施部分,主 要是指基于新一代信息技术演化生成的基础设施,比如,以5G、物联网、工业 互联网、卫星互联网为代表的通信网络基础设施,以人工智能、云计算、区块 链等为代表的新技术基础设施,以数据中心、智能计算中心为代表的算力基础 设施等。这也是“算力基础设施”这一概念在国家层面的首次提出。 算力网络架构与技术体系白皮书 3 图1-2 新基建全景图 从该政策出发,可以预见未来将会有大量的社会资本投入数据中心等算力 基础设施建设。从产业链的角度看,算力提供者、网络运营者、服务提供者和 服务使用者均会引入多方参与,而电信运营商结合5G无线接入网,IP承载网 和光纤骨干网的优势,在连接算力的网络运营领域有望继续占据主导地位。虽 然在5G时代“联接+计算”的经营模式还存在不确定性,但概括起来将会有以下 三种方式并存。 强管道模式:以管道模式为代表的流量经营,是电信运营商十分熟悉也是 目前开展最广泛的业务形式。由于多年的积累,国内三大运营商相较其他业务 运营主体,均有较为优质的管线、光纤、IDC机房,接入局站等资源。在3G/4G 时代,CDN以及IDC的经营模式也为运营商所大量尝试,但是事实证明,这种 售卖底层基础资源的方式,业务附加值低,商业前景比较黯淡,并且如果网络 在云网价值链中的比例过低,最终也不利于整个产业的发展。因此,在5G时 代,电信运营商对基础资源的售卖变得更加谨慎,希望基础资源结合其他合适 的业务方式,提供更高的业务附加值以增加销售收入。 强平台模式:互联网和移动互联网的巨大成功见证了平台模式的崛起。随 着应用上云进程的不断加快,以亚马逊、微软、阿里巴巴、腾讯等为代表的国 际国内互联网巨头都已在云计算领域全力投入,并积极布局边缘云市场与服务。 根据中国信息通信研究院预测,长远来看边缘市场规模将超万亿,有望成为与 云计算平分秋色的新兴市场,广阔市场空间将给整个云计算和边缘计算产业带 来无限的想象空间和崭新的发展机遇。在云服务方面,国内三大运营商也进行 算力网络架构与技术体系白皮书 4 了积极布局,均在打造自身公有云、电信云平台基础上,结合边缘的网络覆盖 优势投身MEC平台研发、边缘业务服务、专网能力建设等领域。但同时也应 该看到,由于技术背景、管理模式、运营思路等方面的差异,未来电信运营商 主导的云平台与互联网公司的云平台、行业云平台将会长期并存,谁将在“联 接+计算”的一体化服务场景中取得优势还难有定论。 强网络模式:在上述的两种模式外,随着算力网络的提出,为电信运营商 提供了另一种可能,即结合IPv6+等数据通信新技术,通过打造智能网络,结合 网络可编程特性和云原生轻量化计算特性,通过弱平台+强网络的方式,在平台 的集中控制之余,更多的尝试通过网络的分布式协同来实现对网内各种服务的 合理调度和资源的有效配置,如图1-3所示。可以设想这样的一个场景,甲公 司(B端)开发的车辆智能网联服务,分布在全国各地,并且可以架设在多个 云平台上(含边缘云),委托中国联通帮其销售和运营。乙公司作为交通行业企 业,在路侧有大量局房等基础资源,并且在国家新基建政策引导下建设了大量 的算力基础设施。用户丙(C端)通过中国联通的算力网络接入,获得甲公司 架构在乙公司基础设施之上的智能网联服务,并且这种服务可以分布在各地, 通过算力网络以服务链的方式串接起来。更进一步,甲公司(B端)服务持续 迭代开发所需要的软件工具等资源,也可以通过联通的算力网络寻找合适的第 三方云服务获得。 图1-3 算力网络商业模式 以上的商业模式形成,并不依赖特定形式的云平台,而是可以充分发挥新 基建时代边缘基础设施和分布式边缘云的优势,并结合IPv6+时代拉通端管云 的更加统一的网络配置,通过网络可编程的方式实现业务的智能调度。 算力网络架构与技术体系白皮书 5 1.3 算力网络支撑云网融合由1.0走向2.0 云网融合是近年来电信运营商一直在践行的理念,SDN/NFV是云网融合 最重要的技术支撑。2013年以来,全球各大运营商先后制定基于SDN/NFV和 云的网络转型战略,其中AT&T发布的Domain2.0战略是其中的典范。中国联 通2015年正式发布新一代网络架构CUBE-Net2.0白皮书,提出面向云端双中 心的解耦集约型网络架构,旨在基于SDN、NFV和云进行网络重构,2016年 首次提出构建基于SDN的中国联通产业互联网CUII(China Unicom Industrial Internet),成为与中国联通公众互联网China169并列、专注于服务政企客户的 高等级互联网基础设施。结合CUII,中国联通自主研制了适用于超大规模异构 网络的网络操作系统,SDN集中控制极大提升了网络服务的灵活性和敏捷性, 并通过能力开放实现了与公有云服务的集成,提供了云联网等业界领先的云网 一体化服务产品。近年中国联通在NFV领域也进行了积极探索,随着5G核心 网建设,NFV应用的爆发点即将到来。 从中国联通多年来的云网融合实践中可以看出,目前SDN已经实现了云 和网的拉通特别是专线等级的连接,NFV实现了核心网功能的全面云化。但是 也应该看到,目前SDN与NFV的部署一般相互独立,各自自成体系。结合5G、 泛在计算与AI的发展趋势,如图1-4所示,以算力网络为代表的云网融合2.0 时代正在快速到来。云网融合2.0是在继承云网融合1.0工作基础上,强调结合 未来业务形态的变化,在云、网、芯三个层面持续推进研发,结合“应用部署 匹配计算,网络转发感知计算,芯片能力增强计算”的要求,在SDN和NFV 自身持续发展之外,实现SDN和NFV的深度协同,服务算力网络时代各种新 业态,其技术内涵如图1-4所示。 算力网络架构与技术体系白皮书 6 图1-4 算力网络为云网融合2.0提供技术支撑 NFV2.0:全面引入云原生技术,实现业务逻辑和底层资源的完全解耦,极 大释放业务开发者的活力。并在对虚拟资源实现编排管理的基础上,向容器编 排和算力编排演进;结合新基建背景下社会中多产权主体可提供多种异构算力 的情况,实现对泛在计算能力的统一纳管和去中心化的算力交易。 SDN2.0:以承载网SRv6技术为底座,在网络切片能力的基础上,引入感 知业务的各类APP aware技术。面向高质量算力服务要求,引入包括无损网络、 二层、三层低时延低抖动等技术,对特定业务打造确定性承载网。积极推动IPv6 技术在端管云的全面拉通,并在网络控制平面实现集中+分布的有机协同。 DCN2.0:持续拥抱开源产业,探索开源或开放性操作系统在云数据中心的 引入方式,如Sonic、Dent 等业界熟知的开源系统。探索基于可编程能力的交 换机(或智能网卡)架构的数据转发面实现方式和部署场景。对无损网络等技 术在边缘数据中心的引入方案进行研究,并增强对网络的随路感知和测量能力。 SDN+NFV协同:云数据中心内部SDN/NFV的协同管控,云/边数据中心 与承载网的业务协同分发和调整方案,按照算网一体的要求,在数据中心内外 网络架构、网关设备、运维管理、管控优化等层面加强协同与融合。 新业态:积极探索算力网络时代的新型业务形态与应用场景,推动试点工 作,以适应未来云游戏、千人千面直播、自动驾驶、智能安防与工业机器视觉 等强算力与强交互业务需求。 算力网络架构与技术体系白皮书 7 1.4 算力网络产业化进程回顾 算力网络伴随着计算产业与网络产业的结合而兴起,一年多来,在标准制 定、生态建设以及产业活动方面均取得了一系列成果。 标准制定方面,国内三大运营商中国移动、中国电信与中国联通分别在 ITU-T SG11与SG13组立项了Y.CPN,Y.CAN和Q.CPN等系列标准,在IETF 开展了Computing First Network Framework等系列研究,华为联合国内运营商 在ETSI和宽带论坛(BBF)也启动了包括NWI、城域算网在内的多个项目。 在中国通信标准化协会(CCSA),“算力网络需求与架构”、“算力感知网络关键 技术研究”、“云边协同的承载网控制系统架构及技术要求”等研究工作也在有 序开展。 生态建设方面,国内未来数据网络研究的重要组织网络5.0产业联盟专门 成立了“算力网络特设工作组”,MEC领域的多个开源组织也发起了KubeEdge、 Edge-Gallery等开源项目,2019年底,中国联通、中国移动和边缘计算网络产 业联盟(ECNI)均发布了算力网络领域相关白皮书,进一步阐述了算网融合的 重要观点。 产业活动方面,2019年中国电信与中国移动均已完成算力网络领域的实验 室原型验证,并在GSMA巴塞罗那展、ITU-T和GNTC相关展会上发布成果。 中国联通研发的算力网络服务平台,也已在积极推进试点工作。 展望未来,算力网络已经成为国内IMT-2030 推进组6G网络研究的重要 课题之一,不论是从IPv6网络技术、云原生技术和可编程芯片技术的发展来看, 还是从新基建政策的导向来看,都给予了构建在算力网络之上的新商业模式尝 试的空间。未来两年,是算力网络在业界由概念普及转向试点验证的重要节点, 中国联通算力网络研究团队经过和业界合作伙伴的深入探讨,特在此白皮书后 续章节中明确中国联通算力网络的架构和关键技术,希望给业界更多的启示并 作为后续研究持续推进的基础。 算力网络架构与技术体系白皮书 8 第二章 中国联通算力网络架构及技术体系 2.1 中国联通算力网络架构 算力网络是指在计算能力不断泛在化发展的基础上,通过网络手段将计算、 存储等基础资源在云-边-端之间进行有效调配的方式,以此提升业务服务质量 和用户的服务体验。一年多来,结合云网融合领域的新发展新变化,中国联通 在探索计算与网络融合思路的基础上,结合业界先进经验,制定了算力网络体 系架构,如图2-1所示。 图2-1 中国联通算力网络架构 在该算力网络架构图中,主要包含服务提供层、服务编排层、网络控制层、 算力管理层和算力资源层/网络转发层等若干功能模块,其中服务提供层主要实 现面向用户的服务能力开放;服务编排层负责对虚机、容器等服务资源的纳管、 调度、配给和全生命周期管理;网络控制层主要通过网络控制平面实现算网多 维度资源在网络中的关联、寻址、调配、优化与确定性服务;算力管理层解决 异构算力资源的建模、纳管与交易等问题;算力资源层和网络转发层扁平化融 合,并需要结合网络中计算处理能力与网络转发能力的实际情况和应用效能, 实现各类计算、存储资源的高质量传递和流动。 2.2 架构层间接口说明 在该架构中,多个功能层之间存在若干层间接口,负责互通不同功能平面 之间的信息,实现算网控制、编排、管理、转发等功能的协同,其中主要的层 间接口包括: 算力网络架构与技术体系白皮书 9 I1接口:服务提供层与网络控制层之间的接口,用户与网络之间支持用户个 性化业务需求与资源承载能力的映射和协商,以实现网络可编程和业务自动 适配; I2接口:网络控制层与算力管理层之间的接口,网络控制层将算力调度策略 传递至算力管理层;算力管理层上报算力能力信息、资源信息以及管理信息 至网络控制层。 I3接口:算力管理层与算力资源层之间的接口,完成设备注册、资源上报、 性能监控、故障管理、计费管理等运营管理功能,实现算力管理层对算力资 源层感知、管理和配置; In接口:网络控制层与网络转发层之间的接口,网络基于可编程技术,实现 控制与转发之间的有效匹配,控制平面功能包含集中式和分布式的组合实现, 可视不同的业务场景进行两种控制方式的组合; I41接口:算力服务层与服务编排层之间的接口,以服务维度向用户提供业 务时,接口互通服务的管理信息和编排信息; I42接口:网络控制层与服务编排层之间的接口,为了完整的开启/完成一个 服务,在网络控制和服务编排之间进行信息的互通; I43接口:算力管理层与服务编排层之间的接口,网络的算力信息作为IaaS 与I-PaaS层虚拟资源组织的方式; I44接口:针对云原生等服务提供形式,服务编排层与算力资源层之间直接 通信的接口,相关的算力管理信息在I43接口输出给算力管理层。 在该架构中,网络控制层与服务编排层最大限度的兼容目前产业已实现的和 规划中的SDN与NFV技术路线,保持两者各自的发展方向不变。在此基础上, 通过I42接口,拉通网络控制与服务编排功能,需要实现SDN与NFV的协同由 数据中心内向广域网延伸和Metro Fabric的目标架构。同时,引入算力管理层, 主要实现异构算力的管理、建模和交易功能,网络算力信息通过算力管理层与网 络控制层进行互通,算力管理层通过I43接口与服务编排层交互虚机、容器等虚 拟资源在硬件计算资源上的部署方式。网络转发层与算力资源层在图中一并描述, 以体现未来网络发展中算网一体的发展趋势。 在该架构中,实现了算力资源提供者、算力服务提供者和算力服务消费者的 个性化针对性服务,第一个主要通过算力管理层的能力开放,后面两个主要通过 服务编排层和服务提供层的能力开放。面向具体业务的提供者和使用者,算力网 算力网络架构与技术体系白皮书 10 络可提供云化资源,面向算力资源的提供者和使用者,通过构建算力管理层,算 力网络满足了算力共享与交易需求,并对算力实现了更精细化的调控。 网络能力以SRv6为底座,兼容SR-BE和SR-TE两种模式,主要依赖基于 网络分布式的可编程能力;业务能力以云原生为底座,兼容虚拟化等其他模式, 并向云化资源统一管控,服务治理Mesh 化和应用服务Serverless 演进。 2.3 算力网络技术体系 结合算力网络体系架构定义、接口设置与相应的功能描述,可以看出目前算 力网络研究领域还存在着一系列待解决的技术问题,总体上可以分为如下五个方 面。如图2-2所示,涵盖了SDN2.0,NFV2.0以及DCN2.0等在本白皮书第一章 已阐述的技术演进问题,以及根据算力资源的特征和未来海量分布式交易的需求, 算力建模与区块链交易方面的问题。 图2-2 中国联通算力网络技术体系 电信承载网控制:主要通过IPv6+等数据通信新技术,解决当前网络难以感 知业务需求,算力和服务难以良好匹配的问题。 新型网络转发:针对当前电信边缘云网络的封闭性,引入定制化转发设备和 可编程芯片等技术,降低组网成本,丰富产业生态。 算力建模与纳管:针对当前算力难以量化建模,算网难以协同服务等问题, 通过研究算-网-存等指标的联合优化,提升算力基础设施和网络基础设施建 设和布局的合理性。 算力服务与交易:针对当前集中式平台难以满足高频、可信交易的要求,通 算力网络架构与技术体系白皮书 11 过引入区块链账本和可信计算等技术,增强多方协同安全性和交易透明不可 篡改问题。 服务编排与调度:针对虚拟资源变更、调度与迁移难以全程管控,轻量化资 源能力释放等问题,通过微服务、容器化等IT方案,解决边缘轻量化业务快 速迁移和服务的问题。 除此之外,算力网络也面临着提升网络和平台安全能力,引入智能化运维手 段和加强IP与光层协同承载、跨层优化等方面的问题,这些均是下一代承载网 技术研究与选型过程中面临的普适性问题,由于本白皮书篇幅有限,这里不做重 点介绍。 算力网络架构与技术体系白皮书 12 第三章 算力网络关键技术 3.1 电信承载网控制技术 在算力网络中,用户通过算力网关接入网络,设备节点根据应用服务的需求, 综合考虑实时的网络和计算资源状况,将不同的应用调度到合适的计算节点处理, 保证业务体验。同时,需要通过确定性网络技术及无损数据中心关键技术完成端 到端的质量保证。 图3-1 电信承载网控制技术 3.1.1 SRv6技术 在算力网络中,通过SRv6技术简化网络结构,实现灵活的编程功能,便于 更快地部署新的业务,实现面向泛在计算场景的网络资源敏捷、按需、可靠调度。 SRv6通过灵活的Segment 组合、Segment字段、TLV组合实现3层编程空间, 可以更好地满足不同的网络路径需求,如网络切片、IOAM等。SRv6继承了MPLS 技术的TE、VPN和FRR这三个重要特性,使得它能够替代MPLS在IP骨干承 载网络中部署,同时SRv6具备类似VxLAN的仅依赖IP可达性即可工作的简单 性,使得它也可进入数据中心网络。基于IPv6的可达性,SRv6可直接跨越多域, 简化了跨域业务的部署。同时SRv6将Overlay的业务和Underlay承载统一定义 为具有不同行为的SID,通过网络编程实现业务和承载的结合,不仅避免了业务 与承载分离带来的多种协议之间的互联互通问题,而且能够更加方便灵活地支持 丰富的功能需求。 同时,结合应用感知网络(APN,App-aware networking)技术,可利用IPv6 扩展头将应用信息及其需求传递给网络,通过业务的部署和资源调整来保证应用 算力网络架构与技术体系白皮书 13 的SLA要求,使部署在各个位置的分散站点更好地提供业务链服务。特别是当 站点部署在网络边缘(即边缘计算)时以此提供业务链服务,APN技术有效衔接 网络与应用以适应边缘服务的需求,将流量引向可以满足其要求的网络路径,从 而充分释放边缘计算的优势。 3.1.2算力资源信息感知技术 算力网络通过将计算资源进行整合,以服务的形式为用户提供算力。在算力 网络中,计算资源借助通信报文作为载体完成信息的传递,计算资源信息以一定 的规则编码写入通信报文中,然后按照特定的协议在网络设备间完成交互,最终 完成计算资源信息的共享。 在电信承载网中,承载计算资源信息的通信协议可以位于网络层之上(包括 网络层)的任意层,以网络层协议为基础,将计算资源信息基于网络层报文进行 转发。目前计算优先网络协议(CFN)主要通过在业务路由的BGP报文头中通 过扩展字节信息的方式携带算力信息,将网络中计算节点的负载情况实时向全网 进行扩散。 与基于链路度量值进行路径计算的网络路由协议类似,在算力网络中,基于 算力度量值来完成路径的计算,而算力度量值来源于全网计算资源信息及网络链 路的带宽、时延、抖动等指标。在电信承载网中,为实现计算资源信息及链路指 标的全网同步,每个路由器负责本地计算资源信息及相关联链路指标的获取,并 加载在网络层协议报文中进行全网同步。在完成全网信息同步后,每个路由器完 成全网拓扑的计算,并生成服务路由信息表,用以支持算力网络服务报文的转发。 需要说明的是,算力网络的演进不可能一蹴而就,面向算力承载的网络应遵 循“目标一致、分期建设”的原则,可以通过DC网关设备联网来搭建MEC节 点之间的算力“薄层”,首先在overlay层面引入SRv6与CFN等协议,进而逐 步扩大到承载网全网underlay的算力感知和算网联合优化。SRv6涉及转发策略 编排,MEC(或DC)之间的算力服务拉通,也可通过DC内集中式模式+DC间 分布式模式的混合模式实现。 3.1.3 确定性网络技术 在这里确定性网络技术主要基于三层网络,即IP网络描述。确定性网络是 一种提供可承诺SLA保证的网络技术,它能够综合统计复用和时分复用的技术 优势,在IP/Ethernet分组网络中提供类似TDM转发的服务质量,保证高价值流 算力网络架构与技术体系白皮书 14 量在传输过程中低抖动、零丢包,具有可预期的端到端时延上限。 确定性网络技术通过资源预留和队列管理算法来避免高优先级报文之间的 冲突。资源预留可以在中间设备为不同流量预留出端口资源,队列管理算法可以 将可能发生冲突的报文进行调度,按照资源预留分配带宽,二者互相配合可以有 效地提升网络服务质量。 为了保证业务的网络质量稳定,不受拓扑变化的影响,确定性网络需要提供 显式路径,对报文的路由进行约束,以防止路由震荡或其他因素对传输质量的影 响。 最后通过冗余保护能够在某一条路径发生断路丢包时无损切换到另一条路 径,保证业务的高可靠传输。冗余保护是指同一份业务报文复制后,在网络中选 取两条或多条不重合的路径同时传输,并在汇合节点保留先到达的报文,即在网 络中实现“多发选收”。 3.1.4 数据中心无损网络技术 数据中心网络变革方向为零丢包、低时延、高吞吐,通过拥塞控制、负载均 衡、流量控制等方式解决数据中心的性能问题。2018 年,IEEE 发布IEEE 802 Nendica Report: The Lossless Network for Data Centers,指出数据中心网络应用 场景分为四种典型用例,包括大规模在线数据密集型服务网络、高性能深度学习 网络、现代电信中心局云化网络和高速分布式 NVMe 存储网络,这些网络场景 都提出了低丢包、低延迟和高吞吐的性能需求。 数据中心网络的低时延,通过远程内存直接访问技术(RDMA)实现。RDMA 可以从发送端地址空间中取出数据,直接传送到接收端的地址空间中,快速完成 计算节点间内存数据的快速交换,而不需要内核内存参与,大大降低了服务器侧 的处理时延。在数据中心网络中部署PFC(基于优先级的流量控制)和ECN(显 式拥塞通告)功能来实现无损保障。PFC技术可以实现对链路上RDMA专属队 列的流量进行控制,并在交换机入口(Ingress port)出现拥塞时对上游设备流量 进行反压。利用ECN技术可以实现端到端的拥塞控制,在交换机出口(Egress port)拥塞时,对数据包做ECN标记,并让流量发送端降低发送速率。同时为了 提高吞吐量,需要在服务器网卡支持DCQCN(数据中心量化拥塞通告),将发送 速率调整到最优。在数据中心的CLOS架构网络中,应用无损网络技术实现降低 时延、避免丢包、增加吞吐量的功能。 算力网络架构与技术体系白皮书 15 3.2 新型网络转发技术 3.2.1 交换芯片 可编程芯片的出现打破了硬件设备对数据转发平面的限制,使得数据转发平 面的逻辑也具备可编程能力,让软件能够真正定义网络和设备, 如基于P4语言 的协议无关可编程芯片和基于NPL语言的编译器可编程芯片。另外,CPU芯片 作为控制交换机管理平面的主要部件,其性能优化在提高整机性能方面起着举足 轻重的作用。随着x86技术以及半导体工艺的进一步发展,交换机内部CPU的 x86化可以实现如运维服务器一样运维网络,因此已成为主流趋势。 图3-2 转发设备架构图 3.2.2 新型硬件形态 算力网络以及边缘计算相关业务的发展,对边缘机房提出了轻量化、简洁化 和随需部署的要求,传统设备形态在构建小型机房时逐渐显露出短板,而新型设 备则以1U高度的模块化形态彰显了自身优势。可插拔式设计实现了模块之间的 软硬件隔离部署,减少甚至消除了跨机架布线,提高端口利用率的同时降低了设 备后期维护难度和成本。 3.2.3 交换机操作系统 白盒交换机的出现不但使用户可以选择适合的硬件平台,更重要的可以让用 户选择或定制相应的操作系统来匹配衔接自身的应用,从而降低成本,实现效率 最优。近年来,随着白盒交换机在OTT厂商的大批量应用,涌现出了一批开源 白盒操作系统,如微软的SONiC以及ONF主导的Stratum。SONiC的核心创新 思想是将传统交换机操作系统软件分解成多个容器化组件,从而简化新增组件和 算力网络架构与技术体系白皮书 16 功能的流程。该系统可以运行在来自不同厂商的各种硬件设备上,使用通用的 SAI对网络设备专用芯片进行配置,并且其包含的代码工具包和内核补丁能够让 运营者根据自身意愿来调整网络交换机,从而大大降低了运营者对网络设备提供 商的硬件依赖。Stratum项目将SDN的范围扩展至包括完整的生命周期控制,配 置以及接口操作等,不采用直接嵌入控制协议的方式,而是设计成支持外部网络 操作协议或与运行在同一个嵌入式交换机上的NOS功能协同工作的形式,旨在 实现真正意义上由软件定义的数据平面参考平台,并最终提供一个白盒交换机开 放软件系统。 3.2.4 融合型设备 算力网络的成功构建应以整合散落在边缘的算力资源为基础。面对边缘设备 连接数的迅猛增长,网络接入层的压力不断增加,部分边缘DC采用Spine-Leaf 结构来缓解这种压力,以此架构为基础,通过可编程的隧道处理能力,使核心网 UPF下沉到边缘DC,打造融合型设备,将大部分流量从虚拟网络卸载到硬件交 换机,并利用交换机的大带宽和线速转发能力实现对UPF的硬件加速,可以让 单服务器的虚拟化转发面性能得到大幅提升。 3.3 算力建模与管理技术 算力是设备/平台处理、运行业务的关键核心能力。在算力网络中,算力的提 供方不再是专有的某个数据中心或集群,而是将云边端这种泛在的算力通过网络 化的方式连接在一起,实现算力的高效共享。因此,算力网络中的算力资源将是 泛在化的、异构化的。 算力网络中的算力资源包括有传统的X86通用服务器架构下的CPU计算单 元;有专门适用处理类似图形图像等数据类型统一的GPU并行计算芯片;有专 业加速处理神经网络的NPU或TPU;有广泛应用于边缘侧嵌入式设备的ARM。 有半定制化处理器FPGA等,除此以外,未来还将纳入原子计算功能等更多层级 的颗粒度。由于所运行算法的不同,所涉及的数据计算类型不同,从业务的角度 出发,将算力分为可提供逻辑运算的算力、可提供并行计算的算力和可提供神经 网络加速计算的算力。 算力网络架构与技术体系白皮书 17 图3-3 算力建模框架设计 对于异构算力资源,算力网络架构采用基于“K8S+轻量化K8S”的两级联动 的架构来实现统一的算力资源调度纳管。K8S采用中心的资源调度统一平台对于 整体的基础资源进行统一管理和集群管理,而轻量化K8S集群主要是作为边缘 侧的资源调度平台对于边缘计算集群进行调度和管理。 泛在算力资源的统一建模度量是算力调度的基础。针对泛在的算力资源,通 过模型函数将不同类型的算力资源映射到统一的量纲维度,形成业务层可理解、 可阅读的零散算力资源池。为算力网络的资源匹配调度提供基础保障。将业务运 行所需的算力需求按照一定分级标准划分为多个等级,这样可为算力提供者设计 业务套餐时进行参考,也可作为算力平台设计者在设计算力平台时根据所需运行 的业务对平台算力的选型涉及提供依据。鉴于智能应用对算力的诉求主要是浮点 运算能力,如用于AI和图形处理的每秒浮点运算次数(FLOP/S)。 从现有业务上看,超算类应用、大型渲染类业务对算力的需求是最高的,可 达到P级的算力需求;其次是AI类训练类应用,这类应用根据算法的不同以及 训练数据的类型和大小 所需的算力从T级到P级不等;再者 AI推理类业务则 大多部署在终端边缘,对算力的需求稍微减弱,大致范围在几百G到T级别不 等。 3.4 算力服务与交易技术 算力网络中的算力服务与交易依托于区块链的去中心化、低成本、保护隐私 的可信算力交易平台。该平台面向的计算节点泛在化的计算节点。在该算力交易 平台中的有三种角色,如下图3-4所示:1)算力卖家:贡献闲散算力,如手机终 算力网络架构与技术体系白皮书 18 端、电脑、游戏机、企业空闲时的小型数据中心等,卖家将零散算力通过注册或 更新的方式告知算力交易平台;2)算力买家:向算力平台提出算力需求,获得 算力平台分配的容器节点,并进行付费,执行任务等操作;3)算力交易平台: 算力交易平台作为中间角色分别于算力的卖家和买家打交道,维护、纳管、调度 算力资源,提供经济、高效、安全、可靠的算力服务。 图3-4:可信泛在算力交易平台示意图 在以往的交易模式中,买家和卖家彼此之间信息并不透明,未来泛在计算场 景中,网络可以将算力作为透明和公开的服务能力提供给用户。算力交易过程中, 算力的贡献者(算力卖家)与算力的使用者(算力买家)分离,通过可拓展的区 块链技术和容器化编排技术,整合算力贡献者的零散算力,为算力使用者和算力 服务的其他参与方提供经济、高效、去中心化、实时便捷的算力服务。 3.5 服务编排与调度技术 从算力网络的服务模式和交易模式出发,不论是服务使用者还是算力贡献者 都需要考虑三个方面的问题:(1)效费比问题,即从自身信息化建设成本和使用 需求的角度考虑,采用自有资源或租用外部资源;(2)平台锁定问题,从平台稳 定性和数据安全等方面考虑,实现多云和多平台的容灾备份,从而避免单一平台 算力网络架构与技术体系白皮书 19 的安全性风险造成的业务中断和数据丢失;(3)服务模式问题,从算力服务开放 共享的服务模式出发,打造多维有序的生态圈是算力网络成功运营的关键。 中国联通在算力网络的研究过程中,除积极拥抱云原生技术外,也在积极思 考结合自身网络承载能力和整合计算资源的优势,通过智能的服务编排实现算力 网络能力开放,以此为引导,服务编排层将成为算力网络的重要组成部分。 3.5.1 服务编排架构 基于云原生的服务编排技术主要从融合计算、存储和网络能力开放,通过云 原生和云计算统一编排调度平台来实现。结合OpenStack的底层基础设施层的资 源调度管理能力,对于数据中心内的异构计算资源、存储资源和网络资源可以进 行有效管理。通过Kubernetes的面向服务的容器编排调度能力,服务编排层实现 了面向算网资源的能力开放。其总体架构如下图所示: 图3-5 基于云原生的服务编排层架构 如图3-5所示,中国联通算力网络服务编排层架构可解构为: 1、资源调度管理层:采用通用的OpenStack和Kubernetes结合的方式来实现 对于算力网络的计算、存储、网络等资源进行统一管理,整体通过Open Infrastructu