云原生2.0白皮书.pdf
云原生 2.0 白皮书 2021 年 4 月 CONTENTS 目 录 第一章 云原生发展历程 1.1 云原生创新回顾 . 02 1.2 企业 IT 建设的三阶段两转变,进入云原生阶段 . 04 1.3 以应用为中心,开启云原生 2.0 时代 . 05 .01 第二章 云原生基础设施 2.1 多元算力、软硬协同,为应用打造高效的资源平台 . 08 2.2 泛在计算、统一计算,让各类应用更有机的协同 . 11 2.3 智能调度、敏捷运维,让资源的利用更智能、高效 . 13 .07 第三章 云原生应用敏捷 3.1 基础设施现代化,让企业聚焦于应用开发和业务创新 . 17 3.2 应用架构现代化,让应用高内聚、低耦合、高可用与弹性 . 17 3.3 开发运维现代化,革新研发模式,提升软件交付效率 . 18 3.4 治理运营现代化,立而不破,发挥应用的融合价值 . 19 .15 第四章 云原生业务智能 4.1 云原生使能数据资产化 . 22 4.2 云原生 AI 开发及知识计算加速行业 AI 落地 . 28 4.3 云原生视频服务,重塑体验,激发创新 . 32 .21 第六章 云原生产业生态 . 44 第五章 云原生安全可信 5.1 云原生基础设施安全 . 35 5.2 云原生服务安全 . 37 5.3 云原生安全过程可信 . 40 5.4 云原生安全治理 . 42 .34 第七章 云原生未来展望 . 47 第八章 附录:云原生 2.0 行业实践 8.1 陕西财政轻装上云“放”出效率“管”出规范 . 50 8.2 AI 释放知识力量,中国一汽“维修智库”诞生记 . 52 8.3 中国工商银行打造云原生金融数据湖 . 54 8.4 云原生基础设施加速深交所数字化转型 . 57 8.5 云原生数据库助力永安保险实现“云端保险” . 58 8.6 爱学习构建超低时延线上互动课堂,推动教育 OMO 升级 . 61 8.7 亚洲渔港搭建供应链互联平台 . 63 .49 云原生2.0白皮书 01 第一章 云原生发展历程 云原生发展历程 云原生是近几年云计算领域炙手可热的话题,云原生技术已成为驱动业务增长的重要引擎。同时,作为新型基础设 施的重要支撑技术,云原生也逐渐在人工智能、大数据、边缘计算、5G 等新兴领域崭露头角。伴随各行业上云的逐步深化, 云原生化转型进程将进一步加速。 云原生2.0白皮书 02 1.1.1 开源技术创新 云原生的技术理念始于Netix等厂商从2009年起在公有云上的开发和部署实践。2015年云原生基金会CNCF成立, 标志着云原生从技术理念转化为开源实现,并给出了目前被广泛接受的定义: 云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。云原生的 代表技术包括容器、服务网格、微服务、不可变基础设施和声明式 API。 CNCF致力于通过培养和维持一个开源、供应商中立的项目生态系统来推动云原生技术的广泛采用,进而实现让云 原生无处不在的愿景。CNCF对云原生的定义让云原生的概念进一步具体化,从而让云原生更容易被各行业理解,为云 原生在全行业广泛应用奠定了基础。过去几年中,云原生关键技术正在被广泛采纳,CNCF调查报告显示,超过8成的 用户已经或计划使用微服务架构进行业务开发部署等,这使得用户对云原生技术的认知和使用进入新的阶段,技术生态 也在快速的更迭。 云原生创新回顾1.1 图 1 CNCF 云原生技术图谱(来源:cf.io ) 第一章 云原生发展历程 CNCF成立5年多来,开源为云原生技术带来了前所未有的发展浪潮,极大的加速了云原生在全球范围内快速应用 和发展。云原生技术生态也日趋完善,细分项目不断涌现。相较于早年的云原生技术生态主要集中在容器、微服务、 DevOps 等技术领域,现如今的技术生态已扩展至底层技术、编排及管理技术、安全技术、监测分析技术、大数据技术、 云原生2.0白皮书 03 人工智能技术、数据库技术以及场景化应用等众多分支,初步形成了支撑应用云原生化构建的全生命周期技术链。同时 细分领域的技术也趋于多元化发展,CNCF的云原生开源版图,由开始单一的容器编排项目Kubernetes,发展到如今5 大类100多个项目的,Kubernetes已经成为云原生的操作系统,在其上发展出面向各行业、不同功能、不同应用场景的 开源项目,Spark、Flink、Kafka、Redis等开源项目也陆续加入CNCF的云原生技术图谱,进一步完善了云原生技术生态。 云原生开源项目从基础的容器引擎出发,不断扩展应用领域,对边缘、异构等各类场景的适配能力不断深入。从早 期开源的容器引擎项目Docker,到实现容器高效编排的Kubernetes、Swarm、Mesos,再到为了更好的解决微服务治理 的难题,基于Service Mesh技术推出的Istio,以及针对边缘场景推出的KubeEdge、K3s、OpenYurt,面向高性能异构 计算场景的Volcano等项目,无一不成为加速云原生与行业融合、推动各行业创新的助推器。 1.1.2 商业解决方案创新 开源项目的不断更新和逐步成熟,也促使各企业在AI、大数据、边缘、高性能计算等新兴业务场景不断采用云原生 技术来构建创新解决方案。 早在2017年,就有大量企业尝试使用容器替换现有人工智能、大数据的基础平台,通过容器更小粒度的资源划分、 更快的扩容速度、更灵活的任务调度,以及天然的计算与存储分离架构等特点,助力人工智能、大数据在业务性能大幅 提升的同时,更好的控制成本。各云厂商也相继推出了对应的容器化服务,比如华为云的AI容器、大数据容器,AWS 的深度学习容器等。 云原生技术与边缘计算相结合,可以比较好的解决传统 方案中轻量化、异构设备管理、海量应用运维管理的难题, 如目前国内最大的边缘计算落地项目国家路网中心的全 国高速公路取消省界收费站项目,就使用了基于云原生技术 的边缘计算解决方案,解决了10万+异构设备管理、30多 万边缘应用管理的难题。主流的云计算厂商也相继推出了云 原生边缘计算解决方案,如华为云智能边缘平台IEF、AWS 的GreenGrass、阿里云的ACKEdge等等。 云原生在高性能计算(HPC)领域的应用呈现出快速上 升的势头。云原生在科研及学术机构、生物、制药等行业率 先得到应用,例如欧洲核子研究中心(CERN)、中国科学 院上海生命科学研究院、中国农业大学、华大基因、未来组 等单位都已经将传统的高性能计算业务升级为云原生架构。 为了更好的支撑高性能计算场景,各云计算厂商也纷纷推出 面向高性能计算专场的云原生解决方案,比如华为云推出的 云原生高性能计算解决方案、AWS推出了可运行在容器平 台的Batch服务。 云原生与商业场景的深度融合,不仅为各行业注入了发 展与创新的新动能,也促使云原生技术更快发展、生态更加 成熟。 第一章 云原生发展历程 云原生2.0白皮书 04 简单来看,企业IT建设所依赖的基础资源经历了从服务器到云化资源的发展历程,正在快速进入云原生阶段。 服务器阶段 :其特点是以硬件设备为中心,业务应用随不同厂商设备、操作系统、虚拟化软件的差异化进行定制; 设备的安装、调试,应用的部署、运维基本靠人力完成,自动化程度低,缺乏统一的设备和应用管理能力。后期随着虚 拟化软件的出现,资源的利用率、扩缩容器的灵活性方面得到一定的提升,但并未从根本上解决基础设施与软件割裂、 运维复杂的难题。 云化阶段:传统模式下分布离散的设备,被统一起来,实现了各类资源如计算、存储、网络的池化,通过统一的虚 拟化软件平台,为上层业务软件提供统一的资源管理接口,实现资源管理能力的自动化,屏蔽一部分基础设施的差异, 使得应用的通用性增强,但因为虚拟化软件平台差异化较大,尤其是各厂商的一些商业化增强,无法在厂商间进行能力 共享,应用还是无法以完全标准化的模式构建,应用部署还是以资源为中心。 云原生阶段:在这一阶段,企业的关注点从以资源为中心转移到以应用为中心,包括应用敏捷交付、快速弹性、平 滑迁移、无损容灾等。因此,企业开始考虑如何将基础设施与业务平台融合,为业务应用提供标准的运行、监控、治理平台, 并将业务的通用能力下沉到平台侧,更好的帮助企业实现应用的自动化。 企业 IT 建设的三阶段两转变,进入云原生阶段1.2 图 2 企业 IT 建设的三阶段两转变 第一章 云原生发展历程 企业IT数字化转型的“三阶段两转变” 统一云资源管理 转变1:资源自动化 计算池化 虚 机 虚 机 虚 机 网络池化 VPC ELB 存储池化 块 存储 文件 存储 对象 存储 微服务 应用 AI/大数据 应用 边缘/ IoT应用 云原生平台 云原生基础设施:以“应用”为中心 应 用 定 义 算 力应 用 定 义 算 力 应 用 定 义 网 络应 用 定 义 网 络 应 用 定 义 存 储应 用 定 义 存 储 多云/混合云/边云架构 云 原 生 应 用 使 能 中 心 中间件 应用 硬件系统 交 换 机 路 由 器 . 软件系统 数据库 企业服务 总线 企业中间件 平台 运营支撑 系统 CRM/ERP 核心业务 系统 阶段1:服务器 碎片化物理设备管理 软件与硬件割裂 以“设备”为中心 阶段2:云化 统一云化资源池 软件迁移上云 以“资源”为中心 阶段3:云原生化 统一云原生基础设施 软件云原生架构 以“应用”为中心 转变2:应用自动化 物 理 机 物 理 机 SAN 设备 NFS 设备 RAID 阵列 软件系统 运营支 撑系统 CRM/ ERP 云化运 维系统 敏捷开 发系统 核心业 务系统 新型业 务系统 . 云化数据库轻量级服务框架云化中间件平台 云原生2.0白皮书 05 企业数字化转型初期,主要是将业务从线下搬迁上云,在这一阶段企业主要是的把业务简单部署和运行在云上,可 以称之为ON CLOUD。这种形态下,通过资源池云化,解决了IDC时代运维、部署、扩容的难题,但传统应用单体架构 厚重、烟囱式架构等带来的一系列应用层面的问题并没有得到有效解决,云对业务的价值主要还停留在资源供给的阶段, 无法充分发挥出云的价值。 随着企业数字化转型的深入,企业需要充分享受云计算带来的红利,需要让业务能力生于云、长于云,由现在的 ON CLOUD进阶到IN CLOUD,同时基于云构建的新生能力与既有能力有机协同、立而不破。生于云是指基于云原生的 技术、架构和服务来构建企业应用,长于云是指充分利用云的优势来助力企业应用和业务发展,将企业的数字化建设、 业务智能升级带入新阶段,我们称之为云原生2.0时代。 从为企业带来的价值来看,云原生 2.0 有着如下优势: 以应用为中心,开启云原生 2.0 时代1.3 通过对多元算力的支持,满足不同应用场景的个性化算力需求,并基于软硬协同架构,为应用提供极致性能的 云原生算力;基于多云治理和边云协同,打造高效、高可靠的分布式泛在计算平台,并构建包括容器、裸机、 虚机、函数等多种形态的统一计算资源;以“应用”为中心打造高效的资源调度和管理平台,为企业提供一键 式部署、可感知应用的智能化调度,以及全方位监控与运维能力。 通过最新的DevSecOps应用开发模式,实现了应用的敏捷开发,提升业务应用的迭代速度,高效响应用户需求, 并保证全流程安全。对于服务的集成提供侵入和非侵入两种模式辅助企业应用架构升级,同时实现新老应用的 有机协同,立而不破。 帮助企业管理好数据,快速构建数据运营能力,实现数据的资产化沉淀和价值挖掘,并借助一系列AI技术,再 次赋能给企业应用,结合数据和AI的能力帮助企业实现业务的智能升级。 结合云平台全方位企业级安全服务和安全合规能力,保障企业应用在云上安全构建,业务安全运行。 资源高效 应用敏捷 业务智能 安全可信 第一章 云原生发展历程 云原生2.0白皮书 06 图 3 云原生 2.0 参考架构 云原生 2.0 的参考架构如下: 应 用 敏 捷应 用 敏 捷 安全技术和产品 租户安全服务 | 线上线下统一的安全管理能力 安全体系 + 运营体系 云原生应用赋能云原生应用赋能 计 算 存 储 网 络 云原生基础设施云原生基础设施云容器产品 容器镜像仓库 多云容器管理平台智能边缘平台 云原生服务中心 云容器安全 资 源 高 效资 源 高 效 公 有 云 混 合 云 边 缘 云 业 务 智 能业 务 智 能 安 全 可 信安 全 可 信 云原生DevOps DevOps开发平台 全场景微服务 微服务应用管理| 服务网格 | 分布式事务 融合集成 应用集成/设备接入 云中间件 分布式缓存/分布式消息/API网关/函数服务 数据库 存算分离 | 分布式 | 多模数据 数据治理 ETL工具 | 方法论 云原生一站式AI开发平台 预制模型算法 | 行业预制算法 全生命周期知识计算解决方案 知识获取| 建模| 管理 | 应用 数据湖 融合分析|跨域协同| 协同计算 企业安全治理体系 全生命周期数据保护 | 全球安全专家团队 安全级合规能力和经验 合规认证 | 平台和云服务内置合规能力 全流程DevSecOps IDE集成安全插件 | 安全门禁 | 漏洞智能分析 Kubernetes容器 KubeFed 多云 管理 KubeEdge 边云 协同 Volcano 批量 调度 Istio服务网格 第一章 云原生发展历程 云原生2.0白皮书 07 第二章 云原生基础设施 经过十几年的发展,云计算作为数字化转型的重要基础设施,已经由“面向云迁移应用”的阶段演进到“面向云构 建应用”的阶段,即由“以资源为中心”演进到“以应用为中心”的云原生基础设施阶段。云原生基础设施为用户带来 了多方面的革新,利用智能的调度、运维系统高效管理更为丰富的应用,天然混合云的架构可将业务快速分发部署到到 分布式云的场景中,同时软硬协同的基础设施架构在为应用提供更好的性能的同时,也对隔离性、安全性等多方面能力 进行了加强。 云原生2.0白皮书 08 容器服务早期的部署形态多基于虚拟机,以虚拟机节点作为容器集群的计算节点,并基于此构建容器的网络、存储 和编排能力。这样的堆叠架构虽然可以让整个软件栈分工明确、边界清晰,但是带来了较大的性能损耗和功能冗余,并 且难以满足客户对实例安全隔离的较高要求。在云原生2.0时代,基于裸金属搭建容器服务成为一些对性能和实例隔离 性较高用户的选择。同时,为了进一步提高容器负载性能和稳定性,原来部署在裸金属之上的非业务负载组件也逐步的 由专门的卸载硬件来承载,例如容器存储、容器网络、容器引擎以及服务网格组件。将容器组件下沉到卸载卡后,有两 方面好处: null资源高效:裸金属节点上的计算资源可以100%被业务负载使用,避免了对业务负载的性能干扰。 null性能提升:容器网络、容器存储组件下沉到卸载卡后可以与传统IaaS层的网络、存储组件垂直打通,减少冗余;直 接以硬件设备直通方式将存储、网络资源分配给容器实例,缩短I/O路径,提高性能。 随着人工智能、5G、HPC、边缘计算等新业务的逐渐落地和普及,对算力多样化提出了更高的要求。针对特定的业 务场景采用专有的硬件可以提供更好的计算效能,越来越多的异构计算硬件如GPU、FPGA、ASIC、SoC等被应用到专 有的领域。云原生2.0时代,基础设施的特征之一就是向下统一管理和支持各种异构硬件,向上屏蔽底层多种硬件的差 异性。真正做到以应用为中心,应用无需关心底层的硬件设备,无需针对特定硬件做任何特殊处理。 大规模的网络资源供应、泛在的网络安全隔离、极致的网络弹性和细粒度的网络QoS是承载大规模云原生业务的基 础网络要求。资源供应方面,单VPC内多集群的容器端点数可以达到甚至超过百万,灾备场景的集群迁移要求容器级的 网络配置、隔离,例如QoS,带宽限速大批量容器快速发放(10万/分钟);网络弹性方面 ,Serverless/Function等 轻量级云原生运行时的要求毫秒级创建,秒级冷启动(包含网络端到端打通);安全隔离方面,无边界、零信任、海量 端点和高动态性的云原生网络安全,要求即时生效的容器粒度安全隔离与ACL;资源力度方面,在/离线业务混部场景下, 为了能够发挥出云原生极致资源利用率和性价比,要求容器网口粒度的QoS(包括带宽保障和优先级支持)。不断变化 的云原生业务诉求正推动着云网络架构的不断演进。 传统高性能计算(HPC)领域广泛采用InniBand技术获得高吞吐和低时延的无损网络通讯能力,但这一技术体系专 用网络硬件成本高昂、组网规模不可扩展、技术演进缓慢,无法满足云原生时代的平民化可支付、高弹性大规模使用要求。 领先的云厂商开始基于智能网卡的可编程和卸载能力,对无损网络通讯协议进行了重新设计,在主机侧智能网卡中采用 创新的拥塞控制算法,在大大降低丢包发生概率的同时,保持转发队列的低水位,从而兼顾大带宽和低时延要求,并且 也去除了对PFC的依赖,利用普通的以太网交换设备就可以实现大规模组网,解决了横向扩展的问题。以AWS SRD和 华为云CurreNET为代表的高性能协议栈技术在高性能计算(100G)和低时延云存储(10微秒级时延)技术领域取得突 破。未来高性能网络通讯协议在云原生领域的应用将不再局限于传统的高性能计算和存储领域,会在扩展至更广泛的云 原生技术和行业应用中,如:ServiceMesh、 云原生的中间件(内存数据库,消息中间件等)等技术,云视频、云原生 的金融交易等行业。 多元算力、软硬协同,为应用打造高效的资源平台2.1 第二章 云原生基础设施 云原生2.0白皮书 09 云原生存储是指面向云原生应用的存储解决方案,云原生应用与传统应用对存储诉求的具有本质的不同。较传统应 用而言,云原生应用具备如下特点: null 提供声明式的资源的申请接口:当前CSI已经成了云原生应用使用存储资源的统一标准,不管是传统IaaS云存 储,还是新型容器化部署(CAS)的存储架构,都采用该接口来为云原生负载提供存储资源。但是对于不同的云提 供商或者存储提供商,他们提供的CSI配置参数仍存在差异性,不能做到一次配置到处运行。为了解决该问题, 可以采用CAS架构存储,让存储随着负载一起部署在容器集群中,基础设施层只提供基础块设备的供应,类似于 Portworx、OpenEBS,或者管控面增加一个存储接入中间层,中间层北向提供统一的CSI配置,南向适配不同存储, 类似于华为的SODA、NeTApp 的Trident。 null 控制面和数据面性能同等重要:传统应用大都采用单体架构,对存储资源的诉求也大都是由管理员先通过界面操作 分配好资源,然后挂到运行的节点上使用,该场景下负载对存储数据面性能要求较高,忽略了管控面的性能。但是 在云原生场景,可能很多微服务组件并发调用存储卷的管理面功能,比如创建、删除、快照等,这就需要云原生存 储系统在设计时就要考虑管控面的性能。 null 以应用为中心:云原生场景下所有的服务层都是围绕应用诉求来构建,包括存储资源的供应、生命周期管理,监控、 灾备等。传统应用场景下,存储的管理还都是以资源为中心,比如存储的备份恢复、实时灾备,客户要明确指定需 要处理的数据盘,而缺少应用负载的联动。云原生场景下,应用的备份恢复和容灾就需要从负载本身触发,将应用 本身配置、运行状态、使用的存储卷等都一起备份恢复,从而达到应用负载与所依赖资源状态的整体一致性。此外, 数据面也要做到以应用为中心,云原生应用关注的只是数据源的存放,而不关心数据源如何被应用来使用。存储供 应层需要根据负载要求的性能指标来自动选择合适的数据面对接方案。比如负载使用的数据可能在性价比较高的对 象存储中,但是又要求负载访问时具有较高的性能,存储提供层就需要借助缓存加速能力,自动为存储卷启动缓存 加速实例来提高访问性能,而这一切对于负载而言都是不可见的,负载只需要在资源诉求中配置高性能即可。 null 策略驱动的自动化管理:随着云原生实例规模的增加,存储卷的管理将会非常复杂,需要提供基于策略的自动化管 理手段。客户可以配置存储卷的管理策略,存储层按照策略来自动化管理存储卷。比如用户可以定义好卷的生命周 期动作,然后存储层按照配置自动化为负载提供卷,周期性清理残旧卷,周期性对卷进行健康检查、备份恢复等。 操作系统是承载云原生应用运行实例的底座,云原生下操作系统与普通操作系统的本质区别是其从管理硬件、资源 等职能转变为以应用为中心,提供应用特征最优组合的底层运行环境。 依据云原生应用的基本特征,云原生下操作系统应具备如下能力: null轻量化组件构成:云原生下应用采用容器化标准部署模式,应用依赖自包含,对操作系统依赖降低。传统操作系统 为满足多类型应用,组件功能复杂完备,在云原生场景下则较为冗余。冗余组件压缩应用可利用资源,降低了应用 部署密度,同时暴露更多攻击面,降低系统稳定性。因此在云原生场景下,操作系统应仅包含最小依赖组件,如系 统1号管理组件、网络管理组件、设备管理组件、日志组件与基础依赖软包等。 null标准化功能组合管理:软件包是组成传统操作系统的最小单元,如CentOS/openSuse使用的RPM软件包管理体系 或Debian/Ubuntu使用的deb软件包管理体系,云原生应用使用Operator/Helm等标准应用模式,传统软件包管 理模式较难融入标准生态。云原生下提出统一运维管理界面的要求,操作系统内基础软件包应以符合标准化应用模 第二章 云原生基础设施 云原生2.0白皮书 10 式提供原子功能级的管理,如使用Operator/Helm部署基础能力,或将整体根文件系统打包组合成容器镜像原子化 管理,或将原有软件包管理模式封装可接入生态格式,最终通过kubernetes 统一API入口进行生命周期管控。 null 应用定义操作系统:以应用为中心要求整体软件栈围绕应用诉求构建,传统操作系统一般以通用使用场景,无法 针对特定应用提供最优软件栈组合与调优策略,如针对在线/离线业务混合部署场景,需进行服务级别资源精细化 QoS控制与快速抢占协同调度;针对大数据应用场景,可使用冷热页面分级,提升热数据性能访问性能等。针对不 同应用场景的特征进行操作系统最优策略制定,基于标准化功能组合管理,抑制基础设施版本管理膨胀,提供应用 性能/体验最优的操作系统。 null智能运维与调优:随着节点规模与部署密度的增加,云原生应用的运维与调优变得愈加困难,引入AI来进行大规模 应用的运维和调优成为了必要手段。整体智能系统应包括应用行为观测、应用指标度量与智能决策三个部分。其中 云原生下操作系统应提供低负载且应用无感的观测手段,提供结构化、标准化的观测数据,为后续决策提供必要的 数据基础。同时结合应用指标度量手段,提供应用相关性分析,提供应用性能/体验调优策略建议,针对故障应用, 智能诊断应用故障,进而实现整体故障级预测。同时,因调优/故障导致操作系统自身组件的变化应保持应用影响 最小化,如提供OTA级操作系统基础组件升级能力或操作系统内核热替换能力。 如今各个云服务厂商大力推广的Serverless计算,能在很大程度上提高用户的灵活性和创新能力,使用户可以在不 考虑服务器的情况下构建并运行应用程序和服务,消除管理基础设施的压力。但当前的Serverless架构仍被限定在某个 Region内,大部分的云服务厂商仍依据成本,用户量等因素在不同的地域(Region)建设资源,用户再根据业务、成本、 性能等因素选择相应Region的资源提交作业。随着用户业务量的增长,多Region投递任务的管理能力也成为一个重要 的考量因素,尤其考虑到不同Region的建设、运维、商业成本差异。全域调度(Regionless)是面向跨Region场景的 下一代无服务计算(Serverless 2.0)。根据业务请求、资源成本等因素在多个Region中选择最合适的资源池来处理客 户的计算任务,并且支持多种任务投递策略,满足客户各种业务场景下的诉求,比如成本优先、速度优先、指定时间执 行等等。全域调度不仅能够通过全局资源的调配来达到降本增效的目的,还能将用户从多Region的管理与运维中解放 出来,让客户聚焦到业务本身,提供真正的Serverless体验。 第二章 云原生基础设施 云原生2.0白皮书 11 随着企业生产环境容器集群规模爆发式增长,越来越多的企业核心业务切换到容器,容器技术需要应对的场景也越 来越复杂,单数据中心的强硬基础设施性能、单厂商跨Region的Serverless资源无感知调度,虽然可以满足企业大规模 业务部署的诉求,但在某些场景下,如容灾、跨云迁移等,单独的云厂商已经无法满足用户需求。因此跨云服务商的业 务部署能力成为客户重点关注对象,以满足业务连续性、降本增效等场景诉求,如: null解除厂商锁定,应用可以灵活地部署在不同云供应商或本地IDC的集群中,不再依赖某一家云服务厂商; null跨云业务容灾,在云服务商发生故障时可以快速切换到其他的云服务商或者混合云环境中去,实现业务的容灾管理; null跨云弹性伸缩,利用公有云超大资源池应对短期流量高峰场景,大幅提高业务的承载能力; null公私云分离部署,部分核心业务部署在私有云环境,满足行业监管和数据安全要求,普通业务部署在公有云上,利 用公有云强大的计算能力,同时节约成本。 当前所有主流云厂商均支持基于Kubernetes的容器服务,Kubernetes已然成为容器调度管理的事实标准,这也为 多云统一管理提供了技术条件。云原生2.0多云架构应该具备以下特征: null天然多云:基于kubernetes容器技术的统一标准,应用可以跨云在多个Kubernetes集群间自由迁移而不必担心对 环境的依赖(云厂商的Kubernetes服务需兼容社区标准API)。 泛在计算、统一计算,让各类应用更有机的协同2.2 第二章 云原生基础设施 云原生2.0白皮书 12 null多云治理:结合服务网格实现多云多集群全局统一服务治理,单网格控制面支持管理10W+服务实例,支持灰度发布、 流量治理、流量监控等完善的服务治理能力。 null统一运维:基于容器技术的轻量级技术方案,支持100W+海量容器集群统一管理(含边缘集群),支持跨云业务 的统一构建和维护,无需关注大量基础设施的问题。 null跨云弹性:基于容器技术的秒级弹性机制,扩缩容及时性5s,1分钟扩容1000+容器实例,可实现业务按需极速 跨云弹性伸缩,不需要为多云和混合云解决方案维护额外的本地资源,降低企业IT基础设施投资成本50%以上。 除了跨公有云或公有云与私有云之间这种多云管理场景外,随着边缘技术的日趋成熟和广泛使用,应用大量被部署 在边缘侧设备上,以减少数据传输时延带来的业务损耗。权威机构预测,未来5年,企业的数据存储和业务计算会更多 的在边缘发生,边缘计算的各种创新也会逐渐增多。其中推动边缘计算快速发展主要有四大因素: null低时延:为满足低时延要求,需要在离业务现场最近的“边缘”构建解决方案,减少业务处理时延;满足工业互联网、 智慧城市等现场边缘场景小于5ms时延,互动直播、游戏/VR场景下部大于20ms的要求。 null海量数据:物联网时代边缘数据爆炸性增长,按照Gartner的统计,2020年全世界有多达250亿的智能设备连接 互联网并产生50万亿GB的数据。如此多的数据难以全部直接回传至云端且成本高昂,数据需要在本地进行分析和 过滤,节省网络带宽; null隐私安全:数据涉及企业生产和经营活动安全,在边缘处理企业保密信息、个人隐私; null本地自治:本地网络在于云端断连的情况下,依然不能影响边缘侧的业务,边缘侧需要不依赖云端的离线处理能力、 自我恢复能力。平台要提供业务自愈的能力,当边缘业务出现故障的时候,可以在3s内对故障做出自动修复,保 证业务连续性。 边缘的运行环境对应用和管理平台提出了新的挑战,如应用的简单化轻量化、严格的施工环境承载要求、边缘网络 低速度和低稳定性甚以及环境恶劣地域的大范围部署等,为应对以上这些挑战,边缘计算平台应具备以下特点: null统一管理:基于Kubernetes等云原生技术,实现异构设备接入、镜像管理、应用分发、应用升级、应用运维等, 边缘业务完整生命周期管理,业务效率提升10倍; null极致轻量:支持轻量化容器和函数管理,最小可支持百兆内存的边缘设备; null高可靠性:支持离线场景和节点故障场景下,边缘应用秒级恢复业务,保障高可用; null边云/边边协同:支持边缘应用间轻量级服务发现与负载均衡;支持边缘应用与云端应用的服务发现; null大规模管理:可支持百万节点,千万级应用,镜像极速分发分钟级分发至万级节点; 除了解决应用跨云域分布式部署和管理的问题之外,以容器为核心构建裸金属服务器、虚拟机、容器、函数等多形 态资源共池的统一计算平台,使得企业在云原生转型过程中,传统的应用能与新的云原生应用共平台统一部署,更好的 实现新老业务的协同。 第二章 云原生基础设施 云原生2.0白皮书 13 随着云计算的发展,越来越多的应用面向云构建,从早期业务类应用以及与之配套的各类中间件应用上云,再到 AI、大数据、HPC等计算类应用全面上云,云计算进入了以“应用为中心”的云原生2.0阶段,所有应用能力将“生于云、 长于云”。 有状态应用、中间件等都有定制的生命周期管理需求,很难用一种或几种工具有效的管理其生命周期,例如 Kuberentes默认的部署元素很难管理像MySQL、Kafka 这样的有状态应用和中间件。因此,定制化生命周期管理成为主 要解决方案。在以应用为中心的云原生2.0阶段,Kubernetes + Operator以其良好的可扩展性及较高社区活跃度,已经 成为各个企业的主流选择,将极大降低云原生应用全生命周期管理的难度,加快企业业务的云原生化升级。同时,定制 化在解决生命期管理的同时,也引入了社区项目分散,构建不规范等问题,因此需要提供以下几方面的能力,才能有效 的管理有状态应用、中间件等: null部署标准:基于Operator以及Helm的开源标准,支持通过增加配置文件声明使能弹性伸缩、配置更新、数据迁移 等云原生能力。 null开发规范:自动生成服务包和配置文件,开发者聚焦业务开发和配置使能。 null服务中心:提供服务生态、种类丰富,同时接入服务提供商提供的服务社区版以及企业版供企业自主选购,一键服 务实例分发,秒级部署,开箱即用。 null服务生命周期管理:结合多集群管理和边缘云管理,提供跨公有云、混合云、边缘的全场景服务生命周期管理。 随着企业云原生应用数量的快速增加,对应用服务的流量治理、运行监控、访问安全以及发布等能力诉求也相应提升。 在云原生1.0 阶段所流行的以SDK方式进行微服务治理框架的模式,在云原生2.0的阶段,逐步被非侵入式的微服务治 理解决方案取代。Istio作为现在主流的非侵入式微服务治理框架,为用户提供了包括负载均衡、熔断、限流等多种治理 能力。但原生的Istio无法满足用户在生产环境中的需求,还需提供以下几种能力,以提高用户的对应用的治理能力: 服务灰度发布 允许用户按照标准制定一套流量分发规则,并且无侵入的下发到实例中,平滑稳定的实现灰度发布功能。为应用治 理提供的灰度发布功能,稳定高效地推动企业应用的迭代升级。 服务网格化 随着微服务的大量应用,其构成的分布式应用架构在运维、调试、和安全管理等维度变得更加复杂,开发者需要面 临更大的挑战,如:服务发现、负载均衡、故障恢复、指标收集和监控,以及灰度发布、蓝绿发布、限流、访问控制、 端到端认证等。服务网格通过无侵入的方式,面向容器云原生应用,提供容器化和治理的完整解决方案。 智能调度、敏捷运维,让资源的利用更智能、高效2.3 第二章 云原生基础设施 云原生2.0白皮书 14 服务流量治理 根据微服务的流量协议,提供策略化、场景化的网络连接、安全策略管理能力。支持基于应用拓扑对服务配置负载 均衡、熔断容错等治理规则,并提供实时的、可视化的服务流量管理。应用无需任何改造,即可进行动态的智能路由和 弹性流量管理。 进入云原生2.0阶段后,不仅仅有更多的在线业务进行云原生升级,离线类计算业务也开始了云原生升级,包括 AI,大数据和HPC等。在升级过程中,各个领域的应用架构逐渐向云原生转型,例如 Spark, Cromwell等,并通过云原 生基础设施构建统一的计算平台以提高运维效率和资源使用率。为了有效的支持离线作业,云原生基础设施在云原生2.0 时代的技术特征是: null面向高性能负载的调度策略, 如公平调度, 组调度等, 提供达到70%以上的资源使用率; null支持多种作业生命周期管理, 如multiple pod template, error handling; null支持多种异构硬件, 如 GPU,NPU,FPGA; null面向高性能负载的性能优化,例如支持2万节点的大规模集群,提供10k/s 的容器启动速度。 第二章 云原生基础设施 云原生2.0白皮书 15 第三章 云原生应用敏捷 Gartner也提出,到2023年,新应用新服务的数量将达到5亿,也即是说:“每个企业都正在成为软件企业”。据 IDC预测,到2025年三分之二的企业将成为多产的“软件企业”,每天都会发布软件版本。越来越多的企业将使用软 件来交付服务,企业需要敏捷的业务能力来应对快速变化的市场,同时需要领先的创新能力来形成差异化的市场竞争力。 云原生2.0白皮书 16 面对这样的趋势,传统应用陈旧的架构和开发模式将拖累企 业业务创新。传统应用存在一系列的问题,如架构耦合度大、应 用愈发复杂、技术债务持续积累、无法按需弹性、开发模式落后、 部署发布周期长、开发运维割裂等。这些问题,严重阻碍了企业 应用的迭代,限制了技术演进和业务创新。 因此,企业亟需通过应用现代化建设来实现敏捷商道。应用 现代化已成为业界的热点,但各厂商对应用现代化的理解不同。 AWS认为,应用现代化包括Ownership文化的构建、微服务化、 数据管理、计算、敏捷开发、服务器运维模式、利用程序化护栏 等。谷歌认为,应用现代化应实现基础架构与应用解耦、各个团 队解耦、开发与运维解耦、安全与开发和运维解耦等。微软认为, 在应用模式方面上云、在开发实践方面采用DevOps、在技术选 择方面选择最适合的开发语言、框架和工具,是实现应用现代化 的核心。 华为基于服务数百万企业客户的经验沉淀,以及结合自身30年的数字化实践总结,提出“基础设施现代化、应用 架构现代化、开发运维现代化、治理运营现代化”这四个现代化是企业走向应用现代化的关键,让企业走上以业务和应 用为中心的敏捷道路,重塑应用的商业价值。 图 4 应用现代化参考架构 基础设施现代化 传 统 基 础 设 施 云 原 生 基 础 设 施 开发运维现代化应用架构现代化 微 服 务 化 Serverless 高可用容灾 弹性伸缩 DevSecOps Low/No Code 协同与自动化CICD 智 能 化 运 维 治理运营现代化 融 合 集 成 双模微服务治理 资产沉淀/运营 多云/混云治理 云端迁移 加速创新 降低成本 敏捷交付 需 改 造 的 传 统 应 用新 云 原 生 应 用 不 变 的 传 统 应 用 应用使能 第三章 云原生应用敏捷 云原生2.0白皮书 17 基础设施现代化的本质是通过将企业应用迁移上云,使用容器、多元算力、Serverless、分布式云等技术,对应用的 底层架构进行重构,实现承载应用的基础设施资源的高弹性和高可用,最大化利用云平台的技术和优势,帮助客户实现 资源的智能调度、简化运维、降低成本,将开发人员从繁琐的资源管理和运维等低值工作中释放出来,聚焦于应用开发 和业务创新等能给企业带来高价值的工作。 应用的架构现代化是指使用微服务、Serverless等技术,将应用拆分为能独立运行,满足客户需求的独立模块,实 现应用的高可用、弹性扩展。应用架构现代化是应用走向敏捷开发的基础。 null微服务架构旨在让每个微服务块集中和独立处理一个内聚的业务逻辑,以便于独立的运行和交