2020京东云最佳实践分析报告.docx
2020京东云 最佳实践 分析报告 目录 1 概述 . 1 1.1 京东云 介 绍 . 1 京东云 概 况 . 1 京东云 主 要优势 . 1 1.2 云计算 平 台特点 . 2 1.3 高质量 业 务系统 . 4 2 构建高 可 用的 系 统 . 5 2.1 简介 . 5 可用性 . 5 高可用 主 要技术 . 6 京东云 高 可用 架 构支撑 . 7 2.2 计算高 可 用方案 . 8 云主机 热 迁移 机 制 . 8 云平台 内 高可 用 方案 . 8 跨云高 可 用方案 . 10 2.3 数据级 高 可用 方 案 . 11 关系数 据 库服 务 RDS . 11 NoSQL 数据 库 MongoDB . 11 NewSQL 数据库 TiDB . 12 2.4 网络高 可 用方案 . 13 高可用 私 有网络 . 13 公网链 路 高可用 . 14 网络专 线 高可用 . 15 2.5 高可用 系 统最 佳 实践 . 15 利用高 可 用组 构 建核 心业 务系统 . 15 采用云 平 台 PaaS 产品 构 建高可 用 系统 . 15 跨可用 区 构建 高 速的 高可 用网络 . 16 采用两 地 三可 用 区部 署实 现异地 容 灾 . 16 利用脆 弱 测试 发 现系 统故 障单点 . 16 基于专 线 的混 合 云架 构实 现稳定 系 统 . 16 3 构建可 扩 展的 系 统 . 16 3.1 系统扩 展 方法 . 16 水平扩展 . 17 垂直扩展 . 17 3.2 京东云 主 要产 品 可扩 展 性 . 17 可扩展 架 构 . 17 弹性计 算 扩展 . 18 网络扩展 . 18 云数据 库 与缓 存 扩展 . 19 互联网 中 间件 扩 展 . 19 3.3 高可扩 展 性系 统 最佳 实 践 . 20 采用无 状 态应用 . 20 采用微 服 务架构 . 20 采用弹 性 伸缩 . 20 创建弹 性 网络 . 20 4 构建高 性 能系统 . 21 4.1 简介 . 21 性能概述 . 21 性能提 升 方法 . 21 4.2 京东云 主 要产 品 性能 . 22 弹性计算 . 22 网络 . 22 数据库 与 缓存 . 23 4.3 全链路 性 能测试 . 23 测试场景 . 23 测试指标 . 23 测试方法 . 24 4.4 性能优 化 最佳 实 践 . 25 云主机 性 能优化 . 25 网络性 能 优化 . 25 存储系 统 性能 优 化 . 26 云数据 库 与缓 存 性能 优 化 . 26 互联网 中 间件 性 能优化 . 26 应用系 统 性能 优 化 . 26 应用架 构 性能 优 化 . 26 操作系 统 性能 优 化 . 27 5 构建高 安 全性 的 系统 . 27 5.1 简介 . 27 安全威 胁 与防护 . 27 京东云 安 全保障 . 28 5.2 网络安 全 防护 . 29 网络安 全 威胁 . 29 网络安 全 防护 方 案 . 29 5.3 管理和 运 行环 境 安全 防 护 . 30 管理和 运 行环 境 安全 威 胁 . 30 管理和 运 行环 境 安全 防护 方案 . 30 5.4 云主机 安 全防护 . 31 云主机 安 全威胁 . 31 云主机 安 全防 护 方案 . 31 5.5 应用系 统 安全 防 护 . 31 应用系 统 安全 威 胁 . 31 应用系 统 安全 防 护方案 . 32 5.6 数据安 全 防护 . 32 数据安 全 威胁 . 32 数据安 全 防护 方 案 . 33 5.7 安全服 务 保障 . 33 基线检 测 服务 . 33 漏洞扫 描 服务 . 33 渗透测 试 服务 . 33 应急响 应 服务 . 34 6 构建易 运 维的 系 统 . 34 6.1 简介 . 34 运维 . 34 运维指标 . 34 6.2 系统管理 . 35 资源管理 . 35 账户管理 . 36 6.3 系统监控 . 36 云监控 . 36 基于 DevOps 的 监 控 . 37 基于云 计 算管 理 后台 的监 控 . 38 监控服务 . 38 6.4 DevOps . 38 介绍 . 38 功能 . 38 优势 . 39 6.5 故障应 急 响应 . 39 7 构建高 性 价比 系 统 . 40 7.1 简介 . 40 7.2 时间成 本 削减 . 40 采购、 建 设时 间 成本 . 40 研发时 间 成本 . 41 维护时 间 成本 . 41 战略转 型 时间 成 本 . 41 7.3 人力成 本 削减 . 41 研发人 力 成本 . 41 维护人 力 成本 . 41 7.4 资源成 本 削减 . 42 基础设施 . 42 硬件资源 . 42 软件资源 . 42 7.5 绩效提升 . 42 业务扩 展 与转型 . 42 融入生 态 体系 . 42 8 六高服务 . 42 8.1 高可用 优 化服务 . 43 8.2 扩展性 优 化服务 . 43 8.3 性能优 化 服务 . 43 8.4 安全优 化 服务 . 43 8.5 运维优 化 服务 . 43 8.6 降本增 效 服务 . 43 9 总结 . 44 10 引用 . 44 1 概述 1.1 京东云介绍 京东云概况 京东云 (JD Cloud)是京东集团旗下的全平台云计算综合服务提供商,拥有全球领先的云计算技术和丰富的云计算解决方案经验。为用户提供从 IaaS、 PaaS 到 SaaS 的全栈式服务(Full Stack),从 IDC 业务、云计算业务到综合业务的全频道服务 (Full Spectrum),以及包含公有云、私有云、混合云、专有云在内的全场景服务 (Full Services)和跨行业的全生态云服务(Full Ecosystem)。同时,京东云依托京东集团在云计算、大数据、 物联网和移动互联网应用 等多方面的长期业务实践和技术积淀,形成了从基础平台搭建、业务咨询规划,到业务平台 建设及运营等全产业链的云生态格局,为用户提供一站式全方位的云计算解决方案。 京东云拥有全球最大规模之一的 Docker 集群,中国最大的 GPU 集群之一;华北北京、华东上海、华东宿迁、华南广州 4 区域 10 可用区布局; 99.95%的月度服务级别 SLA;专有云平台 JD Stack 完全兼容公有云,发挥云平台高可用、易扩展、低运维成本优势。京东 云以一流的技术和可信赖的运维能力,向全社会提供安全、专业、稳定、便捷的云计算服务。 当前京东云具有可信云服务认证、支付卡行业数据安全标准认证 ( PCI DSS) 、 ISO27001 信息安全管理体系国际认证、 ISO9001 质量管理体系认证、信息系统等保三级安全认证、CSA STAR 云安全认证、 C STAR 云计算安全评估认证等数十项资质认证。 京东云主要优势 京东云经过多年的发展,在不断的技术积累与创新下,形成了如下五大优势: 高端的技术人才队伍 京东云基于京东集团近 20 年的互联网技术积累,组建了一支成熟稳定的以高端技术人 完善的基础设施 丰富的云计算产品 高端的技术 人才队伍 优质的服务体系 多层次立体式场景支持 才为核心主力的人才队伍。在以申元庆先生为首的一批云计算行业领军人物的带领下,京东云技术人才队伍不断拼搏创新,实现业界领先的技术实力和服务能力。 完善的基础设施 京东云在覆盖全国的 4 个地域建设 10 个可用区,每个可用区都由设施先进、功能完善的 IDC 组成。地域之间通过超高带宽的骨干网络连接,形成巨大的网络数据传输优势。基于稳定可靠的基础设施,京东云以一流的技术和运维能力向用户提供安全、专业、稳定、便捷的云计算服务。 丰富的云计算产品 经过多年的努力,基于京东云对整个行业的深入理解,当前已经为全社会贡献出 16 大 类共 220 多款产品和服务。并且京东云还在不断提升产品的品质,丰富产品的种类,通过人工智能、大数据和物联网等行业领先的高技术产品,为用户业务的快速发展助力赋能。 多层次立体式场景支持 京东云通过功能丰富的标准产品提供 IaaS、 PaaS、 SaaS 等全栈式云计算服务,能够很好的支持公有云、私有云、混合云、专有云等多种场景,能够对外提供 IDC 业务、云计算业务、综合业务等全频段业务服务,还能够针对用户需求提供快速的定制化开发,充分满足 用户对云计算的全方位需求。 优质的服务体系 京东云基于用户服务和通用技术服务等基础服务,以促进用户成功为理念,建立了金牌服务、优质架构服务、应急服务、迁移服务、系统优化服务等高技术价值服务,形成了基础稳固、技术先进、用户满意的层次化服务体系。通过配备高于业界水准的技术服务人力资源,使得用户服务更加专注、贴心,技术保障更加有力。 基于以上的五大优势,用户选择京东云之后,会立即获得多种保障,经过科学合理的系统设计和优化,将会对用户的业务发展有非常大的支撑和推动作用,使用户获得云计算技术带来的多种优势。 1.2 云计算平台特点 云计算技术的快速发展为信息技术带来很多新的机遇,用户在云计算技术发展的浪潮中获得了前所未有的益处。云计算平台是支持云计算技术的基石,具有鲜明的特点,不但包含 很多优势,还包含一些风险。 采用云计算平台的主要优势有: 优势 风险 基础设施稳固。 稳固的基础设施是云计算平台的基础。公有云云计算平台,往往需要搭 建覆盖整个国家甚至是全球的稳固基础设施。设施先进、规模庞大的基础设施支撑了上述的丰富资源和丰富场景。 产品丰富易用、资源易管理。 云计算平台能够为用户提供非常丰富的 IaaS、 PaaS 和 SaaS 产品。云计算平台能够选择最实用最有价值的产品提供给用户,而且会屏蔽用户 无需关心的技术细节和构建、配置过程,使得用户能够更加轻松地使用产品实现业务功能。提供非常 丰富的资源,从 CPU 和内存形成的计算能力,到磁盘、 SSD 硬盘提供的大容量存储能力, 再到可以连接多个网络运营商的基础网络能力。还能提供研发平台、中间件、应用软件等丰 富的软件资源。提供功能强大的云上 IT 资源的管理平台,用户能够通过管理平台轻松地管 理成百上千不同种类的 IT 资源,极大地降低了大型系统的维护难度。 场景丰富。 云计算平台能够提供公有云、私有云、混合云、专有云等多种场景,用户可以根据自身的业务需求选择适 合自身的场景部署业务系统。 技术迭代快。 信息技术飞速发展,用户需求不断变化,顶级技术厂商和众多开源社区、 研究机构共同促进着技术的快速迭代,云计算平台也通过不断的更新自己的技术和产品, 将最先进的有价值的新技术快速融入到平台能力中,为用户跟上快速的技术发展创造可能。 数据处理能力强。 庞大的基础设施和丰富的 IT 资源使云计算平台具备了前所未有的处理能力。只有凭借云计算平台才能破解上亿用户集中访问网络站点的超级难题。 服务便捷。 云计算平台不仅提供产品输出,还能为用户提供非常丰富的服务资源,帮助用户更容易和科学地构造和运营云上的业务系统。 使用成本低。 在相同的系统效能下,云计算平台能够帮助用户最大限度地减少时间成本、 人力成本和费用成本,从而有效降低用户研发和使用系统的整体成本。 云计算 机遇 VS 挑战 基础设施稳固 产品丰富易用、资源易管理 场景丰富 技术迭代快 数据处理能力强 服务便捷 使用成本低 尽管云计算平台具有以上很多优点,由于它也是一种大型的分布式信息系统,会具有以下一些风险: 全局范围内机器故障经常发生。 由于每台服务器都有一定的故障概率,无论是由几十台 全局范围内机器故障经常发生 性能弹性大 安全威胁多 技能要求高 服务器组成的私有云,还是由几十万台服务器组成的公有云,尽管每台服务器的故障概率很小,当服务器规模增大时机器故障就会更容易出现。由于云计算平台是大型的分布式系统,机器故障在整个平台范围内会经常出现。 性能弹性大。 云计算平台提供非常丰富的 IT 资源和产品,规格和种类都很多,当建立较为复杂的业务系统时,资源规格若没有很好的匹配,则会很大程度影响整体系统的性能。 系统的性能弹性很大,需要通过有效手段进行优化。 安全威胁多。 公有云云计算平台处于公网环境中,而公网环境中的安全形势往往比较严峻,遭受多种安全威胁。有效的安全保护措施对云上系统的安全稳定运行极为重要。 技能要求高。 云计算平台提供的产品往往具有技术先进性和新颖性,若想更好的利用这 些先进的技术则需要用户的技术人员具备较高的技术能力。若用户的技术人员没有相关的技术能力,则会对业务系统的高效运行带来一定的风险。 以上是云计算平台固有的主 要优势和风险,本文旨在通过从多个角度提供解决方案,帮助京东云上的用户更好的发挥云计算平台的优势,并降低云计算平台的风险,使用户的业务系统有更科学合理的架构和更好的系统质量。 1.3 高质量业务系统 基于上述云计算平台的优势和风险,用户搭建高质量的云上业务系统需要遵循下面的主要原则: 基于分布式系统架构设计 。云计算平台是天然的分布式系统的友好平台,业务系统基于分布式系统架构进行设计和实现有利于发挥云计算平台的优势和降低风险。 高可用 。针对用户业务系统特点,对京东云上目标系统合理设计,保证用户业务系统部署在京东云上实现高可用,业务系统能够连续稳定运行和输出。 可扩展 。对用户业务系统不同时段性能和资源需求进行分析,对用户业务未来发展规划进行梳理,通过合理的设计,使用户业务系统具有满足需求的可扩展性。 性能达标 。对用户原有系统性能需求进行分析,设计合理的云上系统架构和选用适当的云资源规格,保障用户业务系统在京东云上运行性能达到目标。 安全可靠 。针对云上业务系统可能受到的安全威胁,利用云平台提供的安全能力,对系统进行充分的安全性设计,有效保护系统安全。 易运维 。保障用户在京东云上的业务系统和云资源能够被有效的 运维管理和监控,确保及时发现系统故障,帮助用户对云上资源进行方便的管理。 成本低 。在满足用户业务系统的性能、安全性、高可用等前提下,帮助用户通过技术 手段和管理手段降低系统迁移后的运行和维护成本,实现降本增效的目标。 为了提高用户业务系统的质量,促进用户业务的不断发展,京东云基于上述主要原则为用户提供高质量云上系统解决方案。如图所示。 通过基础保障,帮助用户的系统实现高安全性、高可运维性,通过控制合理的成本开销实现系统的高性价比,并通过优质可靠的服务解决用户的疑难问题。通过架构保障,大幅提升用户业务系统的可用性、性能和可扩展性。京东云通过以上两层重点保障,帮助用户最终实现高质量的云上业务系统,促进业务系统的不断发展。 在下文中,简称具有 “ 高可用性、高可扩展性、高性能、高安全性、高可运维性、高性价比 ” 等特征的系统为 “ 六高 ” 系统。 2 构建高可用的系统 2.1 简介 可用性 对于 IT 系统,可用性是指在指定的一段时间范围内系统可以被访问和可以被使用的能力。若系统在指定的时间范围内因故障或某些操作导致不能被访问和被使用,则系统的可用性就会下降。对于需要连续运行并提供服务的系统,可用性是非常重要的系统质量好坏的评判指标,尤其对互联网企业和关系民生、安全等重要 IT 系统具有高可用性极为重要。提升云上的系统的可用性是云厂商和用户 IT 部门的共同责任,因为云厂商提供云上资源, 而用户需要通过良好的设计将这些资源进行科学合理的组合,形成质量较好的系统。 衡量系统可用性的指标有很多,其中最重要的是 “ 恢复时间目标 ” ( Recovery Time Objective, RTO),是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。 高安全性 基础保障 高可运维性 高性价 比 可靠的服务 架构保障 高可用性 高性能 高可扩展性 业务保障 功能完整 快速迭代 系统目标 高质量、丌断发展的系统