2022713_艾瑞咨询_2022年中国数智融合发展洞察(31页).pdf
2022.7 iResearch Inc.中国数智融合发展洞察2 2022.7 iResearch I摘要 来源:艾瑞咨询研究院自主研究及绘制。VUCA 时代,市场变化加速。企业需要更加敏捷而准确的数智化决策,这些决策应当是分钟级的而非 天级的,应当是基于全量数据的而非局部数据的,应当是基于准确数据的而非基于“脏数据”的,应当是业务人员和数据分析人员任意发起的而非是通过复杂流程和多部门配合才能实现的。传统的数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难:数据孤岛存在,决策无法基于全 量数据;数据来回流转,成本高、周期长、时效差。基于存储-缓存-计算分离,湖-仓-AI 数据统一元 数据管理的 Serverless,可在数据量、成本、效率、敏捷方面取得最优解。开源为数智生态贡献重要力量,但这不预示所有企业需通过开源产品自建数智平台。实际上,大多 企业聚焦自己核心业务,选择性能稳定、无须运维、数智融合、端到端自动化与智能化的商业化数 智平台,ROI 会更高。当然,平台应与主流开源产品具有良好继承性,如此,更加灵活开放,企业 的 IT 人才补给成本也更低。3中国数智融合发展背景 1企业数智融合的痛点及应对 2数智融合典型实践 34 2022.7 iResearch I 2022.7 iResearch I数据量和非结构化数据占比上升 统一管理,统一查询使用,成为新的挑战 全球 数据 量以 59%以上的年增长率快速增长,其中 80%是非结构化和半结构化数据,中国数据量的上升较全球更为迅速。数据量和非结构化数据的上升,使得基于对象存储的数据湖越来越为普及。此时,如何使用统一管理,统一查询使用,成 为新的挑战。来源:中国电信招股说明书,艾瑞咨询研究院整理及绘制。来源:艾瑞咨询研究院自主研究及绘制。2015-2030 年中国数据量规模及全球占比 企业内结构化数据与非结构化数据占比及使用情况 在企业的数据中,结构化数据仅占 20%,其余 80%都是以文件、语音、图片等形式存在的非结构化数据。且非结构化数据的增速远远高于结构化数据,随着时间的推移,非结构化数据所占的比例将会越来越高。企业长期以来,受技术影响,对结构化数据的利用率均高于对非结构化数据的利用率。但实际上,非结构化数据的体量与其包含的信息量都更多,是企业未得到充分利用的宝贵资产。结构化 数据,70%非结构化数 据,30%3124917523.2%23.6%27.8%28.8%2015 2020 2025e 2030e中国年数据量(ZB)中国年数据量全球占比(%)非结构化 数据,80%结构化 数据,20%5 2022.7 iResearch I 2022.7 iResearch I数据多源异构成为常态 数据从“汇聚才可被用”到“链接即可被用”在传统数仓中,多源数据经 ETL 过程并集中入仓,方可被使用。该方式有许多不足:第一,因有复杂的 ETL 过程及大量数据的传输,数据实时性难以保障,因此分析常必须 T+1才可完成;第二,数据的全量存储和存储成本之间难以取舍,因此必须提前抉择保留哪些数据,随着数据种类的逐渐增多,这很难做到;第三,对于异常值的下钻、回溯等,无法回溯到最为原始的数据。随着应用场景的增多,数据库的种类也逐渐丰富,如更适应物联网场景的时序数据库、更适应知识谱图应用的图数据库,等等。综上,多源异构、分布存储、现用现传、统一查询与应用的架构,逐渐被敏捷型企业认可。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。数据仓库 vs数据湖 vs湖仓一体 数据库的多源性 BI报表 结构化/半 结构化数据 ETL数据仓库 结构化/半 结构化/非 结构化数据 数 据 处 理 BI报表 数据湖 数仓集群 数湖集群 统一资源池 计算层 存储层 计算层 存储层 存算分离,弹性扩展 接口 BI报表 数据仓库 vs湖仓一体 数据湖 vs湖仓一体“湖仓一体”作为数据处理统一底座,提供实时处理多引擎、多数据类型能力,避免数据移 动建模,降低数据处理的成本。“湖仓一体”弥补 Hadoop 下 数据湖实时数据处理的缺失,降低事后数据治理难度,提升 了大数据应用性能。公有云 1 公有云 2 私有云 虚拟机 物理机 Oracle DB2 达梦 开源 OpenGaussMySQL Pos tgreSQLReids关系型 非关系型 部署 资源管理 监控巡检 性能容量 高可用 安全性 一站式数据库管理6 2022.7 iResearch I大数据的 5V 价值有待进一步释放 可从平台性工具入手,进而解决思维和技能的问题 来源:艾瑞咨询研究院根据公开资料整理。大数据 5V特性 大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,提供全链条技术、工具和平台,孕 育数据要素市场主体,深度参与数据要素全生命周期活动,是激活数据要素潜能的关键支撑,是数据要素市场培育的重要 内容。目前,大数据产业仍存在数据壁垒突出、碎片化问题严重等瓶颈约束,大数据容量大、类型多、速度快、精度准、价值高的 5V 特性未能得到充分释放。这其中既有思维、技能的要素,又有工具的要素,三者也并非割裂存在,一般来说,性能稳定、简单易用的全链条平台工具有助于消除思维的“不敢”和技能的“不会”,化解掉 5V 特性释放的原始阻力,使 得大数据更加普适化。大数据 5V 特征 数量(Volume)l TB 级 l 记录/日志 l 事务 l 表&文件 种类(Variety)速度(Velocity)l 批处理 l 实时 l 多进程 l 数据流 价值(Value)l 统计学 l 事件性 l 相关性 l 假设性 l 结构化 l 非结构化 l 多因素 l 概率性 真实性(Veracity)l 可信性 l 真伪性 l 来源&信誉 l 有效性 l 可审计性7 2022.7 iResearch I 2022.7 iResearch I云原生:从微服务走向 Serverless从 PaaS 到 FaaS,基础设施被更深层次地托管和“屏蔽”当前,微服务的生态和实践已经比较成熟,其设计方法、开发框架、CI/CD 工具、基础设施管理工具等,都可以帮助企业顺利实施,然而其仍有许多不足:(1)粒度仍然比较大。(2)开发仍有较高门槛。(3)微服务基础设施管理、高可用和弹性仍然很难保证。(4)基础设施的成本依然较高。而 Serverless 中,开发者不再需要将时间和资源花费在服务器调配、维护、更新、扩展和容量规划上,这些任务都由平台处理,开发者只需要专注于编写应用程序的业务逻辑。如果再结合低零代码,则“编写应用程序”的难度也大为降低,企业内的技术人员更加贴近业务。来源:华为 serverless 核心技术与实践,艾瑞咨询研究院整理及绘制。来源:华为 serverless 核心技术与实践,艾瑞咨询研究院整理及绘制。微服务中,大量运维仍未被托管 微服务 开发/DevOpsKubernetes 集群 DevOps虚拟机 基础设施运维团队 计算,存储,网络 云供应商 典型的 serverless架构 HTTP 请求 API 网关 消息列队 定时器 IoT触发器 事件 FaaS控制器 事件 异步/同步 函数实例 容器 FaaS 平台 def handler(event,context)函数编程模型 event context云存储 消息队列 消息队列 身份认证 API 网关.BaaS 平台8 2022.7 iResearch I人工智能:需要大规模准确数据哺育 人工智能应用引发数据治理需求 企业在部署 AI 应用时,数据资源的优劣极大程度决定了 AI 应用的落地效果。因此,为推进 AI 应用的高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足 AI 应用对数据的高质量要求。为保证 AI 应 用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。来源:艾瑞咨询研究院自主研究及绘制。AI 应用对数据治理需求 AI应用的数据要求 数 据 治 理 的 需 求 传 导 基于 AI应用的数据治理需求 数据规模 挖掘企业内外部信息,纳入结构化数据、半结构化数据和非结构化数据,提升与AI 模型相关的数据积累。数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此建立针对性的数据治理体系 特征工程 AI 模型需纳入实时数据,构建 批流一 体的数据聚合计算模式 传统数据治理多以人为面向对象,基于有限数据容量进行聚 合类信息展示,AI 可接纳数据量远远大于人所接纳的数据量 和信息量,且 可用高质量数据越多,模型质量和准确性越好。AI 应用,尤其是知识图谱搭建,需要大量半结构化和非结构化数据支持来开展工作。因此 AI 应用 在结构化数据基础上,将半结构化或非结构化数据纳入数据源并支持上层分析应用。AI 模型对数据高度敏感,其质量优劣极大程度影响 AI 模型的应用效果,因此 AI 数据源需极力规避“garbage in,garbage out”的问题发生,多维度的质量检查成为必修课。AI 模型对实时性要求高,大部分应用需基于实时数据实现分析、推荐和预警等目的,支持 AI 应用的数据源更强调具备实时性接入能力。接入实时性数据 多个数据源下的数据内容不一致等问题;缺失值、缺失字段;错误值、异常样本;数据融合&质量优化 融合结构化数据、半结 构化数据和非结构化数 据,进行以 AI 应用为目 的特征工程 接入多源异构数据源 数据类型 数据质量 数据实时性9 2022.7 iResearch I业务敏捷需要 IT 架构“去过程化”通过抽象解耦、水平扩展、自动化与智能化实现去过程化 VUCA 时代,市场变化加速,通过数据来分析和决策的需求,也有了更高的不确定性。当这些需求提出,通过一套复杂的IT 流程和漫长的等待,变得不再现实,IT 架构的去过程化变得极为重要。去过程化是指减少或完全去掉原始数据/原子能力与业务需求之间的中间数据/步骤,或使中间数据/步骤无须人为干预,自动化、智能化完成。其可实现架构的简单化、扁平化,同时可对业务需求实时响应,以进一步实现敏捷和创新。架构一开始就放弃“精细梳理方可使用”以及“梳理完成千万别动”思想,用全量原始数据保障读时模式,有助于打破“僵”与“乱”的悖论,使得企业用更少的“能量”便 可以维持数字化系统的持续运行。来源:艾瑞咨询研究院自主研究及绘制。敏捷的 展现交互层/应用层去过程化四大支撑 原始非结构化数据 结构化数据 处理 原子能力 数据模型 低/无代码应用 人用数/产数 物联网应用 设备用数/产数 敏捷 BI人看数/用数 智能的 计算层/处理层 统一的 数据层/存储层-低代码/无代码 敏捷 BIGraphQL/JsonAPI-统一查询语言 统一接口 统一角色与权限-微服务 泛化模型 智能决策-冷热温数据分层 RDMA存算分离-对象存储/数据湖 数据仓库 湖仓一体-抽象与解耦 将 IT 架构抽象成存储、处理、应用三层,处理层 又拆分成原子能力和数据模型,当 不确定的需求 来临,现将数据、能力、展现与应用形式进行组 合进行处理。稳定且可水平扩展的基础设施 应用的敏来自于基础的稳,上层的简来自于底层 的繁,基础设施稳定性更加重要。高性能计算与网络 存算分离和读时模式往往存在更多的重复数据传 输与计算,对网络和计算要求更高。自动化与智能化 通过智能化完成基础性能优化,降低硬件压力或 硬件成本;通过智能化完成部分过程的自动化,从而屏蔽“人”视角下的该过程。去过程化分层示例 相关标签1012数智融合典型实践 3企业数智融合的痛点及应对 中国数智融合发展背景11 2022.7 iResearch I痛点一:数据量-成本-效率难以兼得 不可能三角需要更高维的技术去打破 在传统架构中,数据量、存储成本和计算效率是一组不可能三角。如果不考虑数据量和数据类型,那么一个传统的数仓或者单体的 DBMS 即可满足;不考虑计算效率,那么基于 HDFS 或者公有云对象存储即可满足,当下价格仅约 0.1元/G/月,并持续下降,归档存储等价格更低;不考虑存储成本,可使用非易失性存储,其拥有一般硬盘的无限容量和断电保护特性,却有接近于内存的性能。来源:艾瑞咨询研究院自主研究及绘制。传统架构下数据量、存储成本和计算效率的不可能三角 存储成本 数据量 对象存 储 计算效率 数仓 SCM?12 2022.7 iResearch I 2022.7 iResearch I应对一:存储-缓存-计算三层分离 以内存为中心的架构,在大数据量下降低成本、保持性能 为了使数据充分共享,降低均摊成本且打破数据孤岛,存算分离架构产生,存储和计算各自弹性伸缩,按需使用。但此时,因存储拉远,IO 成为瓶颈,性能有所下降,因此需要缓存层来存储高 IO 的热数据,并最终形成以内存为中心的架构。从必要性看,以计算为中心架构已经无法适应当前数据生态发展:数据方面,大数据、人工智能等以数据为中心的工作负载快速发展;云方面,数据湖存算分离架构存储访问性能低,不支持实时分析。从可行性看,介质、网络、协议的高速发展驱动架构转型:SCM 填补了内存纵向扩展的介质空白;缓存一致性标准的争夺进入白热化;高速内存直连协议及技术(如华为 1520,InfiniBand,Converged Ethernet)使得内存的远程直接访问不再是障碍。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。以内存为中心的系统架构示意图 以内存为中心的架构技术优势 计算(内存中心架构)CPU CPU CPU存储池 磁盘 磁盘 缓存 缓存 缓存 内存 内存 RDMA,加载/存储 内存 核心价值与技术优势 性能:内存密集型和分布式应用减少数据搬运/拷贝、提 升性能 l HPE 以内存为中心系统提升 Spark 性能 15 倍 l HPE 分布式图计算场景性能提升 128 倍 l MemVerge 分级大内存提升深度学习性能 20 倍 成本:内存池化和升级 l 内存池化提升内存资源利用率 l 通过更低成本的 SCM 获得大容量内存扩展能力 故障解耦合:CPU 和内存的故障不相互影响 弹性增强:CPU 和内存可独立扩缩容13 2022.7 iResearch I 2022.7 iResearch I痛点二:仓-湖-AI 数据形成新孤岛 要么隔离,要么迁移,均无法适应全量、敏捷、低成本需求 数据分析和 AI 分析经过多年的发展,出现了很多面向不同任务的专用数据系统:数仓系统处理结构化数据,规模不够大;基于对象存储的大数据系统处理海量数据和非结构化数据;AI 系统一般是数据存储在本地。这些专用系统要么无法打通,形成新的数据孤岛,要么不同业务的开发要迁移数据,耗费存储和网络资源,数据准备慢、等待周期长,且面临后期数据不一致的风险,发现异常时数据的下钻、溯源等也相对困难,无法适应市场环境快速变化下敏捷数据分析的需求。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。数仓、数据湖和 AI 数据形成新的数据孤岛 数仓 数据湖 AI 数据 隔离 数仓 数据湖 AI 数据 网络成本 时间成本 数据迁移导致副本增多、资源浪费、管理困难14 2022.7 iResearch I应对二:统一元数据到中心节点 Master-Slave 架构,以集中管理代替集中存储 把数仓、数据湖、AI 数据的目录、数据权限、事务一致性、多版本管理等能力都统一到一个中心点,依赖于这个中心点来访问数据,这样数据的利用就不会被孤立的系统束缚。这种分布式存储,统一管理的 Master-Slave 架构,类似于计算领域的 Mapreduce。这种方式:首先,可以打破数据孤岛、让一份数据在多个引擎间自由共享,例如同一个表格可以被不同的分析工具做分析,既可以跑数仓任务,也可以做大数据和机器学习任务,不同的用户角色不管用什么工具访问数据,都有一致的权限,一致的事务控制;其次,可以避免数据来回迁移而造成资源的浪费;再次,任何环节都可以看到自己权限下的全量数据,例如 ML 工程师可以利用整个数据湖的数据做特征训练;最后,所有模型均基于唯一事实来源(原始数据),避免不同团队基于不同数据分析造成结果不一致,且一旦发现异常可以便捷地下钻、回溯。来源:艾瑞咨询研究院自主研究及绘制。基于数据库的数仓 关系型 非关系型 图型 时序型 数据湖 基于 Hadoop HDFS 的 基于公有云对象存储的 Master 节点:统一元数据(目录/数据权限/事务一致性/多版本管理)AI数据 大数据任务 机器学习任务 其他应用和任务 统一元数据示意图15 2022.7 iResearch I痛点三:开源产品丰富,但开发运维难 开发成本高,运维成本高,技术与时俱进难,风险大 尽管在云、数、智体系下,开源产品极为丰富,但企业安全、稳定地驾驭,TCO 并不低。在开发上,企业一般需花费 20-1000 人力年的时间,不能满足业务敏捷性;在运维上,人工运维,事后补救,宕机频繁,耗时耗力;在技术更新上,开 发人员难以与时俱进,资源浪费严重;在 IT 风险上,企业将面对 IT 团队自身的风险(复杂架构下,团队离职无人接手)以 及开源产品的漏洞风险(如 log 4j 4漏洞事件),还可能面对因经验不足选型错误的风险;在体验上,因产品自产自用,复 用率低,技术团队一般只保障基础需求,对于降低业务人员使用难度、提升使用体验的附加性需求响应度低。并且,这些基础的开发、运维等,与企业核心业务常无必然联系,并不会带来企业核心竞争力的提升,导致企业数智化的 ROI 较低。来源:艾瑞咨询研究院自主研究及绘制。企业利用开源产品自行搭建数智平台面临的困难 开发 运维 技术更新 IT 风险 体验 花费 20-1000 人力 年时间,不能满足 业务敏捷性 人工运维 事后补救 宕机频繁 耗时耗力 开发人员难以 与时俱进,资 源浪费严重 IT 团队自身风险;开源产品漏洞风险;经验不足选型错误 风险 产品复用率低;只保障基础需求,附加性需求响应 度低16 2022.7 iResearch I应对三:DataOps 和 MLOps 融合 享受成熟产品的红利,兼顾与开源产品的继承和包容性 企业在数智化选型中,应首先明确自身的核心竞争力和能力边界,摒弃“重即好”思想,以更加轻盈的 Serverless、Lowcode/Nocode、SaaS 等方式享受社会分工和先进技术的红利。以数智融合为例,抛开 IaaS 层,企业自研还需掌握Kubernetes+Docker 生态、Java+Hadoop 生态、Python+Pytorch/Tensorflow 生态、SQL 生态 即便成功对接,往往也离好用、敏捷相去甚远,最终往往只形成指标长期不变的静态报表。而与此同时,业界已存在较为领先的一站式数智平台,让数据工程师甚至业务人员以简单、熟悉的工具/语言,甚至拖拉拽即可在全域数据内使用预置 AI 算法,打通大数据和人工智能,使得 DataOps 和 MLOps 融合,使数据和模型的开发成本大为降低,周期大为缩短。企业选择基于开源产品自研,不少时候是出于一种怕被“绑架”的防御心态,以化解供应商倒闭或涨价等风险。为此,企 业可从供应商综合实力,与开源产品的包容度和继承性等方面综合考虑,做到可组可分,灵活装配。来源:艾瑞咨询研究院自主研究及绘制。将大数据和人工智能打通的 DataOps和 MLOps简单、易用、全局能力调用 ServerlessLowcodeNocode SaaS灵活装配 产品与开源产品 包容度 产品与开源产品 继承性 供应商 综合实力 实现可组可 分,抵抗供 应商倒闭或 涨价等风险17 2022.7 iResearch I痛点四:数据准备工作复杂低效 数据长生命周期决定了其复杂性 数据质量至关重要,错误数据致使企业做出错误决策。数据的生成、采集、存储、加工、分析、服务、安全、应用长生命周期,使得数据的准备工作复杂、低效。例如,数据工程师开发大量的 ETL 任务,依赖大量算力资源,运行成本高,作业管理复杂,时间周期长,而此时数据分析师和 AI 开发者都需要等待 ETL 任务执行完,才能做相应的分析工作和建模工作。Cognilytica 调研显示,机器学习中,超过 80%的时间都用于数据的准备,预示着大量的数据工作其实与企业的经营目标并不相关,只是不得以而为之。并且,当任务不能便捷地执行和即时的反馈,偏业务侧的数据分析师常主动放弃“不太重要的”需求和对数据的深入探索。显然,这些都不符合企业数智化转型的真正目标。来源:Data-preparation-labeling-for-ai-2020,Cognilytica.机器学习中数据准备工作的时间分配 数据清洗,25%数据标签,25%数据增强,15%模型训练,10%数据集,10%模型调优,5%数据识别,5%算法优化,3%模型运行,2%18 2022.7 iResearch I应对四:端到端的自动化与智能化 低零代码实现自动化,AI 反哺数据实现智能化 实现数据应用的敏捷化和去过程化,需要在整个数据链条的端到端实现自动化和智能化。自动化一般用低/零代码实现:一方面可以屏蔽软硬件差异和复杂的底层技术,以便于理解的拖拉拽和少量代码,来降低使用门槛;另一方面,可以基于规则,配置自动化的工作流,以 ifttt 的方式减少重复工作量。智能化是指基于半监督或无监督的学习,自动发现数据管理中的规则,在 Data 4AI 的同时,实现 AI 4Data,目前人工智能已经用于数据集成、数据质量、数据建模、数据安全与访问控制、数据关联、数据洞察等多个场景中。另外,低/零代码常和人工智能结合使用:将人工智能的统计意义上的规则,融入到低/零代码的逻辑化的流程中。来源:艾瑞咨询研究院自主研究及绘制。人工智能在数据管理中的应用(AI4Data)人工智能帮助企业识别主数据。人工智能帮助定义和维护数据匹配规则。主数据管理 隐私级自动标注。数据传输监控。数据安全 基于机器学习,确定数据阈值。对完整性、规范性、一致性、准确性、唯一性、时效性进 行检查。脏数据自动识别订正。数据质量检查 人工智能实现对非结构化数据的采集和关键信息的提取。人工智能帮助维护元数据。人工智能帮助实现元数据的整合。元数据管理 利用聚类和知识图谱确定实体间关系。利用知识图谱等进行数据血缘分析。数据模型管理19123中国数智融合发展背景 企业数智融合的痛点及应对 数智融合典型实践20 2022.7 iResearch I 2022.7 iResearch I华为云 DataArts+ModelArts独家创新架构:兼顾成本与性能,实现统一管理、一数多用,数智融合实现敏捷用数,全流程实现自动化与智能化 华为云通过 DataArts 和 ModelArts 融合架构,打通了大数据和人工智能。统一了元数据,使得一数多用,打破数据孤岛,同时避免数据来回迁移。存储-缓存-内存三层分离,兼顾存储成本和计算性能。DataOps 和 MLOps 结合,让企业不同部 门、不同角色可以以擅长的方式敏捷用数。低零代码和人工智能反哺数据(AI4Data),使得全流程实现自动化与智能化。来源:华为云,艾瑞咨询研究院整理及绘制 来源:华为云,艾瑞咨询研究院整理及绘制 华为云数智融合平台创新架构 华为云数智融合平台核心价值 核心痛点 核心价值 数据持有 成本高,业务响应 不及时 数据系统 不互通,数据孤岛 现象严重 数据使用 仍有门槛 高、碎片 化等技术 瓶颈约束 统一元数 据,架构 简单,一 数多用 数据治理 难度大、耗时长,最终效果 不佳 DataOps和 MLOps融合,不 同角色各 用所长,各取所需 全流程的 自动化和 智能化,让繁重的 数据治理 变得简单 三层分离,兼顾成本 与性能 表格 OBS数据湖存储 数据集 模型 DataArtsLakeFormation数仓、数据湖、AI的元数据统一管理 统一目录 统一权限 统一事务 统一索引 DataArts生产线 ModelArts生产线 数据集成 数据架构 数据开发 数据 质量 数据目录 数据服务 数据安全 MRSHadoop生态数据 分析 DLIServerless数据分析 DWS数据仓库 数据标注 数据处理 模型训练 模型评估 应用生成 应用评估 推理部署 服务检测 数据校验 特征计算 模型训练(MA内 置算法)模型编译 SQL中嵌入训 练,入库触发 AI 生产线 SQL中嵌入推 理,提供预测 型分析21 2022.7 iResearch I 2022.7 iResearch I华为云 DataArts+ModelArts软硬融合,行业实践经验和开源生态结合 另外,华为云在软硬融合、行业实践经验和开源生态方面,也具有一定优势:在软硬融合方面,华为云对计算、存储和网络的底层技术更为擅长,例如,在内存池化的关键技术之一 RDMA 的专利申请数量上,华为具有明显优势。在行业实践经验上,华为云一直秉承“一切皆服务”的原则,深扎行业,在互联网和传统政企方面均积攒了大量实践经验,并把这些经验返回、沉淀到产品中。在开源生态方面,华为云在 Hadoop 和 Spark 社区中贡献度均较高,这使得华为云对这些开源产品在安全、稳定性等方面有着更深的技术理解,同时使得 DataArts 对这些开源产品的主流版本的兼容性更好。来源:华为云,艾瑞咨询研究院整理及绘制。来源:智慧芽专利数据库,艾瑞咨询研究院整理及绘制。高性能 RDMA 网卡技术专利数量 118225321213922 21 19 19华为 亚马逊 阿里 浪潮 腾讯 新华三 百度 海量数据 华为在开源社区的贡献度 72187 6 5.5 5.5 5 5 4.5 4.5ClouderaHuaweiIntelYahooincSalesforceMicrosoftDuboceXiamoiWandouNttdata2015-2021.04 Hadoop 社区贡献全球 No.2,国内 No.1288432.5 2.52 1.8 1.51DatabricksClounderaIntelHuaweiIBMNtt DataAppierMeituanHotmailAlpinedata2015-2021.04 Spark 社区贡献全球 No.4,国内 No.122 2022.7 iResearch I 2022.7 iResearch IIT 服务业(1/2)数智融合助力 IT 服务商降本增效提质 IT 服务行业范围较广,包括前期的 IT 咨询与培训,中期的定制开发、系统集成、部署实施,后期的 IT 运维升级、IT 运营管理,以及贯穿全程的 IT 安全保障等。对于 IT 服务企业而言,随着业务量增长,普遍面临“数据基数庞大,搬迁上云难”“数据持有成本高”“数据治理不佳,形成数据孤岛”“产品开发技术门槛高,运维成本高,存在安全隐患”“数据准备工作复杂,难以聚焦业务本身”等问题。数智融合下的存算分离、元数据统一、DataOps 和 MLOps 融合、端到端的自动化与智能化等创新技术,帮助开发人员实现所想即所得,助力 IT 服务企业实现降本增效、业务创新、提升客户满意度,从而在产业发展转折点抓住市场机会,实现企业品牌质的飞跃。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。IT 咨询 前期:包括需求定义、产品选型、方案设计、落地培训等咨询服务。IT 培训 IT 服务业环节 定制开发 中期:根据客户需求提供二次开发、集成、测试等具体的实施服务。运维升级 后期:基础架构及软硬件产品的维护和升级迭代;数据处理等面向业务的 IT 运营服务。运维管理 系统集成 部署交付 IT 服务业发展痛点 vs 数智融合 1.数据体量大,存储成本高,算力要求高,运维开销大“存储+缓存+计算”三层分离架构提供存算性能的弹性伸缩和按需使用,通过 serverless 模式实现秒级弹性扩缩容和管理运维全托管,满足 IT 服务业存算性能的同时降低运维开销。2.数据治理不佳,数据在系统间流转不畅,形成数据孤岛 人工智能算法模型应用到数据全生命周期治理,通过对元数据的统一管理,解决传统数据分析和 AI 模型之间“数据搬家”的问题,实现数据在不同引擎间的自由流动,消除数据孤岛。3.产品开发门槛高,数据准备耗时长,难以聚焦业务本身 低/无代码的集成开发平台,为使用者屏蔽底层技术,同时将 AI 能 力植入到数据开发过程,将能力服务化、技术组件化,通过分层解耦和复用,即插即用,敏捷交付,降低开发与运维成本。23 2022.7 iResearch IIT 服务业(2/2)数智融合在 IT 服务企业的落地 梦饷集团定位于新电商基础设施提供商,提供基于 SaaS 店铺工具外加一体化商品与服务结合的供应链解决方案,旗下饷店以去中心化的品牌特卖平台,拥有超百万店主,月交易总额达 10 亿人民币;爱库存提供国际化库存交易供应链平台。随着业务增长,公司遇到“云迁移难,数据持有成本高、数据治理差、产品开发门槛高,开发周期长且后期运维成本高“等难题。依托华为云在行业市场的云迁移经验和丰富的服务和工具,实现高效、稳定、可靠的云迁移;通过存算分离技术,实现秒级弹性扩缩容,降低用数成本;通过端到端的自动化和智能化,将 AI 算法模型应用到数据全生命周期治理,为 AI 开发提供高质量数据;通过 DataOps 和 MLOps 融合,使大数据开发和 AI 开发协同,降低开发门槛,聚焦业务本身。华为云一体化解决方案为梦饷集团带来“资源高效”、“应用敏捷”、“业务智能”、“安全可信”等多方面的智能升级。来源:梦饷集团,艾瑞咨询研究院整理及绘制。云原生数据智能一体化解决方案 50%实时分析 秒级 Severless扩容缩 下降 TCOOBS存算分离 资源利用率:70%流批交互一体 100 万 QPSDLIDWS CSSModelArts数据管理 专题分析 挖掘建模 实时报表 浏览轨迹 推荐排序 活动预测 稳流量 爆发式成长 秒杀 大促 拥海量 数据长持 数据自主 数据开发 容器化 改造 自主创新 引流 聚数 促销量 l 在业务无感知下,优化性能,降低延时 l 数据分析支撑从报表统计到实时可预测 l 降低存储、计算、运维成本,降低开发门槛 企业需求 解决方案 l 基于 MySQL 内核优化进行优化改进 l 云原生容器化改造和 lakehouse 存算分离 l AI 能力调用,AI 开发与数据开发协同 实现价值 l QPS 吞吐量提升 1倍,时延降低约 33%l TCO 下降 30%,实时分析能力提升近 50%l 运维效率提升 50%24 2022.7 iResearch I 2022.7 iResearch I网约车行业(1/2)业务模式灵活创新,数智融合赋能网约车行业个性化开发 网约车经营服务依托互联网技术构建服务平台,整合供需信息,匹配最优的车辆和驾驶员,提供预约出租汽车服务。网约车产业链包括上游车辆及技术服务供应商,中游网约车服务商以及下游应用场景。受国家政策鼓励,中国获许的网约车平台数量从 2020 年底的 214 家增长至 2022 年 3月底的 267 家,未来市场空间广阔。作为互联网时代产物,网约车行业与车联网、大数据等密不可分,面临数据安全、客户需求、数据打通、应用创新等层面的众多挑战。存算分离技术提供性能的弹性伸缩,满足用车高峰的算力高并发,统一元数据打破大数据、数仓、AI 的“数据孤岛”,增强网约车企业数据洞察,DataOps 与 MLOps 的融合降低开发技术门槛,方便企业开发人员聚焦业务创新,敏捷交付。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。车辆供应商 上游:车辆及技术供应商。技术供应商 网约车行业产业链 第三方网约车平台 中游:网约车服务商。网约快车 下游:应用场景 聚合网约车平台 网约专车 网约出租 网约拼车 网约车行业发展痛点 vs 数智融合 1.传统数仓存算弹性不足,难以应对高峰期高并发需求 网约车服务场景先天具备波峰波谷特性,除资源利用率要求外,还具有实时性和长时执行的要求。数智融合下的”存储+缓存+计 算”三层分离具备弹性伸缩、持续服务和节省成本等优势,与网约车行业场景需求天然契合。2.多平台数据难以打通复用,“数据孤岛”现象严重 网约车行业是车联网、大数据、人工智能等新技术的融合产物。具备强互联网和大数据属性,网约车企业运营需对接多个数据平台,数据难以连接互动造成“数据孤岛”。数智融合统一元数据,让数据在多个引擎间流动共享,充分发挥数据资产价值。3.业务模式创新多样,多源数据、技术等导致系统“熵增”为提升市场竞争力和市占率,网约车行业下游应用场景不断推陈出新,业务模式的创新多样必然导致数据体系的“熵增”。数智融合下的 DataOps 与 MLOps 深度融合,数据工程师可使用熟悉的工具调用 AI 能力,协同数据开发与 AI 开发,支撑行业业务模式的不断创新。25 2022.7 iResearch I 2022.7 iResearch I网约车行业(2/2)数智融合在网约车企业的落地 T3出行是南京领行科技股份有限公司打造的智慧出行生态平台,公司以“科技引领 愉悦出行”为使命,致力于成为能够为用户提供“安全、便捷、品质”出行服务的科技创新型企业。截止 2022 年 7月,T3出行登陆全国 91 个城市,累计注册用户超 1亿,单日订单峰值破 300 万单。随着业务扩张和用户数量增加,T3出行原系统在支撑海量数据和提供出行服务方面出现“传统数仓难以解决“长尾支付”、“AI 架构无法为行车安全提供支撑”、“存算一体架构无法应付订单峰值”等问题。为满足业务发展,提供安全高效的出行服务,T3出行不断对出行产品迭代更新,而华为云数智融合产品在这段升级之旅中发挥了巨大作用。来源:T3 出行,艾瑞咨询研究院整理及绘制。来源:T3 出行,艾瑞咨询研究院整理及绘制。T3 出行+华为云智能数据湖 MRSOBSHudi湖仓一体(对象储存+数据湖格式+存算分离)Redis HBase MongoDB Elasticsearch Kafka 服务层 数据层 ClickHouse PrestoKylinPandasPytorchSparkYARNKyuubiBI AI 计算层 痛点三:业务不停机,系统持续平稳运行 华为云通过 RDS 适配 canal 能力,结合 DRS 高可靠和自 动化运维能力,大大提高数据订阅稳定性。痛点一:数据库种类多,迁移难度大 华为云 DRS 支持其他云、本地 IDC、ECS 自建数据库等不同平台之间的迁移,支持 60+类不同的数据库链路,充分满足 T3出行的不同数据库迁移需求。华为云 DRS 针对不同实例,通过优化参数、同步方式和架构,并结合其特有的限流能力,确保迁移期间源端业务正常平稳运行,成功在指定时间内完成全量数据同步。痛点二:时间紧任务重,要在 30 h内完成 T3 出行+华为云 DRS 数据迁移解决方案26 2022.7 iResearch I 2022.7 iResearch I社交网络行业(1/2)数智融合赋力社交网络行业向兴趣化、垂直化创新发展 来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。社交网络源于互联网服务,为拥有相同兴趣与活动的用户提供各种联系、交流的交互通路。目前中国社交网络行业基于5G通信、人工智能、虚拟现实等先进技术,为用户提供沉浸式的社区服务。随着行业的内容生态向兴趣化和垂直化方向演进,用户群体的进一步泛化以及用户数量的爆发式增长,社交网络行业面临用户数据安全、后台数据治理效果不佳、存 储资源紧张、算力不足以应对业务敏捷相应等诸多挑战。此时,数智融合提供的存算架构分离、基于人工智能算法模型的数据全生命周期治理、产品的低门槛敏捷开发等先进技术,满足了社交网络行业对于如 VR 虚拟社交等可预见的新型社交场景的技术支撑,以及对于 Z世代移动网民全覆盖的需求。社交网络行业产业链 社交网络 陌生人社交 熟人社交 陌生人社交升级