欢迎来到报告吧! | 帮助中心 分享价值,成长自我!

报告吧

换一换
首页 报告吧 > 资源分类 > PDF文档下载
 

艾瑞咨询:2022年中国面向人工智能的数据治理行业研究报告_76页_3mb.pdf

  • 资源ID:129836       资源大小:3.67MB        全文页数:76页
  • 资源格式: PDF        下载积分:15金币 【人民币15元】
快捷下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录  
下载资源需要15金币 【人民币15元】
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,下载共享资源
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

艾瑞咨询:2022年中国面向人工智能的数据治理行业研究报告_76页_3mb.pdf

中国面向人工智能的数据治理行业研究报告2022.3 iResearch Inc. 击破业务落地要害22022.3 iResearch Inc. 摘要来源:艾瑞研究院自主研究绘制。实践 -高频高价值应用及数据痛点: 本篇报告选择 金融 、 零售 、 医疗和工业 四大典型行业为切入点 , 分析呈现各行业的信息化建设阶段与高频高价值的 AI应用场景 , 并基于高频高价值 AI应用引发的数据治理需求 , 对面向人工智能的数据治理体系搭建给到建设指导 。展望 -治理陷阱与趋势洞察: 1) 企业需避免落入 “ 数据埋点大而全 ” 的治理陷阱 ;2) 供需两侧需共同 保证数据治理体系建设后的运营流转 ; 3) 企业需建立符合管理现状及发展需求的 数据安全治理框架 , 确保数据全周期的安全与合规; 4) 联邦学习技术 可带来数据安全合规线内的共同富裕; 5) 数据的 “ 自治与自我进化 ” 成为未来数据处理发展的必由之路 , 为企业打造 “ 治理 +AI” 体系的良性循环 。前言 -数据与数据治理: 如今数据不再局限于传统数字形式的认知 , 由结构化数据延伸到半结构化 、 非结构化的数据范畴 。 数据治理越来越受到企业的普遍重视 , 在数据生命周期的各个阶段通过相应的工具与方法论 , 使数据发挥出更大的价值 , 是实现数据服务与应用必不可少的阶段 。参与 -行业规模与受益圈立足点: 数据治理与 AI应用产品开始交汇融合 , 厂商参与更加多元 , 咨询公司 、 数据服务提供商和人工智能产品服务商三方阵营构建行业竞合格局 , 而 “ 智 ” , 即 AI应用 , 为面向人工智能的数据治理服务的核心立足点 。 2021年面向人工智能的数据治理市场规模约为 40亿元 , 预计五年后规模将突破百亿 。主题 -面向人工智能的数据治理: AI技术创新应用走向大规模落地 , 带动了大数据智能市场的蓬勃发展 。 2021年大数据智能市场规模约为 553亿元 。 目前传统数据治理体系多停留在结构性数据化治理工作 , 尚难满足 AI应用对数据的高质量要求 。 企业可吸收传统体系的智慧沉淀 , 以 AI应用数据需求为核心 , 优化建设 “ 面向人工智能的数据治理 ” 体系 , 显著提升 AI应用的规模化落地效果 。SMS3前言:数据与数据治理 1主题:面向人工智能的数据治理 2参与:行业规模与受益圈立足点 3实践:高频高价值应用及数据痛点 4案例:标杆企业与新锐势力 5展望:治理陷阱与趋势洞察 642022.3 iResearch Inc. 数据:范围界定信息经济的“货币”,早已不限于数字形式数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化数据,元数据与主数据等。来源:艾瑞研究院自主研究绘制。企业数据的主要类型企业内部数据按照数据来源分类在企业内部经营中产生的数据,在企业的业务流程中产生或在业务管理规定中定义,受企业经营影响企业外部数据 企业通过公共领域合规获得的数据,其产生、修改不受公司影响按照数据格式分类结构化数据 可以存储在传统的关系型数据库中,用二维表结构来表达实现的数据,可以用关系 型数据库存储非结构化数据 形式相对不固定,不方便用数据库二维逻辑表来表现的数据,通常存储在非关系型 数据库中,数据量通常较大半结构化数据 介于结构化与非结构化之间,半结构化数据可以通过灵活的键值调整获取相应信 息,且数据的格式不固定元数据 是描述数据的数据(描述性标签),描述了数据(如数据元素、数据模型)、相关 概念(如业务流程、应用系统、软件代码、技术架构)以及他们之间的联系国家、币种、汇率合同、项目、组织日志文件、 XML文档、JSON文档、 Email等Excel表格、 SQL数据库里的数据文本、图片、 HTML、各类报表和音频、视频主数据 描述企业核心实体的一组一致而统一的标识符和拓展属性,实体可包括现有或潜在 客户、产品、服务、员工、供应商、提供商、层次结构和会计科目表等实时数据 是在收集后立即传递的信息,所提供信息的及时性没有延迟数据治理常用数据类型分类标准 定义以及特征数据类型 举例实体型组织、客户、人员基本配置数据标准、业务术语、指标定义实时 OLAP场景下的数据数据抽象的内容,独立时无意义信息经过收集和整理 的 数据智慧经过人为解读和经验充实的信息产生辨析判断 、发明创造能力知识52022.3 iResearch Inc. 2022.3 iResearch Inc. 18 26 33 41 4717561221422016 2017 2018 2019e 2020e 2025e 2030e 2035e全球每年产生的数据量( ZB)数据量:爆发式增长基础设施“扩容”、 IoT 广泛连接带来的数据量暴涨数据时代来临 , 数据量的暴涨为企业数字化提供了基础支撑 , 大量的业务数据能够被采集 、 存储并最终创造经济效益 。 数字化转型从头部企业的可选项 , 转变为更广泛企业的必选项 。 新变化为企业带来新机遇的同时 , 也带来了诸多挑战 。 很多企业在前期的信息化建设中 , 缺乏统筹规划 , 为解决当下业务问题而按照垂直的 、 个性化的业务逻辑独立采购与部署 IT系统 , 导致企业内部形成多个数据孤岛 。 数据不规范 、 不一致 、 难以互联互通成为普遍问题 , 阻碍企业去充分发挥数据价值 。这种先建设后治理的常态 , 使得数据治理越来越受到企业的普遍重视 , 另一方面 , 新兴技术与应用场景的快速落地 , 也带领数据治理需求在加速攀升 。注释: 1ZB = 10244 GB来源:中国信通院, Statista( 2020),艾瑞研究院自主研究绘制。 来源:中国信通院,艾瑞研究院根据专家访谈与公开资料研究绘制。2016-2035年全球产生的数据量 2015-2020年中国数字经济内部结构变化CAGR=28.6%74.3% 77.0% 77.4% 79.5% 80.2% 80.9%25.7% 23.0% 22.6% 20.5% 19.8% 19.1%2015 2016 2017 2018 2019 2020产业数字化占比( %) 数字产业化占比( %)62022.3 iResearch Inc. 2022.3 iResearch Inc. 非结构化数据 , 30%结构化数据 , 70%数据治理:需求释放治理需求普遍存在,非结构化数据成为价值挖掘的重难点企业历经数字化转型不同阶段时 , 需通过数据治理解决数据在生产 、 管理和使用中的问题 , 而数据治理的需求与复杂度也会随着企业数字化程度提升而增加 。 从企业内部的数据类型来看 , 非结构化数据占企业内数据总量的 80%, 却仅占整体使用率的 30%, 长期以来其价值未得到充分有效利用 。 未来 , 随着非结构化数据的积累增加与 AI应用的数据需求推动 , 企业对非结构化数据的价值化需求将加速释放 , 而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化 。注释:仅列举代表性数据治理需求。来源:艾瑞研究院自主研究绘制。 来源:艾瑞研究院根据专家访谈自主研究绘制。非结构化数据 , 80%结构化数据 , 20%企业内结构化数据与非结构化数据占比情况在企业的数据中 , 结构化数据仅占20%, 其余 80%都是以 文件 、 语音 、图片等形式 存在的非结构化数据 。 且非结构化数据的增速远远高于结构化数据 , 随着时间的推移 , 非结构化数据所占的比例将会越来越高企业内结构化数据与非结构化使用现状企业长期以来 , 受技术影响 , 对结构化数据的利用率均高于对非结构化数据的利用率 。 但实际上 , 非结构化数据的体量与其包含的信息量都更多 ,是企业未得到充分利用的宝贵资产不同企业数字化程度下的主要数据治理需求企业数字化程度治理需求局部数据优化提升数字化业务流程打破数据孤岛可视化呈现 内外部协同数字化管理智能辅助决策监控预警数据安全、合规要求72022.3 iResearch Inc. 数据治理:范围界定数据治理为实现企业数据应用服务的重要环节数据治理以数据源汇入为伊始 , 对数据进行清洗加工 , 并在数据存储 、 数据计算 、 数据服务应用等环节予以持续的治理服务 , 是企业实现数据服务与应用的重要环节 。 从数据层面来看 , 数据本身存在着从生产到消亡的生命周期 , 而数据治理会在数据生命周期的各阶段通过相应工具与方法论进行规范与定义 , 在企业内部构建出切实有效的数据闭环 , 使数据发挥出更大的价值 。来源:艾瑞研究院自主研究绘制。数据治理在数据应用流程中的位置服务接口 智能 BI 数据分析分布式关系数据库分布式 NoSQL数据库分布式文件系统数据仓库数据湖智慧决策精准营销 .可视化分析 预测性维护智能推荐数据源社交媒体 互联网社会机构 第三方机构HR 财务 OACRM ERP CDP数据治理数据治理环节开始,对数据清洗加工,对整个企业内部的数据集进行规范和定义 贯穿数据使用周期 ,是实现大数据服务必不可少的阶段数据标准管理数据模型管理数据资产管理主数据管理数据质量管理元数据管理数据共享管理数据安全治理数据存储 数据计算数据服务与应用内存计算批量离线计算在线流式计算机器学习模型训练数据治理环节82022.3 iResearch Inc. 数据治理:整体概述让数据可知、可用、可管,成为业务发展与创新的基石数据治理旨在消除数据的不一致性 , 建立规范的数据标准 , 提高组织的数据质量与实现数据广泛共享 , 最终将数据变为宝贵资产 , 应用于企业的经营 、 管理与决策中 。 当下 , 让数据可知 、 可用 、 可管 , 充分发挥数据资产的价值已成为企业共同的数据治理目标 。 数据治理的对象与范围则会根据企业需求差异而有所区别 。 在不断发展变化的外部环境与业务需求下 ,企业数据治理工作在对应阶段也会有各自不同的目标 。来源:艾瑞研究院自主研究绘制。数据治理的对象、目的与范围概述数据治理的对象 数据治理的目的 数据治理的范围 大部分企业都有 明确的数据治理目的 ,供应商仅需要围绕企业需求的模型及模型效果来确定需要治理的数据源,在其中,充分了解企业需求与现状是必要程序。 找到企业可变为的 “ 数据资产 ” :数据治理范围并非为企业全部数据 , 而是要在企业海量数据中找到 “ 值得 ” 治理 的数据范围 , 将其变为可用宝贵的 “ 数据资产 ” ,为企业进一步发挥数据要素价值 。 从企业的数据使用现状来看,集中于对 结构化数据的开发与利用 ,所以数据治理工作多围绕于结构化数据的治理,非结构化数据仅做入库、入湖等初步处理,利用率并不高。结构化数据非结构化数据半结构化数据结构化数据转化可用、可知、可管、可量化,可运营达到一致性、质量与安全水平等指标企业数据外部数据价值化数据原始数据 初步处理过的数据供业务使用 提升数据使用价值 :在实践 中,企业发现原始数据 或 只经过初步处理的数据,与价值化数据之间存在巨大鸿沟,需经由数据治理做对应的清洗、规范及定义等,以提升数据使用价值。 缺乏技术手段、缺乏方法指导、缺乏保障机制、缺乏流程规范 的等是大多数企业无法解决数据价值化问题的主要原因 。 贯穿数据生命周期 :数据治理是贯穿整个数据生命周期,复杂且需要长期建设的项目。对不同企业而言,业务需求千差万别,聚焦于核心数据问题、结合企业特点选取合适的 数据 范围,方能把控好治理方向。产生新的数据 再次治理已有数据规划 制定规范 标准落地 采集存储 应用 维护 销毁92022.3 iResearch Inc. 数据治理:体系架构结合企业的特点及需求,设计符合企业要求的数据治理架构虽然业界对数据治理的定义不尽相同 , 但涉及的数据架构模块大体一致 , 核心包括数据标准管理 、 数据集成管理 、 元数据管理 、 主数据管理 、 数据资产管理 、 数据质量管理 、 数据模型管理 、 数据服务与数据安全管理模块 。 依托于企业对数据治理的侧重点不同 , 数据治理体系与架构也会根据企业所在的行业特点 、 经营性质及信息化程度的不同而有所差异 。 在实际设计时 , 一方面 , 企业可参考先进体系框架与行业最佳实践 , 另一方面 , 企业也需从实际需求与发展需要出发 , 设计搭建适合自身情况的数据治理架构 。来源:艾瑞研究院自主研究绘制。数据治理各模块内容以及相互之间的关系技术元数据业务元数据自定义调度数据集成管理API 人工数据数据库 流式数据清洗转换集成传输运维可视化元数据管理管理元数据盘点企业数据情况元模型元模型联系建立奠定基础维护企业重要业务核心数据的 一致性 、统一性 、 准确性血缘分析影响分析数据生命周期主数据管理主数据识别 主数据规范治理支撑企业 业务流和工具链 的 打通和串联数据资产管理建立数据资产目录 数据全景可观以元数据为基础,通过脚本注释形成数据资产形成数据关系网络丰富的服务接口拓展数据质量管理数据质量标准 数据质量目标数据质量度量 数据质量管控数据服务数据模型管理 来源层数据模型设计数据安全管理集市层数据模型设计 数据分层 , 建模 , 对数据有更清晰的掌控搭建统一 总线 ,提供数据接口 ,通过接口服务化方式对企业内外提供数据服务为数据应用提供可追溯的数据数据安全等级定义 数据安全访问控制 身份验证 数据访问日志审计数据在应用过程中的拉通提供有数量、质量保证的数据数据标准管理业务运营人员数据管理人员IT技术人员标准制定标准管理标准执行数据开发支撑统一指标体系数据标准业务系统建设基础类 指标类数据质量规则依据统一输出沉淀满足业务服务102022.3 iResearch Inc. 数据治理:政策指引推动各行业数据治理标准建设,为相关主体提供指引性文件近年来 , 我国政府从战略规划 、 体系建设 、 标准制定和制度落地四个方面 , 全力推动数据治理的行业规范发展 。 一方面 ,国家通过立法构建数据安全保障 、 明确数据安全法律责任 、 完善监管体系;另一方面 , 各地方政府 、 行业主管部门 、 各行业组织 、 标准化机构积极规划制定数据规范文件与鼓励政策 , 推进数据治理考核 、 评估标准建立 , 为相关数据治理项目主体提供指引 , 共同促进数据治理行业的发展 。来源:艾瑞研究院自主研究绘制。中国数据治理相关政策梳理与解读数据的利用与保护战略规划 强调要加快培育数据要素市场 , 推进政府数据开放共享 , 提升社会数据资源价值 。 培育数字经济新产业 、 新业态和新模式 , 支持构建工业 、 安防等领域规范化数据开发利用的场景 。 加强数据资源整合和安全保护 。 探索建立统一规范的数据管理制度 , 提高数据质量和规范性 ,丰富数据产品 关于构建更加完善的要素市场化配置体制机制的意见 2020年 4月 10日 国务院 促进大数据发展行动纲要 2015年 8月 31日 国务院 建立标准规范体系,推进 关键共性标准的制定和实施 ,开展标准验证和应用试点示范, 建立标准符合性评价体系行业主管部门 探索制定和出台数据治理相关要求、标准、框架与体系2018年 5月 21日中国银行业监督管理委员会 银行业金融机构数据治理指引 2019年 9月 29日中国银行保险监督管理委员会 银行业金融机构监管数据标准化规范 2016年 9月 5日国务院 政务信息资源共享管理暂行办法 2018年 5月 25日民政部 关于加强和完善民政统计工作 全面提高统计数据真实性的实施意见 地方政府、行业组织、标准化机构 陆续发布数据规范文件与鼓励政策2019年 1月 1日国家标准化管理委员会 信息技术数据质量评价指标 2021年 5月 31日深圳市人大常委会办公厅 深圳经济特区数据条例(征求意见稿) 2018年 3月 15日国家标准化管理委员会国家标准 数据管理能力成熟度评估模型 ( DCMM)2021年 6月 10日 全国人大会常务委员会 数据安全法 个人信息保护法 数据安全管理办法 构建数据安全保障,明确数据安全法律责任,完善监管体系2021年 11月 1日 全国人大会常务委员会2019年 5月 28日 国家互联网信息办公室 个人信息安全规范 2020年 3月 6日 信息安全标准化技术委员会2020年 2月 27日工业和信息化部办公厅 工业数据分类分级指南(试行) 11前言:数据与数据治理 1主题:面向人工智能的数据治理 2参与:行业规模与受益圈立足点 3实践:高频高价值应用及数据痛点 4案例:标杆企业与新锐势力 5展望:治理陷阱与趋势洞察 6122022.3 iResearch Inc. AI应用规模化AI技术创新应用大规模落地,带动大数据智能市场蓬勃发展近年来 , 随着新技术模型出现 、 各行业应用场景价值打磨与海量数据积累下的产品效果提升 , 人工智能应用已从消费 、 互联网等泛 C端领域 , 向制造 、 能源 、 电力等传统行业辐射 。 各行业企业在设计 、 采购 、 生产 、 管理 、 营销等经济生产活动主要环节的人工智能技术与应用成熟度在不断提升 , 加速人工智能在各环节的落地覆盖 , 逐渐将其与主营业务相结合 , 以实现产业地位提高或经营效益优化 , 进一步扩大自身优势 。 AI技术创新应用的大规模落地 , 带动了大数据智能市场的蓬勃发展 , 同样也为底层的数据治理服务注入了市场活力 。来源: 2021年中国人工智能产业研究报告( IV) ,艾瑞研究院自主研究绘制。人工智能技术广泛渗透进经济生产活动主要环节政府金融互联网交通零售教育制造能源电力电信产品设计、定价及组合优化采购评估工艺优化货仓物流产能补充与作业效率提升情报大数据研判、决策支持客户触达营销运营管理调度运筹优化质控、风控和安全窗口服务远程办事远程作业人机对话交互设备运维故损分析该行业较少涉及该场景 尝试应用 AI AI价值得到验证,进入规模化落地AI示范项目增加,形成典型应用场景图例医疗与制药132022.3 iResearch Inc. 2022.3 iResearch Inc. 大数据智能市场的行业规模2021年市场规模约为 553亿元,金融数据率先得到价值释放据艾瑞咨询统计测算 , 2021年涵盖大数据分析预测 ( 机器学习 /深度学习模型 ) 、 领域知识图谱及 NLP应用的大数据智能市场规模约为 553亿元 , 预计 2026年市场规模将达到 1456亿元 , 2021-2026 CAGR=21.3%。 随着市场大数据基础的完善与数据需求的唤醒推动 , 大数据智能市场的规模将持续走高 , 但未来在行业理性建设与增量市场逐步完善的大背景下 ,大数据智能市场增速会出现下降趋势 。 从细分结构来看中 , 金融领域的数据价值率先得到释放 , 市场规模占比高达 32%。来源: 2021年人工智能产业研究报告( IV) ,艾瑞根据专家访谈、招投标项目统计推算而得来源: 2021年人工智能产业研究报告( IV) ,艾瑞根据专家访谈、招投标项目统计推算而得2019-2026年大数据智能市场 规模 2021年大数据智能市场规模细分结构321 41755368684410151215145630.0% 32.6% 24.0% 22.9% 20.4% 19.6% 19.8%-200.0%-150.0%-100.0%-50.0%0.0%50.0%-3002007001200170022002019 2020 2021e 2022e 2023e 2024e 2025e 2026e大数据智能市场规模(亿元)大数据智能市场增长率( %)金融32%互联网12%医疗11%工业10%其他35%142022.3 iResearch Inc. 2022.3 iResearch Inc. 8 4 5143046 435868 72992011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021大数据智能市场投融资事件数量(起)大数据智能市场的投融资热度融资规模稳步提升,事件数量创历史新高从 2011-2021年的投资数量来看 , 资本市场对大数据智能市场的关注度不断提高 , 融资事件逐年攀升 , 2021年大数据智能市场单年投融资数量已高达 99起;从 2011-2021年的融资轮次来看 , C轮及早期投融资事件占比达到 50%。 受政策的高度支持与技术的成熟推动 , 大数据智能应用在多行业的成功落地极大地增强了市场与投资者的信心 , “ 大数据智能 ” 标签已成为市场创业与投资的热点 , 具备市场想象空间与明确使用价值是企业早期吸引投资的关键 。来源:艾瑞研究院根据融资网站数据调整与处理绘制注释:其他包含 IPO上市与基石投资轮。来源:艾瑞研究院根据融资网站数据调整与处理绘制2011-2021年大数据智能市场投融资事件数量 2011-2021年大数据智能市场投融资事件 轮 次情况共计 447起事件C轮及早期投融资事件:占比 50%702521931294153049114527其他股权转让股权融资定向增发并购pre-IPO战略投资E-E+轮D-D+轮PreC-C+轮PreB-B+轮PreA-A+轮天使轮种子轮大数据智能市场投融资事件数量(起)152022.3 iResearch Inc. 大数据智能产业生态圈注释:以上厂商与行业为不完全列举,排名不分先后。来源:艾瑞研究院自主研究绘制。提供数据基础咨询公司大数据智能数据可视化 /数据分析AI基础数据服务 数据治理服务数据库 /数据仓库咨询服务合作提供 AI基础数据解决智能应用场景痛点咨询服务部署实施合作提供基础服务外包数据治理提供数据平台数据基础设施芯片IDC网络基础智能硬件云服务金融其他零售医疗工业行业应用行业客户大数据产业图谱与数据服务关系链提供数据治理服务大数据平台 /数据中台基础云服务162022.3 iResearch Inc. 面向人工智能的数据治理:需求传导人工智能应用引发的数据治理需求企业在部署 AI应用时 , 数据资源的优劣极大程度决定了 AI应用的落地效果 。 因此 , 为推进 AI应用的高质量落地 , 开展针对性的数据治理工作为首要且必要的环节 。 而对于企业本身已搭建的传统数据治理体系 , 目前多停留在对于结构性数据的治理优化 , 在数据质量 、 数据字段丰富度 、 数据分布和数据实时性等维度尚难满足 AI应用对数据的高质量要求 。 为保证 AI应用的高质效落地 , 企业仍需进行面向人工智能应用的二次数据治理工作 。来源:艾瑞研究院自主研究绘制。AI应用对数据治理需求传导图AI应用的数据要求数据治理的需求传导基于 AI应用的数据治理需求数据规模挖掘企业内外部信息 , 纳入结构化数据 、 半结构化数据和非结构化数据 , 提升与 AI模型相关的数据积累 。 数据训练规模扩张 , 数据类型异构 , 数据噪声指数级增加 , 对此建立针对性的数据治理体系特征工程AI模型需纳入实时数据,构建 批流一体的数据聚合计算模式传统的数据治理更多是以人为面向对象,基于有限数据容量进行聚合类信息展示, AI可以接纳的数据量远远大于人所接纳的数据量和信息量,且 可用高质量数据越多,模型质量和准确性越好。AI应用 , 尤其是知识图谱的搭建 , 需要大量的半结构化和非结构化数据支持来开展工作 。 因此 AI应用 在结构化数据的基础上 , 会将各类半结构化或非结构化数据纳入数据源并支持上层分析应用 。AI模型对数据高度敏感 , 其质量优劣极大程度影响 AI模型的应用效果 , 因此 AI数据源需极力规避 “ garbage in, garbage out” 的问题发生 , 多维度的质量检查成为必修课 。AI模型对实时性要求高 , 大部分应用需基于实时数据实现分析 、 推荐和预警等目的 , 支持 AI应用的数据源更强调具备实时性接入能力 。接入实时性数据1) 多个数据源下的数据内容不一致等问题2) 缺失值 、 缺失字段;3) 错误值 、 异常样本;数据融合 &质量优化融合结构化数据、半结构化数据和非结构化数据,进行以 AI应用为目的的特征工程接入多源异构数据源数据类型数据质量数据实时性172022.3 iResearch Inc. 面向人工智能的数据治理:反复治理面对反复的治理工作,搭建针对性体系解决重复性环节数据治理在人工智能项目的实施中花费 90%以上的精力 , 而面对企业的各人工智能项目 , 在 AI数据层面多存在反复治理工作 , 极大拉低了 AI应用的规模化落地效率 。 借助有效的方法论和实用的工具提高数据治理的效率 , 是企业管理数据资产与实现 AI规模化应用的重要课题 。 搭建面向人工智能的数据治理体系 , 可将面向 AI应用的数据治理环节流程化 、 标准化和体系化 , 降低数据反复准备 、 特征筛选 、 模型调优迭代的成本 , 缩短 AI模型的开发构建全流程周期 , 最终显著提升 AI应用的规模化落地效率 。来源:艾瑞研究院自主研究绘制。搭建面向人工智能的数据治理体系 解决 AI数据的重复性“治理”反复准备数据反复特征筛选反复模型调优反复模型迭代数据收集 数据选择数据清洗 特征抽取 特征构造特征选择 运营监控 模型自学习模型更新 模型训练 模型调参模型评估 182022.3 iResearch Inc. 面向人工智能的数据治理:体系搭建吸收传统体系智慧沉淀,以 AI应用数据需求为核心优化建设面向人工智能的数据治理是传统数据治理体系在以 AI应用落地为导向下的体系“升级”。从数据管理维度来看,在接入并处理分析半结构化数据、非结构化数据与流式数据的多源异构数据基础上,面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理,满足 AI模型所需数据的规模、质量和时效,以 AI应用的数据需求为核心,优化对应模块的体系建设。来源:艾瑞研究院自主研究绘制。数据源流式数据 其他系统数据结构化 数据 半结构化数据非结构化数据数据接入 数据采集数据存储 分布式关系数据库 分布式 NoSQL数据库 分布式文件系统 数据仓库 数据湖数据治理元数据管理企业大数据智能 /人工智能应用数据资产管理主数据管理 数据生命周期管理数据安全隐私管理 数据标准管理数据质量管理全量抽取增量抽取实时抽取基于 AI模型的训练 、 推理对企业数据原料的高质量要求 , 面向人工智能的数据管理体系打造升级针对性的 “ 数据标准管理体系 、 数据质量管理体系与特征管理中台 ”。 以 AI模型落地应用为角度出发 , 对数据质量进行多维度的评估治理 , 并在数据汇入标准基础上统一数据模型开发与特征化工程标准 , 为企业 AI数据沉淀复用打下优质基础 。DB2 DB2 DB2 文本 XML 视频 音频 面向人工智能的数据治理体系 吸收传统体系智慧沉淀 针对性优化建设特征管理中台192022.3 iResearch Inc. 面向人工智能的数据治理:数据准备基于 AI模型需求明确数据的特征准备、实时与否和闭环流通从搭建流程来看 , AI模型可大致分为离线训练和上线推理两个阶段 。 离线训练时 , 需基于 AI模型运行目的确认数据采集来源 , 选择数据对应的时间间隔和时间节点 , 让 AI能够在离线建模及上线运行后获取真实业务数据 , 模型训练效果能够保质保量落地 。 如果模型需要 AI数据的实时接入 , 还需打造批流一体式的产品体系 。 基于实时数据处理 、 实时特征开发和实时应用开发等数据架构搭建批流一体的数据产品 , 将流式数据的接入实时反馈到模型运行输出 , 使模型结果更加及时准确 。另外 , AI模型上线后 , 需达到 AI数据的闭环流通 , 通过打造数据采集和回馈分析的闭环式自学习体系 , 达到 AI模型上线后的持续迭代优化 。来源:艾瑞研究院自主研究绘制。AI模型的数据准备时序性AI数据的闭环流通AI数据的时间选择AI数据的实时接入时序性数据 为按照时间维度索引的数据 , 描述了数据产生主体在某时间范围内的时点上的产生值 。 面对时序性数据 , 需准确记录每个数据的产生时间点 , 并 基于 AI模型运行目的选择所需数据的时间间隔和时间节点 。 比如 , 若想通过 AI模型去预测分析某导演 A电影的上映票房 , 则需选择该导演 A电影上映以前的历史票房数据作为模型原料 , 而不能将 A电影上映以后的电影票房数据计算在内 , 避免 AI“ 偷看 ” 未来数据 , 给模型判断结果带来偏差 。在批式数据(全量)基础上,将流式数据(增量)纳入模型计算,打造 “批流一体”的数据产品,使模型分析结果更加实时准确,满足用户对动态变化的场景可即时作出反应的需求为了让 AI模型的预测结果更加准确,可将模型运行后的结果数据更新反馈给 AI模型, 利用实时闭环数据进行自学习,强化反馈回路以优化模型算法,防止模型效果因搭建时间久远而衰退。 比如,在智能推荐模型上线后,如果持续用静态模型预测动态数据,不更新闭环数据反馈的话,随着时间的流逝,模型将逐渐降低精准推荐效果,导致业务决策的效果越来越差。实时特征开发实时AI应用开发判断是否需要需达成实时推荐 /实时交易反欺诈 / 实时订单监控 .运行数据反馈更新保证离线和在线的特征开发标准一致确认 AI模型所需数据的采集来源,对接企业 IT系统获取数据源202022.3 iResearch Inc. 面向人工智能的数据治理:数据质量对应 AI应用的高质量要求,唤醒沉睡数据,挖掘核心价值多源异构数据的质量管理体系可从数据有效性 、 数据一致性 、 数据唯一性 、 数据时序性 、 数据完备性 、 数据完整性 、 数据合理性和数据准确性六个维度建立 。 其中 , 传统数据治理体系同样会高度关注数据的有效性 、 一致性和唯一性 , 但当数据治理范围扩大到多源异构数据时 , 需在数据融合过程中对这三个维度进行重新判断 , 例如非结构化数据在清洗处理后与结构化数据出现实体重复或内容不一致的情况;数据时序性是对数据时间维度的质量要求 , 从 AI应用模型的需求出发 , 考虑数据接入的实时性和如何选择数据的时间间隔;数据完备性和数据完整性是对数据选取的评估维度 , 数据完备性要求数据需符合多维度字段特征以满足建模 , 数据完整性则对数据从历史到上线反馈的完整性接入以达到优质闭环;数据合理性和数据准确性则是对数据本身表达的更高质量要求 。 传统数据治理体系为做数据可视化和数据基本分析应用服务时 , 不会过多考虑到数据分布是否合理及表达内容是否准确等问题 。 然而在 AI模型开发训练时 , 数据的合理分布和准确表达极大程度上决定了 AI模型的分析决策效果 , 因此在面向人工智能的数据治理体系中 , 数据合理性和数据准确性的质量评估是体系需重点关注提升的维度模块 。来源: DAMA数据管理知识体系指南第二版 ,艾瑞研究院根据参考资料与专家访谈自主研究绘制。多源异构数据的质量管理体系数据有效性即数据值与定义的 值域(有效值 /有效参考范围 /通过规定确定的值)一致数据一致性即 数据属性表达一致 ,数据一致性是数据标准化的基础,确保数据符合内容和形式规范数据唯一性即 数据集的实体不会重复出现 。对数据进行去重,底层实现数据一致性管理数据时序性一方面需 根据数据更新频率和数据需求时效判断数据的 及时性 ,一方面需根据 AI模型的需求结果 判断数据选取的时间间隔数据完备性数据完整性数据合理性数据准确性即数据字段维度是否符合 AI建模要求。尤其对于非结构化数据来说,需要有足够 完备的数据基础可提取到建模时所需字段特征AI 应用的算法模型 不仅需要业务历史数据训练,也需及时更新模型上线后的数据 ,基于反馈对模型进行不断的迭代优化,打造优质数据闭环即数据模式符合预期的程度。或通过基准数据比较,或基于过去相似数据集实例 判断数据的分布、变化和模式是否合理,是否出现异常值影响建模效果即数据正确表示“真实”实体的程度。数据准确性是基于数据有效性和数据合理性的进阶版, 需人或机器基于事实或规则判断数据是否准确212022.3 iResearch Inc. 面向人工智能的数据治理:数据标准为 AI模型开发提供“一致的数据语言”,实现数据复用共享数据标准是数据治理工作的开展基础 , 为 AI模型开发及应用提供 “ 一致的数据语言 ” 。 在面向人工智能的数据治理体系中 ,数据标准的建立仍是数据实现共享流通 、 价值挖掘的核心环节 。 企业根据对应的国家标准 、 行业标准 、 地方标准等规范 ,结合自身情况和业务术语参考 , 以 AI应用需求圈定的数据范围为治理导向 , 构建相关基础数据标准 、 指标数据标准和数据模型标准 , 形成全局统一的数据定义与价值体系 。来源:艾瑞研究院自主研究绘制。多源异构数据的标准体系国家标准 行业标准 地方标准 业务术语基础数据标准 指标数据标准 数据模型标准数据元代码集编码集指标参照 &指标源系统 指标名称指标定义指标口径使用场景数据元,专业定义又称数据类型, 是通过定义、标识、表示以及允许值等一系列属性描述的数据单元。 通过对数据元的标准化,可以让企业人员对数据达到一致的理解、记录与应用,有效增加跨部门跨系统的数据共享与沉淀复用,减少对数据的重复性沟通。通用属性行业属性例:人口相关的数据元包括姓名、身份证件名称、身份证件号码、性别等代码表是能够完整表达特定业务对象某个特性的全部值的集合, 一般与对应的数据元配套使用,作为数据元表示中的值域 ,可作为统计分析维度为机器和人类使用。 例:性别代码: 0为未知性别, 1为男性, 2为女性, 9为未说明的性别将文字、标点符号、图形符号等字符转换为 计算机可以接受的数字系统的规则。 例: GB2312编码指标在数据基础上增加了计算和统计维度,是反映了企业经营管理在一定时间和条件下的规模、程度、比例、结构等的概念和数值。指标口径不统一指标体系不完整指标问题追溯难指标数据通常从企业管理和经营需求角度选取,达到企业数据的灵活使用与准确分析, 指标数据的标准化可以保障跨部门之间对指标展现有统一理解认知,带来企业数据应用的价值提升。需建议统一指标体系数据模型是用于表示一组数据和概念的定义 , 即数据的数据结构 , 可理解为 元数据的标准化 , 从源头提高数据的一致性 。在传统数据治理中 , 数据模型标准的统一多为规划数据的存储结构 , 以数据表述数据 , 方便数据共享 。但 在面向 AI的数据治理中 , 因面向上层应用 , 因此数据模型的概念会被扩大 , 不仅仅为元数据的标准化范围 , 还会包括如何让机器理解数据的数据开发模型 , 即特征工程 。数据开发模型的标准化可有效实现面向 AI应用高质量数据的高效复用 , 减少 AI数据反复清洗 、 标注的成本 , 实现 AI应用的快速落地与高效复用 。数据存储结构的标准化 -元数据的标准化数据开发模型的标准化 -特征工程的标准化& 特征管理中台222022.3 iResearch Inc. 面向人工智能的数据治理:特征管理将多源异构数据源转化为机器可理解的“结构化数据”在圈定 AI数据源范围并接入相应数据后 , 特征管理中台会对数据进行预处理 , 基于 AI应用的数据要求处理缺失值 、 异常值 、重复值和数据格式等问题 , 而后经过特征工程转化为人工智能模型可理解的结构化数据 。 在特征化工程环节中 , 面向人工智能的数据治理体系可浓缩沉淀业务场景中的数据治理和模型开发经验 , 对 AI数据形式进行标准定义 , 搭建特征管理中台 ,将特征工程环节标准化 、 自动化 、 智能化 , 快速对接得到可被机器理解的优质结构化数据 , 投喂给 AI模型 。来源:艾瑞研究院自主研究绘制。让机器 “理解”多源异构数据的流程图面向人工智

注意事项

本文(艾瑞咨询:2022年中国面向人工智能的数据治理行业研究报告_76页_3mb.pdf)为本站会员(科研)主动上传,报告吧仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知报告吧(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642号


收起
展开