欢迎来到报告吧! | 帮助中心 分享价值,成长自我!

报告吧

换一换
首页 报告吧 > 资源分类 > PDF文档下载
 

中国大数据分析行业研究报告_58页_3mb.pdf

  • 资源ID:132486       资源大小:3.26MB        全文页数:58页
  • 资源格式: PDF        下载积分:15金币 【人民币15元】
快捷下载 游客一键下载
会员登录下载
三方登录下载: 微信开放平台登录 QQ登录  
下载资源需要15金币 【人民币15元】
邮箱/手机:
温馨提示:
用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,下载共享资源
 
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,既可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

中国大数据分析行业研究报告_58页_3mb.pdf

中国大数据分析 行业 研究报告 | 中国 大 数据 分析 行业 研究 报告 中国大数据网 2022 年 4 月 中国大数据分析 行业 研究报告 | 声 明 本研究报告针对的是中国的大数据分析市场, 研究重点主要聚焦在新兴型厂商。 中国大数据网结合自身数据库信息 ,并采取 访谈调研 、专家研讨 等多种 方式 ,对 大数据分析行业涉及到的多个 细分市场进行定量和定性的分析,给出观点和结论,以供政府机构、科研机构、企业和产业投资机构参考。 本报告中使用 了新兴型厂商 2020 年度 的主要营业收入 对其 市场份额 进行 排名 ,中国大数据网将在有关 单位 进行 2021 年度 数据更新后对本报告涉及的部分数据进行调整。 由于数据来源、模型设计、调研访谈和专家研讨等环节的 局限性和 差异性,报告难免存在不足之处,欢迎各界 讨论指正 。 本 报告 发布渠道 : “中国大数据网” “中国科技新闻网” “中国大数据网”微信公众号 、 “中国科技”微信公众号 本报告版权属于中国大数据网,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的, 需 与 中国大数据网 联系以 获得正式许可 。 对未经许可使用或者引用本行业研究报告的单位或者个人 ,中国大数据网将保留追究法律责任的权利。 中国大数据分析 行业 研究报告 | 目录 1 研究背景 .1 2 大数据产品概念和分类 .3 2.1 大数据发展的驱动力 .4 2.2 大数据产品分类 .7 2.2.1 大数据基础设施 .8 2.2.2 大数据分析 . 10 2.2.3 大数据应用 . 19 2.2.4 大数据开源项目 . 20 2.2.5 数据源和数据资源 . 22 2.3 大数据分析的价值 . 22 3 大数据分析市场规模和发展趋势 . 24 3.1 大数据分析市场规模 . 24 3.2 大数据分析市场趋势 . 25 3.2.1 国产化产品蓬勃发展 . 26 3.2.2 云化部署持续增长,公有云、非公有云部署同步发展 . 26 3.2.3 大数据分析平民化 . 26 3.3 大数据分析技术趋势 . 27 3.3.1 增强分析步入人工智能阶段 . 27 3.3.2 湖仓一体成为新的数据基础设施底座 . 29 3.3.3 流批一体将两种架构模式融为一体 . 30 4 大数据分析三大细分市场主要厂商分析 . 31 4.1 商业智能和数据可视化 . 33 4.2 流批一体 . 39 4.3 智能运维 . 45 5 结论 . 51 6 研究机构简介 . 52 中国大数据分析 行业 研究报告 | 图表目录 图表 1、全球生成、获取、复制、消费的数据量(单位 ZB), Statista 2022.3 图表 2、大数据产品分类 .7 图表 3、传统编程与机器学习模型对比 . 13 图表 4、批量计算与流式计算对比 . 16 图表 5、指标平台架构(来源: Benn Stancil) . 17 图表 6、典型的大数据行业应用 . 20 图表 7、开源大数据项目 . 22 图表 8、中国大数据市场支出预测 2021v2(来源: IDC) . 24 图表 9、中国大数据软件市场支出分布(来源:中国大数据网) . 25 图表 10、增强分析的演进(来源: Gartner) . 28 图表 11、数据仓库、数据湖、湖仓一体架构对比(来源: ) . 29 图表 12、批量分析与流式分析(来源: flink.apache) . 30 图表 13、大数据分析市场厂商类型 . 32 图表 14、大数据分析市场主要厂商 . 33 图表 15、商业智能和数据可视化市场主要厂商 . 34 图表 16、新兴型行业智能化和数据可视化厂商 2020 年相对市场份额(主营业务收入口径) . 34 图表 17、新兴型行业智 能化和数据可视化厂商综合科技创新能力评价 . 35 图表 18、中国商业智能软件市场规模(来源: IDC) . 35 图表 19、中国商业智能和数据可视化软件市场厂商份额(来源: IDC) . 36 图表 20、帆软的商业智能产品 . 37 图表 21、微软的 Power Platform . 38 图表 22、流批一体市场主要厂商 . 39 图表 23、新兴型流批一体厂商 2020 年相对市场份额分布(主营业务收入口径) . 40 图表 24、新兴型行业流批一体化厂商综合科技创新能力评价 . 40 图表 25、广义流批一体的三个板块 . 41 图表 26、阿里的流批一体架构 . 42 图表 27、滴普科技 FastData 的实时湖仓引擎 . 43 图表 28、 Kyligence 的流批一体解决方案 . 44 图表 29、智能运维市场主要厂商 . 46 图表 30、新兴型智能运维厂商 2020 年相对市场份额分布(主营业务收入口径) . 46 图表 31、新兴型智能运维厂商综合科技创新能力评价 . 47 图表 32、 Splunk 智能运维平台 . 47 图表 33、新炬网络的全栈一体化智能运维平台 . 48 图表 34、博睿数据智能运维监控产品 . 49 图表 35、基调听云智能运维产品 . 49 图表 36、擎创科技智能运维平台 . 50 中国大数据分析行业研究报告 | 1 1 研究背景 在全球信息化快速发展的大背景下,大数据已成为国家重要的基础性战略资源,正引领新一轮科技创新,推动经济转型发展。紧密围绕数据资源开展的基础设施建设、数据集聚整合、数据分析处理、数据开放共享和数据安全,铸就了大数据产业发展的核心要素。这些要素所构筑的“内层齿轮”的转动直接带动了“外层齿轮” 大数据融合应用的蓬勃发展,衍生出政府大数据、互联网大数据、健康医疗大数据、金融大数据、电信大数据和工业大数据等热点场景,持续驱动经济增长和转型升级。 “十三五”时期,我国大数据产业快速起步。据测算,产业规模年均复合增长率超过 30%, 2020 年超过 1 万亿元,发展取得显著成效,逐渐成为支撑我国经济社会发展的优势产业。 政策体系逐步完善。党中央、国务院围绕数字经济、数据要素市场、国家一体化大数据中心布局等 做出 一系列战略部署,建立促进大数据发展部际联席会议制度。有关部委出台了 20 余份大数据政策文件,各地方出台了 300 余项相关政策, 23 个省区市、 14 个计划单列市和副省级城市设立了大数据管理机构,央地协同、区域联动的大数据发展推进体系逐步形成。 产业基础日益巩固。数 据资源极大丰富,总量位居全球前列。产业创新日渐活跃,成为全球第二大相关专利受理国,专利受理总数全球占比近 20%。基础设施不断夯实,建成全球规模最大的光纤网络和 中国大数据分析行业研究报告 | 2 4G 网络, 5G 终端连接数超过 2 亿,位居世界第一。标准体系逐步完善, 33 项国家标准立项, 24 项发布。 产业链初步形成。围绕“数据资源、基础硬件、通用软件、行业应用、安全保障”的大数据产品和服务体系初步形成,全国遴选出 338个大数据优秀产品和解决方案,以及 400 个大数据典型试点示范。行业融合逐步深入,大数据应用从互联网、金融、电信等数据资源基础较好的领域逐 步向智能制造、数字社会、数字政府等领域拓展,并在疫情防控和复工复产中发挥了关键支撑作用。 生态体系持续优化。区域集聚成效显著,建设了 8 个国家大数据综合试验区和 11 个大数据领域国家新型工业化产业示范基地。一批大数据龙头企业快速崛起,初步形成了大企业引领、中小企业协同、创新企业不断涌现的发展格局。产业支撑能力不断提升,咨询服务、评估测试等服务保障体系基本建立。数字营商环境持续优化,电子政务在线服务指数跃升至全球第 9 位,进入世界领先梯队 。 中国大数据产业发展受宏观政策环境、技术进步与升级、数字应用普及渗透等众多利 好因素的影响,市场需求和相关技术进步成为大数据产业持续高速增长的最主要动力。 中国大数据产业呈现集成创新和泛在赋能的新趋势。新一轮科技革命蓬勃发展,大数据与 5G、云计算、人工智能、区块链等新技术加速融合,重塑技术架构、产品形态和服务模式,推动经济社会的全面创新。各行业各领域数字化进程不断加快,基于大数据的管理和决策模式日益成熟,为产业提质降本增效、政府治理体系和治理能力现代化广泛赋能 。 随着“互联网 +” 的 中国大数据分析行业研究报告 | 3 不断深入推进以及数字技术的不断成熟,大数据的应用和服务持续深化, 中国大数据产业将继续保持高速增长 , 创新力强、 附加值高、自主可控的现代化大数据产业体系 将 基本形成 ,持续促进传统产业转型升级,激发经济增长活力,助力新型智慧城市和数字经济建设。 2 大数据 产品概念和分类 大数据是数据的集合,以容量大、类型多、速度快、精度准、价值高为主要特征,是推动经济转型发展的新动力。 图表 1、全球生成、获取、复制、消费的数据量(单位 ZB), Statista 2022 大数据 应用 的蓬勃发展 是社会进步的必然结果, 互联网普及之后 ,数据 的 生成、获取、复制、消费 呈现出指数级发展的趋势 ,这些数据来自 气象卫星、交通摄像头、 车联网、电力 /能源 /工业 /环保 行业 的数控设备和 传感器、 社交媒体动态 、 音频视频消费习惯、 移动应用的 中国大数据分析行业研究报告 | 4 用户使用行为、 购物平台的浏览和购买记录、服务器的事务记录及安全日志等等 , 企业 和政府 利用这些数据制定决策,完善流程和政策,并打造以 用户 为中心的产品、服务和体验 。 通过挖掘和分析这些 数据 ,企业 能够提高自身的竞争力和抗风险能力 , 把握新机遇,革新业务模式 ; 政府能够洞察趋势、制定出更科学的 决策和政策 。 在现代社会环境下, 不进行大数据分析,就会 “ 耳聋眼瞎 ”。 2.1 大数据发展的驱动力 大数据在业务需 求和技术创新的结合中 蓬勃发展 。 许多以大数据为核心战略的公司取得了巨大的成功 ,阿里巴巴、腾讯、亚马逊、苹果都是大家耳熟能详的例子 。 大数据 的 迅速 发展有 六 个主要 的 驱动因素: 社会数字化 、物联网 、 技术成本 快速 下降 、 云计算 的快速发展 、数据科学的 普及 、人工智能的崛起 。 1. 社会数字化 消费者驱动和面向消费者的 大数据是最重要的大数据应用 , “ 永远在线 ” 的消费者 生产了大量的数据 。 据 2021 年 2 月中国互联网络信息中心 (CNNIC)发布 的 中国互联网络发展状况统计报告 ,中国有 9.9 亿网民 , 平均每天 的 上网 时间为 3.7 小时 。网民 与网民之间、网民与企业之间、网民与政府之间的每一次交互, 每次点击、滑动或 处理 消息,都会在 各大平台 的数据库中创建新数据 , 巨大的人口基数创建出了 巨量的数据 。 新冠肺炎疫情加速推动了从个体、企业到政府全方位的社会数字 中国大数据分析行业研究报告 | 5 化转型浪潮。 疫情的隔离使个体更加倾向于使用互联网连接,用户上网意愿、上网习惯加速形成。网民个体利用流媒体平台和社交平台获取信息,借助网络购物、网上外卖解决日常生活所需,通过在线政务应用和健康码办事出行,不断共享互联网带来的数字红利。 在企业方面,疫情的出现为企业数字化转型按下了“加速键”,在线办公、在线交易等线上化运营方式为企业在特殊时期保持正常运转提供了支撑。在政府方面,政府的数字化应急能力和在线政务服务能力在疫情下不断 “ 淬炼 ” ,在线服务指数由全球第 34 位跃升至第 9 位,迈入全球领先行列。 2、物联网 物联网( IoT)是 指 通过传感设备 、 按照标准通讯协议,把物品与互联网连接,实现智能化服务的网络。 物联网大致诞生于 2008 年到 2009 年,互联网上连接的物的数量超过了人的数量时,物联网诞生了。 工业、商业 和公共设施领域很早就开始了物联网应用, 智能汽车市场也开始爆发, 一辆普通家用轿车上大约 有 近百个传感器 ,而且传感器数量还在不断增长之中,更有 大量的智能设备 开始 走入家庭,家 庭里的 IP 地址 数量 急剧增长。据 Business Insider, IoT Analytics, Gartner, Intel, Statista 联合预测, 2025 年全 球将有309 亿设备接入物联网。这些物联网设备能够以更高的速率不知疲倦地生产数据,对这些设备的运营、监控以及安全保障,离不开大数据技术的支撑,反过来也推动了大数据技术的进步。 3. 技术成本 快速 下降 中国大数据分析行业研究报告 | 6 大数据相关的技术变得越来越便宜, 数据存储和处理的成本不断下降,使小型企业 甚至 个人 都 能够参与大数据 应用 。 摩尔定律在大数据领域适用,计算能力的性价比每两年翻番, 存储密度以及容量 也 每两年翻一番 。相较于世纪之初的 2000 年,在造价相同的情况下,现在我们可以获得超过 1000 倍的 计算 性能和超过 1000 倍的存储 容 量。 除了 计算和 存储成本的下降之外,影响大数据 系统成本 的 另一 个关键因素是开源大数据软件。 与价格高昂的数据仓库时代相比, 这些开源 软件 以及基于开源软件快速成长 、扩散 的技术服务能力, 极大地降低了 大数据项目 的 成本 。 4. 云计算的 快速发展 云计算以及云计算环境下大数据技术的成熟,使构建一套大数据系统从高投入 、 高风险的项目 (需要大量专家长时间进行系统搭建) ,变为 低门槛、快 速 启动的项目(基础软件可以在若干分钟之内搭建完成),而且能够随着业务的增长进行无缝的技术增长, 只需为实际使用的 计算和存储资源 付费。 云计算大幅降低了大数据系统的 技术门槛、时间成本和使用成本。 5. 数据科学的普及 新世纪以来,数据科学和数据科学家这两个词变得非常流行。 哈佛商业评论称数据科学家为 “ 二十一 世纪最性感的工作 ” 。 近年的职场上, 对数据科学家和类似职位的需求急剧增加,许多人积极投身到 数据科学领域。 对数据科学的教育更加专业化, 统计和数据分析 专业 , 正在变为 学生和工作人群中的热门 专业 。 数据科学的普及为大数 中国大数据分析行业研究报告 | 7 据的 发展贮备好了智力资源。 6. 人工智能的崛起 大数据发展的早期阶段,具有数据科学知识是 进入大数据行业的基本门槛。 进入 2020 年代 ,随着人工智能带来的革命性变化,数据分析 的技术门槛 已经大大降低,大量未经数据科学训练的业务人员也可以方便地使用大数据系统了 , 实现了 数据分析“平民化”的效果 ,大大促进了大数据技术的应用深度和广度。 2.2 大数据 产品 分类 图表 2、大数据 产品 分类 大数据市场经过 20 多年的长足发展,形成了丰富的市场生态,从 产品、服务供应端 的视角大致 可分为 如下领域: 大数据基础设施 、存储 H a d o o p数据湖 数据仓库湖仓一体 流式 / 内存数据库关系型数据库 No S Q L 数据库Ne w S Q L 数据库 实时数据库图数据库 MP P 数据库E T L / 数据转换 反向 E T L数据集成 数据治理 / 访问隐私 / 安全 数据可观察性数据质量 管理 / 监控无服务器 集群服务大数据基础设施商业智能平台数据可视化数据分析师平台增强分析数据目录与发现指标平台流批一体化日志分析查询引擎搜索大数据分析销售 客户体验 / 服务企业市场营销 消费市场营销人力资本 法律合规 财务自动化和 R P A 安全广告 互联网房地产 政府与情报电信 金融投资金融借贷 保险卫生健康 生命科学交通 农业工业 教育大数据应用框架 数据格式 查询 / 数据流 数据访问 数据库 编排 基础设施数据运营 流与消息 统计工具和语言 A I / 机器学习 ML 运营 / 基础设施 搜索 日志与监控可视化 协同 安全大数据开源项目数据市场和发现 财经数据 天空海数据人员 / 实体数据 位置智能数据源和 AP I数据服务 孵化器与学校 研究机构数据资源 中国大数据分析行业研究报告 | 8 大数据分析 、 大数据应用 、 大数据开源项目 、 数据源和 API、 数据资源 。 下面我们对各个领域择要讨论 ,并对数据分析相关部分着重展开 。 2.2.1 大数据基础设施 大数据 技术 的高速发展期开始于 本世纪初, 其前身是数据库技术 。随着 数据规模持续的高速增长 ,主流的技术 覆盖范围 从“数据”变成了“大数据”,其基础技术的演化大致有如下脉络: 1、 数据库 2、 数据仓库 3、 数据湖 4、 湖仓一体 这些技术彼此之间并没有 淘汰 或取代的关系,他们各自有自己的定位和擅长的业务场景,共同构成了大数据时代的技术 基础设施 。 数据仓库是个诞生于数据库时代的概念 , 早期服务于超大型企业的决策支持, 并且也在不断地与时俱进 , 云上 数据仓库服务 获得了更多的大中小型客户 , 是 对结构化数据进行分析的 大数据技术。 数据湖 源自 于大数据时代开源技术体系的开放设计,经过 云计算服务 商 的 积极 推广 , 在新兴公司中大量被采用 。 通常是由一系列云产品或开源组件共同构成大数据解决方案 ,可以处理一系列格式不同的结构化、半结构化、非结构化数据 。 数据仓库和数据湖是大数据架构的两种设计取 向 , 两者在设计的根本分歧点是存储系统访问、权限管理、建模要求等方面的 不同 。 中国大数据分析行业研究报告 | 9 数据湖和数据仓库作为大数据系统的两条不同演进路线,有各自特有的优势和局限性。数据湖 对 初创用户友好但成长性不佳,而数据仓库则刚好反之 ,对初创用户不友好但成长性较好 。 历史较长的用户一般都成长于数据库时代,数据仓库 (如果有建设需求的话) 是 当时 唯一的选择。 进入互联网时代,云上的半结构化、非结构化数据越来越多,也需要进行处理的时候,传统的数据仓库就遇到 挑战 。 相当一部分 新型 企业(尤其是新兴的创业公司)从零开始架构的大数据技术栈,正是伴随开源大数据软件 的流行, 天然地选择了数据湖架构。 随着业务的不断发展 , 数据湖架构的问题开始显现,它 太过灵活而缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加、数据治理效率降低,企业落入了 “ 数据沼泽 ” 的境地,即数据湖中汇聚了太多的数据,反而很难高效率的提炼真正有价值的那部分。 湖仓一体 的架构 应运而生 , 兼顾数据湖的灵活性和数据 仓库的成长性 /事务性 。湖仓一体的实现路径有两种。第一种, 在数据仓库上支持数据湖,一般方案是在数仓中建外部表 ;第二种, 在数据湖中支持数仓能力,一般方案是做一些开发,比如多版本并发控制、自适应schema、提供文件级事务等等。 两种实现路径都需要解决一些共性问题, 如数据打通问题、元数据一致性问题、湖和仓上不同引擎之间数据交叉引用的问题、湖仓开发工具缺乏问题等等。 湖仓一体的架构是新一代大数据分析的基础设施。 中国大数据分析行业研究报告 | 10 2.2.2 大数据分析 大数据分析领域有商业智能平台、可视化、数据分析师平台、 增强分析 、数据目录与发现、 指标平台 、 流批一体 、日志分析、查询引擎、搜索等细分领域。 2.2.2.1 商业智能 商业智能( BI, Business Intelligence) 是大数据分析最典型应用领域 , 指 以 大数据基础设施 系统为基础,运用 各种数据分析手段进行 数据 分析以实现商业价值 ,部分商业智能的输出结果会以可视化的方式 展现 。 商业智能不是 严格意义上的一种技术, 它是 数据库、 数据仓库 、数据湖、 湖仓一体、 ETL、 OLAP、数据挖掘、 机器学习和人工智能、 资料展现等技术的综合运用 , 把它视为 一套配合业务的 流程和 解决方案更为合适 。 商业智能的关键是从许多来自不同的 数据源 中提取出有用的资料并进行清理,以保证资料的正确性,然后经过抽取( Extraction)、转换( Transformation)和装载( Load),即 ETL 过程,合并到数据仓库里,从而得到企业资料的一个全局视图,在此基础上利用合适的查询和分析工具、数据捕捞工具、 OLAP 工具 、机器学习和人工智能技术 等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。 人 工智能在商业智能里开始扮演越来越重要的作用。 中国大数据分析行业研究报告 | 11 2.2.2.2 数据可视化 数据可视化把抽象的数据以人类容易理解的 形式进行展现,常见的展现形式包括: 图形图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性 和 动画的显示。 数据可视化可以大幅度提高人们对数据涵义的沟通效率。 2.2.2.3 数据分析师平台 数据分析师通常来自业务领域 (相当一部分是商业智能系统的用户) ,通过洞察数据发现背后的业务 趋势,数据分析师使用的最 经典的工具可能是 Excel 电子表格,以图形化的方式操纵各种工具获得结果。 数据分析师平台 正是这种易于使用的图形界面平台,不要求用户具备编程 能力 ,大大降低了数据分析 师 的人员 技术 门槛 ,使人们更多的精力投入到业务领域 。 数据分析师平台通常具备 对各种格式的原始数据进行数据转换的能力,支持工作流,支持简单代码或无代码处理方式,可以直接输出结果进行展现,或者把处理结果输送到 更复杂的 工具中进行进一步处理和展现。 2.2.2.4 增强分析 增强分析 是指使用机器学习和人工智能等提升能力的技术来协助进行数据准备、 洞察 生成和 洞察 解释,从而增强人 们在分析和 BI 平台中探索和分析数据的能力。 增强分析 可以将内部数据与外部数据 相结合,并自动执行重要且 中国大数据分析行业研究报告 | 12 耗时的任务,例如数据准备、可视化、预测和报告。 使用机器学习的增强分析 平台, 可以 使数据分析更智能、更准确。技术是自动化和增强的,可以更快、更智能地获得对所有数据可视化、企业报告、场景建模和移动分析的洞察力。 增强分析 中应用了 人工智能 技术 ,通常以机器学习 (ML)和自然语言处理 (NLP)的形式嵌入到分析中。它与传统的分析或商业智能 (BI)工具有很大不同,因为 机器学习 技术始终在幕后工作,以不断学习和增强结果。 增强分析 可以更快地访问从大量结构化和非结构化数据中获得的 洞察 , 并 提供基于 机器学习 的建议。这种智能有助于发现数据中隐藏的模式和偏差,消除人为偏见,并启用预测能力来告知组织下一步该做什么 , 引导用户发现他们原本无法看到或发现的 洞察 。 增强分析 的价值具体体现在如下三个方面: AI 使得大量的业务人员快速获得数据分析能力,不需要数据科学的专业知识,也不 需要技术人员的支持,而且数据的使用也在统一的数据架构和安全架构之下,在大大降低了使用者的技术要求之后,业务人员更容易获得数据之下的业务洞见。 AI 可以使用自然语言与人交互,并在交互中进一步学习,可以对数据洞察进行个性化处理。由自然语言处理 (NLP)和自然语言生成 (NLG)组成的自然语言界面 (NLI),使用户可以用简单的语言提出问题并以简单的语言得到答案。用户能够使用直观的探索工具更深入地了解他们的数据。在用户问题的指导下,系统会推荐可视化图表、仪表板和其他易于理解的指标,展现出令 中国大数据分析行业研究报告 | 13 人信服的数据。 AI 可以自 动地进行数据清理和准备,自动完成繁琐的数据准备工作,让 IT 工程师和业务分析人员能够更高效地从事他们的本职工作。 人工智能( AI)是指计算机系统模仿人类的认知活动,能够“思考”和解决问题,并且不断学习进步。机器学习是人工智能的子集,利用数学模型和大量的数据来生成新的认知,不需要人类告诉它规则,它可以从数据中找出规则。机器学习是计算机的“智能”能够不断进步的根本原因。 机器学习与传统编程有极大的不同,在传统编程中,我们按照既定规则来编写代码,接收数据输入,然后产生正确输出。但对于许多认知智能领域的任务来说,制 定规则是十分困难的。例如,区分是猫还是狗对人类而言是很轻松的任务,但描述其区分规则却 相当困难 ,更不用说把它变成程序代码了。 图表 3、 传统编程与机器学习模型对比 而机器学习 另辟蹊径 ,它从一些输入数据和正确的输出开始(“图 1、 2、 3 是猫,图 4、 5、 6 是狗”), 以此为基础的 机器学习算法会生成规则,包括人类不知道的规则,这些规则汇聚在一起称为计算机规则数据输出 计算机输出数据规则传统编程 机器学习 中国大数据分析行业研究报告 | 14 机器学习模型,经过足够大数据量的训练之后,机器学习模型就能够有效地反映现实世界中的规则了(可以有效地区分猫和狗了)。 换句话说,机器学习通过一组自定义的学习规则分析复杂的数据集来增强模型。机器学习模型从大数据和重复的人类交互中学习,直到它可以输出足够好的结果。 随着数据的极大丰富、算法的不断进步和机器算力的大幅提升,人工智能在部分智能领域近年已经达到或超过了人类的能力,到达了“可以用了”的水平。 机器学习可以从数据中构建出规则,这正是历史悠久的数据分析工作梦寐以求的目标。人工智能与机器学习在大数据分析领域中开始扮演越来越重要的角色,也代表着未来,它在商业智能和 增强分析 中已经成为不可或缺的部分。 2.2.2.5 数据目录与发现 数据目录是关于数据资产的一个有序清单 , 它使用元数据来帮助组织 管理数据,帮助数据专业人员收集、组织、访问和充实元数据,从而为数据发现和治理提供支持。 数据目录之于数据,正如图书目录之于图书。它可以提供一个整体视图,提供所有数据的深度可见性,而不仅仅是一次只查看某一项数据。 与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规 也比过去更多、更严格。 在这一背景下, 除了数据访问之外,数据治理也成为了一个严峻的挑 中国大数据分析行业研究报告 | 15 战。不仅要了解当前所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。 数据目录可以使用元数据 来 实现比 传统 数据管理 更丰富、 更强大的功能。 2.2.2.6 流批一体 流批一体是指将 流式计算 与 批量计算 两种不同 架构 的数据处理模式融合到一起。 流式计算 与 批量计算 模式的选择,是由用户使用场景决定的 。 流式计算 适合于有实时或准实时需求的场景,将数据流连续地送入分析工具并快速地得到分析结果,如欺诈实时检测、社交媒体情感分析、安全日志监控、客户行为分析 、实时推荐 等 ; 而 批量计算 则适合于 非实时的场景,将一段时间内产生的大块数据一起送入分析工具,经过较长运行时间得到结果,如工资单计算、计费、客户订单、清算 对账 、指标分析、离线报表等。下表对比了两种计算模式的不同: 特性 批量计算 流式计算 数据 时间范围 有界数据 集,数据在某个时间范围内起始和结束 无界数据 集,一直有持续不断新产生的数据 任务执行 分批执行、有终止 持续 执行、无终止 处理延迟 小时级、天级 秒级、分钟级 中国大数据分析行业研究报告 | 16 数据场景 数据量超大数据、无法以流的形式交付 数据以流的形式交付 业务场景 工资单计算、计费、客户订单、清算对账、指标分析、离线报表 欺诈实时检测、社交媒体情感分析、安全日志监控、客户行为分析、实时推荐 关注点 可扩展性、 大 吞吐 量 、容错 可扩展性、 低 延迟、容错、消息一致性、消息持久性 图表 4、批量计算与流式计算对比 对于用户而言,只要数据 量 达到一定 规模 , 对 流式计算和批量计算 就会产生 业务需求 , 两种模式需要同时存在,随之而来的是一系列问题: 重复的资源,存储和计算都要双份,系统的成本高。 两套系统,组件不同,需要 技能不同的人员 维护,人员 的成本高 。 两套开发体系无法统一,表结构不同, 开发环境 不同 。 缺乏数据一致性,对于相同的指标,两种模式算出来的结果不一样,虽然 最前端输入 都来自 同一份源数据。 为了解决以上问题,流批一体 成为新热点,目标是建立起一套统一的架构,可以同时支持流式计算和批量计算,对混合的有界数据和无界数据能够统一进行支持,提供更一致的、更广泛的编程环境 ,以较少资源浪费,降低维护成本,获得更好的数据一致性 。 目前,流批 中国大数据分析行业研究报告 | 17 一体的产品和服务正在 快速 发展 和完善之中。 2.2.2.7 指标平台 这里的 指标( Metrics)是指业务上 或技术上 关注的 量化信息 ,例如销售部门关注的 销售额完成率、 人事部门关注的员工离职率 、管理人员被考核的 KPI(关键绩效指标) 等等 , 指标是企业 管理中 核心的 、重要的数据资产。 下图 清楚地 展现 了当今的 指标 报告 所存在的问题, 如果没有集中的 指标平台 , 指标 逻辑将在不同的工具中重复定义,导致 指标 不一致。 图表 5、 指标平台 架构 ( 来源: Benn Stancil) 一位 数据 工程师描述了缺少 统一 指标平台 的痛苦:“ 每 两 天 都需要 手动创建新表,但无法判断是否已经存在类似的表。 我们 数据 仓库的复杂性不断增加,数据 的来源和变换过程 变得无法追踪。当上游发现并修复数据问题时,无法保证修复会传播到所有下游作业。结果 是 ,数据科学家和工程师花费了 大量时间 来 修复 数据差异 ,到处 灭火, 还非常郁闷 。 ” 中国大数据分析行业研究报告 | 18 指标平台是上游 数据源和下游业务应用程序之间的中间层 , 它被称为 指标平台( Metrics Platform) 、 无头商业智能( Headless BI) 、指标层( Metrics Layer) 或 指标存储( Metrics Store),都 是 指 同一个东西。 与传统的 BI 报告不同, 指标平台 将指标定义与 BI 报告和可视化分离。拥有 指标 的团队可以在指标平台中定义他们的 指标 ,形成单一的事实来源,并能够在 BI、自动化工具、业务工作流 以及 高级分析中一致地重用 这些指标 。 2.2.2.8 日志分析 日志分析主要服务于 IT 运维。 IT 运维是一项庞杂的系统工程,包括 网站的运维、系统的运维、网络的运维、数据库的运维、 应用系统 的运维 、桌面端的运维 , 以及 运维开发、运维安全。 运维工作需要借助 监控软件,但由于系统庞杂和需求众多,没有任何一款监控软件能够覆盖所有的运维需求, 现在大量的运维团队 需要通过 日志来进行运维管理。 日志的类型很多,主要包括系统日志、应用程序日志 、网络设备日志、 数据库日志 、安全日志 等等。每条日志都记载着时间戳、相关设备名称、 系统名称、应用名称、 使用者及操作行为等相关的描述,系统运维和开发人员可以通 过日志了解软硬件信息、检查配置过程中的错误及错误发生的原因。 随着 设备、 系统、应用、用户数量的增多,设备 7x24 地持续运行,很快就会产生海量的日志数据,一套基于大数据 和人工智能 技术 中国大数据分析行业研究报告 | 19 的 智能运维体系 成为必需。 鉴于 IT 运维市场有着庞大的体量,代表着 IT 运维未来的智能运维市场将会有巨大的增长空间。 2.2.3 大数据应用 大数据应用,是建立在大数据基础设施之上,综合运用大数据分析和人工智能 工具,结合 应用场景 和垂直行业需求的应用实践。 经过20 多年的发展,大数据应用已经深入社会的各个领域, 水平 场景应用涉及的领域有 : 销售、客户体验 /服务、企业市场营销、消费市场营销、人力资本、法律、合规、财务、自动化和 机器人流程自动化 RPA、安全 、 广告 等 ,垂直行业应用涉及的领域有: 互联网 (电商、社交、生活服务 等 ) 、金融 (借贷、投资、保险 等 ) 、电信、政府、 卫生 健康、工业、交通、 教育、房地产、商务、生命科学、农业 等 。 大数据应用的真正落地,需要结合每个特定用户的特定需求,不是简单的产品堆砌,要做好与用户既有应用环境的结合,并建立新的业务流程。 下表举例说明 典型 的 垂直行业 大 数据 应用: 行业 行业 挑战 大数据应用 大数据应用 价值 互联网 业务场景复杂,数据来源多;业务快速变化,时效性要求高; 数据量巨大但数据价值低。 用户行为分析、转化分析、留存分析、活跃分析、渠道分析、个性化推荐、精准营销、广告投放 提升客户满意度、快速获客 /留客、提升收入、指导产品开发/迭代 中国大数据分析行业研究报告 | 20 金融 证券 资金成本高, 惠普信贷竞争激烈, 信用卡欺诈, 证券欺诈,超高频交易 。 风险分析,隐私计算,交易前决策支持分析,情绪测量,预测分析,交易数据分析 高度依赖大数据进行风险分析,包括反洗钱,企业风险管理,了解客户和减少欺诈 政府 政府 数据资产的整合、管理 和开放,政府 部门及 附属机构 之间 数据 的互联互通 。 行程大数据辅助防疫,气象大数据服务于救灾, 工商企业大数据检测企业异常等 数据多跑路群众少跑腿,更高效的社会化服务,更卓越的营商环境 图表 6、 典型的大数据行业应用 2.2.4 大数据开源项目 大数据技术门槛和项目成本的快速下降,开源大数据项目功不可没。至今,这些开源项目也 依然 是引领大数据技术发展和创新的重要策源地。 领域 开源 项目 框架 Hadoop HDFS, Spark, Hadoop MapReduce, Flink, YARN, TEZ, Kubernetes, Apache Kylin, MESOS, Docker, CDAP, RedHat, HELIX 数据格式 ICEBERG, Parquet, Apache Hudi, ORC, Arrow, DELTA LAKE 查询 /数据流 Spark SQL, Pig, Hive, Presto, Apache DRILL, SLAMDATA, GraphQL, Trino, Google Cloud Dataflow, HAWQ, Apache Trafodion 中国大数据分析行业研究报告 | 21 数据访问 Uber Databook, Aundsen, Magda, Ckan 数据库 PostgreSQL, MySQL, MongoDB, GreenPlum, Redis, CockroachDB, MariaDB, Influxdb, Presto, Druid, Cassandra, Airbnb Dataportal, SciDB, DataHub, Apache Flume, Cloud Spanner, CouchDB, Riak, OpenTSDB, Apache Accumulo, ClickHouse, Pinot, EdgeDB, Apache HBase 编排 Apache Airflow, Prefect, Dagster, Flyte, MetaFlow, Kedro, Spotify Luigi 基础设施 Apache Zookeeper, Apache Ambari, Apache MESOS, Argo 数据运营 MARQUEZ, Great Expectations, Open Lineage, LakeFS, Project Nessie 流与消息 Spark Streaming, Kafka, beam Pulsar, Flink, Storm, Apex, Apache NiFi, Apache RocketMQ, Samza 统计工具 和语言 Python, R, Scala, NumPy, Pandas, SciPy, RStudio, Pyro, Julia, Tidyverse AI/机器学习 TensorFlow, Torch, Transformers, OpenCV, Apache MADlib, Scikit-learn, Keras, BERT, XGBoost, Caffe, Microsoft Cognitive Toolkit, DMTK, Ope

注意事项

本文(中国大数据分析行业研究报告_58页_3mb.pdf)为本站会员(科研)主动上传,报告吧仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知报告吧(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642号


收起
展开