2018数据智能生态报告.pdf
2018数据智能 生态报告 2018年10月1 前言 随着智能移动设备、 可穿戴设备、 工业大数据等的指数级增长, 数据行业迎来更多的挑战。 大数据、 云 计 算、 人 工 智 能、 区 块 链、 机 器 学 习 等 各 种 热 词 蜂 涌 而 出。 如 今, 大 数 据 的 概 念 已 经 普 及, 从 互 联 网、 数 据 企 业, 到 传 统 实 体 企 业, 数 据 正 在 融 入 到 整 个 经 济 的 发 展 中,2018 年第五届中 国 国 际 大 数 据 大 会 正 以“ 实 体 融 合 新 动 能 数 字 经 济 新 发 展 ” 为 主 题, 共 同 探 讨 数 据 所 产 生 的 决 策 与 价 值 。 而 如 何 真 正 从 数 据 中 形 成 智 能 , 提 升 商 业 决 策 与 人 类 生 活? 这 是 所 有 大 数 据 企 业 共 同面临的挑战。 数据智能 (data intelligence) 一 词 相 较 于 大 数 据 和 人 工 智 能 而 言 更 为 年 轻, 但 是 数 据 智 能 的 诞 生却和这两个由来已久的概念密不可分。 简单讲, 数据智能就是大数据和人工智能技术的融合。 数据智能应用的终极目标是利用一系列智能算法和信息处理技术实现海量数据条件下的人类深 度 洞 察 和 决 策 智 能 化, 最 终 走 向 普 适 的 人 机 智 能 融 合。 它 代 表 着 一 种 新 的 认 知 范 式, 超 越 了 简 单 的“ 是 什 么 ” 和“ 为 什 么 ”, 即 Jim Gray( 图 灵 奖 得 主, 关 系 数 据 库 的 鼻 祖 ) 所 述 的 第 四 个 认知范式 1 : 随着数据量的高速增长, 计算机将不仅仅是模拟仿真, 还能进行分析总结, 得到结论, 最终实现预测。 数 据 智 能 作 为 数 据 行 业 的 新 兴 概 念 , 在 整 个 数 据 行 业 会 引 起 怎 样 的 变 化? 数 据 智 能 企 业 作 为 新 的 物 种, 会 如 何 改 变 数 据 行 业 的 价 值 分 配 和 竞 争 全 景? 数 据 智 能 中 台 作 为 数 据 智 能 的 最 重 要 的 技 术 与 机 制, 其 核 心 的 特 点 和 能 力 是 什 么? 在 本 报 告 中, 作 者 试 图 从 数 据 智 能、 数 据 智 能 平 台 的 定 义 和 本 质 入 手, 回 顾 数 据 智 能 市 场 的 发 展 历 史, 针 对 现 实 客 户 企 业 遇 到 的 各 种 问 题, 提 供 当 前 竞 争 格 局 下 的 玩 家 分 类 和 速 赢 策 略 。 对 于 数 据 智 能 的 发 展 趋 势, 本 报 告 也 力 图 从 各 个 利 益 相关者的角度出发, 给出相应的应对策略, 帮助企业更好的驾驭数据智能, 领跑数据智能时代。 1 几千年前的科学, 以记录和描述自然现象为主, 称为 “实验科学” , 即第一范式, 其典型案例如钻木取火 ; 数 百 年 前, 科 学 家 们 开 始 利 用 模 型 归 纳 总 结 过 去 记 录 的 现 象, 发 展 出“ 理 论 科 学 ”, 即 第 二 范 式, 其 典 型 案 例 如 牛 顿 三 定 律、 麦 克 斯 韦 方 程 组、 相 对 论 等; 过 去 数 十 年, 科 学 计 算 机 的 出 现, 诞 生 了“ 计 算 科 学 ” , 对 复杂现象进行模拟仿真,推演出越来越多复杂的现象,其典型案例如模拟核试验、天气预报等,即第三范式2 数据智能时代,人工智能后时代:内涵和预测 数据智能和数据智能平台是什么 从 技 术 的 角 度 来 看, 数 据 智 能 是 指 基 于 大 数 据 引 擎, 通 过 大 规 模 机 器 学 习 和 深 度 学 习 等 技 术, 对海量数据进行处理、 分析和挖掘, 提取数据中所包含的有价值的信息和知识, 使数据具有 “智 能 ”, 并 通 过 建 立 模 型 寻 求 现 有 问 题 的 解 决 方 案 以 及 实 现 预 测 等。 这 其 中, 由 于 需 要 实 现 处 理 海 量 和 异 构 化 的 数 据, 数 据 智 能 需 要 有 一 个 强 大 的 实 现 的 平 台。 这 个 平 台, 能 够 进 行 实 时 数 据 处 理、 分 析 和 挖 掘, 提 取 数 据 中 所 包 含 的、 具 有 商 业 情 境 价 值 的 信 息 和 知 识, 形 成 不 同 的 情 境 化 数 据 能 力, 并 通 过 建 立 模 型、 构 建 流 程 和 数 据 产 品, 最 终 实 现 自 动 决 策 。 我 们 可 以 把 这 样 的 平台称为“数据智能平台”。 在 数 据 智 能 概 念 诞 生 之 前, 常 用 的 数 据 应 用 概 念 有 数 据 科 学(data science)和数据分析学 (datalogy) 等。 虽然数据智能与这些概念有重合之处, 但 “数据智能 “之所以成为一个独立的概念, 是因为包含了以下几个原因: 1. 数 据 智 能 的 目 的 是“ 预 测 ” 和“ 决 策 ”, 而 非“ 分 析 ” 或 者“ 展 示 ”: 数据智能一定是为了 服 务 某 个 现 实 中 的 决 策 , 所 以 不 仅 仅 是 需 要 用 机 器 去 模 拟 现 实 数 据、 抽 象 现 实 问 题, 还 需 要 进 一步用数据将隐藏在现实问题之下的关系抽象出来, 并形成关系发展趋势的预测, 进而指导行动。 因此数据智能中的数据最终是可行动的,可以转化成决策的。 2. 数据智能是可被衡量价值的 : 由于数据智能是决策导向的, 所以数据智能效率和价值的评判, 即 在 于 基 于 该 决 策 的 结 果 价 值 如 何。 因 此 , 数 据 智 能 的 核 心 测 量 指 标 是 能 够 自 证 其 价 值, 可 以 与人类的决策使用同一套判断标准,以比较效用差别,例如利润率,投入产出比等。 3. 数 据 智 能 得 以 实 现 的 技 术 核 心 是 数 据 智 能 平 台: 数 据 智 能 是 一 系 列 能 力 的 集 合, 所 以 数 据 智 能的产生是一项复杂的系统工程。 一般而言, 数据智能平台在数据智能的产出过程中是必须的, 其 作 用 是 承 载 和 调 动 一 系 列 智 能 数 据( 面 向 特 定 商 业 情 境 和 问 题 的 数 据 集 )、 核 心 模 型( 包 括 了 商 业 逻 辑 方 法 论, 由 人 的 智 慧 + 机 器 学 习 优 化 而 得 的 模 型 )、 以 及 一 系 列 的 面 向 不 同 情 境 的 数据处理能力例如大规模机器学习和深度学习等技术,提高数据智能产生的效率。 4. 数 据 智 能 的 呈 现 载 体 是 数 据 智 能 产 品: 数据智能产品是针对某一个商业情境中的某一类特定 决 策, 并 且 与 该 商 业 决 策 流 程 相 对 应 的 产 品, 是 有 封 装 的、 有 交 互 界 面( 产 品 界 面 ) 的。 数 据 智能产品是数据智能的媒介和呈现载体,其效率和效能代表了数据智能产品的价值几何。3 数据智能的经济学本质 经济学的本质是决策, 解释的就是 “选择” 的效率和效用。 能够解决 “决策” 问题的才是真正的 “智 能 ”, 因 此 在 当 今 数 字 经 济 快 速 改 变 商 业 竞 争 的 时 代, 数 据 智 能 具 有 极 大 的 经 济 意 义。 数 据 智 能本质上是通过以下几个方面对经济产生正向的促进作用: 1. 降 低 交 易 成 本, 提 高 决 策 效 率: 数 据 智 能 加 快 了 从 信 息 汇 聚 到 决 策 的 效 率, 极 大 提 炼 了 数 据 的内涵,降低信息不对称,减少由于时间压缩不经济带来的专业信息获取成本。 2. 打 破 有 限 理 性, 提 高 决 策 稳 定: 由 人 做 决 策 的 时 候 获 取 的 信 息 来 源 和 处 理 能 力 不 同, 每 个 人 受 到 非 理 性 因 素 的 影 响 程 度 不 同; 数 据 智 能 的 决 策 过 程 都 是 由 算 法 完 成, 输 出 较 为 稳 定, 保 证 了理性稳定的决策产出;减少了不确定性带来的风险和损失。 3. 替 代 重 复 决 策, 增 加 价 值 创 造: 用 机 器 替 代 重 复 性 的、 可 打 包 成“ 黑 箱 ” 的 决 策, 能 极 大 地 提高决策的频次, 解放人的智慧, 这将极大地提高交易的频次, 提高价值创造的次数。 进一步的, 这将在整个经济系统内部形成新的岗位、生产关系,以及价值分工。 不 仅 如 此, 数 据 智 能 平 台 的 存 在 还 会 提 高 数 据 智 能 价 值 创 造 的 能 力, 内 生 性 的 提 高 数 据 智 能 的 经 济 价 值 , 因 此, 数 据 智 能 平 台 可 以 将 整 个 平 台 上 数 据 的 价 值( 以 对 应 特 定 商 业 情 境 的 可 获 得 数 据 形 成 的 数 据 集 存 在 ) 和 人 的 智 慧( 对 于 行 业 的 业 务 理 解 ) 成 倍 的 放 大, 我 们 可 以 粗 略 地 估 计一个数据智能价值公式: 数据智能价值 =(数据 + 人的智慧) 数据智能平台 甚至数据智能平台的加速作用不是乘数效应而是指数效应,这个公式可以转变为: 数据智能价值 =(数据 + 人的智慧) 那么数据智能平台 / 数据中台的价值是从何而来呢?我们可以看成是两种效应的加和: 1. 第一种效应是提高资源配置效率, 收集各个环节的剩余价值。 从传统数据价值链的角度来说, 也 会 存 在 一 个“ 微 笑 曲 线 ” : 由 于 大 量 开 源 工 具 的 出 现, 数 据 的 加 工 与 分 析 算 法 的 趋 同 使 这 两 个 环 节 的 附 加 价 值 不 断 降 低; 而 数 据 的 供 给 侧 与 最 后 的 应 用、 产 品 解 决 方 案 则 会 成 为 附 加 价 值 最 高 处。 因 此, 占 据 特 别 的 数 据 来 源, 或 者 发 现 适 合 数 据 智 能 解 决 的 实 际 需 求, 并 进 一 步 研 发 成 应 用 或 数 据 智 能 产 品, 将 成 为 价 值 最 高 的 环 节。 而 数 据 智 能 平 台 则 打 通 了 这 个 数 据 价 值 链 上 的 各 个 环 节, 让 所 处 不 同 生 命 周 期 阶 段 的 行 为 发 生 在 更 应 该 发 生 的 地 方, 提 高 资 源 配 置 效 率, 通过平台汇聚和沉淀,将剩余价值集中在平台上。 数据智能平台4 数 据产品 智 能应用 数 据生 产化 工 程化 数据 分析 和建模 数 据加工 聚 集平台 数据源 传统数据价值链 图表 1 数据智能平台 / 数据中台的价值效应一:提高资源配置效率,集中剩余价值 图表 2 数据智能平台 / 数据中台的价值效应二:降低成本,增加整体产出 2. 第 二 种 效 应 是 提 高 资 源 的 配 置 效 率, 提 高 各 个 环 节 的 价 值 产 出。 在 数 据 智 能 时 代, 数 据 的 价 值 链 远 远 比 传 统 价 值 链 复 杂, 如 下 图 所 示, 仅 仅 是 从 数 据 的 采 集、 获 取 到 治 理, 就 有 近 十 个 环 节 纵 横 交 错、 环 环 相 扣。 数 据 流 过 数 据 智 能 平 台 的 过 程 可 以 按 照 数 据 生 命 周 期 来 划 分 ( 数 据 的 加 工 程 度 ), 在 这 个 过 程 中, 每 一 个 环 节 数 据 智 能 平 台 都 能 提 供 相 应 的 处 理 能 力、 工 具、 补 充 的 数 据 集 或 者 解 决 方 案, 数 据 能 够 无 缝 的、 成 阶 段 递 进 的 在 数 据 智 能 平 台 内 逐 渐 由 原 始 数 据 变 成最后可行动的(actionable)数据。由于数据智能平台上这一揽子能力和工具能极大提高可复 用 环 节 的 复 用 程 度, 降 低 不 必 要 的 重 复 投 入 和 内 耗, 因 而 能 让 更 多 价 值 融 入 到 数 据 智 能、 数 据 智能产品本身,提高整体的产出。 机器学 习 代码 配置 数据采集 数据校 验 机器 资源 管 理 服务 基础架构 监控 分析工具 特征提 取 过程管理工具 数据智 能 时代的 数 据 价值链 数据智能平台(数据中台)的概念和特点 数 据 智 能 平 台 的 概 念 往 往 包 括 了 平 台 本 身 和 运 行 平 台 的 机 制, 本 质 是 通 过 能 力 的 共 创、 复 用、 沉 淀 等, 促 进 前 端 业 务 或 者 数 据 智 能 产 品 的 效 率、 协 同、 创 新( 如 下 图 表 2 所 示 )。 数 据 智 能5 平 台 通 常 有 两 类: 一 类 是 大 型 综 合 型 的 服 务 公 司 为 了 支 持 自 身 前 端 多 样 化 的 产 品 和 业 务 而 搭 建 的, 在 公 司 的 内 部, 常 常 被 称 为“ 数 据 中 台 ”( 如, 阿 里 的“ 大 中 台 ”); 另 一 种 是 开 放 生 态 下 由 某 一 个 企 业 对 接 多 个 利 益 相 关 的 企 业 而 搭 建 的, 为 了 支 持 生 态 系 统 中 的 合 作 伙 伴 构 建 面 向 自己无法覆盖的多个业务情境的数据智能 (例如 ,IBM 的 Watson )。 无 论 是 在 企 业 内 部 还 是 在 更大范围的生态中,数据智能平台 / 数据中台的共有特点都是开放、共享。 在数据智能平台 / 数 据 中 台 中, 包 括 着 对 应 特 定 商 业 情 境 的 可 获 得 数 据 形 成 的 数 据 集, 一 些 通 用性的模型, 也包括着处理这些数据集的工具的集合以及一些处理能力 (例如计算资源和算法) 的集合, 以及一些面向特定商业情景的数据、 模型、 工具能力的中间件, 可以以服务化的形式呈现。 图表 3 数据智能平台 / 数据中台概念图 图表 4 数据智能平台 / 数据中台定位 数据智能平台 / 数 据 中 台 不 是 纯 粹 的 多 种 软 件 工 具 集 合 的 平 台, 数 据 是 它 的 护 城 河; 数 据 中 台 也 不 是 简 单 的 数 据 集 的 集 合, 服 务 化 的 中 间 件 是 它 的 组 成 部 分。 因 此 数 据 智 能 平 台 / 数据中台 需 要 在 数 据 加 工 程 度 和 软 件 工 具、 客 制 化 和 标 准 化 中 找 到 一 个 平 衡, 才 能 最 大 效 率 地 赋 能 数 据 智能产品和解决方案。 客制化(服务化) 标准化(产品化) 数据 软件 工具 数据智能 平台/ 数据 中台6 数据智能平台 / 数据中台有两大使命 : 帮助企业更好的 “看现在” 对现有数据的治理 ; 帮助 企业更好的 “看未来” 通过数据挖掘对未来进行预测。 “看现在” 的最终目的是为了更好的 “看 未 来 ”, 这 是 因 为 在 数 据 智 能 时 代, 数 据 的 量 级 、 异 构 程 度 都 极 其 复 杂, 千 里 之 行 始 于 足 下, 因 此 这 是 企 业 实 现 数 据 智 能 的 第 一 步, 也 是 实 现 数 据 智 能 价 值 最 为 关 键 的 一 步。 进 一 步 来 说, 这 两 个 能 力 又 包 括 了 以 下 这 些 能 力 要 素: 为 了 更 好“ 看 现 在 ” 的 连 接、 共 享、 安 全; 以 及 为 了 更好“看未来”的管理、科学与工程。 1. 连 接(connection ) : 连 接 能 力 是 一 个 数 据 智 能 平 台 的 基 础。 连 接 指 的 是 将 不 同 来 源 的 数 据 连 接、 匹 配 、 融 合 的 能 力, 让 用 户 能 连 接 到 云 端 和 本 地 化 的 结 构 化、 非 结 构 化 数 据, 包 含 支 持 不 同 类 型 的 数 据 存 储 平 台。 这 个 概 念 不 强 调 对 数 据 的 拥 有, 而 强 调 能 够 触 及 和 返 回 的 数 据 的 广 度与饱和度。 例如标识一个移动设备的设备号有很多种类型 (imei, 安卓 id ,ssid 等) , 每个设 备 号 都 能 索 引 不 同 维 度 的 数 据。 而 一 个 数 据 智 能 平 台 应 该 可 以 尽 可 能 广 泛 地 将 所 有 相 关 的 数 据 都 引 入 平 台, 因 此 如 何 判 定 这 些 不 同 的 设 备 号 码 背 后 映 射 的 是 同 一 设 备、 将 不 同 来 源 的 数 据 汇 聚和连接起来形成更丰富的数据维度,是数据智能平台的使命。 2. 共享 (sharing): 共享能力是评估数据智能平台是否合格的首要标准。 共享不代表完全的透明, 而 是 构 建 一 个 合 理 的、 权 限 区 分 的、 在 保 护 数 据 的 同 时 让 知 识 价 值 流 转 的 机 制。 为 保 护 数 据 而 禁 止 任 何 算 法 的 流 转 或 者 由 数 据 所 沉 淀 洞 察 知 识 的 流 转, 都 是 不 合 理 的。 因 此 一 个 数 据 智 能 平 台 存 在 的 意 义 就 是 共 享, 并 且 是 能 够 给 对 应 的 人 共 享 他 应 该 获 得 的 信 息, 同 时 保 障 不 应 该 共 享 的部分例如原始数据应有的私密性。 3. 安 全(security): 安 全 合 规 是 重 中 之 重。 一 个 数 据 智 能 平 台 是 中 立 的、 合 法 合 规 的, 它 中 间 涉及到的各项任务都应该是安全且合规的, 具有安全管理、 用户管理、 平台接入与使用的审计、 调 优 和 保 障 高 可 用 性 和 容 灾 的 能 力。 数 据、 算 法、 模 型、 工 具 和 计 算 资 源 都 要 从 进 入 数 据 智 能 平台起, 进行监控和管理、 保障安全有效, 同时所有的任务都应该遵循相关的法律法规有序进行, 不 以 危 害 数 据 安 全、 数 据 隐 私 为 代 价 而 换 取 效 率 的 提 高 或 任 务 的 完 成 。 更 进 一 步, 数 据 智 能 平 台有着帮助监管机构一起制定安全合规标准的责任与义务。 4. 管 理(governance): 管 理 是 数 据 智 能 平 台 实 现 价 值 的 起 步, 是 让 数 据 成 为 企 业 的 可 开 发 资 源或者资产的第一步。 数据是晦涩的、 客观的, 但是对于数据的管理就包含了数据管理者的智慧, 让 数 据 的 排 列 有 序、 结 构 趋 同, 可 以 被 进 一 步 的 分 域、 保 存、 备 份、 重 新 组 合, 形 成 更 多 的 协 同价值。 常见的数据智能平台上的数据管理能力包括原数据管理 2、 自有数据的抽取、 转换、 加 载以及数据存储 3、数据准备 4等。 5. 科 学(science): 数 据 科 学 是 探 索 数 据 价 值 的 流 程, 也 是 数 据 价 值 被 挖 掘 的 核 心 过 程。 不 同7 于 其 他 业 务, 数 据 的 价 值 不 是 一 次 成 型 的, 数 据 价 值 的 挖 掘 依 赖 于 不 断 假 设、 分 析、 验 证、 校 准的反复迭代过程, 最终才能凝聚沉淀成模型和解决的方案, 这个过程不仅要秉承科学的范式, 也 要 使 用 科 学 的 工 具, 才 能 保 证 结 果 的 信 效 度 和 普 适 性。 数 据 智 能 平 台 的 流 程 的 部 分 是 符 合 科 学 的 流 程 , 其 工 具 也 是 科 学 的 工 具, 才 能 让 数 据 最 终 转 化 成 价 值。 常 见 的 数 据 智 能 平 台 上 的 数 据科学能力有数据科学探索 5 、可交互的视觉化探索 6 和可扩展的数据模型架构 7 等。 6. 工 程(engineering ): 不 同 于 软 件 工 程, 数 据 工 程 是 复 杂 的 系 统, 也 是 数 据 智 能 平 台 的 产 出 能够直接影响决策的重要因素。 数据能够直接变成决策, 中间需要工程来构建环境, 实现汇聚、 仿真和自动化。 工程这个因素将数据和算法、 工具和能力有机的结合起来, 最终形成一个封装的、 内 部 自 成 体 系 的 数 据 智 能 产 品, 固 化 了 整 个 数 据 智 能 平 台 上 的 相 应 资 源 和 智 慧。 常 见 的 数 据 智 能平台的的工程能力有便捷的使用和可视化展现,以及平台能力和工作流 8 等。 有 了 以 上 六 个 能 力 因 素, 数 据 智 能 平 台 才 得 以 成 为 一 个 独 特 的 平 台, 也 成 为 企 业 想 要 快 速 构 成 数据智能产品,实现客户价值的必需平台。 2 该 工 具 能 够 让 用 户 利 用 数 据 包 模 型 和 元 数 据。 实 现 这 些 功 能 需 要 提 供 一 种 强 大 且 核 心 的 方 式 方 便 管 理 者 们 去 搜 索、 抓 取、 存 储、 复 用 和 发 布 元 数 据 对 象 , 比 如 维 度、 层 级、 度 量、 表 现 特 性 / 核心指标 (KPIs) 和报告 布局等。平台管理者们需要有能力去升级业务用户创建的数据模型,将其提升为系统级的数据模型 3 该 系 统 有 能 力 为 连 接、 融 合、 转 换 和 加 载 数 据 至 一 个 自 有 的 功 能 引 擎 以 及 有 能 力 去 索 引 数 据、 管 理 数 据 加 载以及更新计划 4 平台可 “拖拽” 不同来源的用户数据集, 可生成分析模型, 比如根据不同数据来源的用户可自定义度量、 组合、 集 合 和 层 级。 高 级 功 能 包 括 对 不 同 来 源 的 数 据 通 过 机 器 学 习 、 语 义 识 别、 智 能 联 结、 智 能 侧 写、 层 级 生 成、 数据行数和数据混合等进行分析处理 5 帮 助 用 户 在 不 通 过 查 询 和 建 模 以 及 算 法 的 情 况 下 自 动 挖 掘、 视 觉 化 和 叙 述 重 要 的 分 析 发 现, 比 如 数 据 间 的 关联、排除、集合、连接和预测等 6 使这种数据分析的探索可以借助可视化的选项, 包括但不限于基础的图表形式, 比如饼图、 柱状图、 线图等, 也 包 括 热 力 图 和 树 状 图, 地 图 和 散 点 图 以 及 其 他 特 殊 主 题 的 图 表 形 式。 这 些 工 具 能 让 用 户 通 过 百 分 比、 细 分 和组合的展示情况去分析和操作数据 7 平 台 使 内 存 中 的 引 擎 或 数 据 库 内 部 体 系 结 构 能 够 处 理 海 量 数 据、 复 杂 数 据 模 型、 性 能 优 化 和 大 量 用 户 部 署 等工作 8 对 管 理 者 来 说 可 以 便 捷 地 使 用 和 部 署 平 台、 生 成 内 容、 销 售 内 容 以 及 与 内 容 互 动, 同 时 也 具 备 可 视 化 展 现 的能力。对于单一的、无缝的产品,或者多个产品来说,需要基于怎样不同的功能去适配这种融合的需求