2019版知识图谱标准化白皮书.pdf
知识图谱标准化白皮书 I 主编单位:中国电子技术标准化研究院 二零一九年八月 知识图谱标准化白皮书 (2019版)II 中国电子技术标准化研究院 牵头编写单位: 中国电子技术标准化研究院 联合编写单位: 第一章 背景介绍 北京京航计算通讯研究所 南华大学 中电科大数据研究院有限公司 第二章 知识图谱需求 联想(北京)有限公司 成都数联铭品科技有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司 创新工场人工智能工程院 南华大学 南京柯基数据科技有限公司 中车株洲电力机车研究所有限公司 上海交通大学 第三章 知识图谱推动条件和驱动因素 中电科大数据研究院有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司 创新工场人工智能工程院 中国电子科技集团公司第二十八研究所 成都数联铭品科技有限公司 北京京航计算通讯研究所 湖北畅云时讯软件技术有限公司III 中国电子技术标准化研究院 中车株洲电力机车研究所有限公司 南华大学 上海交通大学 阿里云计算有限公司 第四章 知识图谱主要技术 南华大学 中电科大数据研究院有限公司 东软集团股份有限公司 联想(北京)有限公司 星环信息科技(上海)有限公司 成都数联铭品科技有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司 创新工场人工智能工程院 南京柯基数据科技有限公司 拓尔思信息技术股份有限公司 天津大学 上海交通大学 第五章 知识图谱应用 中电科大数据研究院有限公司 东软集团股份有限公司 联想(北京)有限公司 星环信息科技(上海)有限公司 南华大学 成都数联铭品科技有限公司 阿里巴巴网络技术有限公司 上海思贤信息技术股份有限公司IV 中国电子技术标准化研究院 创新工场人工智能工程院 南京柯基数据科技有限公司 拓尔思信息技术股份有限公司 北京京航计算通讯研究所 湖北畅云时讯软件技术有限公司 中车株洲电力机车研究所有限公司 中国电子科技集团公司第二十八研究所 京东集团 北京欧拉认知智能科技有限公司 上海交通大学 北京三快在线科技有限公司(美团点评集团) 第六章 知识图谱存在的挑战 中电科大数据研究院有限公司 东软集团股份有限公司 南京柯基数据科技有限公司 联想(北京)有限公司 星环信息科技(上海)有限公司 创新工场人工智能工程院 成都数联铭品科技有限公司 第七章 知识图谱标准化现状与需求 中电科大数据研究院有限公司 成都数联铭品科技有限公司 第八章 结论与展望 中电科大数据研究院有限公司 南京柯基数据科技有限公司V 中国电子技术标准化研究院 编写组成员 中国电子技术标准化研究院 郭韦楠韦韦韦韦莎韦韦李瑞琪韦韦李韦佳韦韦张韦欣韦韦 夏娣娜韦韦马原野韦韦何宏宏韦韦程雨航韦韦纪婷钰 中电科大数据研究院有限公司 曹韦扬韦韦程韦序韦韦王韦进韦韦张婧慧韦韦蔡惠民韦韦 邹丽华韦韦阚丹会 东软集团股份有限公司 赵耕弘韦韦汤一凡韦韦蔡韦巍韦韦崔朝辉 联想(北京)有限公司 杨韦帆韦韦范雪琴韦韦邓人菠韦韦陶宏芝 南华大学 刘永彬韦韦欧阳纯萍韦罗凌云 阳小华韦韦万亚平 星环信息科技(上海)有限公司 杨一帆韦韦宋群豪韦韦李 逸 安韦磊韦韦朱哲伟 上海思贤信息技术股份有限公司 王韦莹韦韦邱梦娟 何志亮韦韦安自珍 成都数联铭品科技有限公司 任韦渝 查 琳韦韦岳韦冰韦韦黄韦蓉 阿里巴巴网络技术有限公司 胡 宁 王韦昊韦韦戴韦健韦韦杨勇华 南京柯基数据科技有限公司 漆桂林韦韦吴韦刚韦韦王虎斌 创新工场人工智能工程院 王博宇韦韦程正涛 上海交通大学 金耀辉VI 中国电子技术标准化研究院 拓尔思信息技术股份有限公司 王亚强韦韦岳韦松 北京京航计算通讯研究所 王凤敏韦韦白韦洋韦韦顾楠希 中车株洲电力机车研究所有限公司 张慧源韦韦李韦晨韦韦熊敏君 中国电子科技集团公司第二十八研究所 张韦超韦韦周韦颖 湖北畅云时讯软件技术有限公司 袁韦野韦韦陈韦榴 京东集团 赵韦楠 阿里云计算有限公司 李龑翔 北京欧拉认知智能科技有限公司 王韦涛韦韦王绪刚 天津大学 刘安安 北京三快在线科技有限公司(美团点评集团) 万峻辰 编辑组成员 李瑞琪韦韦王韦进韦韦张韦欣VII 中国电子技术标准化研究院 第一章 背景介绍 1一、知识图谱的起源与发展 1二、知识图谱的定义 5三、白皮书范围 6四、白皮书概述 7 第二章 知识图谱需求 9一、公共安全 9二、数字经济 10三、金融科技 12四、资源优化 15五、科学研究 16六、制造业转型 18七、公众健康 19八、人文发展 21九、政府管理 23 第三章 知识图谱推动条件和驱动因素 27一、 推动条件 27二、 驱动因素 36 目 录VIII 中国电子技术标准化研究院 第四章 知识图谱的主要技术 47一、知识获取 47二、知识表示 52三、知识存储 57四、知识融合 63五、知识建模 68六、知识计算 71七、知识运维 80 第五章 知识图谱应用 87一、智慧金融 87二、智慧医疗 94三、智能制造 99四、智慧教育 104五、智慧政务 108六、智慧司法 112七、智慧交通 117八、智能电网 121九、智能公安 125十、智慧农业 130十一、社交网络 133十二、新零售 136十三、智慧外交 141IX 中国电子技术标准化研究院十四、智慧城建 143十五、其他 147 第六章 知识图谱存在的挑战 149一、数据相关的挑战 149二、算法相关的挑战 150三、基础知识库相关的挑战 154四、开发工具相关的挑战 155五、隐私、安全和伦理相关的挑战 157六、测试认证相关的挑战 160七、商业模式相关的挑战 162八、人才相关的挑战 164 第七章 知识图谱的标准化现状与需求 167一、知识图谱标准化现状 167二、知识图谱标准体系 170三、知识图谱标准化需求 175 第八章 结论与展望 179一、趋势展望 179二、支持与监管政策相关建议 180三、技术开发与应用相关建议 182X 中国电子技术标准化研究院 图目录 图1.1 知识图谱发展历史 1 图1.2 人工智能发展过程中数据关联的必要性 4 图1.3 知识图谱标准化白皮书整体结构 7 图2.1 我国数字经济发展情况 11 图2.2 金融生态的金融科技要素分布 13 图3.1 全球数据总量预测2016-2025年 29 图3.2 全球数据圈规模 33 图3.3 全球计算机视觉行业投资趋势 44 图4.1 知识图谱技术架构图 47 图4.2 知识获取示意图 48 图4.3 知识图谱的向量表示 53 图4.4 TransE模型 55 图4.5 带条件损失度量的KR-EAR方法 55 图4.6 知识存储方式 58 图4.7 属性图结构 59 图4.8 普通图与超图 60 图4.9关系数据库的使用热度趋势 61 图4.10 基于图模型数据库的使用热度趋势 62 图4.11 知识融合概念分解 64 图4.12 自顶向下的构建方法 6 8 XI 中国电子技术标准化研究院 图4.13 自底向上的构建方法 68 图4.14 手工建模方式 69 图4.15 半自动建模方式 70 图4.16 知识计算概念 72 图4.17 图信息检索示例 73 图4.18 图特征统计示例 74 图4.19 关联分析计算示例 75 图4.20 异常检测示例 76 图4.21 知识推理示例 78 图4.22 知识运维 81 图4.23 数据从消息队列导入图谱 81 图4.24 利用工作流引擎定时更新图谱 82 图4.25 知识容灾备份 84 图5.1 智慧金融全景图 87 图5.2 智慧金融知识图谱构建 88 图5.3 知识图谱在智慧金融中的应用 89 图5.4 基于知识图谱的个人信用反欺诈应用 90 图5.5 基于知识图谱的产业链分析 91 图5.6 营销流程图 92 图5.7 风控流程图 93 图5.8 基于知识图谱的医疗应用系统 94 图5.9 医疗知识图谱支撑智慧医疗应用 95 图5.10 炼油化工产业链示意图 100XII 中国电子技术标准化研究院 图5.11 炼化过程影响因子分析(局部) 100 图5.12 钢铁产业的流程图 102 图5.13 设备制造商全数据链整合示例 103 图5.14 知识图谱在智慧教育中的应用示意图 104 图5.15 基于知识图谱的学习成效分析示意图 107 图5.16 智能校园管理系统架构图 108 图5.17 基于知识图谱的智慧政务全景图 109 图5.18 基于知识图谱的政策公文智能应用 110 图5.19 医保审计知识图谱 111 图5.20 政务服务审批系统运行流程 112 图5.21 知识图谱在智慧司法中的应用 113 图5.22 司法知识图谱的构建 114 图5.23 文书生成流程 116 图5.24 智慧调节流程图 116 图5.25 智慧交通中知识图谱应用框架 117 图5.26“智慧交通系统”应用分类 118 图5.27 利用知识图谱构建人脸天网的流程图 118 图5.28 人、车识别与标签实例 119 图5.29 路径规划实例 119 图5.30 城市交通知识图谱 120 图5.31 知识图谱在智能电网中的应用分类 122 图5.32 智能客服问题系统的知识检索架构 123 图5.33 知识图谱智能搜索视图 124XIII 中国电子技术标准化研究院 图5.34 设备故障检测知识图谱示意图 125 图5.35 智能公安全景图 126 图5.36 基于公安知识图谱的应用分类图 127 图5.37 基于知识图谱产品进行犯罪分析的案例图 128 图5.38 基于知识图谱的农业信息检索 131 图5.39 农业病虫害知识问答系统架构图 132 图5.40 苹果产业实体关联结构图 133 图5.41 知识图谱在餐饮娱乐中的应用示例 135 图5.42 基于知识图谱的智能检索结果示例 136 图5.43 电商知识图谱示意图 137 图5.44 阿里巴巴电商认知图谱概览 138 表5.1 认知图谱关系举例(部分) 139 图5.45 手机淘宝搜索框下搜索词提示 139 图5.46 手机淘宝首页猜你喜欢主题卡片推荐 140 图5.47 国家间关系分析的一般流程 141 图5.48 Palantir系统锁定嫌疑人分析功能界面 142 图5.49 智慧城建结构概念图 144 图5.50 人工承载力知识图谱示意图 145 图5.51 城市市政公用设施知识图谱 146 图6.1 美国伦斯勒理工学院知识图谱测评系统架构图 160 图7.1 知识表示关键技术标准 168 图7.2 知识图谱标准体系结构图 171 图7.3 知识图谱标准体系框架 173XIV 中国电子技术标准化研究院1 中国电子技术标准化研究院 第一章 背景介绍 一、知识图谱的起源与发展 (一)知识图谱的发展历史 知识图谱始于20世纪50年代,至今大致分为三个发展阶段:第一阶段 (1955年1977年)是知识图谱的起源阶段,在这一阶段中引文网络分析 开始成为一种研究当代科学发展脉络的常用方法;第二阶段(1977年-2012 年)是知识图谱的发展阶段,语义网得到快速发展,“知识本体”的研究 开始成为计算机科学的一个重要领域,知识图谱吸收了语义网、本体在知 识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之 间交换、流通和加工;第三阶段(2012年至今)是知识图谱繁荣阶段, 2012年谷歌提出Google Knowledge Graph,知识图谱正式得名,谷歌通过知 识图谱技术改善了搜索引擎性能。在人工智能的蓬勃发展下,知识图谱涉 及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解 决和突破,知识图谱成为知识服务领域的一个新热点,受到国内外学者和 工业界广泛关注。知识图谱具体的发展历程如图 1.1 所示。 2.2.1 人员图1.1 知识图谱发展历史知识图谱标准化白皮书 2 中国电子技术标准化研究院 起源阶段(1955年1977年):1955年,加菲尔德提出了将引文 索引应用于检索文献的思想。1965年,普赖斯在Networks of Scientific Papers一文中指出,引证网络-科学文献之间的引证关系,类似于当代 科学发展的“地形图”,从此分析引文网络开始成为一种研究当代科学 发展脉络的常用方法,进而形成了知识图谱的概念。奎林(J. R. Quillian)于 1968年提出语义网络,最初作为人类联想记忆的一个明显公理模型提出, 随后在AI中用于自然语言理解,表示命题信息,语义网络是一种以网络格 式表达人类知识构造的形式,是人工智能程序运用的表示方式之一。 发展阶段(1977年-2012年):1977年,在第五届国际人工智能会议 上,美国计算机科学家B.A. Feigenbaum首次提出知识工程的概念,知识 工程是通过存储现存的知识来实现对用户的提问进行求解的系统,其中最 典型和成功的知识工程的应用是基于规则的专家系统,此后,以专家系 统为代表的知识库系统开始被广泛研究和应用。1991年,美国计算机专 家尼彻斯(R. Niches)等人在完成美国国防部高级研究计划局(Defense Advanced Research Projects Agency, 简称DARPA)关于知识共享的科研项 目中,提出了一种构建智能系统的新思想,该智能系统由两个部分组成, 一个部分是“知识本体”(ontologies),另一部分是“问题求解方法” (Problem Solving Methods,简称PSMs),知识本体是知识库的核心,涉 及特定领域共有的知识结构,是静态的知识;后者(PSMs)涉及在相应 领域的推理知识,是动态的知识,PSMs使用知识本体中的静态知识进行 动态推理。自1998年万维网之父Tim Berners-Lee提出语义网,同时随着链 接开放数据(Linked Open Data)的规模激增,互联网上散落了越来越多的知 识元数据。2002年,机构知识库的概念被提出,知识表示和知识组织开始 被深入研究,并广泛应用到各机构单位的资料整理工作中。 繁荣阶段(2012年至今):21世纪,随着互联网的蓬勃发展,信 息量呈爆炸式增长以及搜索引擎的出现,人们开始渴望更加快速、准确地知识图谱标准化白皮书 3 中国电子技术标准化研究院 获取所需的信息。知识图谱强调语义检索能力, 关键技术包括从互联网的 网页中抽取实体、属性及关系,旨在解决自动问答、个性化推荐和智能信 息检索等方面的问题。目前,知识图谱技术正逐渐改变现有的信息检索 方式,如谷歌、百度等主流搜索引擎都在采用知识图谱技术提供信息检 索,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而 言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从 而使人们从人工过滤网页寻找答案的模式中解脱出来。 (二)知识图谱的重要性 哲学家柏拉图把知识定义为“Justified True Belief”,即知识需要 满足三个核心要素:合理性(Justified)、真实性(True)、被相信 (Believed)。简单而言,知识是人类通过观察、学习和思考有关客观世 界的各种现象而获得和总结出的所有事实(Facts)、概念(Concepts)、 规则或原则(Rules & Principles)的集合。人类发明了各种手段来描述、 表示和传承知识,如自然语言、绘画、音乐、数学语言、物理模型、化学 公式等,可见对于客观世界规律的知识化描述对于人类社会发展的重要 性。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的 重要特征,知识图谱已成为推动机器基于人类知识获取认知能力的重要途 径,并将逐渐成为未来智能社会的重要生产资料。 1、知识图谱是人工智能的重要基石 人工智能分为两个层次:感知层与认知层。首先感知层,即计算机的 视觉、听觉、触觉等感知能力,目前人类在语音识别、图像识别等感知领 域已取得重要突破,机器在感知智能方面已越来越接近于人类;第二个层 次是认知层,是指机器能够理解世界和具有思考的能力。认知世界是通过 大量的知识积累实现的,要使机器具有认知能力,就需要建立一个丰富完 善的知识库,因此从这个角度说,知识图谱是人工智能的一个重要分支,知识图谱标准化白皮书 4 中国电子技术标准化研究院 也是机器具有认知能力的基石,在人工智能领域具有非常重要的地位。 2、知识图谱推动智能应用 知识图谱将人与知识智能地连接起来,能够对各类应用进行智能化升 级,为用户带来更智能的应用体验。知识图谱是一个宏大的数据模型,可 以构建庞大的“知识”网络,包含客观世界存在的大量实体、属性以及关 系,为人们提供一种快速便捷进行知识检索与推理的方式。近些年蓬勃发 展的人工智能本质上是一次知识革命,其核心在于通过数据观察与感知世 界,实现分类预测、自动化等智能化服务。知识图谱作为人类知识描述的 重要载体,推动着信息检索、智能问答等众多智能应用。 3、知识图谱是强人工智能发展的核心驱动力之一 尽管人工智能依靠机器学习和深度学习取得了快速进展,但严重依赖 于人类的监督以及大量的标注数据,属于弱人工智能智能范畴,离强人工 智能仍然具有较大差距,而强人工智能的实现需要机器掌握大量的常识性 知识,同时以人的思维模式和知识结构来进行语言理解、视觉场景解析和 决策分析。如图1.2所示,知识图谱技术将信息中的知识或者数据加以关 联,实现人类知识的描述及推理计算,并最终实现像人类一样对事物进行 理解与解释。知识图谱技术是由弱人工智能发展到强人工智能过程中的必 然趋势,对于实现强人工智能有着重要的意义。 图1.2 人工智能发展过程中数据关联的必要性 1 1 Gapingvoid Culture Design Group gapingvoid /知识图谱标准化白皮书 5 中国电子技术标准化研究院 (三)知识图谱与Ontology、语义网络之间的区别 知识图谱与Ontology、语义网络等概念之间具有密切的相互联系。语 义网络(Semantic Networks)是由Quillian于上世纪60年代提出的知识表 达模式,主要用于自然语言理解领域,其用相互连接的节点和边来表示知 识,节点表示对象、概念,边表示节点之间的关系。语义网络具有容易理 解和展示、相关概念容易聚类的优点,同时也有以下几个方面的缺点:一 是节点和边的值没有标准,完全由用户自己定义;二是多元数据融合比较 困难,没有标准;三是无法区分概念节点和对象节点;四是无法对节点和 边的标签进行定义。语义网络虽然可以让我们比较容易理解语义间的关 系,但由于缺少标准,比较难以应用于实践。 1980年,本体论(Ontology)哲学概念“本体”被引入到人工智能领 域用来刻画知识。本体是共享概念模型的明确的形式化规范说明,该定义 体现了本体的四层含义:概念模型、明确、形式化、共享。本体是实体存 在形式的描述,往往表述为一组概念定义和概念之间的层级关系,本体框 架形成树状结构,通常被用来为知识图谱定义Schema。 二、知识图谱的定义 知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概 念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式, 提供了一种更好地组织、管理和理解互联网海量信息的能力 1 。知识图谱 给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已 经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度 学习一起,成为推动互联网和人工智能发展的核心驱动力之一 2 。 图1.2 人工智能发展过程中数据关联的必要性 1 1 中国中文信息学会语言与知识计算专委会,知识图谱发展报告(2018). 2 中国中文信息学会语言与知识计算专委会,知识图谱发展报告(2018).知识图谱标准化白皮书 6 中国电子技术标准化研究院 知识图谱不是一种新的知识表示方法,而是知识表示在工业界的大 规模知识应用,它将互联网上可以识别的客观对象进行关联,以形成客观 世界实体和实体关系的知识库,其本质上是一种语义网络,其中的节点代 表实体(entity)或者概念(concept),边代表实体/ 概念之间的各种语义关系。 知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用 的技术(体系)架构。知识图谱的逻辑结构可分为模式层与数据层,模式 层在数据层之上,是知识图谱的核心,模式层存储的是经过提炼的知识, 通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约 束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的 联系。数据层主要是由一系列的事实组成,而知识将以事实为单位进行存 储。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。 如果以“实体关系实体”或者“实体属性性值”三元组作为事实 的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系 网络,形成“知识图谱”。 三、白皮书范围 根据当前知识图谱技术发展情况及在多个领域的成功实践,本白皮 书从哲学层面、政策层面、产业层面、行业层面、技术层面、工具层面、 支撑技术等多个层面对知识图谱的实际需求、关键技术、面临的问题与挑 战、标准化需求、展望与建议等进行了梳理,以期对未来知识图谱在更多 行业的推广应用及标准研制提供支撑,白皮书整体结构如图1.3所示。知识图谱标准化白皮书 7 中国电子技术标准化研究院 图1.3 知识图谱标准化白皮书整体结构 四、白皮书概述 本白皮书通过梳理知识图谱技术、应用和产业演进情况,分析知识图 谱的技术热点、行业动态和未来趋势,从支撑知识图谱产业整体发展的角 度出发,研究制定了能够适应和引导知识图谱产业发展的标准体系,进而 提出近期急需研制的基础和关键标准项目。 本白皮书力求以较为浅显易懂的语言和方式进行阐述,针对目前知识 图谱涵盖的技术热点、应用领域及产业情况进行分析,研究提出知识图谱 标准体系。知识图谱标准化工作尚处于起步阶段,本白皮书只作为知识图 谱领域技术、产业和标准化之间初始的连接纽带,并将不断根据技术、产知识图谱标准化白皮书 8 中国电子技术标准化研究院 业和标准化的发展需求进行修订。 本白皮书的意义在于与业界分享知识图谱领域的研究成果和实践经 验,呼吁社会各界共同加强知识图谱领域的技术研究、产业投入、标准建 设与服务应用, 共同推动人工智能及其产业发展。此外,知识图谱作为 人工智能产业中较为前沿的技术,受到越来越多的关注,这也说明了知识 图谱技术在一定层面上可以解决一些当前技术无法解决的问题。对于技术 厂商及第三方服务机构,有待着力推动知识图谱技术研究与应用市场健康 发展,避免其成为技术噱头;对于需求方,有待不断加深对知识图谱在构 建和持续维护时存在困难与挑战的理解。各方在构建知识图谱相关应用时 能够各担其责,客观面对存在的技术难点与问题,构建出真正对实际业务 场景有意义的知识图谱及相关产品。 由于时间仓促,难免有疏漏,甚至错误的地方,仅供有志于知识图谱 研究和开发及标准研制的同仁参考,激发更广泛的思考和讨论,期待共同 努力推动知识图谱及其标准化的发展。 知识图谱标准化白皮书 9 中国电子技术标准化研究院 第二章 知识图谱需求 一、公共安全 公共安全领域信息化以现代通信、网络、数据库技术为基础,将所 研究对象各要素汇总至数据库,并针对各个业务领域进行定制化开发, 以满足公共安全实战需求。近年来我国公安信息化建设不断加强,发展 至今,形成了涵盖1300余项标准的公安信息化标准体系,组织建设了9 个 国家工程实验室和27个公安部重点实验室,依托一站式工作平台“警综 平台”,有效降低了基层民警工作量。虽然我国公安信息化发展较快, 但受传统观念、资金投入、工作机制等影响,公安信息化建设仍有较大 发展空间,而且由于公共安全相关信息中实体关系重要性较高,对知识 图谱的需求凸显。 1 违法犯罪活动呈现复杂化、动态化、智能化的特征 公安机关为提升整体效能,在打击违法犯罪活动中占据信息主导权, 能够充分利用现代信息技术和信息资源,对现有的警务组织、机制、模 式、装备等警务实践进行信息化改造。当前社会组成要素的人流、物流、 信息流激增,在社会生产力日益提升的背景下逐步使犯罪活动呈现出复杂 化、动态化、智能化的特征,针对这些特征,公安机关能够基于已有的结 构化及非结构化数据,通过知识图谱技术从少量已知信息中获取和挖掘出 图谱的潜在网络拓扑信息及行为信息,并构建一系列基于知识图谱的应用 工具提升公安面对犯罪类型多变等挑战的能力,有效应对新型犯罪活动及 多类型、多渠道的犯罪模式。 2 公安信息庞大而且实体关系复杂 公安数据信息规模庞大且实体关系复杂。以人为例,身份证号、籍知识图谱标准化白皮书 10 中国电子技术标准化研究院 贯、姓名、指纹、出行记录、住宿记录等都属于公安范畴的数据信息,以 及嫌疑人在案件中的各种信息、涉及物品信息、涉及案发地、案发时间等 信息也属于公安数据,这些数量巨大的公安信息能够通过知识图谱海量的 概念实体、丰富的属性信息、多样化的关联关系进行直观准确的描述,同 时能够从时间序列维度、类别维度对图谱知识进行统计分析,能够根据公 安业务需求实现定制化的智能应用,为公共安全部门提供准确、高效的技 术工具和辅助决策支撑。 3 海量数据快速检索与理解需求难以满足 随着公共安全数据规模、案件关系复杂程度的增加,传统数据检索功 能已经无法满足当前的公安业务需求,同时海量公安数据难以实现语义化 理解和知识化转化。知识图谱技术为公安大数据环境下的人员分析方法提 供了一种有效技术手段,知识图谱通过从海量公安数据中获取与融合丰富 的语义知识,形成庞大、相互关联的公安知识网络,实现潜在隐藏信息的 自动挖掘与推理,满足海量公安数据的语义理解与快速准确检索。 二、数字经济 数字经济是指以使用数字化的知识和信息作为关键生产要素、以现代 信息网络作为重要载体、以信息通信技术的有效使用作为重要推动力的一 系列经济活动。数字经济是继农业经济、工业经济之后的一种新的经济社 会发展形态,更容易实现规模经济和范围经济,日益成为全球经济发展的 新动能。数字经济占我国经济发展规模的比重接近三分之一,对经济增长 具有显著拉动效应。数字经济不仅是我国经济增长的主要动力源泉和转型 升级的重要驱动力,同时也是全球新一轮产业竞争的制高点。我国数字经 济发展情况如图2.1所示。知识图谱标准化白皮书 11 中国电子技术标准化研究院 图2.1 我国数字经济发展情况 数字经济可被认作为一个经济系统,在这个系统中,数字技术被用 户广泛使用,使得整个经济环境和经济活动都发生了根本变化。同时数字 经济也是一个全新的社会政治与经济系统,其中所有的信息和商务活动是 以数字化的方式进行,企业、消费者和政府之间进行的网络交易量迅速增 长。当前信息流蓬勃增长的浪潮中,我国发展数字经济具有良好机遇的同 时,也面临着诸多挑战,知识图谱可以为数字经济背景下所面临的一些具 体问题提供有效的解决方案。 1 数字经济的发展离不开大规模有效数据的关联 在数字经济时代,数据是最重要的生产要素,大数据时代的数据资 源虽然规模庞大,但在数据的关联使用上仍有不足。在知识驱动的数字经 济中,需掌握数据的“萃取”技术,方能“提炼”知识。未来的数据资源 会越来越开放,知识谱图绘制和深度学习的能力极有可能超越数据本身, 并成为核心竞争力。大数据之“大”并非只强调上数据量之大,也指数据 的汇聚、关联和使用之宽广。数据本身需要通过理解,分析才能够有效利 用,从而服务于人类,而构建知识图谱即是把数据提炼为有效知识的重要 途径之一。知识图谱标准化白皮书 12 中国电子技术标准化研究院 2、将“数据中心”向“知识中心”过渡是数字经济升级发展的重 要需求 在互联网背景下,知识图谱技术推动数字经济向数据知识化方向升 级发展。互联网与数字经济一同在不断地蓬勃发展,深刻且全面地改变了 世界和人类本身。从“流量变现”到“数据变现”使互联网发展的转变为 以技术和数据为核心,而数字经济知识化的发展需求将推动知识图谱作为 数据知识化的重要工具深入发展,数字经济中的数据知识化汇集领域知识 库、专家系统、机器学习等核心技术动能,将大大提升生产效率和自动化 水平,因此将“数据中心”向“知识中心”过渡是数字经济升级发展的重 要需求。 3 知识图谱成为推动数字经济创新场景下智能应用的重要力量 随着数字经济与大数据的不断发展,传统经济模式和应用场景持续变 革,以新零售场景为例,由于顾客需求的变迁,新型零售方式不断出现, 线上线下渠道融合趋势日益明显,零售渠道从单一结构演变为多渠道与全 渠道结构,在这样的应用背景下,数据的搜集与挖掘便是一个很大的难 题,需要把线下和线上的数据汇总起来,形成以商品为中心的知识图谱, 把不同类型的数据,按照既定模型组合在一起,最终形成商品与商品之 间、商品与门店之间、商品与消费者之间的关系网络,最终实现新零售场 景下的智能化推荐和资源优化配置,因此知识图谱技术将成为推动数字经 济创新场景下智能应用的重要力量。 三、金融科技 全球范围内伴随着云计算、大数据、人工智能等新兴技术的落地,互 联网的数据量每两年翻一番,基于数据的生产变革和业务模式创新正驱动 着全球范围内经济社会各个领域的数字化与智能化转型,实现了数字经济 在数字化程度高的行业中赋能,加快了其数字化转型进程。金融行业首当知识图谱标准化白皮书 13 中国电子技术标准化研究院 其冲,成为人工智能最先应用的行业之一。金融生态的数字化、智能化转 型过程中,业务应用场景化、数据垄断化特征成为金融科技不断优化金融 生态环境的必要条件。如图2.2所示,金融科技作为更为开放的信息技术 知识领域渗透金融行业的技术载体,深刻地影响着金融的业务场景、机构 与金融监管构成的金融生态系统。 图2.2 金融生态的金融科技要素分布 知识图谱在金融科技领域是语义理解和知识搜索基础,可以为金融行 业的风险评估、预测、反欺诈、精准营销、智能搜索等提供技术支撑。越 来越多的金融机构及企业在