2018知识图谱发展报告.pdf
I 前言 1. 知识图谱的研究目标 与意义 知识图谱( Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等方向的交叉研究。知识图谱于 2012 年由谷歌提出并成功应用于搜索引擎,知识图谱属于人工智能重要研究领域 知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手锏应用。 94 年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义 将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义 /知识,使数据产生智慧( smart data),完成从数据到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。 知识图谱在下面应用中已经凸显出越来越重要的应用价值: - 知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集成服务; - 语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是互联网网页; - 问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案; - 大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。 II 2. 知识工程 的发展历程 知识图谱的发展是人工智能重要分支知识工程在大数据环境中的成功应用。回顾知识工程四十年来发展历程,总结知识工程的演进过程和技术进展,体会知识工程为人工智能所做出的贡献和未来面临的挑战,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网 1.0 时期,群体智能时期以及知识图谱时期。 图 1. 知识工程发展历程 1950-1970 时期:图灵测试 人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件, 连结 主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序( GPS) :将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和知识工程的先驱 Minsky, Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了 1969 年 、 1971年 、 1975 年的图灵奖。 1970-1990 时期:专家系统 通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能 的支持,使人工智能难以在实际应用中发挥作用。 70 年开始, 人工智能开始转向建立基于知识的系统,通过知识库 +推理 机实现智能,这一时期涌现出很多成功的限定领域专家系统,如 MYCIN 医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断 XCON 专家系统等。 94 年图灵奖获得者Feigenbaum 教授在 70 年代提出知识工程的定义,确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,包括框架和脚本等。 80 年代后III 期出现很多专家系统的开发平台,可以 帮助将专家的领域知识转变成计算机可以处理的知 识。 1990-2000 时期:万维网 Web 1.0 在 1990 年代到 2000 年,出现了很多人工构建大规模知识库,包括广泛应用的英文 WordNet, 采用一阶谓词逻辑知识表示的 Cyc 常识知识库,以及中文的Hownet。 Web1.0 万维网的产生为 人们提供了一个开放平台,使用 HTML定义文本的内容, 通过超链接把文本连接起来,使得大众可以共享信息。 W3C 提出的可扩展标记语言 XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期还提出了本体的知识表示方法。 2000-2006 时期:群体智能 Web 2.0 Web1.0 万维网的出现使得知识从封闭知识走向开放知识,从集中知识成为分布知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。也是在 2001 年, 万维网发明人、 2016 年图灵奖获得者 Tim Berners-Lee 提出语义 Web的概念,旨在对互联网内容进行结构化语义表示,并提出互联网上语义标识语言RDF(资源描述框架) 和 OWL(万维网本体表述语言),利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。 2006 年至今:知识图谱 “知识就是力量 ” ,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从 2006 年 开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与 Cyc、 WordNet 和 HowNet 等手工 研制的 知识库和本体的开创性项目不同, 这一时期 知识 获取 是自动化的,并且在网络规模下运行。 当前 自动构建的知识库已成为 语义 搜索 、大数据分析、智能推荐 和数据集成的强大资产,在大型行业 和领域中正在 得到广泛使用。 典型的例子是谷歌收购 Freebase 后 在2012 年 推出的 知识图谱 ( Knowledge Graph), Facebook 的图谱搜索, Microsoft Satori 以及商业 、 金融 、 生命科学等领域特定的知识库。 最具代表性大规模网络知识获取的工作包括 DBpedia, Freebase, KnowItAll,WikiTaxonomy和 YAGO,以及 BabelNet, ConceptNet, DeepDive, NELL, Probase,Wikidata, XLore, Zhishi.me 等 。这些 知识图谱遵循 RDF数据模型 , 包含数以 千IV 万级或者亿级规模 的实体 ,以及 数十 亿或百 亿事实(即属性值和与其他实体的关系) ,并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中 。 现在我们看知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。 3. 知识图谱技术 人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将人们对世界认知联系在一起的纽带。知识图谱 以结构化的形式描述客观世界中概念、实体及其关系 。实体是客观世界中的事物,概念是对具有相同属性的事物的概括和抽象。本体是知识 图谱的知识表示基础,可以形式化表示为, O=C, H,P, A, I, C 为概念集合,如事物性概念和事件类概念, H 是概念的上下位关系集合,也称为 Taxonomy 知识, P 是属性集合,描述概念所具有的特征, A 是规则集合,描述领域规则, I是实例集合,用来描述实例 -属性 -值。 Google 于 2012年提出知识图谱,并在语义搜索中取得成功应用。知识图谱可以看做是本体知识表示的一个大规模应用, Google 知识图谱的知识表示结构主要描述客观存在实体和实体的关系,对于每个概念都有确定的描述这个概念的属性集合。 知识图谱技术是知识 图谱建立和应用的技术,是语义 Web、自然语言处理和机器学习等的交叉学科。我们将知识图谱技术分为三个部分 : 知识图谱构建技术、知识图谱查询和推理技术,以及知识图谱应用。在大数据环境下,从互联网开放环境的大数据中获得知识,用这些知识提供智能服务互联网 /行业 ,同时通过互联网可以获得更多的知识 。 这是一个 迭代的相互增强过程, 可以 实现从互联网信息服务到智能知识服务的跃迁。 3.1 知识图谱构建 知识表示与建模 知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。 知识图谱 的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。 知识表示学习 随着以深度学习为代表的表示学习的发展 ,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量 ,V 实现 了对 实体 和关系 的 分布式表示, 可以高效地 对实体和关系进行计算 ,、缓解知识稀疏、有助于实现知识融合,已经成为知识图谱语义链接预测和知识补全的重要方法。 由于 知识 表示学习能够显著提升计算效率 , 有效缓解数据 稀疏 ,实现异质信息融合, 因此 对于 知识库 的 构建、 推理和应用具有重要意义, 值得广受 关注 、深入研究。 实体识别与链接 实体是客观世界的事物,是构成知识图谱的基本单位(这里实体指个体或者实例)。实体分为限定类别的实体(如常用的人名、地名、组织机构等)以及开放类别实体(如药物名称、疾病等名称)。实体识别是识别文本中指定类别的实体。实体链接是识别出文本中提及实体的 词或者短语(称为实体提及),并与知识库中对应实体进行链接。 实体识别与链接是知识图谱构建、知识补全与知识应用的核心技术。实体识别技术可以检测文本中的新实体,并将其加入到现有知识库中。实体链接技术通过发现现有实体在文本中的不同出现,可以针对性的发现关于特定实体的新知识。实体识别与链接的研究将为计算机类人推理和自然语言理解提供知识基础。 实体关系学习 实体关系描述客观存在的事物之间的关联关系,定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。 实体关系抽取分类预定义关系抽取和开放关系抽取。预定义关系抽取是指系统所抽取的关系是预先定义好的,比如知识图谱中定义好的关系类别,如上下位关系、国家 首都关系等。开放式关系抽取。开放式关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。实体关系识别是知识图谱自动构建和自然语言理解的基础。 事件知识学习 事件是促使事物状态和关系改变的条件,是动态的、结构化的知识。目前已存在的知识资源(如谷歌知识图谱)所描述多是实体以及实体之间的关系,缺乏对事件知识的描述。针对不同领域的不同应用,事件有不同的描述 范畴。一种将事件定义为发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。一种将事件认为是细化了的主题,是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。事件知识学习,即将非结构化文本文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用意义重大。 知识图谱中的 事件 知识隐含互联网资源中,包括已有的结构化的语义知识、VI 数据库的结构化信息、半结构化的信息资源以及非结构化资源,不同性质的资源有不同的知识获取方法。 3.2 知识图谱查询和推理计算 知识存储和查询 知识图谱以图( Graph)的方式来展现实体、事件及其之间的关系。知识图谱存储和查询研究如何设计有效的存储模式支持对大规模图数据的有效管理,实现对知识图谱中知识高效查询。因为知识图谱的结构是复杂的图结构,给知识图谱的存储和查询带来了挑战。当前目前知识图谱多以三元存在的 RDF 形式进行存储管理,对知识图谱的查询支持 SPARQL查询。 知识推理 知识推理从给定的知识图谱推导出 新的实体跟实体之间的关系。知识 图谱 推理可以分为基于符号的推理和基于统计的推理。在人工智能的研究中,基于符号的推理一般是基于经典逻辑 (一阶谓词逻辑或者命题逻辑 )或者经典逻辑的变异(比如说缺省逻辑 )。基于符号的推理可以从一个已有的知识图谱推理出新的实体间关系 ,可用于建立新知识或者 对知识图谱进行逻辑的冲突检测。基于统计的方法一般指关系机器学习方法, 即 通过统计规律从知识图谱中学习到新的实体间关系 。知识推理在知识计算中具有重要作用,如知识分类、知识校验、知识链接预测与知识补全等。 3.3 知识图谱应用 通用和领域 知识图谱 知识图谱分为通用知识图谱与领域知识图谱两类,两类图谱本质相同,其区别主要体现在覆盖范围与使用方式上。通用知识图谱可以形象地看成一个面向通用领域的结构化的百科知识库,其中包含了大量的现实世界中的常识性知识,覆盖面广。领域知识图谱又叫行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个基于语义技术的行业知识库,因其基于行业数据构建,有着严格而丰富的数据模式,所以对该领域知识的深度、知识准确性有着更高的要求。 语义集成 语义集成的目标就是将不同知识图谱融合为一个统一、一致、简洁的形式 ,为使用不 同知识图谱的应用程序间的交互提供语义互操作性。常用技术方法包括本体匹配 (也称为本体 映射 )、实例匹配 (也称为实体对齐、对象共指消解 )以及知识融合等。语义集成是知识图谱研究中的一个核心问题,对于链接数据和知识融合至关重要。语义集成研究对于提升基于知识图谱的信息服务水平和智能化程度,VII 推动语义网以及人工智能、数据库、自然语言处理等相关领域的研究发展,具有重要的理论价值和广泛的应用前景 ,可以创造巨大的社会和经济效益。 语义搜索 知识图谱 是对客观世界认识的形式化表示,将字符串映射为客观事件的事务(实体、事件以及之间的关系)。当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。语义搜索利用知识图谱可以准确地捕捉用户搜索意图,借助于知识图谱, 直接给出 满足用户搜索意图的 答案,而不是 包含关键词的 相关 网页 的链接 。 基于知识的问答 问答系统 (Question Answering, QA)是指让计算机自动回答用户所提出的问题 , 是信息服务的一种高级形式。不同于现有的搜索引擎 ,问答系统返回用户的不再是基于关键词匹配的相关文档排序 ,而是精准的自然语言形式的答案。华盛顿大学图灵中心主任 Etzioni 教授 2011 年曾在 Nature 上发表文章 Search Needs a Shake-Up ,其中明确指出 : “ 以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态 ” Etzioni O., 2011。因此 ,问答系统被看做是未来信息服务的颠覆性技术之一 , 被认为是机器具备语言理解能力的主要验证手段之一。 4. 报告的宗旨和组织结构 中国中文信息学会语言与知识计算专委会旨在为学术界和工业界提供在 知识图谱 、 语义 计算 和语言理解 等方面的产学研用的交流平台, 提升语言与知识计算学术方向在国家 科学研究 和国际学术方面的影响力 ,促进 研究成果应用和向产品的转化 。 知识图谱发展报告 是 语言与知识计算专委会邀请知识图谱技术领域 专家对本学科方向和前沿技术的一次梳理 ,并在今后定期更新最新进展。 我们的定位是深度科普 ,旨在向政府、企业、媒体等对 知识图谱 感兴趣的 研究机构和企业界 介绍相关领域的基本概念 、研究和 应用方向 ,向高校、科研院所和高技术企业中从事相关工作的专业人 士介绍相关领域的前沿技术和发展趋势。 为此根据知识图谱技术研究内容, 我们邀请各个方向的 学者 撰写了各个方向的报告 : 前言 : 李涓子 (清华大学)、 赵军 ( 中国科学院自动化研究所 ) 知识表示与建模 :陈华钧(浙江大学) 知识表示学习 : 刘知远 、林衍凯(清华大学) 实体识别与链接 : 韩先培 、孙乐 (中国科学院软件研究所) VIII 实体关系学习 : 陈玉博 (中国科学院自动化研究所) 事件知识学习 : 侯磊 、 许斌 (清华大学)、胡琳梅(北京邮电大学) 知识存储和查询 : 邹磊 (北京大学)、 彭鹏 ( 湖南 大学 ) 知识推理 : 漆桂林 (东南大学) 、王泉 (中国科学院 信息工程 研究所) 、季秋 (南京邮电大学) 通用 与 领域知识图谱 : 王昊奋 (上海乐言科技)、 丁军 (上海海乂知信息科技有限公司) ,张伟 ( 阿里巴巴 网络技术有限公司 ) 语义集成 : 胡伟 (南京大学) 语义搜索 : 秦兵 、 刘铭 (哈尔滨工业大学) 基于知识的问答 : 刘康、何世柱 (中国科学院自动化研究所) 最后由 韩先培 ( 中国科学院软件研究所 ) 、刘康(中国科学院自动化研究所) 、侯磊(清华大学) 等对初稿反馈意见 , 校对统一成文。 由于时间仓促 , 难免有疏漏 , 甚至错误的地方 , 仅供有志于 语言与知识计算研究和知识图谱研究和开发 的同仁参考 , 激发 更广泛的思考和讨论 , 期待在我们的共同努力下 知识图谱以及语义计算技术能够取得更辉煌的成绩 ! 中国中文信息学会 语言与知识计算专委会 2018 年 8 月 目录 第一章 知识表示与建模 . 1 第二章 知识表示学习 . 12 第三章 实体识别与链接 . 21 第四章 实体关系学习 . 29 第五章 事件知识学习 . 45 第六章 知识存储与查询 . 65 第七章 知识推理 . 83 第八章 通用和领域知识图谱 . 98 第九章 语义集成 . 124 第十章 语义搜索 . 134 第十一章 基于知识 的问答 . 145