知识图谱:打破人工智能的认知天花板.pdf
知识图谱: 打破人工智能的认知天花板 #r IW8(p ,/W7RoGc?ZIKi)Ql915Ex1g%aao!#Lr HfSeaM ,/W7Ro$(l0*yRoExU 1Qu%aUcM0F(cCXF(%C078j,QIR4IKg 10 关系抽取与实体抽取密切相关,旨在识别出实体的基础上,抽取两个或多个实体之间的语义关 系,其具体方法包括基于模板的关系抽取方法、基于监督学习的关系抽取方法和基于弱监督学 习的关系抽取方法。基于模板的关系抽取构造简单,适用于小规模数据集,模板需要由专家进 行构建、可移植性差。基于监督学习的关系抽取将关系抽取转化为分类问题,即模型的训练需 要依赖特征工程,建立在预定义关系类型、人工数据标注、选择分类模型 的基础上。 , 方法、 抽取方法 基于 学习的关系抽取方法 相 出, 需要由 人工构建 特征。基于弱监督学习的关系抽取 人工标注数据的依赖, 模型 适 , 需要依赖训练数据,其要方法包括程监督学习和 Bootstrapping 方 法。 抽取currency1“构化的方,fifl 的间、fl 、与 ,可分为 Pipeline 方法和 训练方法。 方法” 监督的抽取方法,将 抽取转化为多 的分类问题,将分 为”系基于分类的,包括识别、 抽取、性分类和可性别 , 个由”个学习分类 实, 的 差 问题。 训练方法将抽取问题转 为“构预 问题, 用 集 方法进行 , 方法的 差 问题。 面向结构化数据的知识抽取 “构化数据可用 “构 实的数据,可化 在数据 , 的识 于 系的关系数据 。, DM Direct Mapping , 和 R2RML 语 用于定义关系型数据 的数据fi 转 为 RDF 数据的 规则,包 括 URI 的 成, RDF 类和性的定义、数据间关 关系的 。 DM 定义 ”个从关系数据 到 RDF 图数据的简单关系,将关系数据 “构和数据 转 为 RDF 图,即 成的RDF图 反 数据 的“构,为定义和比较更复杂的关系奠定 基 础。 R2RML 语 则实 用户可在关系数据 上灵活定制视图,” 用于 示从关系数据 到 RDF 数据集的自定义 语 , R2RML 通过 Logic Tables 从数据 检 数 据, 突破 关系型数据 的物理“构限制,实 在不改变数据 “构的情况下灵 活按需 成 RDF 数据。 面向半结构化数据的知识抽取 半“构化数据” 特殊的“构化数据,指类似于百科、商品 本身在”定“构, 需要进” 取整理的数据。自万 网出 ,百科类数据、网页数据为代 的半“构 化数据开始极丰富,成为识获取的 要 。 百科类数据典型的半“构化数据,识抽取的关键问题在于fi 从百科类数据 精确的抽取 11 结构化语义信息。因词条中的信息具有较高的准确度,维基百科已成为大规模知识图谱的重要 来源,如 DBpedia 、 Yago 等知识图谱均基于维基百科构建。 网页因具有一定的结构也被视为典型的半结构化数据,其结构化信息的获取一般通过包装器实 现,包装器是一个能够从 HTML 网页中抽取数据,并将其还原为结构化数据的软件程序,主要 的包装器生成方法包括手工方法、包装器归纳方法和自动抽取方法。其中,包装器归纳方法基 于有监 的 器 ,从已 的 中自动 数据抽取规 , 据规 从其 网页模 抽取 数据, 于 规模网 的信息自动抽取, 要 大 数据 。自动抽取方法 工 数据 , 于大规模网 的数据抽取, 要 的网页为 ,currency1抽取“准度 能于fi。 本体映射 fl 和fl 成是fl 构的主要方法,的” 的是 fl 构, 知识融合是解决知识图谱异构问题的有效路径,知识图谱之间通过映射和匹配建立联系,进而 实现异构知识图谱间的相互沟通和互操作。因此,知识融合的关键问题在于映射和匹配的生 成,其中,知识图谱本体层的映射生成更是重中之重。在完成本体层映射的基础上,实例层的 匹配是实现知识融合的另一个主要任务,通常由分类、规则、聚类等方法通过大规模图谱的分 块来实现。现阶段,数据规模的激增以及对数据质量的 要 成 主要 。 4.知识融合 实现 构fl 的。fl fl 的, fl 建规 ,并 通过规 实现信息的 ,其较为 , 动 , 大数 的fl 。fl 成 将个fl 并为一个 一的fl , 个 构 一的fl 中 成。 ,一方,fl 成 自动化方法 , 成过程fl 的化 重 , 大 一方,fl 成 于 的 通 和 ,因 并 于语义 Web 中 和动 的fl 。 (p8 7-v%8 h83G-E7+0%G-_g0F,QIR4IKg 度 的实例匹配方法、基于规 的实例匹配方法、基于分 的实例匹配方法、分 匹配等方法。 (p- $bGZ7+G78j,QIR4IKg 面向知识图谱的推理指基于图谱中已有的事实或关系推断出未知的事实或关系,推理任务贯穿 5.知识推理 13 基于演绎的知识图谱推理 演绎推理是一种自上而下的逻辑推理,指在给定一定前提的情况下推断出必然成立的结论的过 程。在知识图谱中,本体作为概念化的显示规约,是明确定义的先验信息,因此基于演绎的推 理多围绕本体展开,包括本体推理、描述逻辑、产生式规则等。 传统的知识图谱演绎推理即基于 OWL 描述逻辑的本体推理,通过 OWL 描述逻辑系统的不同组 合实现其表示能力与推理机制,进而推理出 义的、 的知识 结论。基于表 Tableaux 的本体推理 是描述逻辑知识 一 的 ,通过一系 规则 Abox, , 一实 是 在于 概念,基本 于一 逻辑的 结。 逻辑程是一种基于规则的知识表示 ,本体推理currency1“的 , fifl 定 定制规则, 实现 自定义的推理过程。逻辑程在 ,” 与本体推理结 合, Datalog 作为知识 fl 的 的逻辑 ,于规则、实现推理,与 SWRL 、 OWL RL 、 RDFS 的系其结合本体推理规则推理的 。 产生式系统作为一种前推理系统, 一定机制规则而 , 于自 知识图谱生命周期的各个阶段,包括知识图谱补全、不一致性检测、查询扩展等。知识图谱推 理的主要技术手段可分为基于演绎的知识图谱推理和基于归纳的知识图谱推理两类。 规 系统。一 产生式系统 实 合 Working Memory 、产生式/规则 合 Production Memory,PM 、推理 组成。其中, 实 合 于 前系统中的 实,产生式/规则 合 一系 产生式组成,推理 则包括 式 、规则、 规则, 于制系统的。 (p F0NmPQ3YK78jIW8(pj7+G-_g0F,QIR4IKg 基于归纳的知识图谱推理 基于归纳的知识图谱推理主要通过对知识图谱的已有信息进行分析和挖掘,进而进行推理,已 有的三元组是其最常用的信息,这种自底向上的方式更适用于自动化构建的大规模知识图谱。 根据推理要素的不同,可分为基于图结构的推理、基于规则学习的推理、以及基于表示学习的 推理。 在自底向上构建的知识图谱中,大量信息由事实三元组表示,由三元组组成的丰富图结构代表 两个实体之间的路径,反映了丰富的语义信息。 PRA ( Path Ranking Algorithm ) 为 的 基于图结构的推理方 , 对自底向上自动化构建的、 有 的图谱, 实体 之间 的路径 为 , 通过图上的 对 个路径 的 ,进而 用这 学习 个 归分 成推理。体, PRA currency1“据中挖掘推理规则,可fi fl ,在以理 、路径 ”不 。 基于表示学习的推理 知识图谱中 实体和的元素映 个的向量间中, 在学习向量表示的过中自动 、推理的 , 知识图谱的推理currency1在通过 的向量间表示之间的 自动实。 TransE 为基于表示学习的 模 , 知识图谱中的 个实体和表示成 个向量, “ 实体向量 实体向量的 , 个 三元组表示成( h , r , t ), h+r=t 。实 , TransE 有的向量间 是 种 的知识图谱表示学习方 ,currency1表示据中 的 在 、 ”, 其适 用于 大规模 的知识图谱,可fifl不 ,其 PRA 之间在 fl。 总体来说,演绎推理方法和归纳推理方法各自具有在不同使用场景的优越性,但也存在各自的 约束和瓶颈,如演绎推理方法的效率瓶颈、归纳推理方法的先验知识约束等。因此,各种推理 方法将发挥各自优势、逐渐走向融合,以完成更复杂、更多样的知识图谱推理任务。诸如时序 预测推理、基于元学习的少样本知识图谱推理等新兴技术手段,以及 GNN ( Graph Neural Networks )、 R-GCNs ( Relations Graph Convolutional Networks )等模型的相 ,更 、更 的推理方法将发挥更 的 用。 三、知识图谱的产业链结构 数据采集、标注旨在为构建知识图谱提供规范、丰富、持续更新的原始数据资源池。当前,数 据采集标注仍属于劳动密集型领域,人力成本较高,采购第三方数据服务商完善前期数据库成 为普遍选择。一般来说,京东众智、云测数据、文思海辉等数据服务商基于自研的可支持图 1.上游:数据资源和软硬件支撑 15 总体看来,知识图谱上游产业涉及数据采集标注、云服务、硬件资源、数据库等支撑;中游从 事知识图谱的设计与构建,包括提供用于知识图谱分析、应用的各类套件工具及解决方案;下 游知识图谱主要与AI技术结合,深度应用于垂直领域。 (pIW8(p fpPE878j,QIR4IKg 16 知识图谱的构建是知识图谱产业链生态的核心环节。知识图谱基于上游数据服务商、开放链接 数据库、自有数据以及云服务、硬件资源、数据库等技术支撑,以应用场景为导向,设计知识 图谱的表达方式和粒度,并通过知识抽取、知识融合、知识补全与推理、知识检索与分析等环 节构建完成。 该环节市场参与者众多,主要包括第三方知识服务平台、互联网/ AI 龙头企业、细分领域解决 方案服务商三类。 第三方知识服务平台以明略科技、百分点、 PlantData 等企业为典型代表,基于先进的技术组 件和功能模块,实现知识建模、抽取、融合、存储、计算及应用的知识图谱全生命周期解决方 案,并基于知识图谱提供知识管理和洞 分 等服务。该类企业 及 全、 融、 务、 计、 业、 、 、 等 多领域, 的 业 , 。 以 BAT 为代表的互联网/ AI 龙头企业 知识图谱业务,currency1百 知、“ 、fifl 商知图谱 AliCoCo 、 等” 业务 。方,该 类企业业务场, 以合的 AI 技术解决方案进 场,场 的技术 ,的技术能 市场 。 细分领域解决方案服务商 业领域, 知识图谱技术 解决方案场 ,用以 提解决方案 。currency1 互联为 能 服务商, 用知识图谱技术 融 进 提取和 能分 知 用知识图谱技术, 融+ 业 融场提供 能 和决 服务。 , 知识图谱技术 AI解决方案以 为知识图谱商业 的 方 。 3.下游:知识图谱应用场景 当前,知识图谱的相关理论和技术实践日趋丰富,但完善的知识图谱构建仍 , 2.中游:知识图谱的构建 片、语音、 本、视频、点云等多 类的 能标注平台,提供 的标注 ,并采用众包等 方 ,根特定业务需要进 采集、清洗、标注,从而实现类 的站 处理服务。 此,开放链接 库也是建知识图谱的重要 源,currency1 Freebase 、 Wikidata 、 Yage ,以及向 的开放域知识图谱社区项目 OpenKG ,是直接获取、半 的 路径。 在软硬件技术”层,云服务、硬件资源 集 于云厂商、 IT 巨头。近年 , 优 潜 的新玩家在图 库领域集 涌现,包括费马科技 TuGraph 、欧若 网 Nebula Graph 、星 环科技 StellarDB ,图 库的云 为主流发展方向。 17 一的世界之间的桥梁”,旨在建立成为一个开放性的全球资源。 Freebase 包含了从 Wikipedia 、 NNDB (世界名人数据库)、 Fashion Model Directory 等数据来源,以及用户直 接提供的数据,基于RDF三元组模型,采用库数据库进行存储,且不对顶层本体严格控制,用户 可创建、编辑类和关系的定义,从而实现用户更方便的获取信息。 OpenKG 作为由中国中文信息学 的中文 开放 ,旨在 进中文 数据的开放 。 ,OpenKG 开放了 144 个数据 , 及 、 、 、 、 等 类。,OpenKG currency1成了 cnSchema “,定义了中文 开放 的基本类、性和关系等本体层fifl,以更 的用性、 用性和 性。 源于”、”, 的 进,进而用在、 、 、行等和 的型 。 于“ ”,在 现 为 用定制方 的 数据。 2014 , 建立了一 行 建模及 用的 制, 了 类”、 、 等。在的 中, 元 的 建、”基于 的 学模 , 用 全方”,进而 实 的策略算、 经验迁 移到其他 ,取得了一定进 和突破。截至 2020 4 月,用 的数据规模 达 到亿级实体和千亿级事实、关系, 2014 规模的 490 倍。 进入 网时, 娱乐平台覆盖了餐饮、行、消费、娱乐等众 场景, 有助于打破不同场景下的数据隔离,为用户和商家建立全方链接,为相关”、 、 问答、决策等 用提供基础撑。 美团 NLP 中 建了全球最大的餐饮娱乐 美团大脑,在评”基于 搭 (2)生活娱乐 用 一种 的科全书,包含了现实世界的大量用性 ,注 、 强调更实体的融合,但“确不高,且受fifl范围的影响,很难借助本体库对公 、规则 以及约束条件的力规范其实体、性、实体间的关系, Freebase 、 OpenKG 、 用 等用 的型 。 根据 Tim OReily 的描述, Freebase “ Web 2.0 体 慧的底层视 义网 更为 (1)通用知识图谱 阶段仍难以满足各行业的个性化需求。知识图谱的应用正由大规模、简单场景,向小规模、复 杂场景转变。智能搜索、智能推荐、智能出行等大规模、简单知识应用、单一应用模式的场景 逐渐成熟,知识图谱开始在金融、能源、工业、医疗等数据资源有限、知识深度应用的复杂场 景发挥关键作用。 18 伴随 O2O 、新零售等新趋势的崛起,交易场景不再单纯局限于线上或线下,电商企业对数据互 联的应用需求扩展到线上线下相结合、实物与虚拟相结合的复杂交易场景。在数据组织方式 上,商品信息天生以知识卡片的形式存在,接近百科数据的结构化水平,但商品信息对不同市 场、不同消费者的描述侧重不同,且存在大量国家 、 业 等商品描述 , 对知 识 合 知识 新 。 电商 知 AliCoCo 电商 E-commerce Concepts 、 Primitive Concepts 、 Taxonomy 、商品 Items 组。用需求currency1“ 的电商 ,在fifl下, 用 的 实描述”的电 商 ,电商平 的”商品 电商 或 联。, AliCoCo 1.0 , 2.8 m 的 、5.3 m 的电商 以 的 , 电商的 业 应用, 、天 98% 的商品 AliCoCo , 平 商品 联 14 135 电商 。 对用需求的 ,相 于fl的商 品 , AliCoCo 对于 query 用需求的 35% 75% 。 伴随 信息化的 展, 构互联 平 生 大量的 数据,形 的 知识。知识 ”于实 、 床试验方案、 组数据、患者病历等 知识的 联与整合,而为 生的 床诊断 供辅决策,或 应用平 为公众 供 高质量的 信息服 。 ,国内 领域知识 尚处早期 展阶段, 业 量开展 积极探 。百度“灵 ”将 床辅决策、 大数据治 与智 诊手作为主要切 方向,以建立结构化电 病为础,利用 NLP 病历 析、 析、信息抽取,结合向量相 性疾病诊断 模型 疑似疾病判断、治 方案 荐、相似病历 荐。平安智慧 的 知识 60 万 、 530 万 、万 证据, ,并于 开 智 服 应用场景,旗下平安好 生“AI辅诊 ” 智 音解析大数据 等技术, 合 3 条在线诊 健康咨询数据,赋 在线 咨询的预诊、 诊、问诊等 (4)医疗 (3)电商 建的 5 架构础上,美 大脑将知识 信息加 到 的 流程,对点评 的整 架构 重塑,尤其对其的 排序 传 器 习模型 为大 模 度 习模 型,并 联 场景数据, 用 NLP 技术 器“ ”用公开评 , 解用在 品、 、服 、 等方 的 好,构建 、 、商品、场景fl 的知识 联, 而形 “知识大脑”。2018 ,点评 模型到大 模 度 习排序模型的 。并在 度 习 程、模型结构、 化 以 程实 上 探 ,在 上取 为的。 19 用知识图谱挖掘金融行业隐性信息、弥补风险漏洞、提升业务水平等方面取得了良好效果。明 略科技将个人客户、账户、企业客户通过社会关系、企业关系、资金来往等关系进行关联,在 实现金融全量信息关联融合的基础上,形成了面向金融分析的多维视角。基于该知识图谱体 系,明略科技建立反洗钱及受托支付排查 、 险 等 多个 用 , 反洗钱 , 、 资金 现, 关系识 , 险 分析等 的提 升 了关用。在明略科技的技支,全currency1“行fi行fl实现了currency1 个全 行知识图谱 用,基于 实体、 关系的知识图谱将全行”通,行 30 个 提”支查 ,实现 角资金 , 提升了现 效 。 , 行业 排 受关 , 、 、 等 行业 用 系 技 ,用 的 成 。 行业在 的 中,沉淀了丰富的行业知识,这些知识储备在勘探专家的脑中,分 散于不同 门、不同存储介质之中。通过知识 算可实现碎片化知识的整合,借 系 AI 技 行业知识进行抽取、表达、 算,使得专家经验得 承、进 步释放更大价值。华云 知识 算决方案业界 个全生命周期的知识 算决方案,旨在企业通过构建知识 平台造企业 的知识体系,企业可根个性化 自主掌知识图谱的构建、完成知识更 新、最终 知识化服务形式提升 门 效。 2020 11 月,中currency1 与华云联合 布 了基于该方案造的中currency1 认知 算平台。在 震资料进行自动拾取的实际 用中,该平 台基于不足 5% 的样基础实现了超过 94% 的预测精度, 将原 2人*月的 量缩短至 7 小时 自动完成,此外,在测井 气层识 、抽 机井 况 、 量预测等方面,该平台同样 取得良好的 用效果。借于知识 算,中 将行业知识与 AI 进行了 效 合, 气勘 探 实现 储上 ”及提质 效” 。 (6)能源 来,科技的进步 进金融行业取得 足 ,金融 行业 现” , 生 量的 质量 构化”, ” 化可 的关联、 效 ,进 实现更 丰 富的金融服务 ,成关 。 fi体来 ,金融 知识图谱的 用 、 、表达等,信 、 、 险、支付等 实现currency1 、知识 现、“决等提了实支。明略科技在 (5)金融证券 。fifl AI 放平台旨在托 在 的知识图谱、 、 、专家”等AI 基础 ,提预测、决、”分析等 ,提 式的 放技。 四、技术挑战与发展趋势 实现认知智能是人工智能进一步突破天花板、释放更多价值的关键,而知识图谱将在认知智能 的机制设计、落地应用中承担重要角色。现阶段,知识图谱的构建及应用还存在诸多挑战。一 方面,通用知识图谱主要应用于浅层知识查询,其主要挑战在于缺失多元知识来源和表示形式 带来的推理能力不足,这也成为智能交互产品的主要技 ,制 用 。 一方 面, 知识的 知识图谱 工 能力 重不足, 存在 、工 、人 成不,知识图谱为currency1表的“知识工理 fi及fl关工 。 应用的不 ,知识图谱将成为构建 ”、 应用的层关键技 。 ,知识图谱的构建和应用进 ,在 、 、推理”方面 于 阶段。一方面,通用知识图谱 、 、 、 不 , 的知识 将更 层 的 ”、 应用 , “为 , 知识计 技 ,为 的 智能 和”。 一方面, 于 工 “ 不 , “ 面 知识 、知识 , 用多 技 多元地 知识、及 的 家交互将变得尤为重要。 着人工智能走到台,成为激活“价值、产生强智能的重要驱动,知识图谱则成为 帮 机器理解 的知识 设施,在 上,知识图谱技 生 将呈现fi统 发 趋势, 与知识表示、自然语言理、机器学习、图“库、多媒 理关联技 fl互 合, 赋 能应用。于 学习的端到端 式能够习得样的有特征表示,小样学习、无监 督学习、弱监督学习将缓解知识图谱构建的样缺;再,“训练语言 型+特定任 或语料微调”的自然语言理方式也将在面文的垂直 知识获取中发挥重要作用; 外,块链技 能够较好的实现去中心 架构、解”知识的信与鉴真,使其也成为知识 图谱 应用的重要方。 1.知识图谱推理和快速工业化能力的缺失成为主要技术挑战 2.伴随应用场景不断深入专业领域,知识图谱将从知识服务延 伸至深层决策和预测服务 3.场景驱动下的知识图谱技术生态将呈现系统化发展趋势 20 参考资料 IW8(pj7+G-_g0FlF,/W#lCJlD7|*x99g$f ,/W7RoIW8(p#138lF,/W#lCJl8-CG87bO,R-Dp6=B: gc/f/f?cMG-(0 jGKCMIW8(p80l%0F/d#?c=$lY%*;1sIW8 (p0Zl,*l KWWSVPSZHLLQTTFRPVMH12PU$Q3TKQU/I4 D0ExUIW8(pl1l KWWSVKXDQODQKLKXFRPS 7W(6 1:2Ni=lG07* !*6;IW8(p80l%0FGtl,$=l KWWSVPSZHLLQTTFRPVN0Y-WEL.959BK+N+$ * B+65N)l IW8(pG?c0,50-_glh7J$=000 daNl KWWSVZZZLQIRTFQDUWLFOH-=BTG%L0FS+S%054 $OLXVKHQJ/XR/XLQ/LX RQJKXDDQJ/H%RXDQSHQJ&DR-LQKDQJ:X4LDQJ/L.HSLQJ/f/fk5_KJF&IW8(p$OL&R&Rol KWWSVPSZHLLQTTFRPV *Q(*+0R*-(%9%KK+OMT$ IW8(p(cCXi)QG#x90Fl KWWSVKXDQODQKLKXFRPS 出品人:刘晖(Wechat:15022736778) InfoQ研究院高级分析师,专注AI、云、大数据等前沿科技领域 鸣谢:感谢InfoQ编辑团队和参访企业的大力支持 InfoQ研究院: 新科技趋势洞察者,技术创新咨询领军人 InfoQ研究院依托InfoQ传媒多年技术领域的持续深耕、结合复合型研究团队的深度专业积累及 对最新技术趋势的深入洞察,打造出独家技术创新研究咨询方法论。研究院以科技创新、技术 发展为原点辐散相关产业、经济领域,为领军企业、中小企业、政府部门等多类客户提供全流 程、体系化、个性化技术创新咨询服务,支持制定 业 , 新 的新 ,全 新 业及政府 技术创新 及 型 , 为新科技领域创新 咨询方 的领军人。 展望前沿趋势、了解最佳实践 请关注InfoQ Pro