2019-2020中国知识图谱行业研究报告.pptx
2019-2020中国知识图谱行业研究报告,摘要,2019年涵盖大数据分析预测、领域知识图谱及NLP应用的大数据智能市场规模约为106.6亿元,预计2023年将突破300亿元,年复合增长率为30.8%,其中2019年市 场中以金融领域和公安领域应用份额占比最大。随着整体市场数据基础的完善和需求唤醒,大数据智能领域规模持续走高,但在行 业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求 将会大量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有 正向意义。,在面对数据多样、复杂,孤岛化,且单一数据价值不高的应用场景时,存在关系深 度搜索、规范业务流程、规则和经验性预测等需求,使用知识图谱解决方案将带来 最佳的应用价值。,人工智能本质是解决生产力升级的问题,人类生产力可以归类为知识生产力和劳动 生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者 更与生产力相对应,NLP和知识图谱是发展认知智能的基础。原始数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经 过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合, 通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合, 最终形成完整形态上的知识图谱。,4,5,1,3,2,知识图谱技术概述,1,中国知识图谱市场概述,2,中国知识图谱细分市场分析,3,中国数据智能代表企业案例展示,4,人工智能技术分类和趋势,三种流派的融合应用,使人工智能向想象更进一步人工智能是对一类能够实现机器模拟智慧生命某些特征的技术统称,从学术上可以分为,对人类已有知识进行组织编辑的 符号主义、通过数学理论公式推导聚类和预测问题的连接主义,以及利用机器模仿生物活体行为的行为主义三个流派,分 别以知识工程、机器学习和仿生机器人为时代代表,而知识图谱就是新一代知识工程的具体体现。2012年,深度学习在计 算机视觉和智能语音上产生重大突破,打开了人工智能商业化的大门,使得连接主义一度成为人工智能的代名词,但随着 应用落地成为主旋律,缺位行业逻辑和理论概念的连接主义,往往找不到最佳的应用场景而止步于浅层尝试,在此背景下, 人工智能技术应当走向融合,符号主义需要连接主义提供强大的计算支撑,连接主义需要符号主义的逻辑指导,二者又共 同作用于行为主义,充当机器人的大脑和“记忆宫殿”,在多种技术综合利用下的垂直领域智能解决方案才是当今最符合,市场期待的方向。,人工智能三大流派分类与融合趋势,深度学习,机器学习,智能语音 计算机视觉 自然语言理解,连接主义,符号主义,行为主义,启发式算法,专家系统,知识工程,知识图谱,控制论,生物 控制论,自组织 系统,控制逻辑 计算机智能控制系统,神经系统,工程控制论,智能机器人系统信息理论 控制理论,人工智能技术应用本质,认知智能使AI触及生产核心,知识图谱决定认知智能的起点人工智能与互联网或5G等技术本质上存在差别,后者解决的是信息的发出、传递、接收与反馈的闭环问题,而人工智能的 本质是进行生产力升级,因此评判人工智能使用的是否有价值,要看其技术应用是否贴近生产核心。人类生产力可以归类 为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能、认知智能和行为智能,后两者更与生产力相对应。 以计算机视觉、语音识别为代表的感知智能应用深度学习,在算力与数据的支撑下突破了工业红线,实现了机器对于自然 界具象事物的判断与识别,但仅仅如此并没有触及核心生产环节,所以也就限制了其商业应用半径。当人们使用机器能识 别更多事物的时候,自然而然的引发了,对事物背后的事理,理解、分析和决策的深层次需求,认知智能呼之欲出。认知 智能核心解决的问题是对人类文明抽象概念的识别与联想,通过自然语言处理(NLP)技术对文字内容在语义上进行初步 认知和自动抓取,经由知识图谱对概念间的关系属性进行联结、转换,从而对人类社会生产、生活行为进行描绘,实现业 务规范梳理、生产流程可视化、人际关系挖掘等代表应用,这与注重经验、逻辑和方法论累积的知识生产力产生了直接对 应,而与劳动生产力相对应的行为智能同样需要知识的指导,所以认知智能的发展才是人工智能回归本质的表征,而搭建 知识图谱是认知智能可以参与生产的基础锚点。人工智能与生产力的关系,人工智能,生产力,感知智能计算机视觉语音识别,认知智能,行为智能计算机视觉语音识别,指导,知识生产力计算机视觉语音识别,劳动生产力计算机视觉语音识别,自然语言处理(NLP)NLP技术其实也是一种识别,是 对人类文明符号文字在语义 上的初步认知,知识图谱知识图谱能实现的是通过概念间 的关联进行联结、转换,从而对 人类社会生产、生活行为进行描 绘,如业务规范、生产流程、人 际关系等,语义识别目标抽取,语义识别,基于图谱开发应用,知识图谱概念定义,是一种描绘实体间关系的语义网络,是认知智能的必要基础知识图谱是一种描绘实体之间关系的语义网络,是人工智能重要研究领域知识工程的主要表现形式之一。知识图谱通 过RDF(三元组),既“实体 x 关系 x 另一实体”或“实体 x 属性 x 属性值”集合的形式,以人类对世界认知的角度,阐 述世间万物之间的关系,通过NLP技术、图计算、知识表示学习等手段,将非线性世界中的知识信息结构化,以便机器计 算、存储和查询,起到赋予机器人类认知的效果 ,是人工智能技术走向认知的必要基础。知识图谱以RDF形式阐述万物关系,实体,另一RDF,关系,知识图谱RDF(三元组)形式,知识图谱结构,自然世界,知识图谱发展历程,三个时期五个阶段奠定了现代知识图谱的雏形知识图谱发展至今可以总结为三个时期和五个阶段。1950-1977年是启蒙期,包含了基础概念阶段和专家系统阶段的开端, 这一时期文献索引的符号逻辑被提出并且应用;1977-2012年是知识图谱不断演变的成长期,包含了大部分专家系统阶段 和Web 1.0和2.0阶段,在此期间出现了很多如WordNet、Cyc、Hownet等大规模的人工知识库,知识工程成为了人工智能 重要的研究领域,2012年,Google正式提出的知识图谱概念,开启了现代知识图谱的序章;2012年至今是知识图谱的发 展期,中国企业开始入局,以BAT为代表的科技公司依托自身业务,在搜索引擎、电商、医疗等领域开始应用知识图谱技 术,解决办法服务商们也从大数据赛道中脱颖而出,将知识图谱技术拓展到安防、金融、教育等更多领域,让AI跳出感知 智能的商业局限,向解决各产业生产环节中的核心痛点更进一步。知识图谱的发展历程,1950,1970,2012,启蒙期(1950-1977年)1955年,加菲尔德提出了将引 文索引应用于检索文献的方法,1965年,普赖斯等人提出用引 文网络来研究当代科学发展脉 络的方法,1968年,奎林提出语义网络的 概念,是一种用图来表示知识 的结构方式,成长期(1977-2012年)1977年,知识工程的概念在第五 届国际人工智能大会上被提出,以 专家系统为代表的知识库系统开始 被广泛研究和应用1991年,Niches提出知识本体的 概念,把领域知识形式化1998年,万维网之父再次提出了 语义网2002年,机构知识库的概念被提 出,知识表示和知识组织开始深入 研究2012年,Google提出知识图谱概 念19902000,发展期(2012年-今)2014年,百度知识图谱正式上线, 至今以包含千亿级别的三元组集合2017年,阿里巴巴知识图谱首次 曝光,已包含百亿级别核心商品信 息的三元组集合2017年,腾讯AI Lab在美国国家 标准与技术研究院(NIST)主办 的2017年国际知识图谱构建大赛 获得冠军2019年,小米小爱同学3.0上线, 以百科图谱为中心,外接垂类知识 图谱和小米业务图谱,三元组规模 达300亿,基础概念阶段,专家系统阶段 Web 1.0阶段 Web 2.0阶段,知识图谱阶段,知识图谱结构,半结构化数据,结构化数据,非结构化数据,实体抽取关系抽取,属性抽取,事件抽取,数据整合,知识库,实体对齐,知识融合,知识推理,质量评估,本体构建,原图应用,数据源,知识抽取,数据规范模型修订,知识加工,本体对齐,标准知识,关系模型,知识表示,算法支撑,知识自动化,图谱应用,建设本体模型和实体数据库是知识图谱结构的核心知识图谱从逻辑上可以分为概念层和数据层,数据层指以三元组为表现形式的客观事实集合,而概念层是它的“上层建 筑”,是经过积累沉淀的知识集合。建设中以本体模型和实体数据库为核心,根据二者的建设顺序又分为先定义本体和数 据规范,再抽取数据的“自顶向下型”和先抽取实体数据,再逐层构建本体的“自底向上型”两种模式,前者适用于场景 较为固定,存在可量化行业逻辑的领域,如金融、医疗、法律等;后者适用于新拓展的,有大量数据积累,行业逻辑难以 直接展现的领域。总体而言,搭建知识图谱从数据源开始,经历了知识抽取、知识融合、知识加工等步骤。原始的数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合,通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合,最终形成 完整形态上的知识图谱。知识图谱结构拓扑图应用中知识不断扩充和修订,多源异构的数据来源,结构化和半结构化数据的抽取是搭建基础,非结构化数据抽 取的发展将拓宽知识图谱的应用边际知识抽取是搭建知识图谱过程中至关重要的一环,也是目前评判知识图谱优劣性的标准之一。知识抽取所处理的信息往往 是明确的事实性信息,信息源通常分为已有关联数据库的结构化数据、如表格和列表类的半结构化数据,以及如TXT格式 的文本类非结构化数据,前二者可以通过D2R(DRF格式转换器)、包装器(格式解析工具)等工具完成处理,而文本类 非结构化数据需要通过自然语言处理的相关技术进行知识抽取,所有数据最终都要通过处理转化为标准数据供图谱使用。 随着生物识别和物体识别等AI技术的应用,指纹库、人脸库、车辆库等数据库逐步建立,对于非结构化数据的知识抽取将 不再局限于文本,所搭建的知识图谱维度将会更丰富,应用场景更加垂直下沉。对信息源数据的抽取方法,半结构化数据,结构化数据,非结构化数据,列表,信息框,知识图谱,关联数据,数据库,表格,文本,OCR,手写体,人脸,图映射/D2R转换,包装器,通过数据处理,将多源异构数,据统一为标准 结构化数据供,知识图谱使用,大规模应用落地的保障知识抽取,实体和关系抽取是核心,事件抽取是知识更新的重要手段对信息源的知识抽取主要按照自然语义中的主谓宾语法进行抽取,分为实体抽取、关系抽取、属性抽取和事件抽取等。实 体抽取指在信息源中识别出特定的元素标签,并与实体库中的标签相链接,是信息抽取中最基础的部分;关系抽取意在找 到信息源中实体间的关系,可分为全局抽取和局部抽取,全局抽取是通过语料库对信息源中的所有关系对进行抽取,而局 部抽取则是判断一句话中实体的关系类型,目前可以通过特征标注的有监督学习和借助外部知识库进行标注的远程监督学 习实现,后者相比前者节省人工标注成本,但准确率略低;属性抽取可以看作实体和其属性值之间的关系,属于关系抽取 的一种类型;事件抽取是将信息源中指定的事件信息抽取,并结构化地表现出来,包括事件的时间、地点、人物、原因、 结果等,通常使用将事件划分多个分类阶段的pipeline方法和利用神经网络的深度学习方法,事件抽取拥有时间维度,可 以与时俱进地迭代学习,是知识图谱知识更新的重要手段。知识抽取核心内容,从信息源中识别并提取实体是信息抽取中最为基础和关键的部分分为基于规则与词典、基于统计机器学习和面向开放 域三种抽取方法,1,实体抽取,对信息源中实体的特征和性质进行抽取由于可以将实体的属性视为实体与属性值之间的一种 名词性关系,因此也可以将属性抽取问题视为关系抽 取问题,3,属性抽取,从信息源中抽取实体间的关系解决实体间语义链接的问题分为有监督学习抽取和远程监督学习抽取,2,关系抽取,从信息源中识别并抽取出事件信息,包括发生的时间、 地点、参与角色以及与之相关的动作或者状态的改变动态化地丰富和更新实体关系,是现有知识资源的重,4,事件抽取,快速工程化搭建的利器知识融合,通过本体对齐和实体对齐实现知识库联结合并,形成更加统 一、稠密的新型知识图谱知识融合是指,从概念层和数据层两方面,通过知识库的对齐、关联、合并等方式,将多个知识图谱或信息源中的本体与 实体进行链接,形成一个更加统一、稠密的新型知识图谱,是实现知识共享的重要方法。概念层的知识融合主要表现为本 体对齐,是指确定概念、关系、属性等本体之间映射关系的过程,一般通过机器学习算法对本体间的相似度进行计算来实 现,根据自然语言类型,可分为单语言对齐和跨语言对齐,其中跨语言对齐是实现知识国际交流的重要方式。数据层的知 识融合主要表现为共指消解和实体对齐,前者意在将同一信息源中同一实体的不同标签统一,实现消歧的目的;后者是将 不同信息源中同一实体进行统一,使信息源之间产生联结。知识融合的使用能够大量应用人类已有知识储备,节省成本, 是快速搭建知识图谱的必要手段,也是现代知识图谱应用中重要的研究领域。,知识融合的核心内容,通过本体对齐和实体对齐形成 更加统一、稠密的新型知识库,知识库1,知识库2,知识库3,由数据向知识转化的秘诀知识加工,本体是知识图谱内实体连通的 语义基础,主要以“点线面” 组成的网状结构呈现本体可通过人工编辑的方式手 动构建,也可通过数据驱动自 动构建,然后再经质量评估方法与人工审核相结合的方式加 以修正与确认,通过对三元组的语义分析,获 取新知识或结论,包含公理性 推理和判断性推理知识推理是知识图谱更新的重 要手段知识推理的主要方法包括基于Tableaux运算、基于逻辑编程 改写、基于一阶查询重写、基 于产生式规则等方法,本体构建、知识推理和质量评估使RDF数据向“知识”跃迁经过知识抽取和知识融合,实体和本体从信息源中被识别、抽取,并且消岐、统一,此时得到的关联数据是对客观事实的 基本表达,但客观事实还不是知识图谱需要的知识体系,想要获得结构化的知识网络,还需要经过本体构建、知识推理和 质量评估等知识加工过程。本体构建是知识图谱内实体连通的语义基础,以“点线面”组成的网状结构为表现形式,“点” 代表不同实体,“线”代表实体间的关系,“面”既是知识网络。本体可以通过人工总结专家经验进行手动编程,也可以 由机器学习驱动进行自动构建,本体构建的模型深度和广度,决定了知识图谱的应用价值;知识推理是通过对已有实体间 关系的计算,找到新关联,从而丰富新知识的过程,也是知识图谱更新的重要手段;质量评估是知识加工最后的“质检” 环节,确保经本体构建和知识推理得到的知识是合理,且符合知识图谱应用目的,根据所建设知识图谱的类型和具体用途, 质量评估的标注有所不同。知识加工核心内容本体构建知识推理质量评估,对已产生的知识数据进行评估, 将符合标准的数据导入知识图 谱中质量评估是确保知识图谱内容 正确可用的关键步骤根据所建设知识图谱的类型和具体用途,质量评估的标注有 所不同,知识图谱的载体知识存储,关系型数据库和图存储是现代知识图谱较为常见的存储方式知识存储是将知识图谱的概念层和数据层以计算机可识别的数据格式进行保存的物理形式,是知识的现实容器。知识存储 按照存储结构可以分为表格形式和图形式,常见的表格存储有三元组表、类型表和关系型数据库,前二者难于大规模建设, 且查询、维护、删改等操作成本较高,不适用于现代知识图谱应用。关系数据库通过属性记录实体,能很好的和RDF完成 映射,利用SQL语言也能方便快捷的进行知识检索,是目前应用较为广泛的知识存储方式;图存储是以图形结构对数据进 行存储的方式,并非图片存储。以图形的“节点” 象征实体,节点间的“边”代表实体间的关系,这种结构与知识图谱内 本体结构非常贴合,更有利于知识查询和价值挖掘,常被应用于本体层的存储,但在某些场景中因其格式死板问题,并不 适合全面应用。结合图谱使用目的,灵活的选择存储搭配方式,是符合当下知识图谱落地的最佳方案。知识加工核心内容,关系数据库关系数据库通过属性记录实体,能 很好的和RDF完成映射,是目前应 用较为广泛的知识存储方式,图数据库以图形的“节点” 象征实体,节点 间的“边”代表实体间的关系,更 有利于知识查询和价值挖掘,知识图谱的主要算法图计算,图数据库以图形的“节点” 象征实体,节点间的“边”代表实体间的关系,更 有利于知识查询和价值挖掘,用于图结构化数据间的关联性推理运算,善于挖掘隐藏关系图计算属于大数据挖掘技术的一种,专用于图结构化数据之间关联性的推理运算,基础数据格式与图存储相对应,由代表 实体的“点”、代表本体的“边”和边上的权重组成,这里的权重多指一些包含时序性信息的具体数据。图计算算法主要 包括全盘访问每一个节点的遍历算法、用于计算社交网络中人际关系的社区发现、源自搜索引擎,用于网页链接排序的 PageRank,以及解决图结构中距离问题的最短路径算法,在知识图谱中主要应用遍历算法进行知识推理,以发现实体间 隐藏的关系。为了更高效的进行图计算,在应用中会使用图计算系统和计算模型,图计算系统分为单机系统和分布式多机 系统,对于大规模图结构存储的计算后者更具有优势。而图计算模型被用于解决图计算因频繁迭代带来的数据读取等待和 成本高的问题、对相邻节点和边的计算依赖问题,以及难以在分布不均的区块上并行计算的问题。图算法核心内容,遍历算法沿着某条搜索路线,依 次对树(或图)中每个 节点均做一次访问,试 图找到新的关联,社区发现,社区发现算法可以用来 发现社交网络中三角形 的个数(圈子),可以 分析出哪些圈子更稳固, 关系更紧密,PageRank如一个网页被多个网页 链接,则其PageRank 值较高,该算法源自搜 索引擎中的网页排序,最短路径,用于计算一个节点到其 他节点间最短的途径, 以目标节点为中心,向 边缘扩散,知识图谱的关键技术自然语言处理,通过分词、词性标注和句法分析等方式使语言与程序相耦合自然语言处理(NLP)是一门涉及语言学、数学和计算机科学的综合学科,主要研究人与计算机之间使用人类自然语言进 行有效沟通的理论和方法。NLP技术包含非常广泛,最常应用于知识图谱中的能力是对于自然语言中信息的抽取,基本能 力包括分词、词性标注和句法分析,通过词典法或统计法将文章中的词语进行分割,由最大熵、 HMM或CRF等算法训练 模型,对名词、动词、形容词、标点符号等词性类别进行识别和标注,再根据规则法或统计法对语句的主谓宾等句法结构 进行分析,得到完整句式,最终产出一个计算机可识别的语料库,供后续需求调取。NLP技术是人工智能领域最具有挑战 性的任务之一,2018年10月,谷歌公布的BERT模型在11项NLP任务中表现卓越,将下游具体NLP任务近一步推向预训练 产生词向量环节,增强了NLP的泛化能力和自动化能力,为业界带来了新的思考方向,随着训练模型的不断探索与开源, 类似深度神经网络于识别类任务的里程碑型训练算法终将出现,届时NLP训练成本将大大降低,从而真正走向产业化,开,启认知智能的大门。,通过自然语言处理实现知识抽取的简单示意,NLP是人工智能领域重要的研究方向,重要的研究方向,名词 系动词,名词,形容词,名词,主语谓语,补语,定语,宾语,实体2,实体1 关系:从属,属性:学科,自然语言:,分词:NLP是人工智能领域,词性标注:,句法分析:,知识抽取:,业界前沿技术知识表示学习,将知识映射到向量空间参与计算,用深度学习挖掘隐藏关系表示学习是深度学习的核心环节,其本质是将研究对象的语义信息转化为稠密低维的向量,利用数学模型表示实例,并参 与机器计算。知识表示学习是图神经网络(GNN)重要的应用表现,是面向知识库中概念和实体进行的表示学习,它的价 值在于能够量化语义信息,进而计算概念间和实体间的相似度,实现关系抽取、实体对齐和知识推理的效果。知识表示学 习的应用能够有效提升计算效率、降低数据稀疏带来的学习难度、解决多元异质数据的耦合问题等,是知识图谱技术的重 点研究方向。目前知识表示学习的前沿研究仍以模型试验为主,以提高模型的预测准确性、可解释性、泛化能力为研究重 心,使知识表示能够区分概念和实体,增强逻辑性是研究方向,随着知识表示学习的发展成熟,认知智能将更快得以实现。将知识映射到低维向量空间,通过知识表示学习,将 复杂的语义信息降维成 表示向量,映射到向量 空间中,参与计算,知识图谱技术概述,1,中国知识图谱市场概述,2,中国知识图谱细分市场分析,3,中国数据智能代表企业案例展示,4,知识图谱的应用价值,关联性,深度学习,对多源异构数据和多维复杂关系的处理与可视化展示是现阶 段的主要价值,图神经网络下的深度学习算法应用将带来更 广阔的认知市场知识图谱是人工智能符号学派中知识工程的代表应用,其核心价值在于对多源异构数据和多维复杂关系的处理与可视化展 示,其底层逻辑是将人类社会生活与生产活动中难以用数学模型直接表示的关联属性,利用语义网络和专业领域知识进行 组织存储,形成一张以关系为纽带的数据网络,通过对关系的挖掘与分析,能够找到隐藏在行为之下的利益链条和价值链 条,并进行直观的图例展示。在面对数据多样、复杂,孤岛化,且单一数据价值不高的应用场景时,存在关系深度搜索、 规范业务流程、规则和经验性预测等需求,使用知识图谱解决方案将带来最佳的应用价值。连接主义中的深度学习算法几 乎代表了当代整个人工智能技术,但深度学习需要具有明确因果关系的数据对训练,且存在尚缺乏解释性的黑箱问题,在 掺杂众多非线性问题的复杂场景中应用价值有限,通过与知识图谱的配合使用,在一定程度上可以解决此类问题,随着关 系向量法深入研究,图神经网络将走向产业应用,届时依托于行业知识与经验的深度学习将产生更多贴近产业核心的认知 智能应用,人工智能技术也将跟进一步实现生产力升级的终极目标。知识图谱的应用价值对多源异构数据和多维复杂关系的处理与可视化展示将人类社会生活与生产活动中难以用数学模型直接表示的关联属,性,利用语义网络和专业领域知识进行组织存储,形成一张以关 系为纽带的数据网络,通过对关系的挖掘与分析,能够找到隐藏 在行为之下的利益链条和价值链条,并进行直观的图例展示。,图神经网络支撑深度学习算法应用随着关系向量法深入研究,图神经网络将走向产业应用,届时依 托于行业知识与经验的深度学习将产生更多贴近产业核心的认知 智能应用,人工智能技术将跟进一步实现解放生产力的终极目标。,知识图谱市场商业逻辑分析,原图应用解决查询类问题,算法支撑造就智能化解决方案知识图谱作为一种更加形象的数据表现方式,其产品形式可以分为原图应用和算法支撑两类。原图应用是指直接通过图谱 产生价值的服务形式,图谱根据概念层和数据层的区别可以分为通用知识图谱和行业知识图谱,通用知识图谱信息一般来 自开放的互联网,三元组多为具有普适性的常识知识,知识覆盖的广泛性越强,价值越凸显,其特性更适用于如谷歌、百 度、搜狗等百科型搜索引擎,被视为下一代搜索引擎的核心技术。而行业知识图谱则更看重具体场景中的认知深度,以及 与行业know-how的结合程度,在此基础上实现的知识检索、隐藏关系挖掘和缺失数据补足,能很好地满足垂直领域知识 类查询的需求,例如企业业务流程查询、司法领域案例查询、警务领域嫌疑人关系查询等;算法支撑是指通过知识图谱对 于信息源的生数据进行处理,将产出的结构化关联数据用于算法模型训练和应用,得到能解决具体场景问题的研判建议, 从而形成解决办法产生价值的服务形式。结合垂直行业B端市场的需求特点,由知识图谱作为算法支撑的智能解决办法具 有更凸显的市场价值和更广阔的想象空间,用于投研投顾、辅助断案、业绩预测等偏向于认知智能的服务,是以知识图谱 和算法能力见长的数据智能服务公司应有的核心竞争力。知识图谱价值体现,知识图谱,原图应用指直接通过图谱产生价值的服务形式,算法支撑,指通过知识图谱对于信息源的生数据进行处理,将产 出的结构化关联数据用于深度学习算法训练,得到能 解决具体场景问题的研判模型,从而形成解决办法产 生价值的服务形式,学术知识查询,法律案牍查询,保险理赔案例查询,搜索查询,业务流程 查询,人员关系 查询,临床病例查询,嫌疑人研判,案件研判,业绩预测,设备维保,辅助诊断,知识图谱在各领域中的应用概览,数据繁杂、单一价值有限、问题抽象需要可视化展现、五层 关联维度以上的应用场景更加适合搭建知识图谱知识图谱在各领域中的应用概览,中国知识图谱市场产业链战略分析,中游解决方案提供方进行全流程服务,是产业链核心环节,中国知识图谱市场产业链上游主要以各类数据源企业或机构为 主,因所处理数据多具有敏感性和专属性,所以往往数据源也是服务的需求方;中上游主要包括数据采集服务商、数据库 服务商、云服务商等,为产业链做支撑服务,但涉及保密数据采集加工的业务更多交由解决方案提供方直接处理;中游主 要以提供知识图谱解决方案的大数据智能公司、互联网公司和AI公司为主,该部分是产业链的核心环节。其中大数据智能 公司多脱身于大数据公司,凭借多年数据服务积累,在具体领域中具有先发优势和工程落地经验,随着市场对于认知智能 需求的觉醒,近些年越来越多的大数据公司开始向知识图谱做技术拓展。互联网公司多以巨头企业为主,因其综合服务能 力强、具有生态优势等因素,在资源调动和承接整体解决方案方面具有优势。AI公司主要以机器学习能力、NLP能力切入 知识图谱市场,在技术创新和算法应用开发方面具有优势;下游为基于知识图谱而开发应用的各类具体场景应用,知识图 谱应用在中国刚刚起步,主要聚焦于图中展示领域,随着市场推进将辐射更多行业。中国知识图谱市场企业图谱,数据源支撑层解决方案层,应用层,电商数据 社交数据网络搜索数据 广播电信数据 政府数据企业数据,数据采标服务商,数据库服务商,云服务商,服务器硬件服务商,应用开发服务商,上游,中上游,中游,下游,大数据智能公司互联网公司AI公司,公安领域金融领域,能源领域,教育领域,营销领域,舆情领域,司法领域,客服领域,医疗领域,政务领域,工业领域,中国大数据智能行业市场规模和结构,注释:文中大数据智能多指To B领域大数据分析预测、领域知识图谱、NLP应用等;C端应用和企业自研自用规模难以统计,暂未列入计算范围,注释:其他领域包括营销领域、零售领域、教育领域、学术领域等,2019年市场规模约为106.6亿元,金融和公安领域占比最大据咨询统计推算,2019年涵盖大数据分析预测、领域知识图谱及NLP应用的大数据智能市场规模约为106.6亿元,预 计2023年将突破300亿元,年复合增长率为30.8%,其中2019年市场中以金融领域和公安领域应用份额占比最大,金融领 域因标准化数据积累丰富,行业认知与直接需求最为明显等因素,成为数据智能最早落地并产生价值的行业;公安领域经 过三年的感知智能基础设施建设,已经初步形成人工智能应用环境,在党中央和公安部的号召指导下,公安大数据建设将 成为下一阶段的主题,这一趋势也在2019年相关招标项目中得以体现。随着整体市场数据基础的完善和需求唤醒,大数据 智能领域规模持续走高,但在行业可落地性和理性建设的限制下,预计市场增速将呈现下降趋势,期间咨询性需求将会大 量出现,从整体发展来看增速处于良性区间,对真正有价值的公司和产品有正向意义。2019-2023年中国大数据智能市场规模2019年中国大数据智能市场规模细分结构,145.4106.6,195.5,252.0,312.4,36.3%,34.5%,28.9%,24.0%,20192020e2021e,2022e,中国大数据智能市场规模(亿元),2023e增速(%),38.0%,18.5%20.0%,14.3%,12.2%,3.0%,2.7%,1.1%,金融领域 医疗领域,其他领域 政务领域,公安领域 工业领域,客服领域 司法领域,知识图谱技术概述,1,中国知识图谱市场概述,2,中国知识图谱细分市场分析,3,中国数据智能代表企业案例展示,4,知识图谱应用搜索引擎领域,知识索引可将有价值的信息以自然语言的形式直接展现搜索引擎是互联网发展中最具代表性的应用之一,它解决了人们如何方便获取信息的问题,一度成为大部分流量的入口。 但随着网络中信息沉积越来越多,人们真正需要的,隐藏在大量无用信息中有价值的部分,我们称之为知识的内容,往往 得不到直观展现,这成为了搜索引擎领域重点要解决的问题。2012年5月,谷歌率先提出知识图谱概念,用以更好的描述 现实世界中实体关联性问题,进而提高信息搜索中的知识获取效率,随后搜狗、微软、百度纷纷推出相关概念架构,知识图谱被视为下一代搜索引擎的核心技术。传统搜索引擎一般采用网页索引,按照“网页 -(预处理)- 临时库 -(索引)- 索引好的库 -(由用户行为触发检索)- 为用户展示网页结果”的流程执行,信息源来自网页,展现内容也是网页链接。而基于知识图谱的搜索作为和网页索引同级、并行的另一套知识索引,更注重信息间的关联性和自然语言理解,通 过图存储的形式从新组织互联网中的信息,再以人类的语言习惯进行查询和展现,从而提高搜索体验,因为知识的存储形 式发生了变化,所以知识索引信息来源和展现载体都不再局限于网页文字,语音交互和更加丰富的IoT场景将会是未来的,发展方向。,文字查询,网页结果,索引,检索,排序,普通网页(包含文本、音频、视频、图片),自然语言查询丰富展现形式NLP处理结果翻译,知识图谱,关联查询关系挖掘,推理,知识图谱预处理,丰富来源(包含文本、音频、视频、图片),知识图谱在搜索引擎中的应用,网页索引,知识索引,知识图谱应用搜索引擎领域,应用NLP的知识抽取将成为知识搜索的重要破局点目前,互联网上只有极少数知识被人工整理成了机器可以解析的格式,如各类百科栏目和垂直领域数据库,这些资源支撑 了当下绝大部分通用知识图谱的搭建,但这些信息也仅仅是沧海一粟,无论是覆盖范围、更新频率、可靠程度都无法满足 日益增长的自动化和智能化需求,更严峻的是新一代互联网用户逐渐丧失了参与编辑的精神,甚至不知道可以编辑百科内 容,在此趋势下基于百科的知识图谱将会变成一种静态数据留档,其支撑的知识搜索也将会大量依赖于权威组织编辑,成 本和效率将会成为致命伤,因此应用准确且自动化的NLP技术,在更广泛的网页文本信息中,替代人工进行知识抽取,成 为了知识搜索领域重要的破局点。知识搜索引擎Magi提供了一种NLP+评价系统的半监督学习方式,通过互联网对有监督 学习的原始NLP模型进行“放养式”训练,再由“一个知识点在不同表达中被印证,则证明其可信度较高”而形成的评价 系统去收敛训练成果,从而完成较低成本,可持续的广域下NLP模型训练,经过搜索引擎Magi的公测体验,以及B端 知识抽取的定制服务,Magi逐渐形成了独立NLP产品的服务模式,为知识工程轻需求用户,和知识图谱搭建者提供了完善,的RPA服务。,Magi引擎服务框架,企业,AI,人类,网络,Magi System知识抽取引擎,Magi知识搜索引擎,用统计信号消除事实矛盾,然后将所学投入到第N + 1 轮的训练中,用第 N 轮训练得到的模型开始在互联网上学习知识,终身-半监督学习,常识知识库,知识集成第三方服务,RPA,定制模型,领域知识,语义搜索结果,网络语料库,知识库的数据集,知识图谱应用公共安全领域,公安知识图谱重点解决数据关联性和数据价值挖掘问题公安大数据是全面助推公安工作质量变革、效率变革、动力变革的重要力量,受到党中央和公安部的高度重视,而作为大 数据和人工智能双重技术的应用表现,知识图谱通过数据分析、文本语义分析等,抽取出人、物、地、组织机构、服务标 识等实体,并根据实体的属性联系、空间联系、语义联系、特征联系等建立相互关联,构建一张具有公安特性的多维多层 的实体与实体、实体与事件的关系网络,在解决公安大数据发展中面临的数据缺乏关联性等问题时起到了重要作用。建设 公安知识图谱仍然遵循知识图谱搭建逻辑,其中知识抽取、本体层建设和实战应用开发,需要将公安部门多年积累的实战 经验与技术算法相互转换,重点考验公安知识图谱解决办法提供商对公安业务的理解能力和专业积累,是该行业竞争中重,要的壁垒。,公安知识图谱流程结构,知识抽取实体抽取关系抽取属性抽取,知识融合数据清洗数据关联数据对比,数据库重构建立标准库建立专题库建立主题库建立研判战法集, ,本体层搭建社会化数据与公安 技战法结合碎片化数据与公安 技战法结合公安技战法与算法结合,实战应用,关系挖掘路径推演全文检索时空分析,公安知识图谱,(注:各库数据要与人、,地、事、物、组织、虚 ,拟身份等基本信息打通; 与吃、住、行、消、乐 等数据结合),技术(算法),业务(专业知识),通过专家团队与技术团队的通力配合,使公安技战法与算法深度融合,公安知识图谱解决办法提供商核心竞争力,