2019年中国知识图谱行业市场研究.pdf
1 报告编码19RI0796 头豹研究院 | 综合系列深度研究 400-072-5588 2019 年 中国知识图谱行业市场研究 报告摘要 TMT 团队 知识图谱指对现实世界事物之间的相互关系进行形 式化描述的结构化语义知识网络。“实体-关系-实 体”、“实体-属性-属性值”三元组是知识图谱的基础 表达方式, 其中包含实体、 概念、 属性、 属性值、 关 系等元素。 实体指具有可区别性且独立存在的事物, 如“中国”、 “比尔盖茨”等; 概念指具有同种特性的实 体构成的集合,如“国家”、“民族”等。知识图谱有自 顶向下和自底向上两种构建方式。自顶向下构建指 利用百科类网站等结构化知识库定义本体和数据模 式,再逐步将实体加入到知识库中。自底向上指从 公开信息数据渠道提取实体,选择其中置信度较高 的,通过人工审核后再加入到知识库中。 热点一: 社会高效化运作需求促进行业发展 热点二: 资本投入推动行业发展 热点三: 充足数据源助推行业发展 高效化、智能化已成为社会发展的重要趋势,而知识图 谱作为人工智能重要分支知识工程的具体应用体现,不 仅能加深垂直应用领域的智能化程度,还能为用户降低 运营成本、提高系统运作效率。 知识图谱作为人工智能领域的重要基础支撑技术,是资 本市场重点关注对象之一。在资本力量的推动下,一批 以知识图谱技术为核心的创业公司进入到市场中,逐渐 成为市场中的有力竞争者。 充足的数据源是构建高质量知识图谱的重要前提。 目前, 半结构化、非结构化、结构化数据源均越来越丰富,成 为助推知识图谱行业发展的重要力量。在非结构化数据 方面,除网络日志、网页、社交网络等传统开放链接来 源,传感器、定位系统等物联网感知设备亦逐渐成为知 识图谱的重要数据采集源,数据采集渠道进一步拓宽。梁安兴 邮箱:csleadleo 分析师 行业走势图 相关热点报告 综合系列深度研究2019 年中国知识产权基金行业精 品报告 综合系列深度研究2019 年中国知识产权行业概览 综合系列深度研究2019 年中国 IP 版权交易行业市场 研究 1 报告编码19RI0231 目录 1 方法论 . 5 1.1 方法论 . 5 1.2 名词解释 . 5 2 中国知识图谱行业市场综述 . 7 2.1 定义及分类 . 7 2.2 知识图谱技术架构 . 7 2.3 知识图谱发展历程 . 9 2.4 知识图谱产业链分析 . 12 2.4.1 产业链上游 . 13 2.4.2 产业链中游 . 14 2.4.3 产业链下游 . 15 3 中国知识图谱行业驱动因素 . 18 3.1 社会高效化、智能化运作需求促进行业发展 . 18 3.2 资本投入推动行业发展 . 18 3.3 充足数据源助推行业发展 . 20 4 中国知识图谱行业制约因素 . 21 4.1 技术发展遇瓶颈 . 21 4.2 人工维护成本高 . 21 2 报告编码19RI0231 5 中国知识图谱行业相关政策 . 23 6 中国知识图谱行业发展趋势 . 26 6.1 知识图谱和深度学习融合发展 . 26 6.2 知识图谱与区块链结合发展 . 27 6.3 应用领域进一步扩展 . 27 7 中国知识图谱行业竞争格局 . 29 7.1 市场格局 . 29 7.2 典型企业分析达观数据 . 29 7.2.1 企业简介 . 29 7.2.2 产品服务 . 29 7.2.3 融资情况 . 30 7.2.4 竞争优势 . 31 7.3 典型企业分析知因智慧 . 31 7.3.1 企业简介 . 31 7.3.2 产品服务 . 32 7.3.3 融资情况 . 33 7.3.4 竞争优势 . 34 7.4 典型企业分析智言科技 . 34 7.4.1 企业简介 . 34 3 报告编码19RI0231 7.4.2 产品服务 . 34 7.4.3 融资情况 . 35 7.4.4 竞争优势 . 36 4 报告编码19RI0231 图表目录 图 2-1 知识图谱自底向上技术架构 . 8 图 2-2 知识图谱发展历程 . 10 图 2-3 知识图谱行业产业链 . 13 图 2-4 知识图谱平台服务竞争格局 . 14 图 3-1 部分知识图谱创业公司融资情况 . 19 图 5-1 人工智能相关行业政策 . 24 图 5-2 知识图谱相关行业政策 . 25 图 7-1 达观数据产品服务简介 . 30 图 7-2 达观数据融资情况 . 31 图 7-3 知因智慧产品服务简介 . 33 图 7-4 知因智慧融资情况 . 33 图 7-5 智言科技产品服务简介 . 35 图 7-6 智言科技融资情况 . 36 5 报告编码19RI0231 1 方法论 1.1 方法论 沙利文研究院布局中国市场, 深入研究 10 大行业, 54 个垂直行业的市场变化, 已经积 累了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。 研究院依托中国活跃的经济环境,从人工智能、互联网、大数据等领域着手,研究 内容覆盖整个行业的发展周期,伴随着行业中企业的创立,发展,扩张,到企业走 向上市及上市后的成熟期, 研究院的各行业研究员探索和评估行业中多变的产业模 式,企业的商业模式和运营模式,以专业的视野解读行业的沿革。 研究院融合传统与新型的研究方法, 采用自主研发的算法, 结合行业交叉的大数据, 以多元化的调研方法, 挖掘定量数据背后的逻辑, 分析定性内容背后的观点, 客观 和真实地阐述行业的现状, 前瞻性地预测行业未来的发展趋势, 在研究院的每一份 研究报告中,完整地呈现行业的过去,现在和未来。 研究院秉承匠心研究, 砥砺前行的宗旨, 从战略的角度分析行业, 从执行的层面阅 读行业,为每一个行业的报告阅读者提供值得品鉴的研究报告。 弗若斯特沙利文本次研究于 2019 年 05 月完成。 1.2 名词解释 人工智能Artificial Intelligence,研究、开发用于模拟、延伸和扩展人的智能的理 论、方法、技术及应用系统。 知识工程人工智能的一个技术分支,研究知识信息处理,提供开发智能系统的技 6 报告编码19RI0231 术。 机器学习人工智能的一个技术分支,主要研究计算机如何模拟或实现人类的学习 行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 深度学习多层神经网络上运用各种机器学习算法解决图像、文本等各种问题的算 法集合。 群体智能互联网用户自建知识词条, 公开发布知识内容, 实现知识源之间相互链接 的知识共享网络。 结构化数据经筛选和整理、可直接进行数据库读写且置信度较高的数据。 非结构化数据结构不规则或不完整,没有预定义的数据。 半结构化数据以 web 形式显示,处于结构化和非结构化之间的数据。 万维网 Web1.0一个由众多互相链接的超文本组成的系统,通过互联网访问和运 行。 开放链接知识库Linked Open Data, 语义数据网络项目,通过分布式知识共享在 不同数据源之间创建语义数据关联。 联结主义人工智能领域的一个研究方向,主张大脑是一切智能活动的基础。 符号主义人工智能领域的一个研究方向, 主张人工智能源于数理逻辑, 人类的认知 过程是各种符号进行运算的过程。 网络爬虫按照一定的规则,自动抓取互联网信息的程序或者脚本。 召回率检索出的相关文档数和文档库中所有的相关文档数的比率。 7 报告编码19RI0231 2 中国知识图谱行业市场综述 2.1 定义及分类 知识图谱指对现实世界事物之间的相互关系进行形式化描述的结构化语义知识网络。 “实体-关系-实体” 、 “实体-属性-属性值”三元组是知识图谱的基础表达方式,其中包含实 体、 概念、 属性、 属性值、 关系等元素。 实体指具有可区别性且独立存在的事物, 如 “中国” 、 “比尔盖茨”等;概念指具有同种特性的实体构成的集合,如“国家” 、 “民族”等;属性指 实体具有的特征、特性、特点,如“面积” 、 “性别” 、 “生日”等;属性值指实体指定属性的 值,如“960 万平方公里” 、 “男” 、 “1988 年 5 月 17 日”等;关系指实体之间的关联描述, 如“妻子” 、 “朋友” 、 “首都”等。知识图谱以实体或概念作为节点,关系或属性作为边,形 成语义知识网络图。 知识图谱的应用价值主要体现在通过图形的方式向用户展示经整理加工的结构化知识。 知识图谱是人工智能重要分支知识工程在大数据环境中的应用体现, 已广泛应用到金融反欺 诈、公安情报分析、流程自动化、智能客服等多个场景,逐渐成为人工智能发展的核心驱动 力之一。 知识图谱根据覆盖范围的不同可分为通用知识图谱和行业知识图谱。 通用知识图谱覆盖范围广, 包含大量实体, 以常识性的百科知识为主, 注重知识的广度, 通常采用自顶向下的方法构建知识网络, 面向广大互联网普通用户, 主要用于搜索引擎。 行业知识图谱指向一个特定领域, 注重知识的深度, 而非广度, 基于特定行业的数据来 构建网络,面向特定行业从业人员,具有丰富的实体属性和数据模式。 2.2 知识图谱技术架构 知识图谱有自顶向下和自底向上两种构建方式。 自顶向下构建指利用百科类网站等结构 8 报告编码19RI0231 化知识库定义本体和数据模式, 再逐步将实体加入到知识库中。 自底向上指从公开信息数据 渠道提取实体,选择其中置信度较高的,通过人工审核后再加入到知识库中。目前,采用自 底向上方式构建的知识图谱较为常见。 构建自底向上的知识图谱需经过三个步骤, 分别为信息抽取、 知识融合和知识加工 (见 图 2-1 图 2-1 知识图谱自底向上技术架构) 。 图 2-1 知识图谱自底向上技术架构 来源:沙利文研究院绘制 信息抽取指从半结构化和非结构化数据中提取出实体、 属性、 关系等结构化信息的技术, 包括实体抽取、属性抽取、关系抽取。实体抽取指从原始文本数据中自动识别出命名实体。 实体是知识图谱中最基本元素, 实体获取的准确率和召回率对知识库质量影响极大, 实体抽 取因此成为信息抽取中最为关键部分。关系抽取指从文本语料中提取实体之间的关联关系, 实现实体间语义连接。 属性抽取指从文本数据中提取实体的属性信息, 由于实体的属性可以 看作实体和属性值之间的名词性关系,属性抽取可以转化成关系抽取。 知识融合指在信息抽取后对知识进一步清理和整合以确保知识质量的过程, 包括数据整 合、 实体对齐、 指代消解等。 数据整合指将来源于第三方数据库或其他渠道的结构化数据进 9 报告编码19RI0231 一步整合。 实体对齐指用于消除实体歧义问题的技术, 现实语料中常出现实体歧义问题, 如 “李娜” 可以对应作为歌手的李娜实体, 也可对应作为网球运动员的李娜实体, 目前主要采 用聚类法应对实体歧义问题。 指代消解指用于解决多个指称项对应同一实体问题, 在实际语 料中常出现多个代词,如“She” 、 “Her”等,可能指向同一实体对象,利用指代消解可以 将指称项合并到正确实体上。 知识加工指在知识融合后进一步将知识结构化和网络化的过程, 包括本体构建、 知识推 理、质量评估等。本体指对概念及其之间关系进行形式化、明确化定义,具有树状结构,在 知识图谱中用于描述概念层次体系。 知识推理指在已有知识库实体关系数据中, 通过计算推 理来挖掘隐含知识, 建立实体间新的关联, 从而进一步拓展知识网络。 质量评估是对知识进 入知识库前的质量鉴定过程,保留置信度较高的,舍弃置信度较低的,以确保知识的质量。 2.3 知识图谱发展历程 知识图谱发源于人工智能重要分支知识工程,知识图谱的发展历程最早可追溯到 20 世 纪 50 年代,人工智能诞生并初步发展,20 世纪 70 年代至 90 年代,人工智能领域专家认 识到知识对于人工智能发展的重要性,知识工程诞生并迅速发展。在 1990 至 2000 年间, 万维网 Web1.0 的产生为大众提供了开放平台,为互联网环境下大规模知识表示和共享奠 定了基础。 在 2000 至 2012 年间, 万维网使得知识从封闭走向开放, 从集中式变为分布式, 群体智能由此出现, 典型代表为维基百科, 群体智能亦成为以后大规模结构化知识图谱的重 要前提。2012 年,谷歌推出“知识图谱”项目产品,标志着知识图谱正式诞生,知识工程 进入发展新时期。 10 报告编码19RI0231 图 2-2 知识图谱发展历程 来源:沙利文研究院绘制 早期人工智能(1950-1970 年) 1950 年,英国数学家、逻辑学家艾伦图灵提出图灵测试,为人工智能的诞生作出了铺 垫。1956 年,人工智能正式诞生于美国达特茅斯会议,人工智能自此进入初步发展阶段, 关注度不断提升。 这一阶段以符号主义和联结主义为主导, 符号主义认为智能行为的本质是 物理符号的操作和运算, 联结主义则认为大脑 (神经元及其连接机制) 是一切智能活动的基 础。这一时期的知识表示方法主要有逻辑知识表示、产生式规则等。 知识工程(1970-1990 年) 20 世纪 70 年代初,人工智能遇到了发展瓶颈,过于强调利用人的求解问题能力而忽 视知识对智能的支持, 令人工智能难以实现实际应用。 在此背景下, 人工智能领域专家逐渐 认识到知识对于人工智能发展的重要性, 人工智能开始转向建立基于知识的系统。 1977 年, 美国科学家爱德华费根鲍姆提出知识工程的定义,明确了知识工程在人工智能发展中的关 键地位, 知识工程自此进入快速发展期, 这一时期涌现出一批通过知识库和推理机混合作用 实现智能的专家系统和开发平台。 万维网 Web1.0(1990-2000 年) 在 1990 至 2000 年间,万维网 Web 1.0 逐渐兴起,成为大众共享信息的公共平台, 一批人工构建大规模知识库亦在此背景下出现, 如英文的 WordNet, 中文的 HowNet 等。 11 报告编码19RI0231 1998 年, 万维网之父蒂姆伯纳斯李提出语义网, 语义网直接向机器提供可直接用于程序处 理的知识表示,是自然语言处理的前身。万维网 Web 1.0 开启了知识共享时代,为互联网 环境下大规模知识表示和共享奠定了基础。 群体智能(2000-2012 年) 在 2000 至 2012 年间,万维网使知识从封闭走向开放,从集中式变为分布式,知识可 以由知识源之间的关联产生,而非只能固定由专家系统内部定义产生,群体智能由此出现, 典型代表为维基百科, 知识可以由用户建立, 互联网大众用户可对知识库的建立和完善作出 贡献,群体智能亦成为后一阶段大规模结构化知识图谱的重要前提。 知识图谱(2012 年-至今) 2012 年,谷歌收购机器可读知识库 Freebase 后推出“知识图谱”产品,标志着知识 图谱正式诞生。此后,DBpedia、Knowitall、Conceptnet 等知识图谱在市场中涌现,这些 知识图谱包含大量实体、关系、属性、属性值等,规模均达亿级以上,形成庞大语义知识网 络,在多个场景体现出广泛应用价值。 2.4 中国知识图谱行业市场规模 在中国知识图谱产品市场中, 百度百科、 互动百科等通用知识图谱库逐步完善, 关注度 不断提升,使知识图谱技术进一步得到认可,而在行业知识图谱产品方面,明略数据、达观 数据等一批以知识图谱技术为核心的初创型企业注重在垂直领域深耕, 研发出针对金融、 客 服、 医疗等行业的定制化知识图谱应用产品, 用户数量不断提高, 加快知识图谱产品商用化 的发展步伐。 根据沙利文数据显示, 中国知识图谱行业市场规模从 2014 年的 10.7 亿元增长至 2018 年的 87.7 亿元,年复合增长率为 69.1%。随着知识图谱技术的不断完善、行业知识图谱产 品的种类不断增多, 知识图谱产品的市场认可度将逐步提高, 各领域对知识图谱产品的需求 12 报告编码19RI0231 也将不断提升,有望推动行业进一步规模化发展。 图 2-3 中国知识图谱行业市场规模,2014 至 2023 年预测 来源: fsTEAM 软件采编,沙利文数据中心编制 2.5 知识图谱产业链分析 知识图谱行业产业链中,上游参与者为数据提供方,中游参与者为知识图谱服务平台, 下游为最终用户(见图 2-4) 。上游的数据提供方从各类型数据来源处采集、挖掘数据,并 进行预处理, 完成数据前期结构化。 中游的知识图谱服务平台负责知识图谱构建并提供具体 应用场景服务。下游主体为知识图谱的最终用户,包括企业、政府、个人等。 13 报告编码19RI0231 图 2-4 知识图谱行业产业链 来源:沙利文研究院绘制 2.5.1 产业链上游 知识图谱行业产业链上游的数据提供方主要负责从各类数据来源处采集、 挖掘数据, 并 对数据进行预处理和前期结构化, 数据来源除了包括社交网络、 网络日志、 网页等互联网公 开渠道,还包括定位系统、传感器等物联网感知设备。根据特定业务需要,数据提供方还会 从知识图谱平台服务商的客户处采集数据, 对数据进行前期结构化处理, 再将数据转送给知 识图谱服务平台进行下一步的知识图谱构建。 目前,较大部分知识图谱服务平台均自建前期数据服务团队进行前期数据采集、挖掘、 预处理,再根据实际业务需要从第三方数据服务商处购买相关数据服务来完善前期数据库。 因此, 数据提供方主要可分为知识图谱平台自建数据库和第三方数据库。 知识图谱平台自建 数据库典型代表为天眼查、 企查查等工商信息服务商, 这类服务商通过网络爬虫等技术从互 联网公开渠道采集、 挖掘企业的工商信息搭建前期数据信息库并进行预处理, 完成初步结构 化后再利用知识图谱技术构建企业的工商信息知识图谱。 14 报告编码19RI0231 第三方数据库主要可分为两种, 一种根据特定业务需求从非结构化文本数据中采集、 挖 掘数据,另一种是预先建成的结构化、半结构化数据库。开放链接知识库是结构化、半结构 化数据库的典型代表, 包括面向通用领域的 DBpedia、 Wikidata、 YAGO, 也包括面向垂直 领域的 IMDB、豆瓣等。开放链接知识库已将非结构化数据转化成半结构化、结构化数据, 包含大量实体、属性等数据,是构建知识图谱的重要数据来源。 2.5.2 产业链中游 知识图谱行业产业链中游的知识图谱服务平台主要负责构建知识图谱和提供具体场景 应用服务, 是知识图谱产业链生态中的关键主体。 知识图谱服务平台将来自上游数据提供方 的初步结构化数据进行信息抽取、知识融合、知识加工,逐步构建起知识图谱,再为下游最 终用户提供具体场景应用服务,应用领域包括金融、客服、工业、科研、医疗等。 目前, 知识图谱产业链中游市场较为活跃, 竞争者主要包括互联网巨头旗下的知识图谱 平台、传统解决方案商旗下知识图谱平台和初创型知识图谱平台(见图 2-5) 。 图 2-5 知识图谱平台服务竞争格局 来源:沙利文研究院绘制 15 报告编码19RI0231 百度、阿里巴巴、腾讯等互联网巨头均布局了知识图谱相关业务,如百度的“知心” 、 腾讯的“星图” 、阿里巴巴的商品知识图谱等,互联网巨头在技术团队组建、大数据处理等 方面经验较丰富、优势较为明显,成为知识图谱平台服务的第一梯队。 传统解决方案商也是知识图谱平台服务的重要竞争者,东软、北大医信、鼎富科技、中 兴等传统解决方案商以解决方案为出发点, 将知识图谱技术嵌入到解决方案场景当中, 以提 升解决方案产品质量。 以知识图谱平台服务为核心的初创型企业也逐步进入市场, 参与到市场竞争中, 如明略 数据、竹间智能、达观数据等。相比互联网巨头旗下的知识图谱平台,初创型知识图谱平台 更注重在金融、客服、医疗等垂直领域深耕,而非通用性。初创型知识图谱平台发展迅速, 在垂直领域应用服务水平不断提升,逐渐成为市场有力竞争者。 2.5.3 产业链下游 知识图谱行业产业链下游主体为知识图谱服务的最终用户,包括企业、政府、个人等。 中游的知识图谱服务平台为下游的最终用户提供具体应用场景服务, 目前, 应用场景以金融 反欺诈、智能客服、医疗辅助诊断等居多。 金融反欺诈的应用用户主要为金融机构, 如银行、 贷款公司等, 通过知识图谱技术可将 借款人的基本信息、消费记录、人际关系、通话记录等相关信息进一步结构化,从而可以对 借款风险进行更到位的评估和分析。 智能客服的应用用户主要为政府和各类型企业, 知识图谱可以为政府、 各类企业的咨询 类业务梳理业务逻辑结构,搭建起清晰的信息反馈框架,提高智能客服服务质量。 医疗辅助诊断的应用用户主要为医疗机构, 通过知识图谱技术可以将庞杂的疾病、 症状、 临床表现、身体部分、体检手段等医疗信息数据进一步结构化,形成知识网络,医疗机构根 据症状和疾病的关系推测患者可能患有的疾病, 根据疾病可能性推荐就诊科室、 检查检验方 16 报告编码19RI0231 案,提高医疗工作效率。 除金融反欺诈、 智能客服、 医疗辅助诊断等应用场景, 知识图谱的应用场景还在不断拓 展,知识图谱在科研、工业、安防等领域亦有广阔应用发展前景。 目前, 知识图谱的最终用户以政府和企业居多, 包括公安机关、 金融机构、 医疗机构等, 而个人用户相对较少, 个人用户主要在信息查询等场景参与应用, 如天眼查、 企查查等工商 信息查询服务, 通过工商信息知识图谱更直接、 清晰地了解股权架构、 任职关系等企业工商 背景信息。 17 报告编码19RI0231 18 报告编码19RI0231 3 中国知识图谱行业驱动因素 3.1 社会高效化、智能化运作需求促进行业发展 随着科技发展进步, 高效化、 智能化已成为社会发展的重要趋势, 而知识图谱作为人工 智能重要分支知识工程的具体应用体现, 不仅能加深垂直应用领域的智能化程度, 还能为用 户降低运营成本、提高系统运作效率,切合社会高效化、智能化的发展需求。社会高效化、 智能化的发展趋势促使社会对知识图谱技术的需求逐步提高, 知识图谱行业发展空间将逐步 扩大。 以知识图谱在医疗行业的应用为例,医疗信息系统中储存着疾病、病症、临床表现、体 检手段等海量、异构、动态的医疗大数据,利用知识图谱技术能有效组织、管理繁杂的医疗 信息数据,提高医疗系统的智能化水平,使其更接近于人类的认知思维。目前,医学知识图 谱主要用于医疗辅助诊断、临床决策支持、医疗问答等。根据“疾病-症候-特征”等医学基 本表达三元组, 医疗机构能初步判断患者可能患有的疾病并据此推荐就诊科室、 检查检验方 案等。 根据初步诊断结果, 医疗机构还能获取自动生成的临床决策支持方案, 对医生的诊疗 方案进行智能化分析,有效降低误诊率,实现高效化、智能化水平双提高。医疗问答系统将 给定问题细化和分解, 然后逐一从知识库抽取匹配的答案, 并自动检测答案在时间和空间上 的吻合度,最后将答案合并,以直观方式展示给用户,实现智能问答,优化服务体验。 除医疗领域,知识图谱