2019中国人工智能发展报告.pdf
2019人工智能发展 报告2019 Report of Artificial Intelligence Development清华 大学 -中国 工程 院知 识智 能 联合 研究 中心中国 人工 智能 学会 吴文 俊 人工 智能 科学 技术 奖评 选基 地2019 年编写委员会(按姓氏 拼音 排序) 主 编:李涓子 唐 杰 编 委: 曹 楠 程 健 贾 珈 李国良 刘华平 宋德雄 喻 纯 余有成 朱 军 刘 佳 编 程时伟 韩 腾 侯 磊 刘德兵 骆昱宇 麻晓娟 仇 瑜 王若琳 责任编辑:景 晨技术支持 : 崔 义 言辑: 毕小俊刘 越徐 菁电 子 版: 2019中国人工智能发展报告下载链接:pan.baidu/s/1slKE4WxsWvTy8kVjm6huiQ提 取 码:z4nn1 1 编制概要 1 1.1 编制背景 1 1.2 编制目标与方法 3 2 机器学习 4 2.1 机器学习概念 4 2.2 机器学习发展历史 6 2.3 机器学习经典算法 7 2.4 深度学习 21 2.4.1 卷积神经网络 24 2.4.2 AutoEncoder 26 2.4.3 循环神经网络 RNN 28 2.4.4 网络表示学习与图神经网络( GNN) 30 2.4.5 增强学习 32 2.4.6 生成对抗网络 34 2.4.7 老虎机 35 2.5 人才概况 37 2.6 代表性学者简介 39 2.6.1 国际顶级学者 40 2.6.2 国内知名学者 50 2.7 论文解读 60 2.7.1 ICML 历年最佳论文解读 63 2.7.2 NeurlPS 历年最佳论文解读 71 3 计算机视觉 85 3.1 计算机视觉概念 85 3.2 计算机视觉发展历史 87 3.3 人才概况 89 3.4 论文解读 91 3.5 计算机视觉进展 105 4 知识工程 107 4.1 知识工程概念 107 4.2 知识工程发展历史 108 4.3 人才概况 111 4.4 论文解读 113 4.5 知识工程最新进展 129 5 自然语言处理 131 5.1 自然语言处理概念 131 5.2 自然语言的理解发展历史 132 5.3 人才概况 133 5.4 论文解读 136 5.5 自然语言处理最新进展 153 6 语音识别 155 6.1 语音识别概念 155 6.2 语音识别发展历史 156 6.3 人才概况 158 6.4 论文解读 160 6.5 语音识别进展 173 7 计算机图形学 175 7.1 计算机图形学概念 175 7.2 计算机图形学发展历史 175 7.3 人才概况 178 7.4 论文解读 181 7.5 计算机图形学进展 194 8 多媒体技术 197 8.1 多媒体概念 197 8.2 多媒体技术发展历史 198 8.3 人才概况 200 8.4 论文解读 203 8.5 多媒体技术进展 215 9 人机交互技术 217 9.1 人机交互概念 217 9.2 人机交互发展历史 218 9.2.1 简单人机交互 218 9.2.2 自然人机交互 219 9.3 人才概况 222 9.4 论文解读 225 9.5 人机交互进展 239 10 机器人 241 10.1 机器人概念 241 10.2 机器人发展历史 242 10.3 人才概况 245 10.4 论文解读 247 10.5 机器人进展 260 11 数据库技术 263 11.1 数据库概念 263 11.2 数据库技术历史 264 11.3 人才概况 266 11.4 论文解读 269 11.5 数据库技术重要进展 287 12 可视化技术 289 12.1 可视化技术概念 289 12.2 可视化技术发展历史 290 12.3 人才概况 294 12.4 论文解读 296 12.5 可视化进展 313 12.6 可视化应用 315 12.6.1 社交媒体可视化 315 12.6.2 体育数据可视化 316 12.6.3 医疗数据可视化 318 3 13 数据挖掘 321 13.1 数据挖掘概念 321 13.2 数据挖掘的发展历史 323 13.3 人才概况 324 13.4 论文解读 326 13.5 数据挖掘进展 337 14 信息检索与推荐 339 14.1 信息检索与推荐概念 339 14.2 信息检索和推荐技术发展历史 341 14.3 人才概况 345 14.4 论文解读 348 14.5 信息检索与推荐进展 362 15 结束语 365 参考文献 366 附录 372 编制概要 1 1 编制概要 1.1 编制背景 21 世纪前两个十年,在大规模 GPU 服务器并行计算、大数据、深度学习算法和类脑芯片等技术的推动下,人类社会相继进入互联网时代、大数据时代和人工智能时代。当前,随着移动互联网发展红利逐步消失,后移动时代已经来临。当新一轮产业变革席卷全球,人工智能成为产业变革的核心方向:科技巨头纷纷把人工智能作为后移动时代的战略支点,努力在云端建立人工 智能服务的生态系统;传统制造业在新旧动能转换 ,将人工智能作为发展新动力,不断创造出新的发展机遇。 现今,人工智能的发展对国民经济具有重要意义,人工智能通过 综合 各生产要素作用于国民经济活动, 有利于 提高生产力水平,助力实体经济发展, 主要 表现在 以下 四 个 方面:一是人工智能可以依托大数据,对庞大的信息资源进行处理,分析得到有效数据,避免了错误的经济决策, 推进 经济持续稳定的发展。二是人工智能可以通过智能化的精准控制来达到减少资源浪费 、 提高生产水平和生产效率的目的。三是人工智能可以赋能于商业生态,以电能为动力源的人工智能可以做到减少碳排放,达到节能环保的效果。四是在人工智能 的 驱动下,产业经济与信息经济相互整合,改变了传统的“需求 -设计 -制造 -销售 -服务”的生产模式 。由于 互联网等信息技术的应用,使得不同产业间的关 联关系不断改变,新的产业不断涌现,跨界和融合发展成为产业 生 态的重要特征,提高了经济增长 的 质量,推动了经济整体结构的调整。 人工智能处于第四次科技革命的核心地位,在 该 领域的竞争意味着一个国家未来综合国力的 较量 。我国在人工智能 领域 的发展上有其独特优势,如稳定的发展环境、充足的人才储备、丰富的应用场景等;同时, 需要 注意 的是, 我国人工智能发展起步较晚, 与 以美国为主的发达国家 相比 还有一定差距。人工智能对于任何国家来说既是机遇又是挑战,世界格局极有可能因 此 而重新洗牌,对于错过前三次科技革命的我国来说,此次机遇尤为重要。 近年来,我国政府高度重视人工智能的发展,相继出台多项战略规划,鼓励指引人工智能的发展。 2015 年,2 国务院关于积极推进“互联网 +”行动的指导意见颁布,提出“人工智能作为重点布局的 11 个领域之一”; 2016 年,在国民经济和社会发展第十三个五年规划纲要(草案)中提出“重点突破新兴领域人工智能技术”; 2017 年, 人工智能写入十九大报告,提出推动互联网、大数据、人工智能和实体经济深度融合; 2018 年,李克强总理在政府工作报告中再次谈及人工智能,提出“加强新一代人工智能研发应用 ” ; 2019 年 ,习近平主席主持召开 中央全面深化改革委员会第七次会议并发表重要讲话,会议审议通过了关于促进人工智能和实体经济深度融合的指导意见。目前, 在多层次战略规划的指导下 ,无论是学术界还是产业界,我国在人工智能国际同行中均有 不错的 表现, 在世界人工智能舞台上 扮演了重要的角色,我国人工智能的发展已驶入快车道。 我国人工智能的发展也离不开人工智能团体组织与先进平台的参与和协助。中国人工智能学会( Chinese Association for Artificial Intelligence, CAAI)成立于1981 年,是经国家民政部正式注册的 我国智能科学技术领域唯一的国家级学会,目前拥有 48 个分支机构,包括 40 个专业委员会和 8 个工作委员会,覆盖了智能科学与技术领域,基本任务是团结全国智能科学技术工作者和积极分子通过学术研究、国内外学术交流、科学普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖励等活动促进我国智能科学技术的发展,为国家的经济发展、社会进步、文明提升、安全保障提供智能化的科学技术服务。科技情报大数据挖掘与服务平台( AMiner) 2006 年上线,经过十多年的建设发展,已收录 2.3 亿篇论文 与 1.3 亿位学者, 吸引了全球 220 个国家 /地区 、 800 多万独立 IP 的访问,年度访问量 1100 万次。 AMiner 平台曾获得 2017 年北京市科学技术奖一等奖, 2013 年中国人工智能学会科学技术进步一等奖。 AMiner 平台已经服务于科技部、中国科协、自然科学基 金委 、北京科委等政府机构,以及腾讯、华为、阿里巴巴、搜狗等企业机构 。人工智能团体组织与先进平台的成立和发展已经成为团结优势资源共同促进人工智能发展的重要力量,见证并融入到了我国人工智能伟业的发展。 2019 人工智能发展报告 技术支持: 13325259802(微信)编制概要 3 1.2 编制目标 与方法 本报告由清华大学知识智能联合研究中心团队负责编写。依托于 AMiner 平台的数据资源及技术挖掘成果生成相关数据报告及图表,邀请清华大学、同济大学等高校专家解读核心技术及提出观点建议。报告遴选 13 个人工智能的重点领域进行重点介绍,包括:机器学习、知识工程、计算机视觉、自然语言处理、语音识别、计算机图形学、多媒体技术、人机交互、机器人、数据库技术、可视化、数据挖掘、信息检索与推荐等。在述说各领域概念及发展情况等内容的基础上,报告着重介绍了各领域人才情况以及对代表性文章的解读。 AMiner 平台推荐了各领域代表性的期刊 /会议,并由专家进行补充,挖掘这些期刊 /会议近 10 年 论文,确定 了 h-index 排名前 2000 的学者 , 构建各领域学者库 。 我们 将这些学者供职机构的位置信息绘制于地图上得到 了 学者分布地图,研究各领域学者在世界及我国的分布规律;同时,我们进一步统计分析了各领域学者性别比例、 h-index 分布等情况 。对于中国在各领域的合作情况也进行了挖掘分析,通过统计中文合作论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的情况。 报告还 选取 这些期刊 /会议上发表的高水平论文 作 为代表,对 近年 来 的 热点及前沿技术进行深度解读,既包括高引论文、最佳论文,又有专家推 荐的代表性工作。解读前沿热点研究问题,深入探讨研究方法,展现最新研究成果。为读者了解近期人工智能相关领域的发展动向、基础及应用研究的代表性成果提供了信息窗口。 当前,人工智能正处在爆发期。我国在人工智能领域的科学技术研究和产业发展起步稍晚,但在最近十余年的时间里抓住了机遇,进入了快速发展阶段。在这个 过程中 ,技术突破和创造性高端人才对人工智能的发展起着至关重要的作用。本报告对人工智能 13 个 领域的人才情况及技术发展等内容进行了挖掘分析,希望能对我国人工智能的发展起到借鉴参考作用。以下各章将对各人工智能领域的基本 概念、发展历史、人才情况、代表性论文解读以及近期重要进展进行详细介绍。 4 2 机器学习 2.1 机器学习概念 机器学习 已经成为了当今的热门话题,但是从机器学习这个概念诞生到机器学习技术的普遍应用经过了漫长的过程。在机器学习发展的历史长河中,众多优秀的学者为推动机器学习的发展 做 出了巨大的贡献。 从 1642 年 Pascal 发明的手摇式计算机,到 1949 年 Donald Hebb 提出的赫布理论 解释学习过程中大脑神经元所发生的变化,都蕴含着机器学习思想的萌芽。 事实上, 1950 年图灵在关于图灵测试的文章中就已提及机器学习的概念 。到了 1952 年, IBM 的 亚瑟 塞 缪尔( Arthur Samuel, 被誉为 “ 机器学习之父 ” )设计了一款可以学习的西洋跳棋程序。它能 够 通过观察棋子的走位来构建新的模型,用 来 提高自己的下棋技巧。 塞缪尔 和这个程序进行多场对弈后发现,随着时间的推移 , 程序的棋艺变得越来越好 1。 塞缪尔 用这个程序推翻了以往 “ 机器无法超越人类,不能像人一样写代码和学习 ” 这一 传统认识。并在 1956 年正式提出 了 “ 机器学习 ” 这一概念。他认为 “ 机器学习是在不直接针对问题进行编程的情况下,赋予计算机学习能力的一个研究领域 ” 。 对机器学习的认识可以从多个方面进行,有着 “ 全球机器学习教父 ” 之称的Tom Mitchell 则将机器学习定义为:对于某类任务 T 和性能度量 P,如果计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善,就称这个计算机程序从经验 E 学习。这些定义都比较简单抽象,但是随着对机器学习了解的深入, 我们 会发现随着时间的变迁,机器学习的 内涵和外延在不断的变化。因为涉及到的领域和应用 很广,发展和变化也相当迅速,简单明了地给出 “ 机器学习 ” 这一概念的定义并不是那么容易。 普遍认为,机器学习( Machine Learning,常简称为 ML)的处理系统和算法是 主要通过找出数据里隐藏的模式进而做出预测的识别模式,它是人工智能( Artificial Intelligence,常简称为 AI)的一个重要子领域,而人工智能 又与更广泛的数据挖掘( Data Mining,常简称为 DM)和知识发现( Knowledge Discovery 2019 人工智能发展报告 技术支持: 13325259802(微信)机器学习 5 in Database,常 简称为 KDD)领域相交叉。 为了更好的理解和区分人工智能( Artificial Intelligence)、机器学习( Data Mining)、数据挖掘( Data Mining)、模式识别( Pattern Recognition)、统计( Statistics)、神经计算( Neuro Computing)、数据库( Databases)、知识发现( KDD)等概念, 特绘制 其交叉关系如 下图 所 示 : 图 2-1 机器学习相关概念的辨识 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。其过程可 以用 下图 简单表示: 图 2-2 机器学 习基本过程