20191201-AMiner-2019人工智能发展报告_394页_9mb.pdf-资源下载-

报告吧 > 资源分类 > PDF文档下载

阅读全文

20191201-AMiner-2019人工智能发展报告_394页_9mb.pdf

资源ID：128949 资源大小：9.74MB 全文页数：394页
资源格式： PDF 下载积分：15金币【人民币15元】

快捷下载

会员登录下载

三方登录下载：

下载资源需要15金币【人民币15元】

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP,下载共享资源

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，既可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

20191201-AMiner-2019人工智能发展报告_394页_9mb.pdf

2019 人工智能发展报告 2019 Report of Artificial Intelligence Development 清华大学 -中国工程院知识智能联合研究中心中国人工智能学会吴文俊人工智能科学技术奖评选基地 2019 年 11 月编写委员会（按姓氏拼音排序）主编：李涓子唐杰编委：曹楠程健贾珈李国良刘华平宋德雄喻纯余有成朱军责任编辑：景晨刘佳编辑：毕小俊程时伟韩腾侯磊刘德兵刘越骆昱宇麻晓娟仇瑜王若琳徐菁技术支持：北京智谱华章科技有限公司 1 1 编制概要 1 1.1 编制背景 1 1.2 编制目标与方法 3 2 机器学习 4 2.1 机器学习概念 4 2.2 机器学习发展历史 6 2.3 机器学习经典算法 7 2.4 深度学习 21 2.4.1 卷积神经网络 24 2.4.2 AutoEncoder 26 2.4.3 循环神经网络 RNN 28 2.4.4 网络表示学习与图神经网络（ GNN） 30 2.4.5 增强学习 32 2.4.6 生成对抗网络 34 2.4.7 老虎机 35 2.5 人才概况 37 2.6 代表性学者简介 39 2.6.1 国际顶级学者 40 2.6.2 国内知名学者 50 2.7 论文解读 60 2.7.1 ICML 历年最佳论文解读 63 2.7.2 NeurlPS 历年最佳论文解读 71 3 计算机视觉 85 3.1 计算机视觉概念 85 3.2 计算机视觉发展历史 87 3.3 人才概况 89 3.4 论文解读 91 3.5 计算机视觉进展 105 4 知识工程 107 4.1 知识工程概念 107 4.2 知识工程发展历史 108 4.3 人才概况 111 4.4 论文解读 113 4.5 知识工程最新进展 129 5 自然语言处理 131 5.1 自然语言处理概念 131 5.2 自然语言的理解发展历史 132 5.3 人才概况 133 5.4 论文解读 136 5.5 自然语言处理最新进展 153 6 语音识别 155 6.1 语音识别概念 155 6.2 语音识别发展历史 156 6.3 人才概况 158 6.4 论文解读 160 6.5 语音识别进展 173 7 计算机图形学 175 7.1 计算机图形学概念 175 7.2 计算机图形学发展历史 175 7.3 人才概况 178 7.4 论文解读 181 7.5 计算机图形学进展 194 8 多媒体技术 197 8.1 多媒体概念 197 8.2 多媒体技术发展历史 198 8.3 人才概况 200 8.4 论文解读 203 8.5 多媒体技术进展 215 9 人机交互技术 217 9.1 人机交互概念 217 9.2 人机交互发展历史 218 9.2.1 简单人机交互 218 9.2.2 自然人机交互 219 9.3 人才概况 222 9.4 论文解读 225 9.5 人机交互进展 239 10 机器人 241 10.1 机器人概念 241 10.2 机器人发展历史 242 10.3 人才概况 245 10.4 论文解读 247 10.5 机器人进展 260 11 数据库技术 263 11.1 数据库概念 263 11.2 数据库技术历史 264 11.3 人才概况 266 11.4 论文解读 269 11.5 数据库技术重要进展 287 12 可视化技术 289 12.1 可视化技术概念 289 12.2 可视化技术发展历史 290 12.3 人才概况 294 12.4 论文解读 296 12.5 可视化进展 313 12.6 可视化应用 315 12.6.1 社交媒体可视化 315 12.6.2 体育数据可视化 316 12.6.3 医疗数据可视化 318 3 13 数据挖掘 321 13.1 数据挖掘概念 321 13.2 数据挖掘的发展历史 323 13.3 人才概况 324 13.4 论文解读 326 13.5 数据挖掘进展 337 14 信息检索与推荐 339 14.1 信息检索与推荐概念 339 14.2 信息检索和推荐技术发展历史 341 14.3 人才概况 345 14.4 论文解读 348 14.5 信息检索与推荐进展 362 15 结束语 365 参考文献 366 附录 372 编制概要 1 1 编制概要 1.1 编制背景 21 世纪前两个十年，在大规模 GPU 服务器并行计算、大数据、深度学习算法和类脑芯片等技术的推动下，人类社会相继进入互联网时代、大数据时代和人工智能时代。当前，随着移动互联网发展红利逐步消失，后移动时代已经来临。当新一轮产业变革席卷全球，人工智能成为产业变革的核心方向：科技巨头纷纷把人工智能作为后移动时代的战略支点，努力在云端建立人工智能服务的生态系统；传统制造业在新旧动能转换，将人工智能作为发展新动力，不断创造出新的发展机遇。现今，人工智能的发展对国民经济具有重要意义，人工智能通过综合各生产要素作用于国民经济活动，有利于提高生产力水平，助力实体经济发展，主要表现在以下四个方面：一是人工智能可以依托大数据，对庞大的信息资源进行处理，分析得到有效数据，避免了错误的经济决策，推进经济持续稳定的发展。二是人工智能可以通过智能化的精准控制来达到减少资源浪费、提高生产水平和生产效率的目的。三是人工智能可以赋能于商业生态，以电能为动力源的人工智能可以做到减少碳排放，达到节能环保的效果。四是在人工智能的驱动下，产业经济与信息经济相互整合，改变了传统的“需求 -设计 -制造 -销售 -服务”的生产模式。由于互联网等信息技术的应用，使得不同产业间的关联关系不断改变，新的产业不断涌现，跨界和融合发展成为产业生态的重要特征，提高了经济增长的质量，推动了经济整体结构的调整。人工智能处于第四次科技革命的核心地位，在该领域的竞争意味着一个国家未来综合国力的较量。我国在人工智能领域的发展上有其独特优势，如稳定的发展环境、充足的人才储备、丰富的应用场景等；同时，需要注意的是，我国人工智能发展起步较晚，与以美国为主的发达国家相比还有一定差距。人工智能对于任何国家来说既是机遇又是挑战，世界格局极有可能因此而重新洗牌，对于错过前三次科技革命的我国来说，此次机遇尤为重要。近年来，我国政府高度重视人工智能的发展，相继出台多项战略规划，鼓励指引人工智能的发展。 2015 年， 2019 人工智能发展报告 2 国务院关于积极推进“互联网 +”行动的指导意见颁布，提出“人工智能作为重点布局的 11 个领域之一”； 2016 年，在国民经济和社会发展第十三个五年规划纲要（草案）中提出“重点突破新兴领域人工智能技术”； 2017 年，人工智能写入十九大报告，提出推动互联网、大数据、人工智能和实体经济深度融合； 2018 年，李克强总理在政府工作报告中再次谈及人工智能，提出“加强新一代人工智能研发应用 ” ； 2019 年，习近平主席主持召开中央全面深化改革委员会第七次会议并发表重要讲话，会议审议通过了关于促进人工智能和实体经济深度融合的指导意见。目前，在多层次战略规划的指导下，无论是学术界还是产业界，我国在人工智能国际同行中均有不错的表现，在世界人工智能舞台上扮演了重要的角色，我国人工智能的发展已驶入快车道。我国人工智能的发展也离不开人工智能团体组织与先进平台的参与和协助。中国人工智能学会（ Chinese Association for Artificial Intelligence， CAAI）成立于1981 年，是经国家民政部正式注册的我国智能科学技术领域唯一的国家级学会，目前拥有 48 个分支机构，包括 40 个专业委员会和 8 个工作委员会，覆盖了智能科学与技术领域，基本任务是团结全国智能科学技术工作者和积极分子通过学术研究、国内外学术交流、科学普及、学术教育、科技会展、学术出版、人才推荐、学术评价、学术咨询、技术评审与奖励等活动促进我国智能科学技术的发展，为国家的经济发展、社会进步、文明提升、安全保障提供智能化的科学技术服务。科技情报大数据挖掘与服务平台（ AMiner） 2006 年上线，经过十多年的建设发展，已收录 2.3 亿篇论文与 1.3 亿位学者，吸引了全球 220 个国家 /地区、 800 多万独立 IP 的访问，年度访问量 1100 万次。 AMiner 平台曾获得 2017 年北京市科学技术奖一等奖， 2013 年中国人工智能学会科学技术进步一等奖。 AMiner 平台已经服务于科技部、中国科协、自然科学基金委、北京科委等政府机构，以及腾讯、华为、阿里巴巴、搜狗等企业机构。人工智能团体组织与先进平台的成立和发展已经成为团结优势资源共同促进人工智能发展的重要力量，见证并融入到了我国人工智能伟业的发展。编制概要 3 1.2 编制目标与方法本报告由清华大学知识智能联合研究中心团队负责编写。依托于 AMiner 平台的数据资源及技术挖掘成果生成相关数据报告及图表，邀请清华大学、同济大学等高校专家解读核心技术及提出观点建议。报告遴选 13 个人工智能的重点领域进行重点介绍，包括：机器学习、知识工程、计算机视觉、自然语言处理、语音识别、计算机图形学、多媒体技术、人机交互、机器人、数据库技术、可视化、数据挖掘、信息检索与推荐等。在述说各领域概念及发展情况等内容的基础上，报告着重介绍了各领域人才情况以及对代表性文章的解读。 AMiner 平台推荐了各领域代表性的期刊 /会议，并由专家进行补充，挖掘这些期刊 /会议近 10 年论文，确定了 h-index 排名前 2000 的学者，构建各领域学者库。我们将这些学者供职机构的位置信息绘制于地图上得到了学者分布地图，研究各领域学者在世界及我国的分布规律；同时，我们进一步统计分析了各领域学者性别比例、 h-index 分布等情况。对于中国在各领域的合作情况也进行了挖掘分析，通过统计中文合作论文中作者的单位信息，将作者映射到各个国家中，进而统计中国与各国之间合作论文的情况。报告还选取这些期刊 /会议上发表的高水平论文作为代表，对近年来的热点及前沿技术进行深度解读，既包括高引论文、最佳论文，又有专家推荐的代表性工作。解读前沿热点研究问题，深入探讨研究方法，展现最新研究成果。为读者了解近期人工智能相关领域的发展动向、基础及应用研究的代表性成果提供了信息窗口。当前，人工智能正处在爆发期。我国在人工智能领域的科学技术研究和产业发展起步稍晚，但在最近十余年的时间里抓住了机遇，进入了快速发展阶段。在这个过程中，技术突破和创造性高端人才对人工智能的发展起着至关重要的作用。本报告对人工智能 13 个领域的人才情况及技术发展等内容进行了挖掘分析，希望能对我国人工智能的发展起到借鉴参考作用。以下各章将对各人工智能领域的基本概念、发展历史、人才情况、代表性论文解读以及近期重要进展进行详细介绍。 2019 人工智能发展报告 4 2 机器学习 2.1 机器学习概念机器学习已经成为了当今的热门话题，但是从机器学习这个概念诞生到机器学习技术的普遍应用经过了漫长的过程。在机器学习发展的历史长河中，众多优秀的学者为推动机器学习的发展做出了巨大的贡献。从 1642 年 Pascal 发明的手摇式计算机，到 1949 年 Donald Hebb 提出的赫布理论解释学习过程中大脑神经元所发生的变化，都蕴含着机器学习思想的萌芽。事实上， 1950 年图灵在关于图灵测试的文章中就已提及机器学习的概念。到了 1952 年， IBM 的亚瑟塞缪尔（ Arthur Samuel，被誉为 “ 机器学习之父 ” ）设计了一款可以学习的西洋跳棋程序。它能够通过观察棋子的走位来构建新的模型，用来提高自己的下棋技巧。塞缪尔和这个程序进行多场对弈后发现，随着时间的推移，程序的棋艺变得越来越好 1。塞缪尔用这个程序推翻了以往 “ 机器无法超越人类，不能像人一样写代码和学习 ” 这一传统认识。并在 1956 年正式提出了 “ 机器学习 ” 这一概念。他认为 “ 机器学习是在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域 ” 。对机器学习的认识可以从多个方面进行，有着 “ 全球机器学习教父 ” 之称的Tom Mitchell 则将机器学习定义为：对于某类任务 T 和性能度量 P，如果计算机程序在 T 上以 P 衡量的性能随着经验 E 而自我完善，就称这个计算机程序从经验 E 学习。这些定义都比较简单抽象，但是随着对机器学习了解的深入，我们会发现随着时间的变迁，机器学习的内涵和外延在不断的变化。因为涉及到的领域和应用很广，发展和变化也相当迅速，简单明了地给出 “ 机器学习 ” 这一概念的定义并不是那么容易。普遍认为，机器学习（ Machine Learning，常简称为 ML）的处理系统和算法是主要通过找出数据里隐藏的模式进而做出预测的识别模式，它是人工智能（ Artificial Intelligence，常简称为 AI）的一个重要子领域，而人工智能又与更广泛的数据挖掘（ Data Mining，常简称为 DM）和知识发现（ Knowledge Discovery 机器学习 5 in Database，常简称为 KDD）领域相交叉。为了更好的理解和区分人工智能（ Artificial Intelligence）、机器学习（ Data Mining）、数据挖掘（ Data Mining）、模式识别（ Pattern Recognition）、统计（ Statistics）、神经计算（ Neuro Computing）、数据库（ Databases）、知识发现（ KDD）等概念，特绘制其交叉关系如下图所示：图 2-1 机器学习相关概念的辨识机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。其过程可以用下图简单表示：图 2-2 机器学习基本过程 2019 人工智能发展报告 6 2.2 机器学习发展历史奠基时期 1950 年，阿兰图灵创造了图灵测试来判定计算机是否智能。图灵测试认为，如果一台机器能够与人类展开对话（通过电传设备）而不能被辨别出其机器身份，那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。 1952， IBM 科学家亚瑟塞缪尔开发的跳棋程序。驳倒了普罗维登斯提出的机器无法超越人类的论断，像人类一样写代码和学习的模式，他创造了“机器学习”这一术语，并将它定义为：“可以提供计算机能力而无需显式编程的研究领域”。瓶颈时期从 60 年代中到 70 年代末，机器学习的发展步伐几乎处于停滞状态。无论是理论研究还是计算机硬件限制，使得整个人工智能领域的发展都遇到了很大的瓶颈。虽然这个时期温斯顿（ Winston）的结构学习系统和海斯罗思（ Hayes Roth）等的基于逻辑的归纳学习系统取得较大的进展，但只能学习单一概念，而且未能投入实际应用。而神经网络学习机因理论缺陷也未能达到预期效果而转入低潮。重振时期伟博斯在 1981 年的神经网络反向传播（ BP）算法中具体提出多层感知机模型。虽然 BP 算法早在 1970 年就已经以“自动微分的反向模型（ reverse mode of automatic differentiation）”为名提出来了，但直到此时才真正发挥效用，并且直到今天 BP 算法仍然是神经网络架构的关键因素。有了这些新思想，神经网络的研究又加快了。在 1985-1986 年，神经网络研究人员相继提出了使用 BP 算法训练的多参数线性规划（ MLP）的理念，成为后来深度学习的基石。在另一个谱系中，昆兰在 1986 年提出了一种非常出名的机器学习算法，我们称之为“决策树”，更具体的说是 ID3 算法。在 ID3 算法提出来以后，研究社区已经探索了许多不改进（如 ID4、回归树、 CART 算法等），这些算法至今仍然活跃在机器学习领域中。机器学习 7 成型时期支持向量机（ SVM）的出现是机器学习领域的另一大重要突破，算法具有非常强大的理论地位和实证结果。那一段时间机器学习研究也分为神经网络（ Neural Network， NN）和 SVM 两派。然而，在 2000 年左右提出了带核函数的支持向量机后， SVM 在许多以前由 NN 占优的任务中获得了更好的效果。此外，SVM 相对于 NN 还能利用所有关于凸优化、泛化边际理论和核函数的深厚知识。因此 SVM 可以从不同的学科中大力推动理论和实践的改进。爆发时期神经网络研究领域领军者 Hinton 在 2006 年提出了神经网络 Deep Learning算法，使神经网络的能力大大提高，向支持向量机发出挑战。 2006 年， Hinton 和他的学生 Salakhutdinov 在顶尖学术刊物 Science上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。 2015 年，为纪念人工智能概念提出 60 周年，LeCun、 Bengio 和 Hinton 推出了深度学习的联合综述。深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示，这些方法在许多方面都带来了显著的改善。深度学习的出现，让图像、语音等感知类问题取得了真正意义上的突破，离实际应用已如此之近 2，将人工智能推进到一个新时代。 2.3 机器学习经典算法机器学习算法可以按照不同的标准来进行分类。比如按函数 f (x， )的不同，机器学习算法可以分为线性模型和非线性模型；按照学习准则的不同，机器学习算法也可以分为统计方法和非统计方法。但一般来说，我们会按照训练样本提供的信息以及反馈方式的不同，将机器学习算法分为以下几类：监督学习（ Supervised Learning）监督学习中的数据集是有标签的，就是说对于给出的样本我们是知道答案的。如果机器学习的目标是通过建模样本的特征 x 和标签 y 之间的关系： f (x， )或p(y|x, )，并且训练集中每个样本都有标签，那么这类机器学习称为监督学习。根 2019 人工智能发展报告 8 据标签类型的不同，又可以将其分为分类问题和回归问题两类。前者是预测某一样东西所属的类别（离散的），比如给定一个人的身高、年龄、体重等信息，然后判断性别、是否健康等；后者则是预测某一样本所对应的实数输出（连续的），比如预测某一地区人的平均身高。我们大部分学到的模型都是属于监督学习，包括线性分类器、支持向量机等。常见的监督学习算法有： k-近邻算法（ k-Nearest Neighbors， kNN）、决策树（ Decision Trees）、朴素贝叶斯（ Naive Bayesian）等。监督学习的基本流程如下图所示：图 2-3 监督学习的基本流程无监督学习（ Unsupervised Learning， UL）跟监督学习相反，无监督学习中数据集是完全没有标签的，依据相似样本在数据空间中一般距离较近这一假设，将样本分类。常见的无监督学习算法包括：稀疏自编码（ sparse auto-encoder）、主成分分析（ Principal Component Analysis, PCA）、 K-Means 算法（ K 均值算法）、 DBSCAN算法（ Density-Based Spatial Clustering of Applications with Noise）、最大期望算法（ Expectation-Maximization algorithm, EM）等。利用无监督学习可以解决的问题可以分为关联分析、聚类问题和维度约减。关联分析是指发现不同事物之间同时出现的概率。在购物篮分析中被广泛地应用。如果发现买面包的客户有百分之八十的概率买鸡蛋，那么商家就会把鸡蛋和面包放在相邻的货架上。聚类问题是指将相似的样本划分为一个簇（ cluster）。与分类问题不同，聚类问题预先并不知道类别，自然训练数据也没有类别的标签。机器学习 9 维度约减：顾名思义，是指减少数据维度的同时保证不丢失有意义的信息。利用特征提取方法和特征选择方法，可以达到维度约减的效果。特征选择是指选择原始变量的子集。特征提取是将数据从高维度转换到低维度。广为熟知的主成分分析算法就是特征提取的方法。非监督学习的基本处理流程如图 2-4 所示：图 2-4 非监督学习的基本流程可可以很清楚的看到相对于监督学习，非监督学习的过程中没有监督者（ Supervisor）的干预。下图是一个典型的监督学习和非监督学习的对比，左图是对一群有标签数据的分类，而右图是对一群无标签数据的聚类。图 2-5 一个典型的监督学习和非监督学习对比半监督学习（ Semi-Supervised Learning）半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习一般针对的问题是数据量大，但是有标签数据少或者说标签数据的获取很难很贵的情况，训练的时候有一部分是有标签的，而有一部分是没有的。与使用所有标签数据的模型相比，使用训练集的训练模型在训练时可以更为准确，而且训练成本更低。常见的两种半监督的学习方式是直推学习（ Transductive learning）和归纳学习（ Inductive learning）。 2019 人工智能发展报告 10 直推学习（ Transductive learning）：没有标记的数据是测试数据，这个时候可以用测试的数据进行训练。这里需要注意，这里只是用了测试数据中的特征（ feature）而没有用标签（ label），所以并不是一种欺骗的方法。归纳学习（ Inductive learning）：没有标签的数据不是测试集。半监督学习的基本流程如图 2-6 所示：图 2-6 半监督学习的基本流程监督学习、半监督学习和非监督学习之间的区别可以用图 2-7 表示：图 2-7 监督学习、半监督学习和非监督学习的简单对比可以看到，图 2-7（ a）中，红色三角形数据和蓝色圆点数据为标注数据；图 2-7（ b）中，绿色的小圆点为非标注数据。图 2-7（ c）显示监督学习将有标签的数据进行分类；而半监督学习如图 2-7（ d）中部分是有标签的，部分是没有标签的，一般而言，半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。机器学习 11 强化学习（ Reinforcement Learning， RL）强化学习从动物学习、参数扰动自适应控制等理论发展而来，基本原理是：如果 Agent 的某个行为策略导致环境正的奖赏 (强化信号 )，那么 Agent 以后产生这个行为策略的趋势便会加强。 Agent 的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。强化学习在机器人学科中被广泛应用。在与障碍物碰撞后，机器人通过传感器收到负面的反馈从而学会去避免冲突。在视频游戏中，可以通过反复试验采用一定的动作，获得更高的分数。 Agent 能利用回报去理解玩家最优的状态和当前应该采取的动作。下图采用一只老鼠来模拟强化学习中的 Agent，其任务是走出迷宫，每走一步都有一个方法来衡量其走的好与坏，基本学习过程是当其走得好的时候就给其一定的奖励（如一块蛋糕）。通过这种方式， Agent 在行动评价的环境中获得知识，改进行动方案以适应环境。图 2-8 强化学习的基本学习流程下面内容对部分机器学习代表算法进行了介绍。线性回归在机器学习中，我们有一组输入变量（ x）用于确定输出变量（ y）。输入变量和输出变量之间存在某种关系，机器学习的目标是量化这种关系。 2019 人工智能发展报告 12 图 2-9 数据集的绘制 x 和 y 值在线性回归中，输入变量（ x）和输出变量（ y）之间的关系表示为 y = ax + b的方程。因此，线性回归的目标是找出系数 a 和 b 的值。这里， a 是直线的斜率，b 是直线的截距。上图显示了数据集的 x 和 y 值，线性回归的目标是拟合最接近大部分点的线。分类与回归树（ CART） CART 是决策树的一个实现方式，由 ID3， C4.5 演化而来，是许多基于树的bagging、 boosting 模型的基础。 CART 可用于分类与回归。 CART 是在给定输入随机变量 x 条件下输出随机变量 y 的条件概率分布，与ID3 和 C4.5 的决策树所不同的是， ID3 和 C4.5 生成的决策树可以是多叉的，每个节点下的叉数由该节点特征的取值种类而定，比如特征年龄分为（青年，中年，老年），那么该节点下可分为 3 叉。而 CART 为假设决策树为二叉树，内部结点特征取值为 “ 是 ” 和 “ 否 ” 。左分支取值为 “ 是 ” ，右分支取值为 “ 否 ” 。这样的决策树等价于递归地二分每一个特征，将输入空间划分为有限个单元，并在这些单元上预测概率分布，也就是在输入给定的条件下输出条件概率分布。随机森林（ Random Forest）随机森林指的是利用多棵决策树对样本进行训练并预测的一种分类器。它包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林是一种灵活且易于使用的机器学习算法，即便没有超参数调优，也可以在大多数情况下得到很好的结果。随机森林也是最常用的算法之一，因为它很简易，既可用于分类也能用于回归。机器学习 13 其基本的构建算法过程如下： 1. 用 N 来表示训练用例（样本）的个数， M 表示特征数目。 2. 输入特征数目 m，用于确定决策树上一个节点的决策结果；其中 m 应远小于 M。 3. 从 N 个训练用例（样本）中以有放回抽样的方式，取样 N 次，形成一个训练集（即 bootstrap 取样），并用未抽到的用例（样本）作预测，评估其误差。 4. 对于每一个节点，随机选择 m 个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这 m 个特征，计算其最佳的分裂方式。 5. 每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后被采用）。一个简单的随机森林算法示意如下：图 2-10 一个简单的随机森林算法示意随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。逻辑回归逻辑回归最适合二进制分类（ y=0 或 1 的数据集，其中 1 表示默认类）例如：在预测事件是否发生时，发生的事件被分类为 1。在预测人会生病或不生病，生病的实例记为 1）。它是以其中使用的变换函数命名的，称为逻辑函数 h(x) =1 / （ 1+e-x），它是一个 S 形曲线。 2019 人工智能发展报告 14 在逻辑回归中，输出是以缺省类别的概率形式出现的。因为这是一个概率，所以输出在 0-1 的范围内。输出（ y 值）通过对数转换 x 值，使用对数函数 h(x) = 1 /（ 1+e-x）来生成。然后应用一个阈值来强制这个概率进入二元分类。图 2-11 逻辑函数曲线图图 2-11 判断了肿瘤是恶性还是良性。默认变量是 y = 1（肿瘤 =恶性）； x 变量可以是肿瘤的信息，例如肿瘤的尺寸。如图所示，逻辑函数将数据集的各种实例的 x 值转换成 0 到 1 的范围。如果概率超过阈值 0.5（由水平线示出），则将肿瘤分类为恶性。逻辑回归的目标是使用训练数据来找到系数 b0 和 b1 的值，以使预测结果与实际结果之间的误差最小化。这些系数是使用最大似然估计来计算的。朴素贝叶斯（ Naive Bayesian）朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。通过以上定理和“朴素”的假定，我们知道： P(Category | Document) = P(Document | Category ) * P(Category) / P(Document) 朴素贝叶斯的基本方法：在统计数据的基础上，依据条件概率公式，计算当前特征的样本属于某个分类的概率，选择最大的概率分类。机器学习 15 对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。其计算流程表述如下：（ 1） x = a1, a2,., am为待分类项，每个 ai 为 x 的一个特征属性（ 2）有类别集合 C = y1, y2, ., yn （ 3）计算 P(y1|x), P(y2|x), ., P(yn|x) （ 4）如果 P(yk|x) = maxP(y1|x) k 最近邻（ kNN） kNN（ k-Nearest Neighbor）的核心思想是如果一个样本在特征空间中的 k 个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN 方法在做类别决策时，只与极少量的相邻样本有关。由于 kNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN 方法较其他方法更为适合。 kNN 算法不仅可以用于分类，还可以用于回归。通过找出一个样本的 k 个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。如下图是 kNN 算法中， k 等于不同值时的算法分类结果：图 2-12 kNN 算法简单示例简单来说， kNN 可以看成：有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后挑离这个训练数 2019 人工智能发展报告 16 据最近的 k 个点，看看这几个点属于什么类型，然后用少数服从多数的原则，给新数据归类。 AdaBoost Adaptive Boosting 或称为 AdaBoost，是多种学习算法的融合。它是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器 (弱分类器 )，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器 )。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最终的决策分类器。 AdaBoost 是最常用的算法。它可用于回归或者分类算法。相比其他机器学习算法，它克服了过拟合的问题，通常对异常值和噪声数据敏感。为了创建一个强大的复合学习器， AdaBoost 使用了多次迭代。因此，它又被称为 “ Adaptive Boosting” 。通过迭代添加弱学习器， AdaBoost 创建了一个强学习器。一个新的弱学习器加到实体上，并且调整加权向量，作为对前一轮中错误分类的样例的回应。得到的结果，是一个比弱分类器有更高准确性的分类器。图 2-13 AdaBoost 执行 AdaBoost 有助于将弱阈值的分类器提升为强分类器。上面的图像描述了AdaBoost 的执行，只用了简单易于理解的代码在一个文件中就实现了。这个函机器学习 17 数包含一个弱分类器和 boosting 组件。弱分类器在一维的数据中尝试去寻找最理想的阈值来将数据分离为两类。 boosting组件迭代调用分类器，经过每一步分类，它改变了错误分类示例的权重。因此，创建了一个级联的弱分类器，它的行为就像一个强分类器。目前，对 Adaboost 算法的研究以及应用大多集中于分类问题，同时近年也出现了一些在回归问题上的应用。 Adaboost 系列主要解决了：两类问题、多类单标签问题、多类多标签问题、大类单标签问题和回归问题。它用全部的训练样本进行学习。 K-均值算法（ K-Means） K-均值是著名聚类算法，它找出代表聚类结构的 k 个质心。如果有一个点到某一质心的距离比到其他质心都近，这个点则指派到这个最近的质心所代表的簇。依次，利用当前已聚类的数据点找出一个新质心，再利用质心给新的数据指派一个簇。图 2-14 K-均值算法图示 K-均值算法在上图中用 “ x” 表示聚类质心，用点表示训练样本： a) 原始数据集 b) 随机初始化聚类质心 2019 人工智能发展报告 18 c) (c-f)k-均值迭代 2 次的示意图在每次迭代中每个训练样例都被指派到一个最近的聚类质心，每个聚类质心被移动到分配给它的点的平均值的位置。支持向量机（ SVM) 支持向量机（ Support Vector Machine, SVM）是一类按监督学习（ supervised learning）方式对数据进行二元分类（ binary classification）的广义线性分类器（ generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（ maximum-margin hyperplane）。基本思想是：找到集合边缘上的若干数据（称为支持向量（ Support Vector），用这些点找出一个平面（称为决策面），使得支持向量到该平面的距离最大。由简至繁的 SVM 模型包括：当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；在分类问题中，很多时候有多个解，如下图左边所示，在理想的线性可分的情况下其决策平面会有多个。而 SVM 的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大， SVM 算法计算出来的分界会保留对类别最大的间距，即有足够的余量，如下图右边所示。图 2-15 SVM 的决策平面机器学习 19 在解决线性不可分问题时，它可以通过引入核函数，巧妙地解决了在高维空间中的内积运算，从而很好地解决了非线性分类问题。如下图所示，通过核函数的引入，将线性不可分的数据映射到一个高纬的特征空间内，使得数据在特征空间内是可分的。如下图所示：图 2-16 SVM 的核函数人工神经网络 ANN（ Artificial Neural Network）人工神经网络 ANN（ Artificial Neural Network）是由大量处理单元互联组成的非线性、自适应信息处理系统。它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。其基本过程可以概述如下：外部刺激通过神经末梢，转化为电信号，传导到神经细胞（又叫神经元）；无数神经元构成神经中枢；神经中枢综合各种信号，做出判断；人体根据神经中枢的指令，对外部刺激做出反应。其过程表述如下图所示：图 2-17 神经网络的传导过程 2019 人工智能发展报告 20 人工神经网络经历了漫长的发展阶段。最早是上个世纪六十年代提出的“人造神经元”模型，叫做“感知器”（ perceptron）。感知机模型是机器学习二分类问题中的一个非常简单的模型。它的基本结构如下图所示：图 2-18 感知机随着反向传播算法、最大池化（ max-pooli

注意事项

本文（20191201-AMiner-2019人工智能发展报告_394页_9mb.pdf）为本站会员（科研）主动上传，报告吧仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知报告吧（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？