2011-2020人工智能发展报告.pdf
人工智能发展报告 2020 人工智能发展报告 领略人工智能十年变迁,洞察科技前沿情报 清华大学人工智能研究院 清华 -中国工程院知识智能联合研究中心 北京智源人工智能研究院 Report on Artificial Intelligence Development 2020 人工智能发展报告 2020 I 核心发现 1. 科技情报大数据挖掘与服务系统平台 AMiner 评选出过去十 年 十大 AI 研究热点, 分别为:深度神经网络、特征抽取、图像分 类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、 协同过滤和机器翻译。 2. 过去十年有 5 位人工智能领域学者获得图灵奖殊荣,分别是 在 计算理论 做出重要 贡献 的 Leslie Valiant ,通过概率和因果推理 促进人工智能发展的 Judea Pearl,以及在深度神经网络概念和工程 上做出重大突破的 Yoshua Bengio、 Geoffrey Hinton 和 Yann LeCun。 3. 过去十年人工智能国际顶刊顶会 的最佳论文奖项较多授予的 领域是 计算理论、安全与隐私 和 机器学习 。 4. 人工智能不同子领域论文的最高引用量量级跨度很大。最高 引用量前十的论文研究主题以机器学习为首,其次是计算机视觉领 域研究,二者的论文引用率均达到 25 万次以上。 5. 中国在自然语言处理、芯片技术、机器学习、信息检索与挖 掘等 10 多个 AI 子领域的科研产出水平都紧随美国之后,居于世界 人工智能发展报告 2020 II 前列;在多媒体 与 物联网领域的论文产出量超过美国 , 居于全球第 一;而在人机 交互、知识工程、机器人、计算机图形、计算理论领 域,中国还需努力追赶。 6. 全球范围内,美国 AI 高层次学者的数量最多,占比 62.2%,是第二位国家 (中国) AI 高层次学者数量的 6 倍以上。 7. 清华大学 是唯一入选全球人工智能领域高层次学者数量 TOP10 的中国机构。 8. 国内人工智能领域高层次人才主要分布在京津冀、长三角和 珠三角地区。四成以上的 AI 高层次人才集聚在北京。 9. 过去十年全球人工智能专利申请量 521264。中国专利申请 量为 389571,位居世界第一,占全球总量的 74.7%,是排名第二 的美国专利申 请量的 8.2 倍。 10. 人工智能未来重点发展的技术方向包括:强化学习、神经 形态硬件、知识图谱、智能机器人、可解释性 AI、数字伦理、知识 指导的自然语言处理等。 人工智能发展报告 2020 III 目录 1 前言 . 1 2 报告相关说明 . 3 2.1 研究方法 . 3 2.2 研究领域划分 . 4 2.3 研究范围:国际顶级期刊和会议 . 6 3 人工智能发展历程 . 7 3.1 人工智能的三次发展浪潮 . 7 3.2 人工智能理论三个阶段 . 10 3.3 人工智能技术发展脉络 . 12 3.4 人工智能技术成熟度 . 14 4 人工智能过去十年研究进展 . 21 4.1全球高水平论文发表情况 . 21 4.2获得图灵奖的人工智能技术 . 23 4.3媒体评选出的重大人工智 能技术 . 28 4.4国际顶会顶刊最佳论文授予领域分析 . 32 4.5国际顶会顶刊领域高影响力论文分析 . 36 4.6 AMiner:过去十年十大人工智能研究热点 . 43 1. 深度神经网络 . 44 2. 特征抽取 . 45 3. 图像分类 . 45 4. 目标检测 . 46 5. 语义分割 . 46 6. 表示学习 . 47 7. 生成对抗网络 . 47 8 语义网络 . 48 9. 协同过滤 . 48 10. 机器翻译 . 49 5 人工智能子领域研究现状与趋势 . 50 人工智能发展报告 2020 IV 5.1 机器学习 . 50 5.1.1 机器学习概念 . 50 5.1.2 机器学习过去十年主要进展 . 52 5.1.3 机器学习经典算法 . 52 5.1.4 深度学习主要模型 . 67 5.1.5 机器学习技术研究趋势 . 83 5.2 自然语言处理 . 84 5.2.1 自然语言处理概念 . 84 5.2.2 自然语言处理过去十年主要进展 . 86 5.2.3 自然语言处理技术研究趋势 . 89 5.3 知识工程 . 91 5.3.1 知识工程概念 . 91 5.3.2 知识工程过去十年主要进展 . 92 5.3.3 知识工程领域技术研究趋势 . 96 5.4 信息检索与推荐 . 98 5.4.1 信息检索与推荐概念 . 98 5.4.2 信息检索与推荐技 术过去十年主要进展 . 99 5.4.3 信息检索与推荐技术研究趋势 . 102 5.5 计算机视觉 . 104 5.5.1 计算机视觉概念 . 104 5.5.2 计算机视觉过去十年主要进展 . 105 5.5.3 计算机视觉研究趋势 . 107 5.6 语音识别 . 109 5.6.1 语音识别概念 . 109 5.6.2 语音识别过去十年主要进展 . 110 5.6.3 语音识别研究趋势 . 112 5.7 机器人 . 114 5.7.1 机器人概念 . 114 5.7.2 机器人过去十年主要进展 . 115 人工智能发展报告 2020 V 5.7.3 机器人研究趋势 . 117 5.8 数据挖掘 . 119 5.8.1 数据挖掘概念 . 119 5.8.2 数据挖掘过去十年主要进展 . 119 5.8.3 数据挖掘研究趋势 . 121 5.9 人机交互 . 122 5.9.1 人机交互概念 . 122 5.9.2 人机交互过去十年主要进展 . 122 5.9.3 人机交互 研究趋势 . 125 5.10 可视化 . 127 5.10.1 可视化技术概念 . 127 5.10.2 可视化技术过去十年主要进展 . 128 5.10.3 可视化技术研究趋势 . 131 5.11 其他人工智能外延技术 . 133 5.11.1 经典 AI . 133 5.11.2 安全与隐私 . 134 5.11.3 芯片技术 . 135 5.11.4 数据库 . 138 5.11.5 计算机图形 . 143 5.11.6 多媒体 . 148 5.11.7 计算理论 . 154 5.11.8 计算机网络 . 155 5.11.9 计算机系统 . 156 5.11.10 物联网 . 158 6 人工智能领域高层次人才现状 . 160 6.1 全球 AI领域高层次人才分析 . 160 6.1.1 国家地区分布 . 161 6.1.1 高层次学者数量 TOP10国家 . 162 6.1.3 所在机构分布 . 162 人工智能发展报告 2020 VI 6.2 中国 AI领域高层次人才分析 . 163 6.2.1 省市地区分布 . 163 6.2.2 高层次学者数量 TOP10国内城市 . 164 6.2.3 所在机构分布 . 165 6.3 中国 AI高层次人才的跨国合作论文分析 . 166 6.4 代表性高层次 AI学者 . 167 6.5 中国 AI高层次人才培养 . 170 7 人工智能专利分析 . 172 7.1 全球 AI专利分析 . 172 7.1.1 专利申请趋势 . 172 7.1.2 专利申请国家 /地区排名 . 173 7.1.3 申请人排名 . 173 7.2 中国 AI专利分析 . 175 7.2.1 国内 AI专利申请趋势 . 175 7.2.2 专利申请量省市排名 . 175 7.2.3 申请人排名 . 176 8 人工智能技术应用:赋能其他行业发展 . 177 8.1 智慧医疗 . 177 ( 1)医疗影像智能诊断 . 178 ( 2)新药研发 . 180 ( 3)基因测序 . 181 8.2 智慧金融 . 183 ( 1)智能风控 . 184 ( 2)智慧银行 . 184 ( 3)智慧投顾 . 186 8.3 智慧城市 . 188 ( 1)智能政务 . 189 ( 2)智能基础设施系统 . 191 ( 3)智能交通 . 192 人工智能发展报告 2020 VII 8.4 智慧教育 . 196 ( 1)智慧校园 . 197 ( 2)智慧课堂 . 197 ( 3)智适应教学 . 199 8.5 智能制造 . 200 ( 1)智能工厂 . 201 ( 2)智能物流 . 204 ( 3)智能系统 . 205 9 人工智能发展的机遇和挑战 . 207 9.1 人工智能未来发展机遇 . 207 9.1.1 全球主要经济体 AI发展支持政策 . 207 9.1.2 中国 AI发展支持政策 . 212 9.2 人工智能未来技术研究方向 . 214 9.3 人工智能发展面临的问题 . 218 9.3.1 安全与伦理挑战 . 218 9.3.2 国家之间技术限制 . 219 附录 1 人工智能领域国际顶级期刊和会议 . 223 附录 2 全国 70所高校人工智能学院、研究院、研究所名单 . 224 1 1 前言 人工智能 在 过去 十 年 中 从实验室走向 产业化 生产 ,重塑传统行业模式、引领 未来的价值已经凸显,并为全球经济和社会活动做出了不容忽视的贡献。 当前,人工智能已经迎来其发展史上的第三次浪潮。 人工智能理论和技术 取 得了飞速发展 , 在 语音识别、文本识别、视频识别等 感知领域取得了突破,达到 或超过人类水准,成为引领新一轮科技革命和产业变革的战略性技术。人工智能 的 应用领域也 快速 向多方向发展 , 出现在与人们日常生活息息相关的越来越多的 场景中 。 全球经济体都高度重视人工智能领域的科学技术研究和产业发展,不仅意识 到人工智能是各国 新一轮经济竞争的核心驱动力 ,而且也都意识到能够推动技术 突破和创造性应用的高端人才对人工智能发展的至关重要作用。在中国,人工智 能相关的学院、研究院、企业组织在 2013、 2014、 2015 年左右如雨后春笋般接 连出现。政府、高校、企业各方都积极投入到人工智能的发展和应用中。 对于人工智能的未来,人类有很大期待,也有很多 争论 。有人认为今后十年 人工智能 将进入 人类 生活中每一个领域 ,为各行业赋能,将深刻改变世界的生产 和生活方式,带来更多商业利益和社会效益;也有人对人工智能 的 未来 发展表示 担忧 ,认为人工智能将是 人类 生存所 面对的最大威胁 。 未来十年,人工智能技术将实现从感知智能到 认知智能的新突破。 中国科学 院 张钹 院士、中国工程院李德毅院士和王恩东院士等业界人士指出, 人工智能 已 经历计算 智能、感知智能 ,将迈入 认知智能 的 技术阶段。 中科院院士、清华大学 人工智能研究院院长、计算机系教授 张钹 多次 指出,第三代人工智能是实现可解 释的、鲁棒的、可信安全的智能系统, 依靠知识、数据、算法和算力四个要素, 将 实现从不带 认知 的人工智能 转变 为带 认知 的人工智能。美国国防部 DARPA 提 出第三代人工智能是能够实现情景自适应的 并且 具有感知、推理、规划和学习能 力的智能系统 1。数据驱动的方法如何利用知识表示和推理获得智能系统的可解 释和鲁棒性是当前人工智能的发展趋势,也是面临的重要挑战。图灵奖获得者 1 Gunning, D., doi: 10.1360/SSI-2020-0204 7 张钹院士:基础科研不光要允许失败,还要经得起失败,“馊主意”也比没主意好,量 子位公众号, 2020年 10月 25日, 8 徐波:新一代人工智能正在崛起, 2020-05-06,中国科学院 EB/OL 12 类的水平。 人工智能依靠机器学习和深度学习取得了快速进展,但存在依赖大规模标注 数据进行监督训练的问题,要实现真正的类人智能(强人工智能),机器还需要 掌握大量的常识性知识,以人的思维模式和知识结构来进行语言理解、视觉场景 解析和决策分析。谷歌在 2012年提出了知识图谱( Knowledge Graph)概念,提 供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达 成更接近于人类认知世界的形式。知识图谱的构建过程本质是让机器具备认知能 力,可以理解世界和各种行 业领域,是实现强人工智能的基石。 阿里巴巴达摩院发布 “ 2020 十大科技趋势 ” 报告中提到,人工智能已经在 “ 听、说、看 ” 等感知智能领域达到或超越了人类水准,但在需要外部知识、逻 辑推理或者领域迁移的认知智能领域还处于初级阶段。 图灵奖获得者 Manuel Blum 夫妇 在 2020 世界人工智能大会上 提出 意识 AI (意识智能)的思想,这是一个既经典又全新的概念和思路。核心的理念就是构 造一个新型的可用数学建模、可计算的机器认知 /意识模型 ,如 图 3-2所示 。 图 3-2人工智能发展的几个阶段 3.3 人工智能技术发展脉络 人工智能涉及计算机技术、控制论、信息论、语言学、神经生理学、心理学、 数学、哲学等多学科领域的交叉与融合,其概念与内涵随着相关学科和应用领域 的发展而持续变换。 中国人工智能学会理事长李德毅 院士在 2018 中新人工智能高峰论坛 上发表 演讲认为, AI 的内涵包括四个方面 ,分别是脑认知基础 、 机器感知与模式识别 、 13 自然语言处理与理解 、 知识工程 。在这个核心之外, AI 的外延还包括机器人与 智能系统 。 直面解决现实问题是新一轮人工智能的起点和落脚点 ,未来的人工智 能工具需要 体现人的认知力、创造力,成为人类认识世界、改造世界新的切入点, 成为先进社会重要经济来源 9。 图 3-3 展示了人工智能自诞生以来在 60 多年的发展历史中所取得的一些标 志性成果和技术 10,例如自然语言处理和人机对话技术、知识库、非单调逻辑、 机器人系统、语义互联网路线图、深度学习等 。 来源: 图 3-3 人工智能技术发展脉络 中国新一代人工智能发展战略研究院执行院长龚克认为, 人工智能有 4 个要 素:算法、算力、数据、应用场景 11。 9 院士李德毅:人工智能将会改变这四个重要行业, 2018-06-01 来源 : 网易智能 EB/OL 10 清华教授唐杰:人工智能的下个十年, 2020-04-25 搜狐 EB/OL. 11 人工 智能科技 EB/OL. 14 人工智能领域应用最广泛的算法是机器学习和深度学习 。 从宏观来看,算法 是人工智能的重要组成部分,而深度学习是近年来发展最快速的机器学习算法, 因其在计算机视觉、自然语言处理等领域中的优异表现,大幅加快人工智能应用 落地速度,催生了很多相关工具和平台,如百度飞桨深度学习开源框架、阿里巴 巴的深度学习框架 X-Deep Learning、旷视人工智能计算平台 Brain+等。然而, 机器学习和深度 学习算法虽然在人工智能领域取得了显著成绩,但是受限于底层 算法,使得 人工智能技术目前已经触及天花板。张钹院士建议, 人工智能迫切 需要推动到新的阶段,有赖于与数学、脑科学等结合实现底层理论的突破 12。 人工智能的技术和产业发展只靠算法是不够的, 需要加强以算力为核心的 基础能力建设 ,比如智能体系架构和芯片。尤其是深度学习计算所需数据量巨 大,对算力要求 很高,在已经固化的硬件加速器上无法得到很好的支持,需要 解决性能和灵活度之间的平衡问题。 人工智能的发展 需要有大数据支撑来学习大量的知识和经验 。 大数据具有 体量大、多样性、价值密度低、速度快等特点,在快速获得有价值信息方面,自 然语言处理技术既带来了很大驱动力又面临着很多挑战。 前微软公司全球执行副 总裁沈向洋先生在公开演讲时说:“懂语言者得天下下一个十年,人工智能 的突破在自然语言的理解人工智能对人类影响最为深刻的就是自然语言方 面” 13。自然语言处理被视为解决人工智能完备( AI-complete)的核心问 题之一。 人工智能的一个重要应用场景是智能信息检索与挖掘, 通过打造具备自然语 言对话、高精准知识融合、场景感知、互联网数据与个人数据高效整合等能力的 智能信息助手,可以有效解决用户精准多样的信息需求与庞大互联网数据规模之 间的鸿沟问题。 3.4 人工智能技术成熟度 世界上从事技术预测的较知名机构有 Gartner、美国兰德公司 RAND、日本 科技政策所、亚太经合组织 APEC技术预测中心等机构。技术成熟度( Technology 12 CSDN EB/OL t.none-task-blog-baidujs-8 13 电子发烧友 EB/OL 15 Readiness Levels, TRLs)是对技术成熟程度进行量化评价的一套系统化标准、方 法和工具,它最早由美国航空航天局( NASA)提出。在这些技术预测机构之中, Gartner发布的技术成熟度曲线( Hype Cycle)因模型较成熟,广泛被用来评估新 科技的可见度,目前已成为是科技产业界技术预测的风向标。本报告将基于 Gartner 近年发布的关于人工智能的技术成熟度曲线,来分析人工智能领域新兴 技术的成熟度发展变化情况。 Gartner 公司每年会根据其国际分析师预测把各种新科技的发展阶段及要达 到成熟所需的时间绘制成一条“ Gartner新兴技术成熟度曲 线”( The Gartner Hype Cycle for Emerging Technologies),有助于市场了解当下热点及未来趋势。在 Gartner技术成熟度曲线中,技术预计成熟时间分为“不到 2年”、“ 2至 5年”、 “ 5至 10年”、“ 10年以后”和“之前已被淘汰( Obsolete before Plateau)”五 个时段;技术所处发展状态分为“萌芽期”( Innovation Trigger)、“期望膨胀 期” ( Peak of Inflated Expectations) 、“幻灭期”( Trough of Disillusionment)、 “复苏期”( Slope of Enlightenment)和“生产成熟期”( Plateau of Productivity) 五个阶段。 基于 Gartner 技术成熟度曲线,人工智能领域新兴热点技术过去五年的发展 状态变化如 表 3-1所示。由表可见, 机器学习相关技术自 2015 年以来一直被寄 予较高期望 , 2015至 2019年期间机器学习技术每年发展均一直维持在“期望膨 胀期”、直到 2020年才离开高期望的峰值并且开始进入“幻灭期”。 2020年通 用人工智能和增强智能技术还处于“萌芽期”,而可解释的 AI则度过“萌芽期” 并开始提供了许多实际的实现方式,用于解释涉及各种问题和数据的复杂模型。 此外, 2020年处于“期望膨胀期”的技术包括知识图谱、深度神经网络、决策职 能、智能机器人和数字伦理;处于“幻灭期”的技术包括机器学习、认知计算、 自然语言处理、计算机视觉、无人驾驶汽车。 表 3-1 人工智能子领域过去五年重点技术发展状态一览 AI子领域 技术标签 2015 2016 2017 2018 2019 2020年 机器学习 机器学习 深度学习 - - - - 深度强化学习 - - - - 深度神经网络(深度 学习) - - - 16 深度神经网络 ASICs - - 强化学习 - - - - - 量子计算 - - - - - 认知计算 自然语言 自然语言处理 自然语言生成 - - 自然语言问答 - - - - - 知识图谱 知识图谱 - - - 计算机视 觉 计算机视觉 - 语音识别 语音识别 - 其他智能 决策智能 - - - - 可解释的 AI - - - - - 通用机器智能 - - - - 通用人工智能 - - 增强智能 - - - - 智能机器人 - 无人驾驶汽车 增强现实技术 - - 数字伦理 - 注: 萌芽期; -期望膨胀期; 幻灭期; 生产成熟期; - 未 被提及。资料来源: Gartner 新兴技术成熟度曲线 。 此外,基于 Gartner 技术成熟度曲线,还可以得到人工智能领域新兴热点技 术预计成熟时间的历年演变,具体信息如 表 3-2所示。值得注意的是,深度强化 学习在 2018年被归入深度神经网络(深度学习) 14;而 Gartner在不同年份对此 技术称呼不同,先后使用了深度学习、深度神经网络、深度神经网络(深度学习) 等名称。分析 表 3-2发现,这些人工智能领域的新兴技术具有以下发展特征。 1. 目前已成熟应用的 AI 技术主要是语音识别 。 语音识别技术自 2015 年以来一直处于“生产成熟期”,预计实现时间“小 于 2年”。该技术目前主要有两个应用方向:一个方向是大词汇量连续语音识别 系统,通常在计算机平台上实现的例如听写机、语音信息查询服务等应用;另外 一个方向是使用专用芯片或专门硬件系统而实现的语音产品,如手机语音拨号、 汽车设备的语 音控制、智能玩具、个人数字助理、家电遥控、工业控制及医疗领 域的语音命令和语音应答等。语音到文本的应用受到了算法和硬件进步的双重推 动。 14 Gartner( b) 随 机初始化聚类质心 ;(c-f)k-均值迭代 2 次的示意图 。 64 在每次迭代中每个训练样例都被指派到一个最近的聚类质心 , 每个聚类质心 被移动到分配给它的点的平均值的位置。 支持向量机( SVM) 支持向量机( Support Vector Machine, SVM)是一类按监督学习( Supervised Learning)方式对数据 进行二元分类( Binary Classification)的广义线性分类器 ( Generalized Linear Classifier),其决策边界是对学习样本求解的最大边距超平 面( Maximum-Margin Hyperplane)。基本思想是找到集合边缘上的若干数据(称 为支持向量( Support Vector),用这些点找出一个平面(称为决策面),使得 支持向量到该平面的距离最大。 由简至繁的 SVM模型包括: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向 量机; 当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向 量机; 当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线 性支持向量机; 在分类问题中,很多时候有多个解,如 图 5-15 左侧所示,在理想的线性可 分的情况下其决策平面会有多个。而 SVM的基本模型是在特征空间上找到最佳 的分离超平面使得训练集上正负样本间隔最大, SVM 算法计算出来的分界会保 留对类别最大的间距,即有足够的余量,如 图 5-15右侧所示。 图 5-15 SVM 的决策平面 65 在解决线性不可分问题时,它可以通过引入核函数,巧妙地解决了在高维空 间中的内积运算,从而很好地解决了非线性分类问题。如 图 5-16 所示,通过核 函数的引入,将线性不可分的数据映射到一个高纬的特征空间内,使得数据在特 征空间内是可分的。 图 5-16 SVM 的核函数 人工神经网络 ANN( Artificial Neural Network) 人工神经网络 ANN( Artificial Neural Network)是由大量处理单元互 联组成 的非线性、自适应信息处理系统。它是一种模仿动物神经网络行为特征,进行分 布式并行信息处理的算法数学模型。其基本过程可以概述如下:外部刺激通过神 经末梢,转化为电信号,传导到神经细胞(又叫神经元);无数神经元构成神经 中枢;神经中枢综合各种信号,做出判断;人体根据神经中枢的指令,对外部刺 激做出反应。其过程表述如 图 5-17所示: 图 5-17 神经网络的传导过程 人工神经网络经历了漫长的发展阶段。最早是上个世纪六十年代提出的“人 66 造神经元”模型,叫做“感知器”( Perceptron)。感知机模型是机器学习二分类 问题中的一个非常简单的模型。它的基本结构如 图 5-18所示。 图 5-18 感知机 随着反向传播算法、最大池化( Max-Pooling)等技术的发明,神经网络进入 了飞速发展的阶段。神经网络就是将许多个单一“神经元”联结在一起,这样, 一个“神经元”的输出就可以是另一个“神经元”的输入。典型的人工神经网络 具有以下三个部分: 结构( Architecture)指定了网络中的变量和它们的拓扑关系。 激励函数( Activity Rule)大部分神经网络模型具有一个短时间尺度的动力 学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。 学习规则( Learning Rule)指定了网络中的权重如何随着时间推进而调整。 一个典型的人工神经网络结构如 图 5-19所示: 图 5-19 典型的人工神经网络结构 人工神经网络具有四个基本特征:非线性、 非局限性、非常定性和非凸性。 67 人工神经网络的特点和优越性,主要表现在三个方面: 具有自学习功能、具 有联想存储功能和具有高速寻找最优解的能力 。 5.1.4 深度学习 主要模型 过去几年里,机器学习里最大放异彩的领域莫过于深度学习。深度学习的基 础模型,承担了将原始数据映射到特征空间的任务,克服了传统机器学习依赖人 工特征的缺陷,是实现端到端学习的关键。 深度学习模型的发展可以追溯到 1958 年研究认知的心理学家 Frank 发明的 感知机( Perceptron)。这在当时掀起一股热潮。后来 Marvin Minsky(人工智能 大师)和 Seymour Papert 发现感知机的缺陷:不能处理异或回路等非线性问题, 以及当时存在计算能力不足以处理大型神经网络的问题,于是整个神经网络的研 究进入停滞期。 神经网络研究领域领军者辛顿( Hinton)在 2006 年提出了神经网络深度学 习( Deep Learning)算法,使神经网络的能力大大提高。深度学习可以让那些拥 有多个处理层的计算模型来学习具有多层次抽象的数据的表示,这些方法在许多 方面都带来了显著改善。深度学习的出现,让图像、语音等感知类问题取得了真 正意义上的突破,将人工智能推进到一个新时代。 深度学习是近 10 年机器学习领 域发展最快的一个分支,由于其重要性,三 位教授( Geoffrey Hinton、 Yann Lecun、 Yoshua Bengio)因此同获图灵奖。 总体来说,深度学习主要 经历了 4条发展脉络: 以前向网络为代表的深度学 习、以自学习自编码为代表的学习、自循环神经网络算法 和 强化学习算法 。 68 图 5-20 深度学习算法的 4个发展脉络 第一个发展脉络 ( 图 5-20中的浅紫色区域)以计算机视觉和卷积网络为主, 内容是 以前向网络为代表的深度学习算法 。这个脉络的进展可以追溯到 1979年, 日本学者邦彦( Kunihiko Fukushima)提出的神经认知机( Neocognitron)。该研 究给出了卷积和池化的思想。 1986年,杰弗里辛顿( Geoffrey Hinton)提出了 反向传播训练 MLP 解决了感知机不能处理非线性学习的问题,引发了神经网络 研究的 热潮。 1998年,以“卷积网络之父”美国学者杨立昆( Yann LeCun)为首 的研究人员实现了一个七层的卷积神经网络 LeNet-5以识别手写数字。 2012年, 辛顿组提出的的 AlexNet 在 ImageNet 上以巨大优势夺冠,引发了研究深度学习 的热潮。 AlexNet 在传统 CNN 的基础上加上了 ReLU、 Dropout 等技巧,网络规 模更大。这些技巧后来被证明非常有用,成为卷积神经网络的标配,被广泛发展, 随后出现了 VGG、 GoogLenet 等新模型。 2016 年,青年计算机视觉科学家何恺 明提出残差网络 (ResNet), 极大增加了网络深度,效果有很大提升,成为图像识 别、目标检测网络中的骨干架构。近年的 CVPR会议 Best Paper的获得者黄高提 出的密集卷积网络( DenseNet),将这个思路继续发展下去。 2017年,辛顿认为 反向传播和传统神经网络还存在一定缺陷,因此提出叫胶囊网络( Capsule Net), 69 该模型增强了可解释性,减少了神经网络参数,但目前在 CIFAR-10等数据集上 效果一般,这个思路还需要继续验证和发展。 第二个发展脉络 ( 图 5-20 中的浅绿色区域)以 生成模型 为主,是 一个以自 学习、自编码为代表的学习 。机器学习方法中 生成模型 一直占据着一个非常重要 的地位,但基于神经网络的生成模型一直没有引起广泛关注。辛顿在 2006 年的 时候基于受限玻尔兹曼机( RBM,一个 19 世纪 80 年代左右提出的基于无向图 模型的能量物理模型)设计了一个机器学习的生成模型,并且将其堆栈成为深度 信念网络 (Deep Belief Network),使用逐层贪婪或者 wake-sleep 的方法训练,当 时模型的效果不大理想。但值得关注的是,正是基于 RBM模型,辛顿等人开始 设计深度框架,因此这也可以看做深度学习的一个开端。自编码器( Auto-Encoder) 也是上个世纪 80 年代辛顿组提出的模型,后来随着计算能力的进步重新登上舞 台。图灵奖获得者本吉奥( Yoshua Bengio)等人又提出了去噪自编码器( Denoise Auto-Encoder),主要针对资料中可能存在的噪音问题。麦克斯 威灵( Max Welling) 等人后来使用神经网络训练一个有一层隐变量的图模型,由于使用了变分推断, 并且最后长得跟自编码器( Auto-Encoder)有点像,被称为变分自编码器 ( Variational Auto-Encoder)。此模型可以通过隐变量的分布采样,经过后面的 Decoder网络直接生成样本。生成对抗模型 GAN( Generative Adversarial Network) 是 2014 年提出的非常火的模型,它是一个通过判别器和 生成器进行对抗训练的 生成模型,这个思路很有特色,模型直接使用神经网络 G 隐式建模样本整体的 概率分布,每次运行相当于从分布中采样。后来引起大量跟随的研究,包括: DCGAN(一个相当好的卷积神经网络实现)、 WGAN(通过维尔斯特拉斯距离 替换原来的 JS散度来度量分布之间的相似性的工作,使得训练稳定)、 PGGAN (逐层增大网络,生成逼真的人脸)。 第三个发展脉络 ( 图 5-20 中的橙黄色区域)是 序列模型 , 自循环神经网络 (概率图模型的发展)的算法 。序列模型不是因为深度学习才有的,而是很早以 前就有相关研究,例如有向图模型中的隐马尔科夫 HMM以及无向图模型中的条 件随机场模型 CRF都是非常成功的序列模型。即使在神经网络模型中, 1982年 就提出了 Hopfield 神经网络,即在神经网络中加入了递归网络的思想。 1997 年 70 施米德胡贝( Jrgen Schmidhuber)发明了长短期记忆模型 LSTM( Long-Short Term Memory),这是一个里程碑式的 工作。当然,真正让序列神经网络模型得到广 泛关注的还是 2013 年辛顿组使用 RNN 做语音识别的工作,比传统方法高出一 大截。在文本分析方面,本吉奥在 SVM很火的时期提出了一种基于神经网络的 语言模型(当时机器学习还是 SVM和 CRF的天下),后来 Google在 2013年提 出的 word2vec 也有一些反向传播的思想,最重要的是给出了一个非常高效的实 现,从而引发这方面研究的热潮。后来,在机器翻译等任务上逐渐出现了以 RNN 为基础的 seq2seq 模型,通过一个 Encoder 把一句话的语义信息压成向量再通过 Decoder 转换输 出得到这句话的翻译结果,后来该方法被扩展到和注意力模型 ( Attention)相结合,也大大增强了模型的表示能力和实际效果。再后来,大家 发现使用以字符为单位的 CNN模型在很多语言任务都有不俗的表现,而且时空 消耗更少。自注意模型( Self-attention)实际上就是采取一种结构去同时考虑同 一序列局部和全局的信息, Google有一篇很有名的文章“ Attention is All You Need” 把基于注意力机制的序列神经模型推向高潮。 第四个发展脉络 ( 图 5-20中的粉色区域)是 增强学习 , 以强化学习为代表 。 这个领域最出名的当属谷歌的 DeepMind公司,图中标出的戴维席尔瓦( David Silver)博士是一直研究强化学习的高管。 Q-learning 是很有名的传统 RL 算法, Deep Q-learning 将原来的 Q 值表用神经网络代替,做了一个打砖块的任务。后 来又应用在许多游戏场景中,并将其成果发表在 Nature上。 Double Dueling对 这个思路进行了一些扩展,主要是 Q-Learning的权重更新时序上。 DeepMind的 其他工作如 DDPG、 A3C 也非常有名,它们是基于策略梯度( Policy Gradient) 和神经网络结合的变种。大家都熟知的 AlphaGo,其实既用了 RL的方法也有传 统的蒙特卡洛搜索技巧。 Deep Mind后来提出了一个用 AlphaGo框架,但通过主 学习来玩不同(棋类)游戏的新算法 Alpha Zero。 下面对深度学习的不同方面进行简单解读。 5.1.4.1 卷积神经网络 卷积神经网络( CNN)作为最重要的基础模型之一,以其强大的层次化特征 建模能力,非常适合处理图片、视频等类型的数据,引起了学术界和工业界的广 71 泛研究和应用。 图 5-21 卷积神经网络的重要进 展 卷积神经网络的 起源 最早可以追溯到 1962年 Hubel和 Wiesel对猫大脑中的 视觉系统研究。 1980年,一个日本科学家福岛邦彦 ( Kunihiko Fukushima) 提出 了一个包含卷积层、池化层的神经网络结构。在这个基础上, Yann Lecun将 BP 算法应用到这个神经网络结构的训练上,就形成了当代卷积神经网络的雏形。 最初的 CNN效果并不算好,而且训练也非常困难。虽然在阅读支票、识别 数字之类的任务上 有一定的 效果,但由于在一般的实际任务中表现不如 SVM、 Boosting等算法, 因此 一直处于学术界 的 边缘地位。直到 2012年, ImageNet图 像识别大赛中, Hinton组的 AlexNet引入了全新的深层结构和 Dropout方法,一 下子把 error rate从 25%降低 到了 15%, 在大规模图像分类数据集 ImageNet上实 现了领先传统算法 10 个点以上的突破, 这 颠覆了图像识别领域 , 卷积神经网络 的威力开始初现。 AlexNet有很多创新, 尽管都不是很难的方法 。 其最 主要 的结 果 是让人们意识到原来那个福岛邦彦提出 的、 Yann LeCun 优化的 LeNet 结构 原 来 是有很大改进空间的 : 只要通过一些方法能够加深这个网络到 8层左右,让网 72 络表达能力提升,就能得到出人意料的好结果。 顺着 AlexNet 的思想, LeCun 组 2013 年提出一个 DropConnect,把 Error Rate降低 到了 11%。而 NUS的颜水成组则提出 了一个重要的 Network in Network ( NIN) 方法 , NIN的思想是 在原来的 CNN结构 中 加入了一个 1*1 conv层, NIN 的应用也得到了 2014 年 Imagine 另一个挑战 图像检测的冠军。 Network in Network 更加引发了大家对 CNN 结构 改变的 大胆 创新。因此,两个新的架构 Inception 和 VGG 在 2014 年把网络加深到了 20 层左右,图像识别的 Error Rate (越小越好) 也大幅 降低 到 6.7%,接近人类 错误率的 5.1%。 2015