2018年人工智能发展白皮书技术架构篇.pdf

人工智能发展白皮书技术架构篇（ 2018 年）中国信息通信研究院中国人工智能产业发展联盟 2018年 9月版权声明本白皮书版权属于中国信息通信研究院和中国人工智能产业发展联盟，并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的，应注明“来源：中国信息通信研究院和中国人工智能产业发展联盟”。违反上述声明者，编者将追究其相关法律责任。前言人工智能是一种引发诸多领域产生颠覆性变革的前沿技术，当今的人工智能技术以机器学习，特别是深度学习为核心，在视觉、语音、自然语言等应用领域迅速发展，已经开始像水电煤一样赋能于各个行业。世界各国高度重视人工智能发展，美国白宫接连发布数个人工智能政府报告，是第一个将人工智能发展上升到国家战略层面的国家，除此以外，英国、欧盟、日本等纷纷发布人工智能相关战略、行动计划，着力构筑人工智能先发优势。我国高度重视人工智能产业的发展，习近平总书记在十九大报告中指出，要“推动互联网、大数据、人工智能和实体经济深度融合“，从 2016 年起已有“互联网 +人工智能三年行动实施方案、新一代人工智能发展规划、促进新一代人工智能产业发展三年行动计划 (2018-2020 年 )等多个国家层面的政策出台，也取得了积极的效果，我国逐渐形成了涵盖计算芯片、开源平台、基础应用、行业应用及产品等环节较完善的人工智能产业链。 2018 人工智能发展白皮书是中国信息通信研究院、中国人工智能产业发展联盟首次联合发布。本篇为技术架构篇，从产业发展的角度，选择以深度学习算法驱动的人工智能技术为主线，分析作为人工智能发展“三驾马车”的算法、算力和数据的技术现状、问题以及趋势，并对智能语音、语义理解、计算机视觉等基础应用技术进行分析，并提出了目前存在的问题和技术的发展趋势。后续我院与中国人工智能产业发展联盟将继续发布人工智能应用、产业和政策方面研究成果。目录一、人工智能技术发展概述. 1 （一）人工智能技术流派发展简析 . 1 （二）深度学习带动本轮人工智能发展 . 2 二、基于深度学习的人工智能技术现状. 3 （一）基于深度学习的人工智能技术体系综述 . 3 1. 基础硬件层. 4 2. 深度神经网络模型编译器. 4 3. 软件框架层. 4 4. 基础应用技术. 5 （二）算法发展趋势 . 5 1. 算法的设计逻辑. 5 2. 算法的主要任务. 6 3. 新算法不断提出. 7 （三）软件框架成为技术体系核心 . 8 1. 开源软件框架百花齐放各具特点. 8 2. 巨头以开源软件框架为核心打造生态. 11 （四）编译器解决不同软硬件的适配问题 . 12 1. 深度学习网络模型编译器解决适应性问题. 13 2. 中间表示层解决可移植性问题. 14 3. 未来亟需模型转换及通用的模型表示. 15 （五） AI 计算芯片提供算力保障. 16 1. 深度学习对 AI 计算芯片的需求. 16 2. 典型 AI 计算芯片的使用现状. 16 （六）数据为算法模型提供基础资源 . 19 （七）高性能计算服务器和服务平台快速发展 . 20 1. GPU 服务器 . 20 2. 以服务的形式提供人工智能能力成为趋势. 21 三、基于深度学习的基础应用技术现状. 22 （一）智能语音技术改变人机交互模式 . 23 1. 智能语音技术概述. 23 2. 智能语音产品和服务形态多样. 23 （二）计算机视觉技术已在多个领域实现商业化落地 . 24 1. 计算机视觉概述. 24 2. 计算机视觉技术应用领域广阔. 26 （三）自然语言处理成为语言交互技术的核心 . 27 1. 自然语言处理技术现状. 27 2. 自然语言处理技术的应用方向. 28 四、问题和趋势展望. 28 （一）主要问题 . 28 （二）趋势展望 . 30中国信息通信研究院& 中国人工智能产业发展联盟人工智能发展白皮书-技术架构篇（2018） 1 一、人工智能技术发展概述（一）人工智能技术流派发展简析让机器实现人的智能，一直是人工智能学者不断追求的目标，不同学科背景或应用领域的学者，从不同角度，用不同的方法，沿着不同的途径对智能进行了探索。其中，符号主义、连接主义和行为主义是人工智能发展历史上的三大技术流派。符号主义又称为逻辑主义，在人工智能早期一直占据主导地位。该学派认为人工智能源于数学逻辑，其实质是模拟人的抽象逻辑思维，用符号描述人类的认知过程。早期的研究思路是通过基本的推断步骤寻求完全解，出现了逻辑理论家和几何定理证明器等。上世纪 70 年代出现了大量的专家系统，结合了领域知识和逻辑推断，使得人工智能进入了工程应用。 PC 机的出现以及专家系统高昂的成本，使符号学派在人工智能领域的主导地位逐渐被连接主义取代。连接主义又称为仿生学派，当前占据主导地位。该学派认为人工智能源于仿生学，应以工程技术手段模拟人脑神经系统的结构和功能。连接主义最早可追溯到 1943 年麦卡洛克和皮茨创立的脑模型，由于受理论模型、生物原型和技术条件的限制，在 20 世纪 70 年代陷入低潮。直到 1982 年霍普菲尔特提出的 Hopfield 神经网络模型和 1986年鲁梅尔哈特等人提出的反向传播算法，使得神经网络的理论研究取得了突破。 2006 年，连接主义的领军者 Hinton 提出了深度学习算法，使神经网络的能力大大提高。 2012 年，使用深度学习技术的 AlexNet模型在 ImageNet 竞赛中获得冠军。人工智能发展白皮书-技术架构篇（2018）中国信息通信研究院& 中国人工智能产业发展联盟 2 行为主义又称为进化主义，近年来随着 AlphaGo 取得的突破而受到广泛关注。该学派认为人工智能源于控制论，智能行为的基础是“感知行动”的反应机制，所以智能无需知识表示，无需推断。智能只是在与环境交互作用中表现出来，需要具有不同的行为模块与环境交互，以此来产生复杂的行为。在人工智能的发展过程中，符号主义、连接主义和行为主义等流派不仅先后在各自领域取得了成果，各学派也逐渐走向了相互借鉴和融合发展的道路。特别是在行为主义思想中引入连接主义的技术，从而诞生了深度强化学习技术，成为 AlphaGo 战胜李世石背后最重要的技术手段。（二）深度学习带动本轮人工智能发展深度学习已经在语音识别、图像识别等领域取得突破。深度学习全称深度神经网络，本质上是多层次的人工神经网络算法，即从结构上模拟人脑的运行机制，从最基本的单元上模拟了人类大脑的运行机制。深度学习已经开始在计算机视觉、语音识别、自然语言理解等领域取得了突破。在语音识别领域， 2010 年，使用深度神经网络模型的语音识别相对传统混合高斯模型识别错误率降低超过 20%，目前所有的商用语音识别算法都基于深度学习。在图像分类领域，目前针对ImageNet 数据集的算法分类精度已经达到了 95%以上，可以与人的分辨能力相当。深度学习在人脸识别、通用物体检测、图像语义分割、自然语言理解等领域也取得了突破性的进展。中国信息通信研究院& 中国人工智能产业发展联盟人工智能发展白皮书-技术架构篇（2018） 3 海量的数据和高效的算力支撑是深度学习算法实现的基础。深度学习分为训练 (training)和推断 (inference)两个环节。训练需要海量数据输入，训练出一个复杂的深度神经网络模型。推断指利用训练好的模型，使用待判断的数据去 “推断” 得出各种结论。大数据时代的到来，图形处理器（ Graphics Processing Unit， GPU）等各种更加强大的计算设备的发展，使得深度学习可以充分利用海量数据（标注数据、弱标注数据或无标注数据），自动地学习到抽象的知识表达，即把原始数据浓缩成某种知识。当前基于深度学习的人工智能技术架构如图1 所示。图 1 基于深度学习的人工智能技术应用架构图二、基于深度学习的人工智能技术现状（一）基于深度学习的人工智能技术体系综述人工智能发展白皮书-技术架构篇（2018）中国信息通信研究院& 中国人工智能产业发展联盟 4 当前，基于深度学习的人工智能算法主要依托计算机技术体系架构实现，深度学习算法通过封装至软件框架1的方式供开发者使用。软件框架是整个技术体系的核心，实现对人工智能算法的封装，数据的调用以及计算资源的调度使用。为提升算法实现的效率，其编译器及底层硬件技术也进行了功能优化。具体架构请见图 1 中的基础硬件层、深度神经网络模型编译器及软件框架三层。本章所探讨的人工智能技术体系主要包含三个维度，一是针对人工智能算法原理本身的探讨，二是对算法实现所依托的技术体系进行概述，三是针对深度学习所需的数据进行分析。 1. 基础硬件层基础硬件层为算法提供了基础计算能力。硬件层涵盖范围除了中央处理器（ Central Processing Unit， CPU）及 GPU 外，还包括为特定场景应用而定制的计算芯片，以及基于计算芯片所定制的服务器，包括 GPU 服务器集群，各类移动终端设备以及类脑计算机等。 2. 深度神经网络模型编译器深度神经网络模型编译器是底层硬件和软件框架、以及不同软件框架之间的桥梁。该层旨在为上层应用提供硬件调用接口，解决不同上层应用在使用不同底层硬件计算芯片时可能存在的不兼容等问题。其涵盖范围包括针对人工智能计算芯片定向优化的深度神经网络模型编译器，以及针对不同神经网络模型表示的规定及格式。 3. 软件框架层 1软件框架（software framework ），通常指的是为了实现某个业界标准或完成特定基本任务的软件组件规范，也指为了实现某个软件组件规范时，提供规范所要求之基础功能的软件产品。中国信息通信研究院& 中国人工智能产业发展联盟人工智能发展白皮书-技术架构篇（2018） 5 软件框架层实现算法的模块化封装，为应用开发提供集成软件工具包。该层涵盖范围包括针对算法实现开发的各类应用及算法工具包，为上层应用开发提供了算法调用接口，提升应用实现的效率。 4. 基础应用技术当前人工智能的商业化实现主要是基于计算机视觉、智能语音、自然语言处理等基础应用技术实现，并形成了相应的产品或服务。本部分将在第三章进行详细讨论。（二）算法发展趋势当前，人工智能算法已经能够完成智能语音语义、计算机视觉等智能化任务，在棋类、电子游戏对弈，多媒体数据生成等前沿领域也取得了一定进展，为人工智能应用落地提供了可靠的理论保障。 1. 算法的设计逻辑人工智能算法的设计逻辑可以从“学什么”、“怎么学”和“做什么”三个维度进行概括。首先是学什么。人工智能算法需要学习的内容，是能够表征所需完成任务的函数模型。该函数模型旨在实现人们需要的输入和输出的映射关系，其学习的目标是确定两个状态空间（输入空间和输出空间）内所有可能取值之间的关系；其次是怎么学。算法通过不断缩小函数模型结果与真实结果误差来达到学习目的，一般该误差称为损失函数。损失函数能够合理量化真实结果和训练结果的误差，并将之反馈给机器继续作迭代训练，最终实现学习模型输出和真实结果的误差处在合理范围；最后是做什么。机器学习主要完成三件任务，即分类、回归人工智能发展白皮书-技术架构篇（2018）中国信息通信研究院& 中国人工智能产业发展联盟 6 和聚类。目前多数人工智能落地应用，都是通过对现实问题抽象成相应的数学模型，分解为这三类基本任务进行有机组合，并对其进行建模求解的过程。 2. 算法的主要任务人工智能实际应用问题经过抽象和分解，主要可以分为回归、分类和聚类三类基本任务，针对每一类基本任务，人工智能算法都提供了各具特点的解决方案：一是回归任务的算法。回归是一种用于连续型数值变量预测和建模的监督学习算法。目前回归算法最为常用的主要有四种，即线性回归（正则化）、回归树（集成方法）、最邻近算法和深度学习。二是分类任务的算法。分类算法用于分类变量建模及预测的监督学习算法，分类算法往往适用于类别（或其可能性）的预测。其中最为常用的算法主要有五种，分别为逻辑回归（正则化）、分类树（集成方法）、支持向量机、朴素贝叶斯和深度学习方法。三是聚类任务的算法。聚类算法基于数据内部结构来寻找样本集群的无监督学习任务，使用案例包括用户画像、电商物品聚类、社交网络分析等。其中最为常用的算法主要有四种即 K 均值、仿射传播、分层 /层次和聚类算法 (Density-Based Spatial Clustering of Applications with Noise， DBSCAN)。表 1 人工智能主要算法分类回归任务分类任务聚类任务线性回归（正则化）回归树（集成方法）最邻近算法深度学习逻辑回归（正则化）分类树（集成方法）支持向量机朴素贝叶斯深度学习 K 均值仿射传播分层/ 层次聚类算法