2019人工智能开源与标准化研究报告.doc
人工智能开源与标准化研究报告 二零一九年四月 I 目录 第一章 概述 . 1 背景及目的 . 1 本报告的价值 . 2 本报告的脉络梳理与导读 . 3 第二章 AI 产业现状及开源面临的宏观问题 . 4 AI 产业现状及产业链 . 4 基础层 . 5 技术层 . 6 行业应用层 . 7 AI 开源所存在的问题 . 9 法律道德问题 . 9 潜在锁定风险 . 10 安全问题 . 10 标准统一问题 . 10 版本兼容性问题 . 11 行业问题 . 11 第三章 AI 开源生态现状 . 12 3.1AI 开源全栈 (聚焦机器学习及深度学习) . 12 3.1.1芯片使能 . 13 3.1.2分布式集群 . 15 3.1.3大数据支撑 . 16 3.1.4数据管理 . 17 3.1.5模型格式 . 18 3.1.6深度学习框架 . 18 3.1.7机器学习框架 . 19 3.1.8知识图谱(知识库) . 20 3.1.9强化学习 . 20 II 3.1.10模型中间表示层 IR . 21 3.1.11端侧推理框架 . 22 3.1.12高级 API . 23 3.1.13开放数据集 . 24 3.1.14分布式调度 . 26 3.1.15可视化工具 . 27 3.1.16模型市场 . 27 3.1.17应用类项目 . 28 3.2开源组织 . 32 3.2.1开源中国 . 32 3.2.2开源社 . 33 3.2.3OpenI 启智开源开放平台 . 35 3.2.4Linux 基金会 . 36 3.2.5OpenStack 基金会 . 37 3.2.6Apache 基金会 . 38 6.2 组织 /机构参与开源的角色及目的 . 39 第四章 AI 开源技术目前在落地中存在的问题与差距 . 40 4.1AI 在应用时的总体工作流 . 41 4.1.1 概述 . 41 4.1.2经过抽象的工作流实现 . 44 4.1.3实际应用的 AI 工作流应具备的特点 . 47 4.2当前 AI 技术在行业应用中的现状及问题 . 48 4.2.1交通领域 . 48 4.2.2油气领域 . 50 4.2.3公共安全领域 . 52 4.2.4工业领域 . 55 4.2.5电力领域 . 58 4.2.6金融领域 . 60 4.2.7医疗领域 . 62 III 4.3问题总结及应对思路 . 64 4.3.1AI 开源软件的数据支持 . 65 4.3.2AI 开源软件的算法 . 66 4.3.3AI 开源软件的分布式基础设施 . 67 第五章 AI 数据开放及协同 . 69 5.1AI 数据的关系和需求 . 69 5.1.1面对的挑战 . 69 5.1.2AI 数据开放和协同中的相关方 . 71 5.2AI 数据开放和协同中相关行业分析 . 72 5.2.1政府角度分析 . 73 5.2.2医疗行业分析 . 74 5.2.3金融行业分析 . 76 5.2.4交通行业分析 . 77 5.2.5物流行业分析 . 78 5.2.6制造行业分析 . 80 5.2.7教育行业分析 . 81 5.2.8石油行业分析 . 82 5.3AI 数据开放和协同的可行性 . 83 5.3.1顶层设计 . 83 5.3.2法律法规 . 84 5.3.3数据治理 . 85 5.3.4开源数据平台建设 . 85 5.4潜在解决方案 . 86 5.4.1中心化模式 . 87 5.4.2混合型模式 . 89 5.4.3去中心化模式 . 90 5.4.4没有初始数据的模式 . 92 第六章 AI 领域开源与标准的关系 . 93 6.1开源与标准联动的案例 . 93 IV 6.1.1 容器 . 93 6.1.2大数据文件格式 . 94 6.1.3OPNFV(网络功能虚拟化) . 95 6.2AI 领域开源与标准联动的思考 . 96 6.3本次标准机遇研究的范围与内容 . 97 行业应用标准 . 98 AI 平台标准 . 98 安全标准 . 104 应用智能化水平评估 . 105 制定人工智能标准中要考 虑的因素 . 106 伦理与社会关注 . 106 监管与治理因素 . 107 把握开源与标准平衡,促进创新与产业发展 . 108 结 语 . 109 附录 A . 110 表 A.1 AI 开源项目社区活跃度指标统计 . 110 附录 B . 113 表 B.1 第五章技术术语表 . 113 表 B.2 第六章技术术语表 . 115 1 第一章 概述 背景及目的 自 2013 年以来,随着深度学习技术的不断发展,引发了新一轮人工智能热潮,诸如: AlphaGo、刷脸支付、无人驾驶、 AR、无人超市等应用层 出不穷。大量资本和并购的涌入,加速了人工智能和产业的结合,人工智能甚至有可能成为是继蒸汽机、电力和计算机之后,人类社会的第四次革命。人工智能( Artificial intelligence, AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在历史上,人工智能有过很多个定义,但是迄今为止没有一个官方的、统一的、正式的定义。人工智能最早由麻省理工学 院的 John McCarthy 在 1956 年的达特矛斯会议上提出的:人工智能就是要让机器的行为看起来就像是人所表现出 的智能行为一样。 世界各国纷纷将发展人工智能作为抢抓下一轮科技革命先机的重要举措。随着人工智能领域国际竞争的日益激烈, 2017 年国务院印发新一代人工智能发展规划,提出我国新一代人工智能发展的指导思想、战略目标、重点任务和保 障措施,为部署构筑我国人工智能发展的先发优势,加快建设创新型国家和世界科技强国构建了基础。 本报告中的开源指源码公开、源数据公开及其他成果形式 ( 如软件、系统或平台架构等) 的公开。近年来开源技术蓬勃发展,诸如计算机视觉开源社区 OpenCV、开源数据集 ImageNet、开源智能终端操 作系统 Android 和其他大量开源工具及平台,无不表明开源创新与协同有力推动了产业进程。同理,人工智能尤其是深度学习相关的开源蓬勃发展,也将对我国人工智能相关产业产生积极影响。 第一,人工智能开源有助于支撑人工智能领域形成高端产业集群优势,逐步引领世界前沿技术的发展。 第二,人工智能开源有助于吸引更多人才进入人工智能产业,建设多层次人才培养体系。 第三,人工智能开源有助于推动人工智能广泛应用,加快推动人工智能与各 2 行业的融合创新和赋能。 本报告的价值 本报告旨在为政府及行业的政策制定者、企业业务决 策者、技术决策者提供参考,促进经济社会各领域智能化转型,加速人工智能技术在全行业应用落地。 ( 1)促进人工智能产业的发展提升 报告集成了各行各业在人工智能领域的经典案例,提供了丰富的知识积累和发展经验,可以帮助决策者快速形成发展思路 (包括实现方法和风险评估 ) ,促进行业的发展提升。 ( 2)加速人工智能技术的应用落地 报告描述了机器学习、深度学习开源技术全栈,通过介绍开源工具平台及基准的方法论,降低行业人员学习和应用人工智能的技术门槛,提升研发速度,降 低研发和运维管理成本,使前沿技术和新兴算法能快速运用到具体领 域业务中并创造价值。 ( 3)推动人工智能生态圈建设 报告所描述的人工智能领域的经验和需求能够促进人工智能生态圈的良性发展,促进企业的技术创新。标准与开源的联动能使产业发展更加健康。 ( 4)推动产业以更开放的心态进行协同创新 报告所倡导的开源开放的业态有助于推动中国人工智能开源走向更深层次, 例如数据开放协同的文化及平台建设、开源分享思维和隐私保密需求的平衡等。报告会给出开放数据平台的构建思路及四种可供参考的方案。 3 图 1 本报告的四大价值 本报告的脉络梳理与导读 本次报告分为如下几个部分 : 第二 章对 AI 的产业现状及人工智能开源落地行业的宏观问题进行描述。首先分析了国际国内当前 AI 产业集聚情况,从基础层、技术层和行业应用层等三个层次深入描述了 AI 产业链现状,提及了工业、医疗、电商等典型领域的应用场景,然后对 AI 开源面对的法律道德、垄断风险、标准统一等系列问题进行了深入探讨。 第三章主要对人工智能开源现状及相关生态做一个全面的分析,包括人工智能开源项目 ( 聚焦机器学习、深度学习 ) 的全栈图,并给出全栈各层的定义。其次从各层挑选一些典型的项目来分析其技术及生态特点、主要的发起及参与的公 司及个 人。此外也介绍相关的开源组织,包括国内的组织如开源中国、国际组织 如 Linux 基金会及 Apache 软件基金会,然后分析各组织、公司在重要开源项目中的角色及目的。 第四章首先介绍了 AI 在应用时的总体工作流,然后系统化地分析当前基于开源的人工智能技术在解决行业具体问题时还有哪些不足、开源起了什么作用、还有哪些短板、在全栈中还有哪些缺失等,试图从技术生产者及技术消费者两个纬度来阐述人工智能开源技术是否可以解决所有问题。 第五章主要阐述新一代数据驱动的人工智能将给传统以代码为核心的开源 4 理念带来哪些挑战 ,从政府角度以及一些典型行业出发分析 AI 数据开放和协同中存在的问题,从顶层设计、法律规范、数据治理、开源数据平台建设说明 AI 数据开放和协同的可行性,最后给出四种可行性技术架构推动新一代开源运动(Open Source Movement) 的升级,实现“开放生态圈平台”( Open Ecosystem Platform)的愿景。 第六章将着重阐述人工智能领域开源与标准的关系和相互促进。首先介绍在云计算、大数据、电信网络等几个成功的开源与标准联动的案例,随后阐述人工 智能领域开源与标准的相互关系和联动建议, 并针对人工智能落地过程中的问题梳理出标准的机会,最后阐述在标准制定中可能遇到的问题以及相关思考。 第二章 AI 产业现状及开源面临的宏观问题 4.3 AI 产业现状及产业链 现有 AI 开源产品在行业中的应用越来越多,一些企业利用自身的技术优势, 重点打造 AI 应用开放平台,提供语音引擎、视觉引擎、自然语言处理引擎等众多 AI 基础技术;围绕开放平台,构建人才生态和行业生态,全面覆盖教育、金融、家电、医疗、手机、汽车、安防等领域,在内业已产生巨大的经济价值和社 会价值。伴随着应用场景的快速发展,数据开源会成为 新的趋势,数据收集和标 注的标准化需求也会越来越迫切,业内也产生了一批从事数据收集和标注的初创公司和平台。 目前,全球涉及人工智能的企业集中分布在美国、中国、加拿大、德国等少数国家或地区,且在美国和中国的企业数量已占全球的半数以上。美国和中国依 靠其卓越的技术研发机构及融合丰富应用场景的各类实验室,协同领衔全球人工 智能的发展,奠定了雄厚的技术基础。中国当前具有多个人工智能聚集中心和地 方特色人工智能发展产业,其中以北京与天津、上海与杭州、深圳与广州为重点城市群抱团发展的产业格局逐步显现,形成三大人工智能聚集中心。 图 2 是我们制定的人工智能参考框架图,图 3 是人工智能领域目前在产业界应用的全景图。在产业全景图中的“基础设施”层对应了参考框架中的“数据” 与“算力”,产业全景图中的“关键技术”层对应了参考框架中的“算法”,产 5 业全景图中的“智能系统”及“行业应用”对应了参考框架中的“产品与服务”。 图 2 人工智能参考框架图 图 3 人工智能产业生态圈全景图 人工智能产业链宏观上由基础层、技术层和应用层等三个层次组成,其中基础与核心技术的研究主要分布在大企业及科研机构,而应用层的研究测试在大中小企业 均有涉及,形成了全面开花、全行业覆盖的局面。 4.3.2 基础层 芯片研发作为基础层的核心,已成为人工智能发展的关键因素。芯片在技术 架构方面可分为通用类芯片 ( 如 CPU、 GPU 等 ) 、半定制化芯片 ( 如 FPGA 等 ) 、