中国AI语音识别市场研究报告.pdf
报告提供的任何内容(包括但不限于数据、文字、图表、图像等)均系弗若斯特沙利文公司独有的高度机密性文件(在报告中另行标明出处者除外)。未经弗若斯特沙利文公司事先书面许可,任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容,若有违反上述约定的行为发生,弗若斯特沙利文公司保留采取法律措施,追究相关人员责任的权利。弗若斯特沙利文开展的所有商业活动均使用 “弗若斯特沙利文 ”或 “Frost & Sullivan”的商号、商标,弗若斯特沙利文无任何前述名称之外的其他分支机构,也未授权或聘用其他任何第 三方代表弗若斯特沙利文开展商业活动。 中国 AI 语音识别市场研究报告 A Frost & Sullivan Research Report 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 1 目录 1 AI 语音识别定义与解读 . 2 2 中国 AI 语音识别市场概览 . 3 2.1 AI 语音识别产业链分析 . 3 2.2 中国 AI语音识别市场驱动因素 . 5 2.2.1 需求端:下游需求增长, AI 语音识别市场空间稳步提高 . 5 2.2.2 技术端:算力、算法、大数据升级, AI 语音识别准确率持续提升 . 6 2.2.3 政策端:人工智能上升至国家战略地位, AI 语音识别行业加快布局和落地 . 7 2.3 中国 AI语音识别市场趋势洞察 . 7 2.3.1 云计算渐发展,商业化前景更广阔 . 7 2.3.2 多技术协同发展,语音交互更生动 . 8 2.3.3 语音技术渐开放,普惠生态更繁荣 . 10 2.4 中国 AI语音识别市场关键成功因素分析 . 10 3 中国 AI 语音识别市场竞争格局分析 . 12 3.1 沙利文企业增长评价数据来源和研究主体 . 12 3.2 中国 AI语音识别市场企业增长评价结果及分析 . 12 3.3 沙利文评价模型的设计 . 16 4 研究方法和研究范围介绍 . 18 4.1 研究方法 . 18 4.2 研究范围 . 18 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 2 1 AI 语音识别 定义与解读 语音识别是人机交互的入口,是指机器 /程序接收、解释声音,或理解和执行口头命令的能力。 在智能时代,越来越多的场景在设计个性化的交互界面时,采用以对话为主的交互形式。一个完整的对话交互是由“听懂 理解 回答”三个步骤完成的闭环,其中,“听懂”需要语音识别( Automatic Speech Recognition, ASR)技术;“理解”需要自然语言处理( Natural Language Processing, NLP)技术; “回答”需要语音合成( Text To Speech, TTS)技术。 三个步骤环环相 扣,相辅相成。 语音识别技术 是对话交互的开端,是保证对话交互高效准确进行的基础。 语音识别技术自 20 世纪 50 年代开始步入萌芽阶段,发展至今 , 主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度 神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达 98%以上。 图 1-1: AI 语音识别发展历程 来源: fsTEAM 软件采编,沙利文研究院绘制 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 3 2 中国 AI 语音识别市场概览 2.1 AI 语音识别产业链分析 中国 AI 语音 识别 市场参与者众多, 主要分为上 游 、中 游 、下游。 图 2-1: AI 语音识别产业链分析 来源:沙利文研究院绘制 上游:底层技术提供强力支撑,云计算助推 AI 语音应用普及 -语音识别解码过程中包含了声学模型和语言模型的识别建模和模型训练 两个 部分 。 在运行过程中训练数据量和计算量需求极大,传统的 CPU 或者单一处理器几乎无法 快速 单独完成一个 完整的 模型训练过程 , 主要原因在于 CPU 内部仅含少量逻辑单元 , 且指令执行是逐一进行的串行计算,使用 该 架构进行语音识别运算的处理时间过长 ,无法满足海量数据计算的 实时性需求 。 因此 , 能提供 海量数据处理、存储以及高性能运算 能力的云计算技术成为语音识别行业的应用热点 。目前,主流语音识别公司的模型训练和语音识别基本都在云端采用GPU 并行架构或异构计算方案进行。 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 4 中游:语音技术持续升级,生态圈建立赋能产业 -语音识别的中游主要为将语音识别技术实现商业化落地的硬件及软件服务供应商 。 根据终端消费者类型 , 语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案(以项目制交付的软硬件产品及服务)和平台化技术输出( SDK 或 API 形式的智能语音开放平台)两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。目前,智能语音开放平台在智能语音市场中收入占比较小的主要原因是,以阿里、百度及科大讯飞为首的各大厂商为加速 AI 语音技术对下游应用场景的渗透,采用多种优惠甚至免费 形式 向开发者提供语音识别服务,希望将语音识别技术应用在更多软件及场景中,与广大开发者携手建立一个 完整 的 AI 产业生态圈。 下游分析:行业应用多样化,一站式服务需求广 -语音识别作为 AI 交互的重要入口,在人工智能领域属于最重要和发展最为成熟的技术之一,目前已经以多种商业化形式广泛应用于下游市场。从应用领域来看,目前消费级市场 主要应用于 智能硬件、智能家居、智慧教育、车载系统等 领域 ,专业级 市场 主要 应用于 医疗、公检法、教育、客服、语音审核等 领域 。 广泛的应用领域也就意味着更加多元化的使用场景,然而目前的语音识别技术对于使用场景具有较强的限制性。尽管快速更新迭代的神经网络结构已经将安静环境下的近场语音识别的错误率降低 至 3%以下,但现实环境中多数应用场景无法满足理想 的环境 条件,因此在进行语音识别时需要 同时考虑到各种噪声、信道等 因素 。为使语音识别技术在更广泛的使用场景下保持良好的表现, AI 语音厂商 需要 提供 硬件与软件协同的一站式服务, 并 根据用户实际痛点进行针对性优化,从而 有效 提升在多元下游 场景 下语音识别的渗透率。 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 5 2.2 中国 AI 语音识别市场驱动因素 2.2.1 需求端:下游需求增长, AI 语音识别市场空间稳步提高 在过去五年间,中国 AI 语音的需求最先在消费级 市场 爆发,主要 得益于 互联网及智能硬件设备厂商加大语音识别的投入经费 ,以及厂商 为提前占据市场推行 的 智能音箱硬件补贴。目前 , 消费级产品及服务主要包括智能音箱、智能车载和智能硬件及消费级互联网增值服务。然而,目前包括直接面向消费者的产品及服务在内,语音识别的相关应用及使用场景仍具有局限性。未来,在消费级产品供应商和开发者共同构建 产业生态圈 的过程中 ,语音识别技术将更好 地 与其他语音交互技术及软件功能融合,为消费者提供更优质的体验,未来 AI语音识别市场将迎来广阔的发展空间 。 对于专业级市场而言,主要的产品形式包括智能语音开放平台和行业解决方案,下游应用领域目前主要包括数字化水平相对较高的智慧医疗、智慧教育、企业客服、司法政务、金融领域 等。 AI语音识别作为人机交互的重要入口之一,除了在语音识别的领域表现出色外,也要能 更好 地 与其他智能语音技术 ( 包括语义理解、远场语音识别、唤醒目标检测、全双工交互、个性化识别技术等 ) 进行融合 , 从而综合提升真实场景中的用户体验。近年来 AI 语音识别专业级市场的快速增长主要原因除了深度 神经网络 算法 为 语音识别带来的准确率 大幅提升外,更 重要的 是 其他智能语音和 AI 技术的发展带来 了 更广阔的应用场景,预计未来专业级市场的商业化需求将得到进一步释放 。 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 6 图 2-2: 中国 AI 语音识别市场商用收入规模, 2015-2024 年预测 * 统计对象包括: 1)专业级市场:智能语音行业解决方案、智能语音开放平台等; 2)消费级市场:与语音识别直接相关的硬件设备,如智能音箱及相应消费级软件和服务如个性化教与学平台、语音输入法、智慧考试等。以上商业化收入仅包括智能语音直接相关收入,硬件收入及其他技术相关收入不纳入本市场规模。 来源:沙利文研究院绘制 2.2.2 技术端: 算力、 算法 、 大数据升级, AI 语音识别准确率持续提升 在过去 5-10 年, AI语音识别技术的快速商业化的主要原因在于技术端的快速发展,如计算能力的提升、算法框架的优化和大数据 的 升级 等 。 图 2-3: 中国 AI 语音识别市场 技术发展情况来源:沙利文研究院绘制 从计算能力来看,芯片处理能力 的 大幅提升、 GPU 的大量应用、云服务的普及还有硬件价格的快速下降共同为人工智能计算能力的提升提供了重要支撑; 从算法框架来看,目前主流语音识别模型已经 以 深度神经网络为主导,神经网络的出现及普及为语音识别准确率的提升起到了重要作用; 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 7 从大数据来看,更加贴近真实使用场景的语料库也为语音识别技术提供了更加有效的训练素材,从而大幅提升 了 AI 语音识别产品及服务的使用体验。以上底层技术的升级,为语音识别技术的准确率 提升 及商用渗透提供了强大的市场驱动力。 2.2.3 政策端:人工智能上升至国家战略地位, AI 语音识别行业加快布局和落地 人工智能发展水平一定程度上体现了各国最高的科技水平 。考虑到人工智能发展对于国家经济发展的重要性,中国政府已针对人工智能行业颁布了多项国家层面的发展政策,自2017 年以来人工智能行业已经连续三年被写入全国政府工作报告内。具体支持政策包括项目发展基金、人才引进政策及其他国家扶持政策。目前,语音识别技术属于中国 AI 领域中最为成熟落地的技术之一,在国家政策的强力扶持下 , 预计未来能够加速在垂直行业的渗透和布局。 同时,在中国制造 2025的大背景和智能经济新形态下,各省市响应中央号召,截至 2019 年上半年,已有 30 多个省市发布人工智能相关规划或专项政策,以人工智能为技术手段,发挥当地产业集群优势,促进产学研融合 及 协同发展 。 图 2-4: 国家 及地方 相关政策及影响 来源:沙利文研究院绘制 2.3 中国 AI 语音识别市场趋势洞察 2.3.1 云计算渐发展,商业化前景更广阔 AI 语音识别发展 至今 ,主流算法模型已经从 模板匹配 阶段转变为 深度 神经网络阶段。在 深度 神经网络算法下,考虑到训练过程中大量数据的使用,计算量巨大,对于应用企业而言 , 采用本地计算方式 的 算力 门槛过高。而在当下的智能时代,日渐普及的云计算环境提升 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 8 AI语音识别运算效率的同时也降低了企业的进入门槛,因此大大促进了 AI语音的技术发展。语音识别终端把采集到的语音片段进行模数转换后,进行传送和决策,然后通过通信网络将语音数据上传至云 端进行语音识别,反馈结果至语音识别终端。在此过程中,云计算可以完成语音数据库和语言数据库的训练, 最高效输出反馈结果,促进 AI 语音技术的准确率提高。 基于云计算的发展,部分头部厂商也在逐渐推出基于云上的语音产品,商业化落地的步伐正在加快。 在个别应用场景领域中,基于云计算的 AI 语音技术应用市场销售规模已近乎领先于头部的基于传统硬件 厂商所服务的市场规模,大量的独立软件开发商( ISV)趋于与云上语音技术厂商达成合作关系,从而在低成本的情况下在云开放平台上获取最前沿的云上智能语音技术和行业语音解决方案。例如,现已有超过 5 万家语音客户与阿里云智能语音达成合作,覆盖多行业场景,包括中国移动、中央电视台、招商银行在 内的传统行业的大型企业。其中,在电话客服行业,与阿里达成合作的独立软件开发商( ISV)头部 8 家用户年销售额 接近 6 亿元人民币,在法院语音识别市场的联盟商 2019 年也达到 年销售额 1.6 亿元 人民币 。基于云计算的 AI 语音技术能够满足 ISV 在 录音文件识别、实时语音识别、一句话识别、语音自学习平台、短文本语音合成、长文本 语音合成、语音唤醒、声纹识别、语音模组和语音交互 SDK 等方面的技术需求,从而支撑他们实现和拓展更多的应用场景和渠道的发展需求 。 2-5: 神经网络模拟对于内存大小和计算能力的需求关系 来源:沙利文研究院绘制 2.3.2 多技术协同发展,语音交互更生动 语音识别属于人工智能中的感知智能,其核心功能是将物理世界的信息转化成可供计算 2020 Frost & Sullivan. All rights reserved. This document contains highly confidential information and is the sole property of Frost & Sullivan No part of it may be circulated, quoted, copied or otherwise reproduced without the written approval of Frost & Sullivan 9 机处理的信息,为后续的认知智能提供基础。 因此, 语音识别作为人工智能的重要感知入口,除 了实现 本身的单一功能外 , 还可以与其他 AI 技术进行深度集成 , 应用于更广泛的生活场景中 。通过 前端语音交互提供入口,后端互联网提供服务 ,多种技术协同发展 的形式, 不仅为单一的技术赋能,同时也 能 推动 AI 语音相关产业 创新 , 有利于未来新兴产业的崛起 。 如服务机器人、 智能客服 等 新兴产业在 AI语音识别的技术推动下正在快速发展 。 技术融合 已成为当下的 趋势 , 只有 将多种技术 充分 结合,才能为用户带来更多价值。 以公检法领域 为例 , 通过 融合声学信号、模式识别、自然语言处理、语音合成等技术,可以实现智慧庭审、电信网络反欺诈、虚拟法官、声纹研判、智能接警、警务智能语音服务等功能 ,为公检参与者提供全面高效的服务 。 2-6: 语音识别在公检法领域的技术应用和落地 来源:沙利文研究院绘制