2019年中国智能语音行业研究报告.pdf
1 报告编码19RI0226 头豹研究院 | 人工智能系列深度研究 400-072-5588 2019 年 中国智能语音行业研究报告 报告摘要 人工智能团队 智能语音技术是人工智能领域的重要分支。智能语 音技术涉及多类型学科, 其核心技术包括语音合成、 语音识别、 声纹识别、 自然语言理解、 语音去噪等关 键技术。伴随智能语音技术的发展,智能语音的应 用覆盖多个场景,如智能家居、智能车载、智能医 疗、 智能客服、 智能教育等。 互联网企业、 智能语音 技术企业以及智能语音初创企业纷纷布局中国智能 语音市场,推动智能语音行业市场规模持续扩容, 2023 年中国智能语音行业市场规模将达到 655.1 亿 元。 热点一:智能语音核心技术的发展 智能语音行业的核心技术包括语音合成技术、语音识别 技术、 声纹识别技术、 自然语言理解技术以及语音去噪技 术。 除自然语言理解技术和语音去噪技术外, 其余四项核 心技术在智能语音领域的商业化应用较为广泛,核心技 术的发展推动各应用领域智能语音产品的落地。 在智能语音行业中, 深度学习、 大数据、 云计算等辅助技 术的发展提高了语音识别的准确率、降低了数据存储所 需的硬件成本, 为智能语音行业的发展提供契机, 助力智 能语音行业发展。 语音交互技术的发展帮助用户实现了本能表达, 解放消费 者感官的占用, 优化用户的消费体验。 语言交互是利用语 言信息进行交互的技术, 在空间上打破了用户与智能设备 的距离限制。 在智能语音领域, 远场识别技术的发展进一 步缩小了用户与智能设备的距离限制, 当用户与智能设备 保持较远距离时, 用户仍然可以通过语音口令与智能语音 设备进行交互。 语音交互的便利性将惠及各个用户群体的 生活,如老年人群体、盲人群体。语音交互技术为更广泛 的消费者群体带来“伴随式”体验。语音交互的便利性将推 动下游应用场景对于智能语音设备的需求, 助力智能语音 行业发展。 上游:基础设施供应商 中游:智能语音厂商 下游:应用领域 软件服务 数据服务平台 云计算服务 智能语音厂商 智能语音科技企业 互联网企业 其他 基础硬件 芯片 传感器 其他 技术支持 语音识别技术 自然语言处理技术 算法 应用领域 智能家居 智能可穿戴设备 智能安防 智能教育 智能医疗 智能客服 其他 语音合成技术 声纹识别技术 语音去噪技术 其他 王则烨 邮箱:agnes.Wang frostchina 分析师 行业走势图 相关热点报告 人工智能系列深度研究 2019 年中国人工智能行业研 究报告 人工智能系列深度研究 2019 年中国智能家居行业研 究报告 人工智能系列深度研究 2020 年中国医疗机器人行业 研究报告 人工智能系列深度研究 2020 年中国工业机器人行业 研究报告 热点二:VR 游戏将改变玩家的社交方式 热点三:语音交互的便利性优势突出 1 报告编码19RI0226 目录 1 方法论 . 5 1.1 方法论 . 5 1.2 名词解释 . 5 2 中国智能语音行业市场综述 . 8 2.1 中国智能语音行业定义 . 8 2.2 中国智能语音行业主要应用技术分类 . 8 2.2.1 语音合成技术 . 8 2.2.2 语音识别技术 . 8 2.2.3 声纹识别技术 . 9 2.2.4 自然语言理解技术 . 9 2.2.5 语音去噪技术 . 9 2.3 中国智能语音行业市场规模 . 10 2.4 中国智能语音行业产业链分析 . 11 2.4.1 中国智能语音行业产业链上游 . 12 2.4.2 中国智能语音行业产业链中游 . 13 2.4.3 中国智能语音行业产业链下游 . 15 3 中国智能语音行业驱动因素 . 17 3.1 智能语音核心技术的发展 . 17 2 报告编码19RI0226 3.1.1 语音合成技术 . 17 3.1.2 语音识别技术 . 17 3.1.3 声纹识别技术 . 17 3.2 辅助技术的发展为行业发展创造机遇 . 18 3.2.1 深度学习 . 18 3.2.2 云计算 . 19 3.2.3 大数据 . 19 3.3 语音交互的便利性优势 . 19 4 中国智能语音行业制约因素 . 21 4.1 行业基础层技术存在短板 . 21 4.2 技术瓶颈限制行业发展 . 21 4.2.1 语音识别技术“鲁棒性”问题凸显 . 21 4.2.2 自然语言处理技术尚不成熟 . 22 5 中国智能语音行业政策 . 23 5.1 国家性政策红利助力行业发展 . 23 5.2 地方性政策红利助力行业发展 . 23 6 中国智能语音行业发展趋势 . 25 6.1 行业将大力发展深度集成语音 AI 芯片 . 25 6.2 行业将构建智能语音专利池 . 25 3 报告编码19RI0226 7 中国智能语音行业竞争格局 . 27 7.1 智能语音科技企业 . 27 7.2 互联网巨头 . 27 7.3 初创企业 . 28 7.4 典型代表企业分析蓦然认知 . 28 7.4.1 企业简介 . 28 7.4.2 产品分类 . 28 7.4.3 竞争优势 . 29 7.5 典型代表企业分析思必驰 . 29 7.5.1 企业简介 . 29 7.5.2 产品分类 . 30 7.5.3 竞争优势 . 30 7.6 典型代表企业分析云知声 . 31 7.6.1 企业简介 . 31 7.6.2 产品分类 . 31 7.6.3 竞争优势 . 32 4 报告编码19RI0226 图表目录 图 2-1 中国智能语音行业市场规模,2014 年-2023 年预测 . 11 图 2-2 中国智能语音行业产业链 . 12 图 4-1 中国智能语音行业国家性政策 . 23 5 报告编码19RI0226 1 方法论 1.1 方法论 沙利文研究院布局中国市场, 深入研究 10 大行业, 54 个垂直行业的市场变化, 已经积 累了近 50 万行业研究样本,完成近 10,000 多个独立的研究咨询项目。 研究院依托中国活跃的经济环境,从人工智能、语音识别、大数据等领域着手,研 究内容覆盖整个行业的发展周期,伴随着行业中企业的创立,发展,扩张,到企业 走向上市及上市后的成熟期, 研究院的各行业研究员探索和评估行业中多变的产业 模式,企业的商业模式和运营模式,以专业的视野解读行业的沿革。 研究院融合传统与新型的研究方法, 采用自主研发的算法, 结合行业交叉的大数据, 以多元化的调研方法, 挖掘定量数据背后的逻辑, 分析定性内容背后的观点, 客观 和真实地阐述行业的现状, 前瞻性地预测行业未来的发展趋势, 在研究院的每一份 研究报告中,完整地呈现行业的过去,现在和未来。 研究院秉承匠心研究, 砥砺前行的宗旨, 从战略的角度分析行业, 从执行的层面阅 读行业,为每一个行业的报告阅读者提供值得品鉴的研究报告。 弗若斯特沙利文本次研究于 2019 年 05 月完成。 1.2 名词解释 VUIVoice User Interface,语音交互界面。 GUIGraphical User Interface,图形用户界面,采用图形方式显示的计算机操作 用户界面。 6 报告编码19RI0226 声门两瓣声带之间的开口, 肺部压出的空气通过声带的出口, 不同的声门大小导致 不同的语音音色。 算法基于特定的计算模型,旨在解决某一信息处理问题而设计的一个指令序列。 算力计算机计算哈希函数输出的速度。 定制化芯片通过定制化半导体解决方案,面向特定领域提供的定制化芯片。 类脑类芯片仿照人类大脑的信息处理方式所制造的芯片,该类芯片可实现数据并 行传送,分布式处理,并能够以低功耗实时处理海量数据。 HMM 模型Hidden Markov Model,隐性马尔可夫统计模型,用来描述一个含有 隐含未知参数的马尔可夫过程。 API 接口Application Programming Interface,应用程序编程接口。 鲁棒性Robust,即系统的健壮性,是指系统在不同应用条件下的性能稳定性。 语音芯片具备语音交互功能的专用集成电路。 嵌入式语音软件满足资源和运算受限环境下的各种嵌入式应用需求的语音软件 (平台) ,如手机、GPS 导航等。 语音合成技术将计算机自身产生的、或外部输入的文字信息转变为可以听得懂的、 流利的语言输出的技术。 语音识别技术将人类语音中的词汇内容转换成计算机可以处理的输入语料,最终 实现词句词义识别的技术。 声纹识别技术通过语音信号提取说话人独有的声门开合频率、口腔大小形状及声 道长度等声学特征,进而识别出说话人身份的技术。 自然语言理解技术利用处理语言的技术, 使计算机理解人类语言的含义, 并通过对 话的方式回答用户提出的问题。 7 报告编码19RI0226 语音去噪技术控制语音通信过程中的语音质量,提高系统对于语音理解的准确性, 缓解噪音污染对于语音收录影响的技术。 蓦然认知一家以认知计算、自然语言理解技术为核心的人工智能公司。 思必驰一家专注于人性化智能语音交互技术的智能语音服务商。 云知声一家专注于物联网人工智能服务的智能语音识别服务商。 寒武纪中国智能芯片生产服务商, 企业专注于打造各类智能云服务器、 智能终端以 及智能机器人的核心处理器芯片。 地平线中国人工智能芯片和算法软件服务商。 8 报告编码19RI0226 2 中国智能语音行业市场综述 2.1 中国智能语音行业定义 智能语音技术是人工智能领域的重要分支。 智能语音技术涉及多类型学科, 其核心技术 包括语音合成、语音识别、声纹识别、自然语言理解、语音去噪等关键技术。智能语音行业 是以语音为研究对象, 对语音语义进行识别、 理解以及生成, 使机器具备自然语言处理能力, 并且利用其核心技术赋予机器“听觉” 、 “理解能力”以及“语言能力” 。伴随智能语音技术 的发展,智能语音的应用覆盖多个场景,如智能家居、智能车载、智能医疗、智能客服、智 能教育等。 2.2 中国智能语音行业主要应用技术分类 2.2.1 语音合成技术 语音合成技术是通过计算机将外部输入的文字信息转变成自然流畅的语言,赋予机器 “讲话” 的能力。 语音合成技术覆盖声学、 语言学、 数字信号处理、 计算机科学等多个学科。 语音合成技术的实现过程主要分为文本分析和语音合成两个步骤。 文本分析是基于语言学原 理,将文本标准化,将原始文本中的数字、缩略语等转换为对应的标准词,然后进行语言处 理。 在文本分析的过程中, 系统将为每一个字词赋予单独的语音脚本, 并依据规则对文本进 行分割标记, 将文字序列转换成音韵序列。 语音合成技术通过不同的算法, 将音韵序列生成 语音波形,合成高质量的语音流输出。 2.2.2 语音识别技术 语音识别技术是将人类语音中的词汇内容转换成计算机可以处理的输入内容的技术。 语 音识别技术通过将用户输入的指令进行特征提取, 形成特征数据流, 然后与系统中已有的语 音模型进行比对, 寻找系统中最为接近的语音内容。 实现语音识别的过程主要分为四步: (1) 9 报告编码19RI0226 选择识别单元, 即确定选择识别的对象, 然后根据识别对象的语音特点、 词汇量大小等条件 确定识别对象为单词、音节或音素; (2)提取特征参数,从语音波形中提取出重要的反应语 音特征的相关信息; (3)建立声学模型和语言模型,进行训练和识别; (4)是后期的处理, 包括音字转换、词法、句法和文法的处理等。 2.2.3 声纹识别技术 声纹识别技术是基于声纹信息识别人类身份的生物特征识别技术。 声纹识别技术通过提 取发声者独有的声门开合频率、 口腔大小形状及声道长度等声学特征, 进而识别出发声者的 身份。声纹识别技术的作用主要包括两方面: (1)发声者辨认,主要用于在从某一语音材料 的若干发声者中寻找指定发声者; (2) 发声者确认, 主要用于确认某一语料是否由指定发声 者发出。 声纹识别技术实现原理和语音识别技术原理类似, 但声纹技术识别主要是对其发声 者身份的进行判断, 因此实现过程相较于语音识别更简单。 未来, 声纹识别技术的主要发展 方向为降低发声者身体状况、 说话的方式、 录音信道及环境噪音对声纹信息的干扰, 提高声 纹信息技术在干扰因素下的识别准确度。 2.2.4 自然语言理解技术 自然语言理解技术是通过利用处理语言技术, 使计算机理解人类语言的含义, 并通过对 话的方式回答用户提出的问题。 自然语音理解技术指将表达语音的一种方式映射为计算机能 理解的表达方式, 其使用原理是根据上下文辨识一个多义词在指定句子中的确切意义, 并根 据句子的结构和词义推导该句子的句义。 未来, 自然语音理解技术将引入部分规则机制, 利 用规则和统计结合的方式弥补计算机对系统语言理解的不足。 同时自然语言理解技术将开放 学习机制,修正统计数据,弥补语料统计数据的局限性。 2.2.5 语音去噪技术 语音去噪技术通过控制语音通信过程中的语音质量,提高系统对于语音理解的准确性, 10 报告编码19RI0226 缓解噪音污染对于语音收录影响。 在语音通信的过程中, 实现波束形成、 回声消除和噪声抑 制都需要复杂的算法和大量的信号处理, 回声消除算法是目前语音去噪技术较常用的算法类 型。 有效的回声消除算法需要持续的在一颗 DSP 芯片上运行, 但有限的 DSP 芯片资源有限 将影响数据传输的高效性和实时性, 影响语音处理算法的算力以及语音处理系统的性能。 语 音去噪技术的成熟度是提高语音识别系统性能的保障。 未来, 语音去噪技术将不断提高与实 际环境使用的结合度,减少噪音干扰对语音语义识别的影响。 2.3 中国智能语音行业市场规模 据沙利文数据统计,2014 年中国智能语音行业市场规模仅有 28.7 亿元(见图 2-1) , 得益于政策环境和技术实力的支持,中国智能语音行业得以快速发展。2018 年中国智能语 音行业的市场规模增长至 157.9 亿元,2014 年至 2018 年中国智能语音行业的年复合增长 率达到 53.2%。 具有智能语音多年从业背景的行业专家表示, 中国政府在智能语音技术研发及产业化方 面的利好政策频出, 为智能语音产业的发展创造了良好的政策环境。 在 “中国制造 2025”、 新一代人工智能发展规划以及促进新一代人工智能产业发展三年行动计划(2018- 2020 年) 中, 政府均将推动智能制造行业上升为国家战略, 积极推动智能产品在各场景的 集成应用。尤其在行动规划中,政府的发展重点覆盖智能语音行业的基础层至应用层, 在助力智能语音底层软硬件建设的同时, 加速各领域智能产品的落地, 推动智能语音行业的 发展。其次,语音识别、自然语言识别等核心技术的发展推动智能语音产品的商业化落地, 进一步深化智能语音在产业下游各场景的应用。 同时, 大数据、 云计算等辅助技术性能的提 升为智能语音行业发展提供助力。 11 报告编码19RI0226 图 2-1 中国智能语音行业市场规模,2014-2023 年预测 来源:fsTEAM 软件采编,沙利文数据中心编制 目前, 中国智能语音行业处于快速发展阶段, 各场景智能语音产品的商业化应用逐渐走 向成熟。 人工智能、 语音识别技术等核心技术的快速发展推动下游各领域对智能语音的应用 需求不断扩大,吸引政府、资本的持续关注。互联网企业、智能语音技术企业以及智能语音 初创企业纷纷布局中国智能语音市场,推动智能语音行业市场规模持续扩容。沙利文预测, 2023 年中国智能语音行业市场规模将达到 655.1 亿元。 2.4 中国智能语音行业产业链分析 中国智能语音产业链的上游参与者分为基础硬件供应商和软件服务商两类。 基础硬件供 应商主要为智能语音行业的上游提供人工智能芯片、 传感器等智能硬件。 软件服务商主要包 括数据服务平台服务商、 云计算服务商等参与主体。 行业中游的主要参与者主要包括智能语 音科技企业、 互联网企业等参与主体。 中国智能语音产业下游为智能语音产品及服务所覆盖 的应用领域,主要包括家居、医疗、教育等场景。 12 报告编码19RI0226 图 2-2 中国智能语音行业产业链 来源:沙利文研究院绘制 2.4.1 中国智能语音行业产业链上游 中国智能语音产业链上游基础层主要为智能语音设备的运行提供计算力。 上游的基础设 施供应商分为基础硬件供应商和软件服务商两类。 基础硬件供应商为行业上游提供人工智能 芯片、 传感器等智能硬件。 软件服务商主要包括数据服务平台商、 云计算服务商等参与主体。 基础硬件芯片 人工智能芯片作为智能语音产业的核心, 芯片的技术成熟度将影响智能语音设备的性能。 人工智能芯片行业的技术门槛较高, 海外厂商技术领先, 中国人工智能芯片较依赖进口, 导 致智能语音服务商的制造成本居高不下, 压缩企业利润空间。 人工智能芯片按照不同应用场 景可分为通用类 AI 芯片、云端 AI 芯片、终端 AI 芯片。在通用类 AI 芯片领域,美国英伟达 的 GPU 芯片占据主导地位,中国 AI 芯片企业人工智能基础层建设实力较薄弱,缺乏国际 竞争力。在云端 AI 芯片领域,英特尔、亚马逊等海外企业占据较大的市场份额,部分中国 企业陆续布局云端推断市场,但竞争实力较弱。在终端 AI 芯片领域,中国企业取得了较大 的突破, 代表企业包括寒武纪、 地平线和深鉴科技等优质厂商。 伴随定制化芯片和类脑芯片 的发展,中国人工智能芯片将逐渐打破海外芯片企业对中国市场的垄断。 软件服务 13 报告编码19RI0226 (1)算法 智能语音算法主要应用于数据的计算、 分析和语音识别, 中国在智能语音算法领域优势 较弱。算法及算法框架的技术门槛较高,以 Facebook、谷歌、IBM、微软为主的海外科技 巨头占据算法行业较大的市场份额,中国仅有少数几家科技公司拥有针对算法的开放平台, 如百度。 核心环节技术实力薄弱削弱中游智能语音服务商的国际竞争实力。 智能语音在各领 域应用程度的加深导致行业对于核心算法的需求将逐渐提升,算法制约亟待解决。 (2)云计算服务 中国云计算服务商众多, 可以分为以阿里、 腾讯为代表的互联网企业、 以华为为代表的 传统 IT 企业、 以中国移动、 中国电信、 中国联通为代表的运营商、 以及自主研发初创企业。 云计算服务为智能语音设备提供强大的运算能力和资源整合能力, 提高了智能语音后台技术 的智能化水平,进一步提高语音识别能力,推动智能语音技术应用的落地。 2.4.2 中国智能语音行业产业链中游 中国智能语音行业中游主要包括智能语音科技企业、互联网企业等参与主体。 智能语音科技企业 中国国内专注于智能语音技术研发的代表性企业为科大讯飞和捷通华声。在智能语音 行业发展前期,智能语音科技企业以研发单一的智能语音技术为主,利用其技术优势获取 企业收益。近年来,伴随智能语音行业的发展,深度学习技术的应用、海量语音语料数据 的积累、以及计算机算力的提升,使智能语音技术的调用得以简化,技术门槛逐渐降低, 导致智能语音科技企业的技术优势逐渐被削弱,智能语音科技企业逐渐从单一的智能语音 技术商转型为全方位人工智能技术服务商。智能语音科技企业依托其技术优势,积极布局 下游各应用场景,通过为下游应用领域提供高端定制化的智能语音服务解决方案,加速企 业产品和服务对下游的渗透。 14 报告编码19RI0226 15 报告编码19RI0226 互联网企业 基于智能语音领域较好的发展前景,以 BAT 为代表的互联网巨头开始布局中国智能语 音领域。 互联网企业通过开放语音生态系统, 以产业内合作的方式, 将语音技术植入合作方 的产品中,并利用其 C 端优势推动产品在下游各应用场景的落地。互联网巨头用户流量优 势明显, 企业对于市场产品喜好的把控优于其他行业参与者。 互联网企业可以基于对用户偏 好的分析,对下游消费者进行产品的精准投放。 2.4.3 中国智能语音行业产业链下游 智能家居 在智能家居领域,智能语音通过与智能电视、智能音箱、智能照明等智能终端,以及智 能家居控制中枢系统相结合。 并利用语音交互技术实现对所有智能家用设备的控制, 从而打 破单一家用产品的智能化,构建智能家居生态。伴随语音交互、对话式交互技术的发展,用 户只需向智能家居中枢系统发出指令, 再由智能家居中枢系统通过语音语义识别, 将自然指 令转化为机器语言, 向各智能终端设备发出服务信号。 未来, 智能语音技术的发展将推动智 能语音在智能家居领域的应用将逐渐加深。 智能医疗 智能语音在医疗行业的应用主要体现在两个方面: (1) 利用智能语音技术实现病人电子 病历与临床报告语音录入与转写, 建立整合语音电子病历。 语音电子病历的应用帮助医生在 诊疗过程中实时完成病例编写, 在提高医生的工作效率与工作质量同时, 患者可以通过语音 电子病例系统下载完整的诊疗过程和病历; (2) 伴随语音病历的积累, 医院可以利用大数据 技术和深度学习技术挖掘医学案例和语音资料的价值,利用智能语音技术实现辅助治疗。 车载语音 智能语音在汽车领域的应用较普遍, 当用户在驾车行驶过程中活动受限时, 语音交互将 16 报告编码19RI0226 成为车载场景中最适合的交互方式。在车载场景中,智能车载产品主要包括导航路线规划、 语音接听电话、 音乐搜索与播放、 信息听写等功能。 智能语音技术的发展将推动智能车载场 景开发更多服务类型,如社交、娱乐、餐饮等。目前,较多智能语音服务商专注于智能车载 场景的产品开发, 如蓦然认知自主研发的对话应用、 对话式车机 OS、 智能语音座舱等产品。 智能语音车载产品的落地可以在保障用户安全的前提下提升驾乘体验, 打造成熟的智能车联 网系统。 智能教育 智能语音在教育领域的应用主要围绕教育体系中“学、练、测、评”等核心需求,搭建 “平台+内容+终端+应用” 的完整教育教学生态体系, 推动教育信息化产业的快速发展。 近 年来, 政府将教育信息化作为促进教育公平和推进教育现代化的有效手段, 并且将教育信息 化上升为国家战略, 相关支持政策陆续出台。 基于政策的支持和智能语音技术的发展, 智能 语音在教育领域的应用逐渐深入, 结合智能语音的智能教育产品逐渐落地, 其中包括智能课 堂、互动教学工具、教学质量测评与分析工具、资源平台等产品。 智能客服 智能语音在客户服务领域的应用日渐深入, 主要形式包括语音问答、 语音质检、 语料挖 掘、 隐私保护等。 相较于传统客服, 智能客服的引入和应用将有效降低企业成本, 智能问答、 语音质检等服务减少人工客服坐席数量及员工培训成本。 同时, 智能客服可以确保服务的标 准化输出,且满足 24 小时全天候在线服务。此外,智能客服的应用将最大程度上保障客户 隐私,隐藏客户的真实身份。因此,企业基于成本及服务标准化等方面的要求,对