2020中国智能语音行业研究报告.pptx
2020中国智能语音行业研究报告,摘要,人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度 神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技 术落地期到来。不过人们面对“AI”时希望得到自然、类人的交互体验,这是一个 宏伟的开放性课题,背后涉及的各学科技术仍有不足,还面临长期的求索方能突破。消费级智能硬件是最早显示出市场潜力的赛道,市场各方都在瞄准消费级智能交互 终端。而智能终端的背后还有广阔的生态,包括语音开放平台、语音操作系统、内 容等等,近年行业正在经历从单一商业模式向多元化商业模式的变迁,技术输出的 “厚度”增加,“边界”扩大,也带来了技术落地曲线的加速度增加。智能语音企业级和公共级市场主要有平台化技术输出和解决方案两类商业模式,解 决方案业务占比较高。与国外市场以医疗为重头有所差异,我国市场以智能客服、 公检法及教育业务份额更高。智能语音为各行业解决了刚需性问题,将促进各行业 业务效率的提升。目前全国约有超过250家企业参与智能语音语义市场。互联网巨头、技术提供方、 设备商和行业集成商应分别重视连续性投入支持问题、基础开发模块标准化程度提 升与商务团队配置问题、设备后服务增长问题和软件研发能力建设问题,迎接人机 交互升级带来的行业价值链扩张。,智能语音相关技术概述,1,子研究(1/3)消费级市场,2,子研究(2/3)企业级与公共级市场,3,子研究(3/3)市场参与者,4,写在最后,5,智能语音的概念,智能语音即实现人与机器以语言为纽带的通信智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽 带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器 生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。,人机对话的实现流程,对话输入与 前端处理,ASR语音识别,NLU语音理解,NLG语言生成,TTS语音合成,对话输出,01,02,03,04,08,07,06,05,DST对话状态维护,Policy动作候选排序,信号及语音,NLP,智能语音的前情提要(1/3),外耳中耳:声音传递,内耳:声波转换,声音收集将声能转化成机械能并放大, 把声波传送至内耳,通过毛细胞将声波机械能转化为 生物电信号,经由听神经传导,听觉中枢纵跨脑 干、中脑、丘脑 的大脑皮层,听觉中枢:主观听觉感受,听觉掩蔽噪声分离空间听觉声源定位、声源 分离和环境感知判断声音起止感知声音特征与管理“读”、“写”、“说”,的语言中枢关联,”人们之所以能听到声音、现解言语,是依赖于由耳、听神经、听觉中枢组成的听觉通路。其中,听觉的形成部位是听觉中枢“,”机器的闻音知意本质上是对声音特征和文本的分类任务,当然通过声学技术保障拾音效果同样重要。如果需要机器感知声音的,起止和音色等特征,还需要另外进行信号处理与特征分类任务“,机器“听觉”本质上是对声音特征和文本的分类任务人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,还需要另外进行信号处理与特征分类任务。人与机器的“闻音知意”,麦克风阵列 拾音器,接收声音信号转化为音频 信号并放大声源定位去混响语音增强声源信号提取/分离,将模拟信号转化为电信号,用向量描述信号的 多维特征(如用MFCC特征刻画声音的频谱、 共振峰等)将特征识别为状态,组合成音素(声学模型)根据语言表达的特点,选取音素所对应的正确 的文字,最终完成由向量转化为文字的过程,(语言模型),语音识别语言理解,根据文本,通过领域识别模块识别对 话发生的背景领域,再通过人的意图 检测模块识别出人希望触发的行为通过槽填充,补全人的意图,将隐式 的意图转化为显式的指令,为机器提 供一个规范的语义表示,基于简单的模板 匹配的方法进行 针对特定人的孤 立数字语音识别 出现,现,,基于大词汇量 的连续语音识 别系统开始出 现语音合成的参 数合成法出 能合成出比较 自然的语音,计建模的方法神经网络开始用于语音识 别,但效果不明显语音合成PSOLA算法被提出,解决了语音段的 拼接问题,语音识别转向基于概率统 入式设备应用,模板匹配方法主导,概率统计建模方法主导,深度神经网络方法主导,起步期,变革式发展期,落地可用期,隐马尔科夫模型(HMM)和 可训练的语音合成 Hiton提出用深度置,高斯混合模型(DMM)应用:方法提出,适合嵌 信网络初始化神经,网络,掀起了深度 学习浪潮,语音识别开始从孤 立词识别系统向大 词汇量连续语音识 别系统发展,任务上性能显著提升科大讯飞首个深度神经网络中 文语音识别系统上线基于DNN的声纹识别率提升了30%,技术变迁,技术阶段,Tacotron 、语音唤醒 WaveNet上线,,采用深度 端到端语音合成,微软DNN(深度神经网络) 学习技术 成为潮流,HMM在大词汇量连续语音识别 远场唤醒 端到端的语音识,产品化别广泛应用,准,DNN的出现使语音 机器语音识别准确 识别错误率第一次率第一次达到人类 大幅度降低(接近水 平 (95%) 90%),确率进一步提升远场语音识别和唤醒 进一步发展全双工语音交互出现,智能语音的前情提要(2/3),1950s1970s1980s1990s20062011201620172018注释:(1)目前端到端的语音合成指打通文本端-声学端,或声学端-波形端,直接从文本到波形的端到端尚不能实现;端到端的语音识别也是指打通声音特征端-文本端,波形-信号处理-声学模型-语音模型-文本的端到端尚不能实现。端到端的方法有助于训练效率和效果提升。(2)准确率数据指近场语音识别准确率。,深度神经网络是智能语音技术近年达到落地可用的推动器2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获 得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次 达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。智能语音技术发展历程示意图(以语音领域模式识别为主),准确率可 达98%根据实际应 用痛点针对 性优化,智能语音的前情提要(3/3)所涉学科及其研究任务,2020年建议重点关注的技术方向(1/3),声学空间特征与环境感知根据房间模型、声学 场景分类、事件检测 来优化响应方式空间声场各型号甚至形态的设 备降噪去混响、环绕 立体声播放,AI能力共享、算力共享 多设备的协同达到效率 最优,应用,就近唤醒 根据距离、朝向选择 最适合应答的设备, 控制当前空间的家电,同型号多设备立体声同步播放 区分左右声道,达 到较好的音乐体验,多房间同时播放精确同步,展望,声学空间感知进步、IT架构和连接协议开放,声学感知空间环境:解决多智能设备无法配合的困扰随着智能语音算法基础性能不断提升,识别准确率、时延问题已不再是交互体验的核心痛点,人们希望让智能设备具备更 多的基本能力,例如能够感知环境,当同一个房间里有多个智能交互设备或多台智能交互设备分布在不同的房间时能准确 唤醒,过去通过设备间蓝牙通信可以解决由哪台设备被唤醒与人对话,但无法解决相关的家居控制执行问题。2019年,业 内玩家开始重视将声学感知空间的能力与交互系统结合起来,实现多智能交互设备的就近唤醒应答,避免多设备重复响应 和执行指令,在这种情形下并不存在某个中心交互设备,因此也被称为分布式场景。未来,设备之间的隔阂可能被进一步打破,如使任何形态、任何配置的终端设备通过连接协议实现AI能力共享、算力共享(而不仅限于目前用一个设备通过连接协议对其他设备语音控制),就可能使场景内适宜拾音的设备与人交互、适宜功放 的设备配合放音,使多设备的协同达到效率最优。智能交互终端分布式场景的应用与展望,2020年建议重点关注的技术方向(2/3),全双工语音:由处理语音消息升级为处理语音流鉴于目前机器的智能语音交互能力是基于分类任务实现的,其智能程度的提升有赖于技能一项一项地填充补足,最终使交 互体验得到质变。上文介绍了人机对话和语音识别(ASR)的基本实现过程,相比于普通以语音消息作为交互的人机对话, 全双工则是处理语音流,能够实时预测人类即将说出的内容,实时生成回应,并控制对话节奏。多家厂商在持续投入全双 工的研发,全双工、多轮对话、单轮对话对比如下:全双工只需一次唤醒,保持进行连续的语音流分析(机器保持听+想的状态,即使在它回话的时候也同步在听和想);多轮对话只需一次唤醒,听、想、说分离,机器会在它的本句 回话完成后才再次开始听用户说话、听完再分析;单轮对话每一次用户说话前都需要先唤醒设备。除了基本的对话IQ与EQ外,让机器实现跨情景流畅切换的全双工(如内容、导航、查询、设备控制的跨情景切换)也是重要研究方向,目 前市场上绝大部分机器都只支持单轮对话或多轮对话,真正搭载了完整、成熟全双工语音能力的产品还很少。全双工语音的智能之处以微软小冰为例,节奏控制,更快响应减少用户等待焦虑,基于生成模型的NLP基于共感模型的对话策略,边听边思考连续语音识别基于语言预测的平行处理机制 非对称的多段式处理机制,节奏控制器,内容池的资源调度 多任务协调:特定声音检测、声纹识别、动态音量调节,场景理解,学会引导,对话内容学会“离开”,更懂事学会记忆,学会倾诉 学会倾听解锁交流的艺术,单次平均对话轮数(CPS): 23轮,对话引擎的服务要素,2020年建议重点关注的技术方向(3/3),知识库,无结构文本知识,日志分析工具,实体-关系型知识库对话管理编程框架知识库构建工具,语言理解结构分析型理解语义匹配型理解端到端型理解对话管理分发式对话管理流程式对话管理异常对话处理与在线学习,知识库键-值型知识库开发工具对话理解开发环境,问答与对话技能,功能点,对话引擎的功能要素,对话引擎:支撑问答与对话内容实现的核心对话引擎是支撑人机交互中问答和对话内容实现的核心,广泛应用于智能客服、智能交互设备、智能车载系统等领域,核 心功能包括语言理解力、对话管理、知识库和帮助开发者定制开发扩展应用的工具。知识的指导对对话引擎十分重要,其 中知识图谱及图谱知识库构建工具能够直接从业务文档抽取知识、建立规则,而不局限于整理好的问答对,这不仅可以帮 助机器找到直接的答案来源,还可以使机器依据元素的属性与关系理解语义、形成话题推荐等对话策略。对话引擎的能力矩阵以百度UNIT为例,丰富的预置技能与资源 多样化的部署方案SLA与合理的定价完善的培训与认证体系,本章小结,技术闭环完成度有待提升,面临长期的求索方能突破智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显 短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相 比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分 支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对, 而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能 语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。,智能语音与计算机视觉的差异,计 算 机 视 觉智 能 语 音,落地效果,技术闭环完成度,计算机视觉:以人脸识别为代表的图像分 类技术主要解决1:1或1:N比对问题,解 决场景问题的技术闭环基本形成智能语音:解决人们面对“AI”时希望得 到的自然、类人、以及一些场景下需要高 信息密度的交互体验的问题,相关技术还未成熟到拼成一个没有明显短板的“木桶”,子研究(1/3),2019年市场超两千亿元,消费级市场消费级智能硬件 智能音箱研究单元 语音输入法,语音助手及其发展历程,2012,2014,2016,国内虫洞语,陆续上线,2018,2019,中 国 智 能 音 箱 销量突破百万,科大讯飞第二代汽车语音 助理发布,上线语音唤醒 词、语音交互打断技术,2013,飞、搜狗语 Cortana,可在PC端使,音智能助手 用,不再基于存储式问,答,实现了对话,科大讯飞前装智能网联 车机发布,深度打通车 机和车联网功能服务,诞生期,探索期,发展期,2011,首个个人手机,助理 Siri 诞生 ,音、科大讯 微 软 推 出 个 人 助 理,随 iPhone 4S发布科大讯飞发布 第一代智能汽 车语音助理, 上线命令词语 音识别系统,2015,亚马逊智能音箱Echo 搭载 Alexa发布,2017,智能语音助手赋能多类智能终端,构建全产业生态链消费级智能语音交互是人们接触智能语音最普遍的渠道,从手机语音助手、家庭智能音箱、智能耳机、智能电视、故事机 到智能车载等等,根据2020年中国智能物联网(AIoT)白皮书,2018年消费级AIoT在总AIoT市场中占比68%, 市场规模达到1753亿元,作为最早显示出市场潜力的赛道,无论是硬件设备厂商还是互联网公司、AI公司都瞄准消费级智 能交互终端。而智能终端的背后还有广阔的生态,包括面向开发者的语音开放平台、语音操作系统及音频内容等等。语音助手是用于终端的语音控制程序,通过智能对话与即时问答的智能交互,让智能机器助手帮助完成用户指派的任务。2011 年第一款手机语音助手 Siri 伴随 iPhone 4S 亮相,各大厂商纷纷入局。从 2017年下半年开始,通过开放语音生态系 统,进行产业内合作,语音助手向家居、车载、可穿戴设备等领域不断延伸和迁移,构建出全产业生态链。语音助手发展历程,小爱音箱累计语音交互 次数破百亿,小爱同学 内置于手环、蓝牙耳机、 电视、手表等硬件设备,Google Assistant 伴 随 Google Home 发布,实 现语音控制智能家居搜狗、科大讯飞等,企业宣布其语音识别准确率达到97%,多款搭载语音助 手的蓝牙智能耳 机陆续发布,智能音箱,智能电视,智能机顶盒,消费级智能硬件家族,通过语音助手或语音转写能力提供音频内容与任务处理服务目前带有智能语音能力的消费级硬件大体可划分为智能家居、儿童产品、随身产品、车载设备、商务产品等。部分产品的 交互特性更强,需要通过语音交互为用户提供音频内容和某些任务处理操作,例如智能音箱与车载设备可用于控制开关、 收听FM、导航等;部分产品的功能性更强,例如智能录音笔的核心功能是为用户提供语音转文字服务。2019年中国消费级智能硬件家族,儿童机器人,智能录音笔,商务录音转写器,蓝牙语音TWS耳机,智能手表,智能翻译机,智能故事机,智能学习机,商务,随身,儿童,家居,车载智能导航,手机智能支架,智能车载机器人,汽车,智能办公本,智能音箱,注释:图中用户入口指用于操控智能家居的入口。样本:N=100,于2018年4月通过专家渠道网络问卷调研获取。,16.7%,16.3%,15.9%,11.4%,9.8% 8.9% 8.1%,6.9%,2.8%,1.6% 1.2% 0.4%,智能音箱 发展机遇,新品类需求,家庭共 有性,价格与 功能可 使消费者 接受,为语音交互蓝图铺路,成为智能生活入口近年,智能音箱作为智能生活的“入口” 的地位逐渐被夯实,主要得益于三点:(1)智能生活入口是一个偏重的服务, 因此基于已有较重服务的品类上延伸发展(例如电视、遥控)在产品逻辑上不太通畅,这就给了新兴家庭智能终端发展机 会,智能音箱虽然仍定位为“音箱”,但旧瓶新酒,更像是简易形态的机器人;(2)家庭场景是服务于全部家庭成员的, 个人私有设备不太适宜执行与整个家庭成员交互的功能,而一些可穿戴设备在芯片等硬件配置上仍有不足,因此需要一款 家用设备承载这类场景需求;(3)智能音箱产品价格适中,近年来价格下降趋势明显,且随着远场语音识别、基于NLP 的对话和问答能力逐渐成熟,功能达到可用。与智能手机相似,智能音箱在初期也采取了大量补贴的策略,加速在市场上 “占位”成为第一要务,便宜的价格使用户心理预期不会过高,这也为厂商持续优化赢得 “宽容”时间。2018年中国智能家居从业者最看好的用户入口,国内智能音箱卡位家庭流量迁移(1/3),终端可得性设备渗透率,终端可得性设备活跃度,应用丰富性应用数量,应用丰富性流量质量,接入便利性,从PC与移动互联网看流量迁移模型目前移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂 商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素 将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。流量迁移模型及智能音箱成为家庭流量入口的优劣势分析,手机:2012年,3G手机大量出货,渗透率达到21%,2013年Q1移动移动数据及互联网业务收入开始超过固定 数据及互联网业务收入;2018年底,移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,互联 网流量已大量迁移到移动端。智能音箱:预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%, 且产品价格适中有望推动智能音箱进一步渗透,智能音箱作为家庭接网入口的条件初步具备。手机:2012年,手机上网率首次超过电脑(达到74.5%),93%的手机网民每天通过手机上网;使用手机成 为超高频场景,2018年12月,手机上网率达到98.6%,手机网民平均每天上网时长达5.69小时。智能音箱:智能音箱主打语音交互,由于用户体验尚未取得质变,使用频率仍然较低,只有少数用户会每天 使用智能音箱;2018年底,每月会登录智能音箱App 的用户数只有智能音箱保有量的15.8%。手机:2012年移动App如雨后春笋般涌现,当年8月仅App Store中国区应用数量就有50.4万个。截至2018年12月,我国总App在架数量为449万款,人均App数超40个。智能音箱:目前智能音箱应用数量大约在万位数,潜在的应用想象力空间还比较空白。手机:相较于PC时代,移动互联网带来的短视频、直播、支付、网文、O2O丰富了人们的生活,让用户对手机的使用频率更高,而这些应用更多的是大流量应用,信息丰富度和用户吸引力较强。智能音箱:目前以无屏款音箱居多,故用户应用大多是查询提醒、有声内容、家居控制,音频得到的流量入口时 长也较短,信息量大的服务不易通过语音交互,成为智能音箱应用引流的考验,抓住时间窗口精准推荐成为势在 必行的选择;不过其服务内容能较大程度满足老人和孩子的需求、吸引他们的关注,成为智能音箱产品的机会。手机:2015年开始的提速降费解决了移动终端上网“管道”的问题,为移动互联网爆发带来契机。智能音箱:不仅自身入网便利,且基本兼容所有连接通信协议,随着家庭场景中智能家居数量增加,智能音 箱作为普及程度和交互性较好的控制设备需求提升。,20.9%,32.7%,60.1%45.3%,71.2% 79.8% 83.4%,7.6%,19.6%,智能手机用户渗透率(3G-5G用户数/移动电话用户数,%),智能音箱家庭渗透率(出货量/城镇住房套数,%),260.0,410.0,390.0,470.0,520.0,460.0,390.0,0.11.6,21.9,380.049.2,2012 2013 20142015 2016 20172018 2019e,2012年,3G手机大量出货,智能音箱的渗透情况,在我国城镇住房中渗透率达到20%预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛。,3/4/5G手机总出货量(百万台)智能音箱出货量(百万台),,,2019年智能音箱大量出货2016年-2019年累计出货 量超过7200万台,2012-2019年中国智能手机与智能音箱出货情况,2012-2019年中国智能手机与智能音箱渗透情况,注释:因资料有限,智能音箱家庭渗透率数据是以出货量而非销量为依据的,且计算方 式中并没能剔除我国智能音箱出货量中销往海外和乡村的部分,同时未考虑一户城镇住 房拥有多台智能音箱的情况,仅做参考。,渗透率20%:终端可得性在流量迁移上的第一道门槛。目前我国智能音箱家庭渗透率约达到20%,接近2012年智能手机的渗透程度,“终端 可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛,2012 2013 2014 2015 2016 2017 2018 2019e,智能音箱App活跃情况,3.8,3.7,4.2,4.5,3.4,2.7,2.7,2.9,3.1,3.1,3.3,3.4,4.2,201811 201812 201901 201902 201903 201904 201905 201906 201907 201908 201909 201910 201911中国主要智能音箱App月独立设备数(百万台)注释:(1)口径:包括天猫精灵、小度音箱、小度在家、小爱音箱、小雅音箱、叮咚音箱的月独立设备数。(2)月独立设备数:该月使用过该App的设备总数,单个设备重复使用不重复统计。,仅为当时智能音箱 保有量的15.8%,相较于2019年智能音箱设备出货量大增, 月独立设备数上升尚 不明显,与智能音箱累计出货量未成正比智能音箱主打语音交互,由于使用体验等问题,使用频率仍然较低,只有少数用户会每天使用智能音箱进行交互;而智能 音箱App作为未来流量变现的重要一环,其活跃度也不够乐观:2018年底,每月会登录智能音箱App 的用户只有智能音箱 设备保有数的15.8%,后期由于新奇退去,活跃度在2019年上半年还产生了一定下滑,至2019年底,智能音箱App的活跃 情况相对于大幅增长的出货量依然未成正比,背后的原因主要是智能音箱应用数量有限、品类较少,潜在的应用想象力空 间还比较空白,同时信息量大的服务不易通过语音交互,也成为智能音箱应用引流的考验。2018年11月-2019年11月中国主要智能音箱App月独立设备数,5.6,37.2,73.9,118.0,2017,2018销售额(亿元),2019e,2020e,估算生产成本89.7亿元,国内智能音箱卡位家庭流量迁移(2/3),注释:(1)此处补贴指年销售额与年出货量生产成本间的差距,不涉及厂商赠送会员服 务、对开发者补贴、营销等带来的成本,因此数值受产品库存影响较大。误差会来自对 智能音箱产品价格折扣率及总销量中以折扣价销售数量的误差;可能的成本分布误差会 来自产品型号与配置的划分精细度不足。仅供参考。(2)AI算法成本囊括了企业采用自研技术(无需对外支出成本)的情况,因此实际发生 在市场中的交易量级应少于2.8亿元数值。,不算营销、渠道、开发者补贴等,2019年我国智能音箱市场约补贴15.8亿元AI算法授权费(麦克风阵列算法以外的部分)在总成本中占比约3.1%,16.4亿元,10.3亿元,7.2亿元,26.4亿元,26.6亿元,2.8亿,为什么说国内智能音箱会成为巨头的市场2019年,尽管我国智能音箱硬件补贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小 玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱 音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法补贴攻城、低价策略、互联网服务运营回血,同时 应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局, 智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。2017-2020年中国智能音箱整机销售额,国内智能音箱卡位家庭流量迁移(3/3),电商购物平台广告植入应用推广IAP分成用户付费开发者服务版权运营注释:智能音箱用户付费以会员费为主。开发者服务指智能音箱平台方向开发者提供运营支持、云资源、通用软件功能模块支持及IoT模组等。IAP分成指用户进行应用内购买增值服务后,平台与应用开发商对收入进行分成,此处不对会员费及电商购物产生的分成做重复统计。,已产生数千万元量级收入,量级收入,已产生数千万亿元,智能音箱平台服务收 入体量电子商务、移动应用 商店、网络音频、数 字音乐等四类强相关 互联网产品通过广告 植入等商业模式产生 的收入体量,流量的变现模式是下一步需要考虑的问题目前终端设备销售以外的商业化还不是市场主要关注的问题,但已开始有一些尝试。智能音箱的应用/技能基本是以设备绑 定形式存在,因此品牌设备方本身也是平台方(可以理解为智能音箱的核心预置应用、应用商店、主页、操作系统提供 方),这为智能音箱更好地复制互联网变现模式打下了基础,电商购物、平台广告植入、应用推广和应用内购买(IAP) 分成、用户增值服务付费、开发者服务等都是可能的变现方式,其中用户增值服务和电商购物已开始抢跑。与传统的互联 网产品商业模式相比,由于前述智能音箱在活跃度、应用丰富性、流量质量等尚未取得突破,且口播广告不符合音箱产品 使用逻辑、信息流及原生广告有待开发,因此广告形式、应用推广及IAP形式的变现还存在较大瓶颈。2019年中国智能音箱平台商业模式探索数十万亿级,数百亿级,百亿级,数十亿,数十亿,数十亿,数十亿,语音输入法,支持个性化语音识别;上线语音变声功能,可 模仿明星、动漫发送仿真语音消息,实现中日 韩语音随心译;支持多种语言输入、智能预测 与纠错等功能;搜狗输入法日均语音请求峰值 最高达到8.3亿次。,讯飞输入法,可识别23种方言、2种民族语言、4门外语,支持中英免切换输入、普通话方言免切换输入、 在线离线免切换输入、语音实时翻译、方言语 音翻译、中英混输、智能纠错等功能,支持定 制个性化结果及语音修改后即时学习。,能够实现高精度的方言自由说、中英自由说, 支持语音翻译、智能预测与纠错等功能、语音 混输;离线语音识别精准度达到与在线相同水 平,准确率超过98%。,语音输入法 应用功能,搜狗输入法,百度输入法,语音输入,主要利用语音识别、AI深度学习等技术,转写语音 为文字,实现多种语言/方言语音输入、混合语音 输入等,提高语音输入准确度。,语音变声核心是将语音转化技术与语音合成系统相结合, 将说话人语音映射到目标语音,从而生成用户想 要的音色,实现个性化语音变声。,语音翻译通过语音识别+机器翻译,在聊天时,可实现 多种方言/语言的实时翻译,提升沟通效率。智能预测与纠错利用深度学习算法,智能识别按键输错情 况,帮助用户自动纠正错误,完成快速精 准输入,提高长句输入效率。语音斗图基于语音识别和语义理解,在聊天过程中, 能够快速定位相应表情包,增加聊天趣味 性。,提升输入效率,满足个性化表达需求输入法是智能语音技术在C端的重要落地场景,语音输入(多语种支持)、智能纠错、语音翻译等功能开始成为标配;语 音变声、语音斗图等针对年轻群体的创新功能也相继推出。智能语音在输入法上的应用提升了用户的输入效率、更好地满 足了用户在个性化表达上的需求,为产品本身增加了吸引力,以第三方输入法的头部产品搜狗输入法为例,个性化语音识 别功能上线之后,搜狗输入法登陆率提升10.1%。输入法中的智能语音功能,本章小结,B端,品牌商,B端,技术提供方,C端用户,设备付费,定制算法开发费平台开发能力调用付费,云端能力授权付费,行业正在经历从单 一商业模式向多元 化商业模式的变迁, 技术输出的“厚度” 增加,“边界”扩 大,使技术落地曲线的加速度变大,内容,技 能,推 广,商 品,增值,查 询,B端品牌商,B端技术提供方,C端用户,个性化语音助理/个性化能力定制付费,云端能力授权付费,芯片、阵列软硬一体化产品方案付费,定制算法开发费平台开发能力调用付费围绕核心技术组成完整方案,帮助用户转化率提升带来分润增值服务付费,设备与生态服务付费,复盘消费级市场:商业模式多元化与技术落地曲线的加速度在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者语音交互技术 提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过 提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础 环节与模块标准化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问 题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链 条语音交互技术能力;(2)有建立用户联系、获取用户体验反馈的场景。智能语音技术商业模式的多元化变迁,子研究(2/3),企业级与公共级市场市场画像 应用场景,2019年市场72.8亿元,9%,22%,8%,13%,4%,44%,企业级与公共级市场画像,平台化技术输出和解决方案两类模式,解决方案业务占比高智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:一是 技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用, 当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;二是切入传统行业,提 供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。,49.4,63.1,82.1,106.0,23.4,29.2,34.5,40.5,2019e,2020e,2021e,2022e,201833.315.3 解决方案形式业务规模(亿元)技术平台输出形式业务规模(亿元)注释:(1)统计口径:未统计金融、社保声纹识别应用和为智能设备定制产品方案业务。解决方案业务指以项目制交付软硬件产品和服务,其中设备仅包括核心产品如翻译机、 专用麦克风、专门服务于语音识别与转写的服务器等,不包括同一采购项目中其他终端(如监控设备、电脑)、各类其他服务器与存储设备、安装服务。技术平台输出形式业 务指通用型、直接调用的服务,不局限于公有云形态。(2)统计方法:采用细分垂直领域市场当年释放的需求和主要玩家细分子项业务收入两 种方法,具体细分见右图。请读者务必注意数据口径,尤其在引用数据进行二次计算时。 来源:根据基础数据(国家统计局、卫健委、最高法公开数据,公开采购信息,科大讯 飞及垂直行业上市公司年报,其他公开资料),结合专家访谈,自主搭建模型核算。,前装车载智能助手,医疗健康公检法教育语言服务与泛传媒,AI客服,互联网语音审核通用智能语音开放平台注释:未统计金融、社保声纹识别应用和为智能设备定制产品方案业务。医疗健康不含 家用慢病管理音箱/机器人等设备;教育含在线教育用户付费中应核算为口语评测功能贡 献的部分、新高/中考口语人机对话考试系统,不含在线口语教育的整体销售收入、不含 智慧课堂、学情分析、教育云、校园多媒体;AI客服包括电话质检和客服机器人,全部客 服业务均归属该子项,而不统计入各垂直领域;通用智能语音开放平台指面向开发者提 供的通用非定制开发技能服务,已计入垂直领域的开放服务不再重复统计。来源:根据基础数据(国家统计局、卫健委、最高法公开数据,公开采购信息,科大讯 飞及垂直行业相关上市公司年报及其他公开资料),结合专家访谈,自主搭建模型 核算。,2019e 解决方案形式业务规模细分结构,2019e 技术平台输出形式业务规模细分结构,2022e 技术平台输出形式业务规模细分结构,2018-2022年中国智能语音 企业级和公共级市场规模,2019&2022年中国智能语音企业级和公共级市场细分结构2022e 解决方案形式业务规模细分结构,CAGR:32%,智能语音与医疗健康(1/2),门诊语音录入病例,核心价值在于提升输入效率和查询效率医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索, 节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系 统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室 专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。智能语音在医疗健康领域的主要应用,辅助其他医疗信息化系统导诊机器人、小程序嵌入功能-通过语音或文字交互帮患者挂号,根据症 状描述预诊断或推荐科室,科室位置导航诊后随访-自动电话随访患者恢复情况、提醒复 诊、自动整理对话内容住院工作站系统-为住院管理场景的医护人员提供移动 端语音录入与查询临床决策支持系统-提供系统交互接口,支持医师通过语 音输入查询医学知识和相关的诊疗案例,医疗专业术语库科室针对性优化降噪、降时延、方言、 无关信息过滤、语义标 准化、深度结构化,高覆盖深研究 通用能力,能力要求,-通过语音输入的方式生成结构化 病例、执行病例检索,高效记录 医患沟通,节约医师时间约30%- 50%。除症状外,一些专业术语 如牙位图、化学式、医学药品、 特殊符号等都可口述生成,9.7,9.0,9.9,9.7,10.6,10.7,2016,2017,医疗收入(亿美元),2018其他收入(亿美元),