百度大脑智能对话引擎白皮书.pdf
百度大脑智能对话引擎白皮书23内容目录一、为什么要用智能对话? 1.1 智能对话使自然人机交互成为现实 1.2 智能对话已经持续产出商业和社会价值 行业级(B端)的价值提升 消费者(C端)的体验升级 市场规模的增长 二、智能对话的发展现状 2.1 技术发展现状 2.1.1 智能对话基础技术 2.1.2 问答型智能对话技术 2.1.3 任务型智能对话技术 2.1.4 闲聊型智能对话技术 2.2 行业应用现状 2.2.1 智能对话行业应用广泛,企业投资意愿较强 2.2.2 行业用例集中在客服、销售领域2.2.3 企业使用智能对话的预期收益较为明确 2.2.4 三类挑战制约应用的进一步发展 三、如何使用智能对话? 3.1 确立实施战略 3.2 选择应用场景 3.3 落地技术方案 3.4 寻找合作伙伴 四、智能对话未来展望 4.1 技术展望4.1.1 专业型智能对话系统快速演进 4.1.2 通用型人机对话系统初现端倪 4.2 应用展望 4.2.1 横向拓展 生态演进促进规模化应用 4.2.2 纵向深入 人工智能与物联网融合带来全面智能化 结语0408274044.41.1 智能对话使自然人机交互成为现实自20世纪50年代人工智能的概念被提出以来,如何实现人与计算机系统之间的有效交互一直是信息技术界的重点课题。六十多年来,人机交互从人适应机器向机器不断适应人的方向发展,按照交互方式的不同,可以划分为以下发展阶段: 计算机语言交互: 最初的人机交互是手工作业模式,操作员将提前编写好的二进制代码在纸带上打孔,然后再将纸带插入到计算机中,需要等待很长时间才能得到计算机的反馈。20世纪60年代中期,出现了命令行界面,人机交互的方式变成了问答型,用户通过命令行界面输入指令,计算机收到指令后通过字符给出反馈。这一阶段,用户主要通过手和眼与计算机进行对话,通过敲击键盘进行输入,通过字符获取输出。 图形用户界面交互: 20世纪80年代,微软公司推出的Windows操作系统使计算机操作系统呈现出通俗易懂的图形化界面,配合同时期苹果公司推出的流行于商业市场的鼠标,图形用户界面交互从此产生。进入21世纪,以智能手机为代表的多点触屏产品风靡全球,人机交互的门槛进一步降低。在这一时期,用户仍然通过手和眼与机器进行对话,但用户的输入方式从敲击键盘变成了操作键盘、鼠标、触摸屏等多种类型,计算机输出的内容也从单一的字符变成了文本、图表、音视频等多种形式。 自然人机交互: 自然人机交互是人机交互的未来。在这一阶段,用户可以利用多种方式,包括手势、眼神、语音、触碰等,以最自然的方式对计算机进行多维、非精确信息的输入,计算机可以在接收到多个维度的输入后对信息进行整合,并进行精确的理解,对用户输出立体化的反馈。得益于计算机视觉、语音识别、语义理解、深度学习等人工智能技术的发展,机器已经可以理解并执行人类语言指令。为什么要用智能对话?从计算机语言到图形界面,再到自然交互,人机交互一直朝着简单、高效、丰富、自然的方向发展。而在自然交互的多种方式中,语音交互起步最早、发展最深、应用最广。因此,可以说智能对话的出现,使自然的人机交互第一次成为现实,并将在未来的万物互联时代,继续扮演人机之间沟通桥梁的重要角色。51.2 智能对话已经持续产出商业和社会价值尽管能够融合不同数据类型做决策、支持各种交互方式的人工智能系统尚未普及,但在需求十分迫切、解决方案相对成熟的领域,智能对话已经被越来越广泛地采用,并产生了显著的商业和社会价值。行业级(B端)的价值提升智能对话的价值已在各行业用户中得以体现,技术升级和推广拓宽了行业应用场景,新的产品和应用为行业带来了效率和价值的提升。在金融业: 中国已经有上百家银行、证券公司、保险公司使用智能对话系统。目前,智能对话主要用在问题咨询、外呼、工单管理等客服场景中。基于智能化的语音数据捕获和分析,未来智能对话的应用场景还包括贷款、理赔处理以及提高销售专业性和丰富客户体验等更多方面。在零售业: 众多零售商将人工智能集成到传统的客服系统中,为用户提供个性化产品建议,并主动推送相关产品。一些零售企业与社交媒体合作,以微服务的形式,通过聊天工具为用户提供服务。更多的中小零售企业不再单独建设客服系统,而是直接使用社交平台的对话系统来接管用户服务。目前行业内广泛应用的自动电话回访也将人工从繁琐的售后回访中解放。保险公司呼叫中心是典型的“劳动密集型”领域,客服人员长期面临高强度的情绪劳动工作,由此带来的“人员流失” 、 “服务不一致”等问题对保险企业的人力成本和服务质量产生了消极影响。为此,保险行业尝试引入人工智能客服引发了一场资源和人才的连锁反应。阳光保险于2017年开始人工智能对话的探索,其智能客服“小阳”在2018年年底正式上线。目前,基于文本交互的智能客服可覆盖业务场景下70%以上的问题,语音交互的智能客服主要用于售后回访,对话准确率达85%。在智能客服的协助下,在线客服响应速度大幅提升,人工客服的数量及工作时间均缩减为原来的50%,也让工作人员有更多的精力、以更专业的能力服务客户。智能对话技术在为企业有效节约营运成本的同时也提升了客户体验。 阳光保险智能对话实践6消费者(C端)的体验升级智能对话不仅为行业用户带来了商业价值,也产生了明显的社会价值。对于普通消费者而言,生活品质和服务体验得到了双重提升。丰富数字生活: 随着技术的快速发展,智能对话相关产品和服务被逐渐发展、采用和整合到手机、音箱、汽车等终端设备中,并催生了大量的场景化应用。技术、终端和应用的融合,让智能对话从小众场景的探索逐渐步入消费级的大规模应用,购物、烹饪、外卖、出行、家政、游戏、观影、健身等活动都可以借助语音助手等智能对话产品来辅助完成,为消费者提供了高效、便捷、丰富的数字化生活体验。在制造业: 从家用电器到大型设备,各类型的制造企业都在寻找机会嵌入智能对话系统,使用户可以控制具有对话式交互功能的电器设备,对人工效率、能源节约、安全防护都有显著提升。在政务领域: 已经有多地政府使用具备语音交互功能的自助终端以减轻行政人员的工作负担并提高办事效率。智能终端可以通过多轮对话快速准确地引导群众定位办事流程,收审所需材料,大幅压缩了等待时间。随着“互联网+政务”的不断推进,各地政府在人工智能、大数据的助力下探索服务升级新途径。2018年11月,上海市徐汇区建立了24小时自助政务服务大厅,可通过多种类自助服务终端,提供29个部门654项政务服务事项的自助办理。该项目运行以来,累计服务人次超6.7万,自助服务办件量占总办件量的45%。目前自助服务设备涵盖自助办理工作台、自助签注机和社保、医保自助终端等十大品类,通过智能语音引导、人脸识别、文本识别等程序完成收审材料,并利用机器学习和数据共享,不断对审批数据、审核要点自动学习,实现办事材料的精简和智能审核。由卓繁信息依托百度UNIT开发的智能语音助手,全程提供语音对话交互,分析用户意图,简化群众在自助机器中的检索步骤,通过两轮到四轮的对话即可指导群众完成事项办理。视障人士和部分需要反复确认信息的人群可借助智能语音随时进行基本信息查询,未来在更多硬件设施的配合下,智能语音也将为上述群体带来更多的便利。助力儿童教育: 数字科技背景下孕育和成长的数字化原生代与人工智能之间具有天然亲和力,更愿意使用数字技术替代传统的生活学习工具,为智能对话的发展提供了重要驱动。在早教场景中,伴读机器人引导儿童阅读的功能受到了许多年轻父母的追捧;在K12教育中,家教机器人能够帮助提升学习效率、丰富学习的趣味性,给予青少年朋友般的陪伴。上海市徐汇区行政服务中心智能对话实践7改善社会福利: 随着老年人在社会人口结构中的比重不断上升,面临养老、陪护及医疗康复问题的老年人成为社会中亟待关怀的群体。多地社区及养老院通过智能语音穿戴设备随时监控老年人的身体状态,并接听语音指令下的电话呼叫以提供及时救助。“智能语音护理床”的出现使得患者可通过对话自行控制护理床状态。智能语音交互提升了养老服务的质量,也使得服务更有温度。服务特殊群体: 对于有视觉障碍和语言障碍的特殊群体来说,目前市场中的智能语音客服和语音助理为处理个人事务提供了便利。在智能软硬件的无障碍设计中,智能对话能够更好地帮助解决信息交互困难的问题。当前智能语音报警器、应用软件中的语音验证等尝试,也正帮助残疾人士离安全、便捷的现代生活更近一步。市场规模的增长好成绩家教机智能对话实践图1 中国智能对话市场规模(亿元),2018-2022在政策、技术、产品化的多重推动下,中国智能对话技术市场正由萌芽期向发展期过渡, 企业普遍认识到智能对话的价值,并开始投入资金购买智能对话软件、硬件及服务。IDC数据显示,在2018年,包括软件、硬件、服务在内的中国智能对话市场支出规模达到49亿元,较2017年增长115.1%。在具备发展基础、面临市场机遇的双重推动下,智能对话市场将在未来继续保持高速增长态势。IDC预计其2022年的市场支出规模达270.5亿元,2018-2022年的复合增长率为53.2%。大量的技术和服务提供商也将进入市场,并向产业链上下游延伸,推动市场的进一步增长。当下越来越多的家庭面临着青少年课外无人陪伴、指导学习的问题。家教机的出现一度为K12教育市场注入了新鲜血液,让学生可以随时用工具书、听名校课。但是传统的家教机集成了海量数据,让用户使用时有无从下手的感觉。深圳好成绩网络科技公司借助百度语音识别、语音合成以及UNIT平台技术,在2017年10月开发出了行业首款伴读机器人“萌宝”。用户能够直接通过语音对话告诉“萌宝”自己的需求,从而方便准确地找到相关学习内容,让用户学习效率得到极大的提升,学习兴趣也变得更加浓厚。机器人“萌宝”通过整合家教机80%的核心功能及资源入口,使家教机整体利用率提高了35%;同时还降低了家教机的使用门槛,用户同比增长95%,小学生用户占比高达70%。目前家教机中机器人覆盖率达90%,其种种功能的实现与智能对话技术密不可分。2018 20202019 2021 202249.080.5124.4190.6270.5来源:IDC,201982.1 技术发展现状智能对话技术旨在让计算机具备像人一样的语言交流能力,能够理解人们发出的语言指令并与人们进行语言交互,从而更好地为人们提供信息和服务。现代计算机诞生之后的半个多世纪以来,伴随着计算机技术和人工智能技术的进步,智能对话技术不断发展,经历了从规则技术向统计技术再到深度学习技术的演化升级(图2)。智能对话的发展现状随着价值的提升,智能对话在近两年的发展中呈现一日千里、遍地开花之势:从先行者的小范围探索到行业企业的全面入局,从单点应用到深入各细分领域的多方应用。技术与应用的双重创新将继续驱动中国人工智能市场高速发展。准确评估智能对话的技术和应用现状、厘清现阶段的挑战,对各行业企业进一步把握机遇、抢占先机、分享红利具有重要意义。图2 智能对话技术发展历程早期的智能对话技术采用简单的启发式规则,即通过词典、模板和规则等策略实现基本的语言理解与对话决策,进而实现具有初步智能水平的聊天功能。统计机器学习时代的智能对话系统基于复杂的统计模型和特征工程(指把原始数据转变为模型的训练数据的过程),从大规模对话标注数据中自动学习对话理解与决策规律,大大改善了对话系统的表现效果。深度学习时代的智能对话系统借ELIZA词典规则模板知识库. 最大熵支持向量机马尔可夫词料库. 人工规则时代 统计机器学习时代 深度学习时代神经网络强化学习端到端语料库.9时至今日,智能对话技术已发展为支持多种重要应用模式,包含多种实现方法的完善技术体系。从功能实现的角度,一套经典通用的对话系统包括以下环节 1(图3):1 除经典通用的对话系统外,还存在搜索对话、问答对话、机器阅读理解、端到端闲聊等多种人机对话系统,其环节构成也各有所异。此处仅描述经典对话系统的构成,方便读者理解人机对话的实现逻辑。2 “词槽”指与意图相关的关键信息。 语音识别: 用户通过语音说出一条需求后,经过自动化的语音识别,将语音转化成文字。 语言理解: 将文字中蕴含的“意图”和“词槽2” 提炼出来。 对话状态维护: 将意图与词槽与历史的对话状态进行整合。 动作候选排序: 从后台用户配置的多个系统动作中选择一个最符合当前状态的动作。 语言生成与语音合成: 将候选动作转化成自然语言,并合成语音,与用户做出互动。语音语音识别语言理解对话状态维护动作候选排序语言生成语音合成图3 通用对话系统的组成任务型语音处理智能对话技术类型智能对话基础技术语言分析 知识图谱问答型 闲聊型图4 智能对话技术分类人机对话技术以语音、语言和知识处理技术为基础,智能对话基础技术分为语音处理技术、语言分析技术和知识图谱技术;智能对话技术按不同的应用场景又可分为任务型智能对话技术、问答型智能对话技术和闲聊型智能对话技术。助大规模的深度神经网络,显著增强了对话系统的知识学习与应用效率,进一步提升了对话系统的使用体验,同时也诞生了百度UNIT等用于开发智能对话系统的平台。 有任务目标,且需要参数化请求有任务目标,不需要参数化请求开放,不限定领域10语音处理技术语音识别技术语音识别(Automatic Speech Recognition, ASR)是实现“声音”到“文字”转换的技术,即让计算机能够“听写”出不同人说出的连续语音。目前,主流的语音识别模型是注意力机制增强的神经网络端到端模型,其核心思想是借助编码器将输入的源端音频信息序列压缩为低维向量表示,再借助解码器将该低维向量表示展开为目标端文本符号序列。这一过程中,与每个音节或汉字最相关的音频特征信息可以自动被挖掘,从而更好地进行后续的预测识别过程。端到端模型抛弃了传统语音识别的状态建模和按语音帧进行解码等传统技术框架,实现了语音和文本一体化端到端处理,可以在规整的大规模数据集上取得很高的识别精度。但是,注意力机制增强的端到端模型也存在缺陷,制约了其在商业环境中的大规模应用。其一,是端到端模型无法有效支持流式解码的问题,即大多要求语音都上传到服务器后才能开始计算和解码,用户等待时间较长,用户体验和实时语音交互的效果都受影响。其二,是长句建模的精度下降问题即要处理的输入序列越长,特征信息的计算、传递和选择的难度就越大,语音识别结果出错的概率也就越高。百度创新性地提出一种基于时序分类(Connectionist Temporal Classifica-tion,CTC)尖峰截断的流式多层注意力模型,以上下文无关的音节或者高频音素的组合作为基本的声学建模单元,通过CTC模型和注意力模型联合建模,获得了超过显著CTC模型的识别效果。该方法利用CTC模型输出的尖峰描述信息把输入特征切为特征片段,使得每个建模单元的注意力建模仅仅在一个独立的特征片段上进行,从而缓解了传统注意力模型在整个句子长度范围内进行建模所导致的精度下降问题。由于上述建模片段按从左向右顺序流式展开,整个语音识别过程也可以按从左向右顺序流式进行。实验显示,这种新的建模方法不但有效解决了传统的基于注意力机制的端到端模型在长句子上建模精度不佳的问题,还在工业界首次满足了端到端语音识别技术用于在线语音识别的流式解码的要求。2.1.1 智能对话基础技术