2020年虚拟数字人发展白皮书.pdf
2020 年 虚 拟 数 字 人 发 展白 皮 书 中国人工智能产业发展联盟总体组中关村数智人工智能产业联盟数字人工作委员会2020年12月 版权声明本白皮书版权属于中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明“来源:中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会”。违反上述声明者,将追究其相关法律责任。 致 谢本白皮书是在中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会指导和组织下,由中国信息通信研究院云计算与大数据研究所牵头,中国工商银行股份有限公司、上海浦东发展银行、凌云光技术股份有限公司、南京新一代人工智能研究院联合参与起草,有关内容得到了网易(杭州)网络有限公司、深圳市腾讯计算机系统有限公司、华为技术有限公司、魔珐(上海)信息科技有限公司、量子动力(深圳)计算机科技有限公司、北京聚力维 度科技有限公司等单位的支持。限于编写时间、起草人员知识积累与产业尚未完全定型等方面的因素,内容恐有疏漏,烦请不吝指正。主要起草人:颜媚、石霖、张丹、孙明俊、杨艺、熊伟、曾义、张孟熙、齐凡、刘博文、罗涛、施佳子、李锋、李旭佳 前 言在人工智能、虚拟现实等新技术浪潮的带动下,虚拟数字人制作过程得到有效简化、各方面性能获得飞跃式提升,开始从外观的数字化逐渐深入到行为的交互化、思想的智能化。以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野,并以多元的姿态在影视、游戏、传媒、文旅、金融等众多领域大放异彩。为加快推动虚拟数字人技术和产业创新发展,中国人工智能产业发展联盟(以下简称“AIIA联盟”)总体组协同中关村数智人工智能产业联盟(以下简称“ZAI联盟”)数字人工作委员会于2020年发起 虚拟数字人推进计划,致力于开展虚拟数字人技术研究、标准制定、评估测试、合作交流、成果发布及生态建设工作。本白皮书是AIIA联盟总体组和ZAI联盟数字人工作委员会首次发布。白皮书回顾了虚拟数字人发展历程,重点分析了虚拟数字人关键技术和产业发展现状,对虚拟数字人的未来发展趋势进行了展望,剖析了数字人发展中的制约因素,提出产业发展建议。 II 目 录前 言 .I一 、 虚 拟 数 字 人 概 述 . 1(一)虚拟数字人研究范畴. 1(二)虚拟数字人发展历程. 1(三)当前虚拟数字人通用系统框架及运作流程. 4二 、 虚 拟 数 字 人 关 键 技 术 趋 势 . 7(一)虚拟数字人技术架构. 7(二)建模:静态扫描建模仍为主流,包含人行为动作且具有高视觉保真度的动 态光场三维重建初见端倪. 8(三)驱动:智能合成、动作捕捉迁移成为数字人目前主流的动作生产方式. 9(四)渲染:随着硬件能力的提升和算法的突破,真实性和实时性均大幅提升11三 、 虚 拟 数 字 人 产 业 应 用 现 状 .14(一)虚拟数字人产业视图.14(二)虚拟数字人重点领域应用环境及典型应用案例分析.16四 、 虚 拟 数 字 人 发 展 趋 势 、 制 约 因 素 及 建 议 .23(一)虚拟数字人未来发展趋势.23(二)虚拟数字人发展制约因素.23(三)虚拟数字人产业发展建议.25 附 件 : 虚 拟 数 字 人 典 型 企 业 介 绍 .28 2020 年 虚 拟 数 字 人 发 展 白 皮 书 1 一 、 虚 拟 数 字 人 概 述(一)虚拟数字人研究范畴“虚拟数字人”一词最早源于1989年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP)。2001年,国内以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第174次学术讨论会提出了“数字化虚拟人体”的概念。这些“虚拟数字人”主要是指人体结构的可视化,以三维形式显示人体解剖结构的大小、形状、位置及器官间的相互空间关系,即利用人体信息,实现人体解剖结构的数字化。主要应用于医疗领域的人体解剖教学、临床诊疗等。与上述医疗领域的数字化人体不同,本篇中所分析的虚 拟数字人(以下简称“数字人”)是指具有数字化外形的虚拟人物。与具备实体的机器人不同,虚拟数字人依赖显示设备存在。虚拟数字人宜具备以下三方面特征:一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。(二)虚拟数字人发展历程虚拟数字人的发展与其制作技术的进步密不可分,从最早的手工绘制到现在的CG(Computer Graphics,电脑绘图)、人工智能合成,虚拟数字人大致经历了萌芽、探索、初级和 成长四个阶段,详见图1。 2020 年 虚 拟 数 字 人 发 展 白 皮 书 2 图 1 虚 拟 数 字 人 发 展 历 程20 世 纪 80 年 代 , 人 们 开 始 尝 试 将 虚 拟 人 物 引 入 到 现 实世 界 中 , 虚 拟 数 字 人 步 入 萌 芽 阶 段 。该时期虚拟数字人的制作技术以手工绘制为主,应用极为有限。1982年,日本动画超时空要塞播出后,制作方将女主角林明美包装成演唱动画插曲的歌手,并制作了音乐专辑,该专辑成功打入当时日本知名的音乐排行榜Oricon,林明美也成为了世界上第一位虚拟歌姬。1984年,英国人George Stone创作出一个名为Max Headroom的虚拟人物,MAX拥有人类的样貌和表情动作,身穿西装,佩戴墨镜,曾参演了一部电影,拍摄了数支 广告,一度成为英国家喻户晓的虚拟演员。由于技术的限制,其虚拟形象是由真人演员通过特效化妆和手绘实现。21世 纪 初 , 传 统 手 绘 逐 渐 被 CG、 动 作 捕 捉 等 技 术 取 代 ,虚 拟 数 字 人 步 入 探 索 阶 段 。该阶段的虚拟数字人开始达到实用水平,但造价不菲,主要出现在影视娱乐行业,如数字替身、虚拟偶像等。电影制作中的数字替身一般利用动作捕捉 2020 年 虚 拟 数 字 人 发 展 白 皮 书 3 技术,真人演员穿着动作捕捉服装,脸上点上表情捕捉点,通过摄像机、动作捕捉设备将真人演员的动作、表情采集处理,经计算机处理后赋予给虚拟角色。2001年,指环王中的角色咕噜就是由CG技术和动作捕捉技术产生,这些技术后续还在加勒比海盗、猩球崛起等电影制作中使用。2007年,日本制作了第一个被广泛认可的虚拟数字人“初音未来”,初音未来是二次元风格的少女偶像,早期的人物形象主要利用CG技术合成,人物声音采用雅马哈的VOCALOID 1系列语音合成,呈现形式还相对粗糙。近 五 年 , 得 益 于 深 度 学 习 算 法 的 突 破 , 数 字 人 的 制 作 过程 得 到 有 效 简 化 , 虚 拟 数 字 人 开 始 步 入 正 轨 , 进 入 初 级 阶 段 。该时期人工智能成为虚拟数字人不可分割的工具,智能驱动的数字人开始崭露头角。2018年,新华社与搜狗联合发布的“AI合成主播”,可在用户输入新闻文本后,在屏幕展现虚拟数字人形象并进行新闻播报,且唇形动作能与播报声音实时同步。2019年,浦发银行和百度共同发布的数字员工“小浦”,也是利用自然语言处理、语音识别、计算机视觉等人工智能技术制作的虚拟数字人,可通过移动设备为用户提供“面对 面”的银行业务服务。当 前 , 虚 拟 数 字 人 正 朝 着 智 能 化 、 便 捷 化 、 精 细 化 、 多样 化 发 展 , 步 入 成 长 期 。 2019年,美国影视特效公司数字王 1 VOCALOID( 日 语 : ) 是 日 本 乐 器 制 造 商 雅 马 哈 公 司 开 发 的 电 子 音 乐 制 作 语 音 合 成 软 件 。 在软 件 中 输 入 音 调 和 歌 词 , 就 可 以 合 成 出 原 为 人 类 声 音 的 歌 声 。 2020 年 虚 拟 数 字 人 发 展 白 皮 书 4 国软件研发部负责人Doug Roble在TED演讲时展示了自己的虚拟数字人“DigiDoug”,可在照片写实级逼真程度的前提下,进行实时的表情动作捕捉及展现。今年,三星旗下的STAR Labs在CES国际消费电子展上展出了其虚拟数字人项目NEON,NEON是一种由人工智能所驱动的虚拟人物,拥有近似真人的形象及逼真的表情动作,具备表达情感和沟通交流的能力。(三)当前虚拟数字人通用系统框架及运作流程当前虚拟数字人作为新一代人机交互平台,仍处于发展期,还未有统一的通用系统框架。本白皮书根据虚拟数字人 的制作技术以及目前市场上提供的数字人服务和产品结构,总结出虚拟数字人通用系统框架,如图2所示。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。人物形象根据人物图形资源的维度,可分为2D和3D两大类,从外形上又可分为卡通、拟人、写实、超写实等风格;语音生成模块和动画生成模块可分别基于文本生成对应的人物语音以及与之相匹配的人物动画;音视频合成显示模块将语音和动画合成视频,再显示给用户。交互模块使数字人具备交互功能,即通过语音语义识别等智能技术识别用户的意图,并根据用户当前意图决定数字人后续的语音和动作,驱动人物开启下一轮交互。 2020 年 虚 拟 数 字 人 发 展 白 皮 书 5 图 2 虚 拟 数 字 人 通 用 系 统 框 架交互模块为扩展项,根据其有无,可将数字人分为交互型数字人和非交互型数字人。非交互型数字人体统的运作流程如图3所示。系统依据目标文本生成对应的人物语音及动画,并合成音视频呈现给用户。 图 3 非 交 互 类 虚 拟 数 字 人 系 统 运 作 流 程交互型数字人根据驱动方式的不同可分为智能驱动型和真人驱动型。智能驱动型数字人可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。该人物模型是预先通过AI技术训练得到 2020 年 虚 拟 数 字 人 发 展 白 皮 书 6 的,可通过文本驱动生成语音和对应动画,业内将此模型称为TTSA(Text To Speech & Animation)人物模型。真人驱动型数字人则是通过真人来驱动数字人,主要原理是真人根据视频监控系统传来的用户视频,与用户实时语音,同时通过动作捕捉采集系统将真人的表情、动作呈现在虚拟数字人形象上,从而与用户进行交互。 图 4 智 能 驱 动 型 虚 拟 数 字 人 运 作 流 程 图 5 真 人 驱 动 型 虚 拟 数 字 人 运 作 流 程 2020 年 虚 拟 数 字 人 发 展 白 皮 书 7 二 、 虚 拟 数 字 人 关 键 技 术 趋 势(一)虚拟数字人技术架构当前,虚拟数字人的制作涉及众多技术领域,且制作方式尚未完全定型,通过对现有虚拟数字人制作中涉及的常用技术进行调研,本白皮书在虚拟数字人通用系统框架的基础上提炼出五横两纵的技术架构,如图6所示。“五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物表达包括语音生成和动画生成。动画生成则包含驱动(动作生成)和渲染两大部分。“两纵”是指2D、3D数字人,3D数字人需要额外使用三维建模技术生成数字形象,信息维度增 加,所需的计算量更大。 图 6 虚 拟 数 字 人 技 术 架 构本白皮书重点关注虚拟数字人制作过程涉及的建模、驱动、渲染三大关键技术。 2020 年 虚 拟 数 字 人 发 展 白 皮 书 8 (二)建模:静态扫描建模仍为主流,包含人行为动作且具有高视觉保真度的动态光场三维重建初见端倪相 机 阵 列 扫 描 重 建 替 代 结 构 光 扫 描 重 建 成 为 人 物 建 模主 流 方 式 。早期的静态建模技术以结构光扫描重建为主。结构光扫描重建可以实现0.1毫米级的扫描重建精度,但其扫描时间长,一般在1秒以上,甚至达到分钟级,对于人体这类运动目标在友好度和适应性方面都差强人意,因此被更多的应用于工业生产、检测领域。近年来,拍照式相机阵列扫描重建得到飞速发展,目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级),满足数字人扫描重 建需求,成为当前人物建模主流方式。国际上IR、Ten24等公司已经将静态重建技术完全商业化,服务于好莱坞大型影视数字人制作,国内凌云光等公司制作的拍照式人体扫描系统也已经在电影、游戏、虚拟主播项目中成功应用。相 比 静 态 重 建 技 术 , 动 态 光 场 重 建 不 仅 可 以 重 建 人 物 的几 何 模 型 , 还 可 一 次 性 获 取 动 态 的 人 物 模 型 数 据 , 并 高 品 质重 现 不 同 视 角 下 观 看 人 体 的 光 影 效 果 , 成 为 数 字 人 建 模 重 点发 展 方 向 。动态光场重建是目前世界上最新的深度扫描技术,此技术可忽略材质,直接采集三维世界的光线,然后实时渲染出真实的动态表演者模型,它主要包含人体动态三维 重建和光场成像两部分。人体动态三维重建一直是计算机视觉、计算机图形学等领域研究的重点,主要采用摄像机阵列 2020 年 虚 拟 数 字 人 发 展 白 皮 书 9 采集动态数据,可重建高低频几何、纹理、材质、三维运动信息。光场成像是计算摄像学领域一项新兴技术,它不同于现有仅展示物体表面光照情况的2D光线地图,光场可以存储空间中所有光线的方向和角度,从而产出场景中所有表面的反射和阴影,这为人体三维重建提供了更加丰富的图像信息。近年来Mirosoft、Google、Intel、Facebook等公司都在积极展开相关研究,其中Microsoft的108摄像机MRstudio已经在全球各大洲均有建设;Google的Relightable系统将结构光、动态建模、重光照技术集成到一起,在一套系统中包含模型重建、动作重建、光照重建的全部功能;国内清华大 学、商汤科技、华为等也展开了相关研究,并取得国际水平的同步进展。(三)驱动:智能合成、动作捕捉迁移成为数字人目前主流的动作生产方式2D、 3D 数 字 人 均 已 实 现 嘴 型 动 作 的 智 能 合 成 , 其 他 身体 部 位 的 动 作 目 前 还 只 支 持 录 播 。 2D、3D数字人嘴型动作智能合成的底层逻辑是类似的,都是建立输入文本到输出音频与输出视觉信息的关联映射,主要是对已采集到的文本到语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训练,得到一个输入任意文本都可以驱动嘴型的模型,再通过 模型智能合成。然而,2D视频和3D嘴型动画底层的数学表达不一样,2D视频是像素表达;3D嘴型动画是3D模型 2020 年 虚 拟 数 字 人 发 展 白 皮 书 10 对应的BlendShape的向量表达。除了嘴型之外的动作,包含眨眼、微点头、挑眉等动画目前都是通过采用一种随机策略或某个脚本策略将预录好的视频/3D动作进行循环播放来实现。例如3D肢体动作目前就是通过在某个位置触发这个预录好的肢体动作数据得到。触发策略是通过人手动配置得到的,未来希望通过智能分析文本,学习人类的表达,实现自动配置。截至目前,国内外科技企业在数字人动作智能合成方面都有一定进展,国际上如Reallusion公司研究的利用语音生成面部表情的Craytalk技术已在动画制作中被成功商用,国内搜狗、相芯科技等公司也有部分项目落地应用。 通 过 将 捕 捉 采 集 的 动 作 迁 移 至 数 字 人 是 目 前 3D数 字 人动 作 生 成 的 主 要 方 式 , 核 心 技 术 是 动 作 捕 捉 。动作捕捉技术按照实现方式的不同,可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉等。现阶段,光学式和惯性式动作捕捉占据主导地位,基于计算机视觉的动作捕捉成为聚焦热点。光学动作捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务。最常用的是基于Marker(马克点)的光学动作捕捉,即在演员身上粘贴能够反射红外光的马克点,通过摄像头对反光马克点的追踪,来对演员的动作进行捕捉。这种方式对动作的捕捉精度高,但对环境要求也高, 并且造价高昂。光学式解决方案比较出名的企业有英国的Vicon,美国的OptiTrack和魔神(MotionAnalysis),国内 2020 年 虚 拟 数 字 人 发 展 白 皮 书 11 的Nokov、uSens、青瞳视觉等。惯性动作捕捉主要是基于惯性测量单元(Inertial Measurement Unit,IMU)来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪和磁力计的IMU绑在人体的特定骨骼节点上,通过算法对测量数值进行计算,从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉,但精度较低,会随着连续使用时间的增加产生累积误差,发生位置漂移。惯性式动捕方案的代表性企业有荷兰的Xsens,以及国内的诺亦腾(Noitom)、幻境、国承万通等。基于计算机视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉,是近些年才兴起的技术。这种 视觉动捕方式因其简单、易用、低价,已成为目前使用的频率较高的动作捕捉方案,代表性产品有Leap Motion、微软Kinect等。以上动捕方案的性能对比如表1所示。表 1 主 流 动 作 捕 捉 方 案 性 能 对 比方案精度抗遮挡对环境要求硬件成本算法开发难度应用公司光学捕捉高低高高中Vicon、OptiTrack 惯性捕捉低高低中低Xsens、Noitom视觉捕捉低低低低高LeapMotion、微软Kinect(四)渲染:随着硬件能力的提升和算法的突破,真实性和实时性均大幅提升PBR( Physically Based Rendering, 基 于 物 理 的 渲 染 技 术 ) 2020 年 虚 拟 数 字 人 发 展 白 皮 书 12 渲 染 技 术 的 进 步 以 及 重 光 照 等 新 型 渲 染 技 术 的 出 现 使 数 字人 皮 肤 纹 理 变 得 真 实 , 突 破 了 恐 怖 谷 效 应 。恐怖谷效应由日本机器人专家森政弘提出,认为人们对机器人的亲和度随着其仿真程度增加而增高,但当达到一个较高的临界点时,亲和度会突然跌入谷底,产生排斥、恐惧和困惑等负面心理。数字人恐怖谷效应主要由数字人外表、表情动作上与真人的差异带来,其中外表真实感的关键就是皮肤材质的真实感,无论是塑料感还是蜡像感都会给人类带来不适。在PBR技术出现之前,限于相关软硬件的发展程度,所有的3D渲染引擎,更多的着重在于实现3D效果,在真实感体现方面差强人意。PBR是基于真实物理世界的成像规律模拟的一类渲染 技术的集合,它的关键在于微表面模型和能量守恒计算,通过更真实的反映模型表面反射光线和折射光线的强弱,使得渲染效果突破了塑料感。目前常见的几款3D引擎,如UnrealEngine 4, CryEngine 3, Unity 3D 5,均有了各自的PBR实现。重光照技术通过采集模拟多种光照条件的图像数据,测算数字人表面光照反射特性,并合成出数字人模型在新的光照下的渲染结果,使计算机中的虚拟数字人在任意虚拟环境下都可以呈现近乎真实的效果,它彻底改变了传统渲染方式通过模拟皮肤复杂的透射反射来计算渲染总会带来误差的局面。该技术在2000年初由南加州大学实验室创建LightStage平台时提出,并开始了相关研究,目前已经经过7 代的迭代发展,已被成功应用到阿凡达、复仇者联盟等众多经典影片的角色制作中。国内清华大学、浙江大学也 2020 年 虚 拟 数 字 人 发 展 白 皮 书 13 都建设了重光照系统,可以实现高精度人体光照采集与重建。实 时 渲 染 技 术 的 突 破 助 力 写 实 类 数 字 人 实 现 实 时 交 互 ,应 用 范 围 快 速 扩 大 。实时渲染指图形数据的实时计算与输出,其每一帧都是针对当时实际的环境光源、相机位置和材质参数计算出来的图像。与离线渲染相比,实时渲染面临较大挑战。一是渲染时长短,实时渲染每秒至少要渲染30帧,即在33毫秒内完成一帧画面渲染,离线渲染则可以花费数小时甚至更长时间渲染一帧画面;二是计算资源有限,实时渲染受限于时效要求,计算资源一般是不能及时调整,而离 线渲染受时效限制较低,可临时调配更多的计算资源。早期的实时渲染只能选择高度抽象和简化过的渲染算法,牺牲了画面质量。随着硬件能力的提升和算法的突破,渲染速度、渲染效果的真实度、渲染画面的分辨率均大幅提升,在虚拟人物实时渲染方面,已经能做到以假乱真。2016年,EpicGames联合3Lateral、Cubic Motion、Ninja Theory等公司联合开发的可实时驱动的虚拟人物在当年的Siggraph(SpecialInterest Group for Computer GRAPHICS,计算机图形图像特别兴趣小组,致力于推广和发展计算机绘图和动画制作的软硬件技术)会议中做了演示,成功在消费级的硬件环境下实 时渲染了高质量的虚拟角色。2018年5月,腾讯发布虚拟人Siren,也一个支持实时渲染的虚拟人物。 2020 年 虚 拟 数 字 人 发 展 白 皮 书 14 表 2 离 线 渲 染 与 实 时 渲 染 对 比渲染方式渲染时间计算资源渲染质量离线渲染长多高实时渲染短少欠佳三 、 虚 拟 数 字 人 产 业 应 用 现 状(一)虚拟数字人产业视图当前虚拟数字人理论和技术日益成熟,应用范围不断扩大,产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。虚拟数字人的产业链从上到下可以分为基础层、平台层和应用层,如图7所示。 图 7 虚 拟 数 字 人 产 业 视 图( 1) 基 础 层基 础 层 为 虚 拟 数 字 人 提 供 基 础 软 硬 件 支 撑 , 硬 件 包 括 显示 设 备 、 光 学 器 件 、 传 感 器 、 芯 片 等 , 基 础 软 件 包 括 建 模 软件 、 渲 染 引 擎 。显示设备是数字人的载体,既包括手机、 2020 年 虚 拟 数 字 人 发 展 白 皮 书 15 电视、投影、LED显示等2D显示设备,也包括裸眼立体、AR、VR等3D显示设备。光学器件用于视觉传感器、用户显示器的制作。传感器用于数字人原始数据及用户数据的采集。芯片用于传感器数据预处理和数字人模型渲染、AI计算。建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染,主流引擎包括Unity Technologies公司的Unity 3D、Epic Games公司的Unreal Engine等。总体来看,处于基础层的厂商已经深耕行业多年,已经形成了较为深厚的技术壁垒。( 2) 平 台 层 平 台 层 包 括 软 硬 件 系 统 、 生 产 技 术 服 务 平 台 、 AI 能 力 平台 , 为 虚 拟 数 字 人 的 制 作 及 开 发 提 供 技 术 能 力 。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息,利用软件算法实现对人物的建模、动作的重现;渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI能力平台提供计算机视觉、智能语音、自然语言处理技术能力。平台层汇聚的企业较多,腾讯、百度、搜狗、魔珐科技、相芯科技均有提供相应数字人技术服务平台。( 3) 应 用 层 应 用 层 是 指 虚 拟 数 字 人 技 术 结 合 实 际 应 用 场 景 领 域 , 切入 各 类 , 形 成 行 业 应 用 解 决 方 案 , 赋 能 行 业 领 域 。按照应用 2020 年 虚 拟 数 字 人 发 展 白 皮 书 16 场景或行业的不同,已经出现了娱乐型数字人(如虚拟主播、虚拟偶像)、教育型数字人(如虚拟教师)、助手型数字人(如虚拟客服、虚拟导游、智能助手)、影视数字人(如替身演员或虚拟演员)等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域,根据需求为用户提供定制化服务。(二)虚拟数字人重点领域应用环境及典型应用案例分析虚拟数字人应用给传统领域带来变革。通过虚拟数字人产品与生产生活相融合,其规模化、可定制化、可复制化的 能力能够推动改善传统环节流程、提升效能、降低成本等,大幅提升业务体验,给传统领域带来变革。典型的应用领域、场景及充当的角色如表3所示。表 3 虚 拟 数 字 人 应 用 领 域 、 场 景 及 角 色领域场景角色泛娱乐影视数字替身特效可以帮助导演实现现实拍摄中无法表现的内容和效果,已成为特效商业大片拍摄中的重要技术手段和卖点。数字替身传媒定制化虚拟主持人/主播/偶像,支持从音频/文本内容一键生成视频,实现节目内容快速、自动化生产,打造品牌特有IP形象,实现观众 互动,优化观看体验。虚拟主持人虚拟主播虚拟偶像游戏越来越真实的数字人游戏角色使游戏者有了更强的代入感,可玩性变得更强。数字角色金融通过智能理财顾问、智能客服等角色,实现以客户为中心的、智能高效的人性化服务。智能客服智能理财顾问文旅博物馆、科技馆、主题乐园、名人故居等虚拟小剧场、虚拟导游、虚拟讲解员。虚拟导游虚拟讲解员教育基于VR/AR的场景式教育,虚拟导师帮助构虚拟导师 2020 年 虚 拟 数 字 人 发 展 白 皮 书 17 建自适应/个性化学习环境。医疗以数字人实现家庭陪护/家庭医生/心理咨询,实时关注家庭成员身心健康,并及时提供应对建议。心理医生家庭医生零售从大屏到机器人到全息空间,从数据分析、个性营销、智能货架、无人商店四大应用场景切入构建线下零售服务新流程。电商直播在虚拟数字人与真人主播和观众互动,介绍商品。顾客服务数字人商家管理数字人虚拟主播( 1) 虚 拟 数 字 人 +影 视特 效 电 影 广 受 市 场 认 可 , 扶 持 政 策 的 密 集 出 台 , 以 数 字替 身 为 代 表 的 虚 拟 数 字 人 +影 视 类 的 产 品 应 用 正 在 展 现 广 阔的 市 场 前 景 。影视是对视觉效果的要求最高且最大程度影响社会对数字人形象认知、品牌的一个领域。近年来中国影视 数字人特效取得快速发展,部分特效大片获得市场认可。2019年中国影视票房收入超过640亿级别,连续多年增长8%左右,其中特效电影约占10%。国家对于影视特效的发展十分重视,先后出台了一系列相关扶持政策。2019年,科技部、文化部联合六部委发布关于促进文化和科技深度融合的指导意见,提出加强激光放映、虚拟现实、光学捕捉、影视摄录、高清制播、图像编辑等高端文化装备自主研发及产业化。2020年,国家电影局关于促进科幻电影发展的若干意见,提出以科幻电影特效技术发展引领带动电影特效水平整体提升,并要落实财税支持政策,同时对入驻影视文 化基地的科技企业进行租金减免。于2019年2月22日在中国内地上映的阿丽塔:战斗天使是虚拟数字人技术与影 2020 年 虚 拟 数 字 人 发 展 白 皮 书 18 视相结合的典型应用案例之一。剧中的女主角阿丽塔是一位完全采用数字人技术制作的角色。该电影通过采用特殊的面部捕捉仪器对真人演员人脸细节进行精准捕捉,然后将其作为电脑中虚拟角色的运动依据,使虚拟角色的动作和表情能像真人一样自然逼真。 数据来源:国家电影局图 8 2013-2019 中 国 电 影 票 房 收 入 增 长 趋 势 数据来源:国家电影事业发展专项资金管理委员会办公室图 9 中 国 内 地 电 影 票 房 总 收 入 TOP10( 2) 虚 拟 数 字 人 +传 媒 2020 年 虚 拟 数 字 人 发 展 白 皮 书 19 以 虚 拟 主 播 为 代 表 传 媒 行 业 应 用 很 好 的 满 足 了 媒 体 传播 领 域 对 内 容 生 成 方 面 的 业 务 需 求 , 成 为 了 融 媒 体 时 代 的 传媒 利 器 。据前瞻产业研究院统计,2019年中国视频直播行业收入达到1082亿人民币,全国有3.9亿人在关注虚拟偶像,其中最大的二次元活动社区B站月活用户达1140万,虚拟主播占直播营收40%。同期,B站、虎牙等大型直播平台也都开启了线上、线下虚拟主播活动。如Bilibili Macro Link系列活动VR直播观看如数达到660万,10万级的“up主”(指在视频网站、论坛、FTP站点上传视频音频文件的人)就可以达到100万级真人主播的应收。此外,在传统媒体领域,以 虚拟主持人为代表的数字人应用也开始进入公众视野。在2019年央视网络春晚舞台上,以撒贝宁为原型制作的AI虚拟主持人“小小撒”首次上岗与原型同台秀技。这也是国内第一次人类主持人和自己的虚拟孪生数字人共同主持大规模的国家级文化活动,引起了业界及网民的强烈关注。( 3) 虚 拟 数 字 人 +游 戏游 戏 市 场 日 趋 激 烈 , 对 于 精 品 的 需 求 日 益 增 长 , 或 是 虚拟 数 字 人 技 术 在 该 领 域 落 地 的 福 音 。 2019年游戏市场规模达到2300亿,其中与数字人相关度较大的RPG类游戏约占30%的份额。我国国内游戏监管环境和游戏版号审批政策仍旧趋 严,游戏用户数相比2018年仅增加0.1亿,市场竞争日趋激烈,对于精品的需求越来越高。虚拟数字人技术则能够有效 2020 年 虚 拟 数 字 人 发 展 白 皮 书 20 简化和加快游戏动画制作过程,可以在有限成本的情况下让游戏中更多的虚拟角色都具备丰富的肢体动作和精细的面部表情,给玩家带来更沉浸的游戏体验。例如网易伏羲实验室成功将虚拟数字人技术应用到逆水寒等多个游戏剧情动画场景制作中,在无手工参与下,快速生成动画,这使得大量的虚拟角色都能富有视觉的表达能力。 数据来源:中国音像与数字出版协会游戏出版工作委员会图 10 2015-2019 中 国 游 戏 市 场 实 际 销 售 收 入( 4) 虚 拟 数 字 人 +金 融虚 拟 数 字 人 能 够 有 效 助 力 金 融 机 构 实 现 “降 本 增 效 ”, 各大 金 融 巨 头 争 相 布 局 “数 字 员 工 ”。运用金融科技实现“降本增效”应对市场竞争成为金融行业发展共识,以科技为核心的竞争导向,带来了金融机构信息科技投入的逐年增加。据轻金融统计,2019年,16家全国性银行科技总投入超千亿,总计1034.1亿元。其中工农中建四大行投入均超过100亿元,建行投入最高,达到176.33亿元。虚拟数字人拥有拟人的表 情动作,可进行智能对话,能够与服务类场景较多的金融行业天然结合。多家金融机构正利用虚拟数字人技术打造“数 2020 年 虚 拟 数 字 人 发 展 白 皮 书 21 字员工”,成为了科技创新、降本增效的重要方向。以中国工商银行为例,其推出的数字人银行员工,在移动终端和大屏等媒介上展现数字拟态形象,能够在产品营销讲解、金融业务办理、资讯播报、咨询问答等多个业务场景,实现与用户的可视化交互,为用户带来个性化服务,有效解除用户顾虑,提升用户体验和驻留时间,真正让数字化服务“听得见”的同时也“看得见”。 图 11 部 分 国 际 领 先 金 融 机 构 信 息 技 术 投 入 金 额 与 增 速 数据来源:轻金融图 12 全 国 性 科 技 总 投 入 与 占 营 收 比 重 2020 年 虚 拟 数 字 人 发 展 白 皮 书 22 ( 5) 虚 拟 数 字 人 +文 旅数 字 文 旅 产 业 表 现 突 出 , 以 虚 拟 讲 解 员 为 代 表 的 虚 拟 数字 人 应 用 或 为 其 贡 献 蓬 勃 力 量 。据中国旅游研究院统计,2019年前三季度,文旅营业收入62187亿元,比上年同期增长7.6%,特别是数字文旅产业表现突出,成为文旅产业转型升级的重要引擎。数字文化内容与互联网旅游、智慧旅游、虚拟旅游等新模式联动发展,特别是疫情期间得到不断增长。目前,虚拟数字人在文旅领域暂时还没有落地产品,但相关概念产品已经开始映入公众眼帘。例如商汤科技在2020世界人工智能大会(WAIC)上展示的AI数字人“小糖”。“小 糖”可依托于展台前的滑动屏幕,为观众介绍和讲述预先设定好的讲解内容。虚拟数字人带来的全新展示方式和讲解模式,在帮助文旅场馆解决人力不足问题的同时,更凭借其智能化、电子化和展示效果多样化的特性,为文旅行业的未来带来更多可能性。 数据来源:中国旅游研究院图 13 2012-2019 全 国 国 内 旅 游 人 数 2020 年 虚 拟 数 字 人 发 展 白 皮 书 23 四 、 虚 拟 数 字 人 发 展 趋 势 、 制 约 因 素 及 建 议(一)虚拟数字人未来发展趋势虚 拟 数 字 人 的 采 集 、 制 作 流 程 逐 步 简 单 化 、 一 体 化 , 迭代 式 提 升 真 实 感 。未来数字人的制作技术将会变得更加简单,会有更加一体化、自动化的设备同步获取模型、身体、表情、手指运动、声音等所有数据,无需穿戴专业传感设备。在特定的环境下人们甚至无法分辨数字人的真假,可以更加自然与数字人交流互动。虚 拟 数 字 人 的 交 互 方 式 衍 变 , 智 能 化 程 度 不 断 加 深 。全 双工技术将推进数字人的交互方式衍变,让数字人拥有一次唤醒、多次交互的能力,具备实时智能响应、智能打断、智能纠错、多轮对话等功能。另外,随着计算机视觉、语音和自然语言处理等人工智能技术的不断进步,虚拟数字人将逐渐具备“看”、“听”、“说”、“懂”的能力。虚 拟 数 字 人 逐 渐 实 现 在 多 场 景 、 多 领 域 的 融 合 、 应 用 、落 地 。尽管目前数字人的发展环境、整体情况还处于尚未成熟的起步阶段,但随着虚拟数字人技术的精进、市场价值的释放,其将更全面、更深入地融入影视、金融、文旅等各个领域,充分发挥应用价值,迸发巨大的潜力。 (二)虚拟数字人发展制约因素目前,制约虚拟数字人产业发展的因素主要有以下几个方面。 2020 年 虚 拟 数 字 人 发 展 白 皮 书 24 政 策 环 境 层 面 , 行 业 依 然 处 于 培 育 期 , 缺 乏 政 策 与 资 本扶 持 。一是缺少上下游协作交流平台,制约整体产业化发展。虚拟数字人产业链长,参与主体多,既有大型平台企业、也有中小单位和初创公司,行业沟通成本高。二是行业投资回报周期较长,为数字人产业投资竖立了“无形壁垒”。数字人产业还不完全成熟,投资回报周期较传统技术应用更长,缺乏长期耐心资本来扶持企业成长。由于缺乏资本力量的推动,各产业规模扩张与资源整合的进程相对滞后。技 术 应 用 层 面 , 制 作 方 式 自 动 化 程 度 低 、 生 产 门 槛 高 ,关 键 技 术 还 不 够 完 全 成 熟 。目前3D数字人建模依然需要大 量的人工制作参与,整体制作效率相对较低,与部分应用场景快速、批量制作的需求并不匹配。此外,在虚拟数字人的关键技术方面,还存在实时面部表情捕捉与还原精准度不足、语音识别在强噪声干扰及远场识别等方面还很难达到实用化要求等瓶颈,需要加大研究力度以提高算法精度。人 才 培 养 层 面 , 技 术 人 才 、 综 合 人 才 极 度 缺 乏 , 人 才 供应 体 系 不 完 善 。数字人的技术跨度大,从制作端的美术师、模型师、绑定师、材质师、动作捕捉师、灯光师、特效师、摄像师、导演、特效演员,到技术端的光学工程师、硬件工程师、软件工程师、算法工程师、系统工程师,以及运营端 的产品经理、经纪人等每一个环节的人才都很重要,急需一 2020 年 虚 拟 数 字 人 发 展 白 皮 书 25 套完善的人才供应体系,特别是跨界人才体系,才能保障产业的良性运转。标 准 体 系 层 面 , 行 业 内 缺 乏 统 一 技 术 标 准 和 体 系 , 产 品质 量 良 莠 不 齐 。数字人的产业处于发展初期,制作型公司、技术型公司、运营型公司、应用型公司均已入场,但各企业的技术、产品质量差异较大。通过建立虚拟数字人的技术、产品标准体系,保护优质数字人厂商,促进行业健康发展。安 全 伦 理 层 面 , 相 关 法 律 法 规 和 伦 理 规 范 尚 待 完 善 ,