云VR临场感指数白皮书.pdf
华为技术有限公司深圳龙岗区坂田华为基地电话:+86 755 28780808邮编:518129huawei版权所有! 华为技术有限公司 2019。保留一切权利。非经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播。免责声明本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。Wireless X Labs是一个全新的平台,旨在将电信运营商、技术供应商和垂直行业的合作伙伴聚集在一起,探索未来的移动应用场景,推动业务和技术创新,建立一个开放的生态系统。Wireless X Labs建立了三个实验室,探索三个主要领域:人与人之间的连接,垂直领域的应用和家庭应用。商标声明是华为技术有限公司商标或者注册商标,在本手册中以及本手册描述的产品中,出现的其它商标,产品名称,服务名称以及公司名称,由其各自的所有人拥有。, ,$.:$.:$:$.:,执行摘要:本文描述了云 VR(Cloud VR)业务体验评估的需求背景,评估模型框架,主观实验和分析方法,模型公式结构,模型典型值和模型应用等。其中 VR 设备的高 PPD 等效测试,云 VR 多自由度交互真实感测试等系业界首创,从而使得 VR 业务体验评估模型不仅适用于当前现状评估,而且对于未来 VR 业务的发展具有前瞻性指导。值得一提的是,本评估模型算法将以免费SDK的形式发布和共享,欢迎VR产业界的伙伴们积极试用并共同促进其发展完善。CONTENTS研究背景评估模型框架模型公式结构主观实验及分析方法模型典型值模型应用01021005 1116目录$.:$.:$:$.:,图2-VR业务用户体验评估模型框图视频码率l.11视频帧率l.12视频分辨率l.13屏幕刷新率l.14屏幕分辨率 视觉逼真度视听逼真度连续/完整性交互真实感触觉体验嗅觉体验VR临场感指数听觉逼真度l.15视频通道数l.16视频编码l.17视域l.18头部MTPl.116头部MTSl.117肢体MTPl.118操作响应时延l.119自由度l.120TBDl.121TBDl.122音频码率l.19音频声道数l.110音频编码l.111声画同步l.112平均卡顿时长l.113卡帧频率l.114数据丢失率l.115临场体验层子感知体验层临场因素层(输入层)O.21O.31O.22O.23O.33O.32O.41交互一致性同时,可以看到当前算力、存储云化的产业发展步伐越来越快, VR可以借助云端算力进行实时画面渲染。进一步地,5G网络的超大带宽和超低延时,保证了云端渲染画面的可获得性,并在随时随地接入、类本地操作方面,给用户体验带来极大提升。 Cloud VR业务作为Cloud X系列业务之一,是需求、技术、成本和体验等方面综合推动、演进的必然业务形态。然而,针对Cloud VR业务,目前业界还没有明确的体验评估模型,无法从用户体验出发,有效牵引E2E产业发展,并作为5G网络建设的参考依据。可以说,如何准确有效地评估和预测用户在应用Cloud VR业务时的体验是亟待解决的问题。为此,华为X Labs联合国内高校知名领域专家,系统研究Cloud VR相关体验影响因素,构建评估模型框架,并通过符合ITU规范的主观实验和数据训练,建立起体验评估模型。模型的不同评估模块,可以满足运营商、设备制造商、内容提供商在不同层面、不同角度的体验评估需求。相比传统的视频业务,VR能够凭借其可自由切换的视角、丰富的动作交互等特性,为用户提供全新的业务体验。研究人员通常使用临场感(Presence)这一概念来表征用户沉浸于虚拟环境,身临其境的感受。评估模型框架采用分级映射的方式构建,基于分级映射,可避免大量参数交叉测试,使测试环节测试量可控,并有利于分析、建立评估模型。具体评估模型框架如图 2所示。其中,临场因素层为模型输入层,包含了主观实验系统中可提取、可量化的因素。子感知体验层则包含视听逼真度、连续/完整性和交互真实感3个方面。近年来,虚拟现实技术VR(Virtual Reality),已经逐步进入到教育、娱乐、医疗、环保、交通运输、公共卫生等众多领域,具有极大的应用价值和商业潜力。相关调查机构公布的数据也表明,VR业务在未来若干年,将迎来一个快速发展期。RESEARCH BACKGROUND研究背景EVALUATION MODEL FRAMEWORK评估模型框架图1-全球VR/AR市场规模预测Source:前瞻产业研究VR/AR市场规模(亿美金)200400600800100012001400160002018 2019 2020 2022 20232021Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)01 02$.:$.:$:$.:,模型输入参数及相应缩写如表 1所示:表1-评估模型输入参数评估模型输出及相应缩写,如表 2所示:表2-评估模型输出ID IDI.11I.12I.13I.14I.15I.16 O.21O.22O.23O.31O.32O.33O.41视觉逼真度听觉逼真度交互一致性视听逼真度连续/完整性交互真实感VR临场感指数15分15分15分15分15分15分15分I.17I.18I.19I.110I.111I.112I.113I.114视频码率视频帧率视频分辨率屏幕分辨率屏幕刷新率视频通道数 视频编码视域音频码率音频声道数音频编码声画同步平均卡顿时长卡顿频率Br MOSVF Visual FidelityAcoustic FidelityInteraction ConsistencyAcoustic-visual FidelityRebuffering / Packet LossInteraction RealismVirtual Reality Presence IndexMOSAFMOSICMOSAVFMOSRPMOSIRVR PIFRRh,R vRShRRSTVideo CodecFoVhABrSPAudio CodectasynTrRF视频的平均码率(比特每秒,bps)每秒内的视频帧数(fps)视频水平和垂直方向的像素点个数单目屏幕水平方向的像素点个数屏幕每秒钟刷新次数单目视频(1)或立体视频(2)H.265/HEVC,H.264/AVC,VP9水平方向单目视场角音频的平均码率(千比特每秒,Kbps)立体声音(2),空间化声音(8)AAC-LC,Opus声画同步时延(秒,s)单次观看过程中卡顿的总时长,包括初始缓冲时长(秒,s)单次观看过程中卡顿发生的频率(即卡顿次数/观看时长)参数 描述 描述 值域缩写 缩写 全拼Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)04I.115I.116I.117I.118I.119I.120数据丢失率头部MTP头部MTS肢体MTP操作响应时延自由度 pplthdtadtbdtodDOF应用层数据丢失率(%)头部转动与画面刷新之间的滞后时长(ms)头部转动与音频方位变化之间的滞后时长(ms)肢体运动与画面中肢体移动之间的滞后时长(ms)用户操作指令与画面中操作响应之间的滞后时长(ms)虚拟现实系统可操作的维度03$.:$.:$:$.:,123450非常差 差 还可以 非常好好Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)0605VR体验主观实验平台可定量控制临场因素层的各输入参数,为主观测试者提供不同的VR体验经历,并提供主观评分功能。图 3给出了主观实验平台的基本结构,逻辑上包括如下3个模块:(1) VR内容服务模块。该模块实现向VR头显分发VR内容的功能。(2)终端服务及技术参数统计模块。该模块由VR头戴设备组成,根据不同的实验目的,向测试人员呈现不同质量和自由度的测试场景。同时,该模块还向用户数据云主机反馈相关技术参数。(3) 主观体验统计模块。该模块部署于云主机,负责记录并统计测试人员给出的主观体验评分数据。主观实验平台涉及的软硬件主要包括:1)HTC Vive Pro;2)HTC Vive;3)Pico Neo;4)2K显示器(刷新率144Hz);5)4K显示器(刷新率90Hz);6)高性能云主机;7)VR播放器;8)VR打分软件;9)6 DOF头显及手柄的测试与控制软件。说明:1)PPD :Pixels Per Degree,角分辨率或空间分辨率,指视场角中的平均每 1 夹角内填充的像素点的数量。 对于VR头显,PPD 数值越大,就说明对细节的显示越精细,用户对显示画面的感受就越清晰;2)在目前商用VR头显支持的PPD和刷新率较低的情况下,2K和4K显示器主要用于等效测试PPD和帧率对视频质量的影响。SUBJECTIVE EXPERIMENTAL METHODS主观实验及分析方法主观实验平台根据 ITU-T P.913,使用单刺激法(Single Stimulus Methods,SSM)进行主观实验。视频质量测试序列的播放采用随机不重复播放的方式,测试人员在播放序列的间隔进行评价,如图 4 所示。在头戴设备上的评分中,采用的策略是由测试人员自行控制评分时长,即评分完毕后点击“下一个”按钮,来播放下一个序列。测试人员评分采用 P.913 标准中建议的 ACR(Absolute Category Rating)5 分制评分模式,各分值的含义如图 5所示。主观打分方法图3-虚拟现实主观实验平台的基本构成图4-SSM主观实验序列及评分过程示意图图5-ACR 5分制评分尺度动作数据&主观测试分损伤仪音视频数据 测试场景 头显设备 内容及用户数据云主机序列Ai 灰色背景 序列Bj 灰色背景评分阶段 评分阶段 评分阶段序列Ck10s 10s 10s 10s 10s$.:$.:$:$.:,Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)0807等效 PPD 和视频分辨率、观看距离的关系,如表 3所示。1.PPD 测试范围构建为了研究分辨率对用户体验的影响,引入指标 PPD,也即平均每度视场角内像素点的数量,作为像素密度的度量。假设头显视域为 110,单眼分辨率 1K 至 10K,才能构建 10 至 90 PPD 的测试场景,但目前商用 VR 头显单眼分辨率最高仅为 2K,支持的 PPD 较低。为了全面获取 PPD 对视频质量影响的测试数据,实验选用了 32 英寸 4K 分辨率的显示器进行 PPD 等效测试,测试数据和基于头显的测试数据一并作模型训练数据。 测试视频的播放方式为视频像素和屏幕像素1:1 播放(若视频像素低于屏幕像素,视频画面不会铺满屏幕),再通过调整用户观看距离,控制用户实际观看测试序列的PPD,如图 6所示。2.游戏多自由度交互真实感测试测试以快速击破气球为任务要求,开发构建如下测试场景,用于测试用户的交互真实感:(1)头部 3 DOF、手部 3 DOF 自由度,可射线击破气泡,设置不同头部、肢体和操作的交互时延(主观实验平台固有MTP时延约为27ms); (2)头部6 DOF、手部3 DOF 自由度,可射线击破气泡,设置不同头部、肢体和操作的交互时延;(3)头部6 DOF、手部6 DOF 自由度,可射线或触碰击破气泡,设置不同的头部、肢体和操作交互时延。表 4定义了自由度场景编号,作为评估模型输入。关键测试与分析方法说明分辨率小于3840*2160显示器 显示器距离调整分辨率等于3840*2160距离调整图6-等效PPD测试方法测试序列分辨率734*4131100*6191467*8252200*12382934*16503840*19203840*192036.327.236.327.236.356.790.31015203040609073.373.373.373.373.36442.7观看距离(cm) FOV PPD表3-32寸4K显示器的等效PPD对照表头部3 DOF +手部3 DOF+操作1 DOF 游戏头部6 DOF +手部3 DOF+操作1 DOF 游戏头部6 DOF +手部6 DOF+操作1 DOF 游戏应用描述自由度场景编号 7 10 131实验编号 2 3表4-自由度场景编号$.:$.:$:$.:,Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)1009注:1)BPP为每像素编码比特数(bit);2)H.264量化参数QP是量化步长Qstep的序号。对于亮度(Luma)编码而言,量化步长Qstep共有52个值,QP取值051。QP取最小值0时,表示量化最精细;相反,QP取最大值51时,表示量化最粗糙;3) BPP = 压缩前每像素比特位 / 压缩率。主观实验测试数据示例图7-PPD与视频质量的关系VR临场感指数评估模型,公式结构如下:式中,VR PI是临场感指数,MOS AVF 是视听逼真度,MOS IR 为交互真实感, MOS RP 为视听觉连续/完整性,v 53 和v 54 为模型系数。VR临场感以视听逼真度MOS AVF 为基础,交互真实感MOS IR 和连续/完整性MOS RP 则作为体验损伤因素,如交互时延、UDP传输丢包率的增加,会导致体验受损。子体验项和相关入参的关系,可见下面表达式说明:MODEL FORMULA STRUCTURE模型公式结构VR PI =min(max(MOSAVF -1)(1-v53(5-MOSIR)-v54(5-MOSRP)+1,1),5)12MOSV = f1(Video Codec,Br,FR,(Rh,Rv),ST)3MOSVF = f2(MOSV,FoVh)4MOSAF = f3(Audio Codec,ABr,SP)5MOSAVF= f4(MOSVF,MOSAF,tasvn)6MOSIR = f5(DOF,thd,tbd,tod)7MOSRP = f6(Tr,RF,ppl)BeautyBosphorusHoneyBeeJockeyReadySetGoYachtRideBattleeld1Battleeld24.003.002.001.005.000 20 40 60 80 100MOSVPPD压缩后$.:$.:$:$.:,Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)1211MODEL TYPICAL VALUE模型典型值我们通过将模型中其他入参设置为较优值的方法,可比较直观地观察特定入参对相应体验评估模块的影响。1.PPD对视频质量 MOSV 的影响典型值基于H.264编码, BPP 为0.1,帧率120fps的条件, PPD 对视频质量 MOSV 的影响典型值,如图 8所示。可以看到,PPD 为 15 时,视频质量 MOSV 约为 3.28 分;PPD 为 20 时,视频质量 MOSV 约为 3.67 分;PPD 为 60 时,视频质量MOSV 约为4.51分,且 PPD 大于60以后视频质量 MOSV 增长变得平缓。2.单眼分辨率对视频质量 MOSV 的影响典型值基于H.264编码, BPP 为0.1,帧率120fps, FOV 为110的条件,单眼分辨率对视频质量 MOSV 的影响典型值,如图 9 所示。可以看到,单眼分辨率 1.5K 对应的视频质量 MOSV 约为 3.13 分;单眼分辨率 2K(目前商用高性能头显可达的分辨率)对应的视频质量 MOSV 约为3.55分。3.帧率对视频质量 MOSV 的影响典型值在H.264编码,BPP 为0.1,PPD 为120的条件下,帧率对视频质量 MOSV 的影响典型值,如图 10所示。1)游戏场景:帧率为 30fps 时,视频质量 MOSV 约为 3.15 分;帧率为 60fps 时,视频质量 MOSV 约为 4.15 分;帧率为90fps时,视频质量 MOSV 超过4.52分,帧率超过90fps后,视频质量的增长趋势趋于平缓。2)视频场景:帧率为 30fps 时,视频质量 MOSV 约为 3.88 分;帧率为 60fps 时,视频质量 MOSV 约为 4.51 分;帧率为90fps时,视频质量 MOSV 达到4.61分。图8-PPD与视频质量(MOS V)的关系1.001.502.002.503.003.504.004.505.000 20 40 80 10060MOSVPPDFRfps图9-单眼分辨率与视频质量(MOS V)的关系1.001.502.002.503.003.504.004.505.001.0 2.01.5 2.5 4.0 4.53.0 3.5MOSV单眼分辨率K图10-帧率(FR)与视频质量(MOS V)的关系1.001.502.002.503.003.504.004.505.000 4020 60 140 16080 120100MOSVMOSv(视频) MOSv(游戏)$.:$.:$:$.:,Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)1413图11-视域(FoV h)与视觉逼真度(MOS VF)的关系1.001.502.002.503.003.504.004.505.0050 7060 80 110 12090 100MOSVF4.FOV 对视觉逼真度 MOSVF 的影响典型值在视频质量的基础上,视觉逼真度主要受视域的影响。在H.264编码,BPP为0.1,帧率120fps,PPD为120的条件下,水平视域FOV(双眼均具备相应视域)对视觉逼真度MOS VF 影响的典型值如图 11所示。可以看到,在水平视域60到110的范围内(目前可支持的测试范围),视觉逼真度 MOSVF 呈线性增长。FoVh图12-头部MTP时延(t hd)与头部交互一致性(MOS hd)的关系1.001.502.002.503.003.504.004.505.000 10050 150 300200 250MOShd5.头部MTP对交互一致性体验 MOShd 的影响典型值头部 MTP 时延对头部动作的交互一致性体验 MOShd 的影响典型值如图 12 所示。当头部 MTP 时延小于等于 20ms时,MOS hd 不受损伤;当头部 MTP 时延等于 50ms 时,MOS hd 为 3.63 分;当时延为 100ms 时,MOS hd 为 2.55 分;当时延为200ms时,MOS hd 下降为1.47分。头部MTPms肢体MTPms6.肢体MTP对交互一致性体验 MOSbd 的影响典型值肢体MTP时延对肢体动作交互一致性体验MOS bd 的影响典型值如图 13所示。当肢体MTP时延小于等于50ms时,MOSbd 不受损伤;当肢体MTP时延等于100ms时,MOS bd为4.02分;当肢体MTP时延为300ms时,MOS bd 为2.44分;当肢体MTP时延为500ms时,MOS bd 下降为1.71分。注:若肢体动作导致头部运动,如腿部的移动导致头部移动,则按头部MTP进行体验评估。图13-肢体MTP时延(t bd)与肢体交互一致性(MOS bd)的关系1.001.502.002.503.003.504.004.505.000 200100 300 700 800 900400 600500MOSbd操作响应时延ms7.操作响应时延对交互一致性体验 MOSod 的影响典型值操作响应时延对操作交互一致性体验 MOSod 的影响典型值,如图 14 所示。当操作响应时延小于等于 50ms 时,MOSod 不受损伤 ;当操作响应时延等于100ms时, MOSod 为3.95分 ;当操作响应时延为300ms时, MOSod 为2.40分;当操作响应时延为500ms时,MOS od 下降为1.70分。图14-操作响应时延(t od)与操作交互一致性(MOS od)的关系1.001.502.002.503.003.504.004.505.000 200100 300 700 800 900400 600500MOSod$.:$.:$:$.:,Cloud X业务体验模型系列云VR临场感指数(Cloud VR PI)1615UDP丢包率%8.UDP丢包率对视听完整性 MOSP 的影响典型值VR视频数据基于UDP传输时,UDP包丢失率对视听完整性MOS P 的影响典型值如图 15所示。当UDP丢包率为0.25%时,MOS P 为3.98分;当UDP丢包率为0.5%时,MOS P 为3.23分;当UDP丢包率为1%时, MOSP 为2.25分。图15-UDP包丢失率(ppl)与视听完整性(MOS P)的关系1.001.502.002.503.003.504.004.505.000 10.5 1.5 3.5 42 32.5MOSpFEC失败率%9.FEC失败率对视听完整性 MOSP 的影响典型值视频数据基于 UDP+FEC 模式传输时,FEC 失败率对视听完整性 MOSP 的影响典型值,如图 16 所示。FEC 失败率为0.5%时,MOS P 为4.39分;FEC失败率为1%时,MOS P 为3.88分;FEC失败率为2%时,MOS P 为3.08分。图16-FEC失败率与视听完整性(MOS P)的关系1.001.502.002.503.003.504.004.505.000 21 3 7 84 65MOSpMODEL APPLICATION模型应用1.不同分辨率全景视频片源的视频质量 MOSV 评估在H.264编码,BPP 为0.1,FOV 为110,帧率30fps,全景视频为3D,左右眼视频数据压缩时无相互参考, 整体码率为单眼视频码率的 2 倍的条件下,不同分辨率的全景视频片源对应的 PPD、码率及视频质量 MOSV,如表 5 所示,8K全景视频的视频质量 MOSV 仅处在可接受水平。1920 5.33 10.55 1.542560 7.11 1.813840 10.67 2.297680 21.3318.7542.19168.75 3.13视域内等效 PPD全景水平分辨率 码率(Mbps) 视频质量(MOS V)表5-不同分辨率全景视频体验得分2.主流商用VR头显最佳体验评估在 H.264 编码,BPP 为 0.1,无连续 / 完整性体验损伤的条件下,目前商用的高性能 VR 头显可达到的视频质量和VR临场感指数典型值,如表 6所示。HTC vive ProPico Neo商业版小米VR一体机小米VR一体机+ NOLO单眼分辨率1440*1660, FOV 为110,刷新率90Hz,头6 DOF +手6 DOF单眼分辨率1440*1660, FOV 为101,刷新率90Hz,头6 DOF +手6 DOF单眼分辨率1280*1440,FOV 为100,刷新率72Hz,头3 DOF +手3 DOF单眼分辨率1280*1440,FOV 为100,刷新率72Hz,头6 DOF +手6 DOF视频游戏视频游戏视频游戏视频游戏2.983.173.112.982.832.982.833.073.13.022.992.52.992.883.153.04性能规格设备 业务类型视频质量(MOS V)临场感指数(VR PI)表6-不同分辨率全景视频体验得分$.:$.:$:$.:,