2020版联想混合现实与计算机视觉技术白皮书.pdf
联想混合现实与计算机视觉 技术 白皮书 1 联 想 混合 现实 与 计 算机 视 觉 技 术 白皮 书 (2020 版 ) 联想混合现实与计算机视觉 技术 白皮书 2 前言 联想集团董事长兼 CEO 杨元庆在 2019 年的联想创新科技大会上提到,“在 过去的 3 到 4 年时间里,联想制定了 3S 战略: Smart IoT(智能物联网)、 Smart Infrastructure(智能基础架构)、 Smart Vertical(行业智能)。” 在这个清晰的战 略指导下,公司在“端 -边 -云 -网 -智” 五个方面 进行积极布局。“端”就是智能 物联设备的终端,“边”是边缘计算,“云”是云计算,“网”是以 5G 为代表的 数据传输的网络, “ 边 -云 -网 ” 就构成了智能化的基础架构,而 “ 智 ” 就是行 业智能的解决方案。 大会上另一个 激动人心 的瞬间即 联想 CTO 芮勇博士 现场演示计算机视觉及 混合现实技术在国产大飞机制造中的应用。 大屏上 显示的 实时建模及路径追踪 的画面 让观众叹为观止 。 回首 2017 年联想创新科技大会上刘军与毛世杰 联袂 首 秀晨星 AR在发动机远程维修的场景以及 2018 年 联想创新科技 大会上演示的 AR 技术飞机连接器辅助装配 的实际案例,无不体现了联想在智能制造,智能运维 等领域的技术突破。 这 一切 背后与联想一直以来在混合现实和计算机视觉领域 的不懈耕耘以及长期投入密 不可分 。 而 在 刚刚过去的 2020年联想创新科技大会 上, “ 脑 -眼 -手 -脚 ” 四位一体的联想晨星机器人更是大放异彩,借助混合现 实及计算机视觉技术积累,赋予工业机器人更多的内涵。 联想研究院于 2015 年开始布局虚拟现实相关技术研究,其后陆续推出虚拟 现实眼镜、 增强现实眼镜及计算机视觉模组等原型机和产品,并结合具体垂直 行业的需求和 痛 点,将技术转化为生产力提升的 引擎 ,逐步形成了智能生产, 智能运维和智能检测等 领域的 积累和 优势 方案 ,尤其获得了如中国商飞和上海 电力这样的灯塔客户的认可。 这些都 有效 改变了联想只是一个设备提供商的刻 板印象, 充分展示了 联想 在 提供整体解决方案 方面 所具备的 能力。由于在虚拟 现实与增强现实头戴显示技术研究与产业化上的突出贡献,团队荣获 了 2019 年中国产学研合作创 新成果奖一等奖 ; 应用于飞机智能装配的解决方案获得了 2019 年 中国计算机学会 科学 技术奖科技 进步卓越奖 ; 还凭借 “虚拟现实与增强 联想混合现实与计算机视觉 技术 白皮书 3 现实头戴显示关键技术及应用”项目 一举 获得 了 2020北京市科学技术奖技术发 明一等奖。 联想通过在混合现实技术和计算机视觉领域的持续 钻 研,形成了以下几点 优势: 一、 完整的端到端核心技术布局 二、 领先的混合现实及计算机视觉产品 三、 创新的标杆型行业解决方案 本文将针对如上各点分别展开,让读者全方位 了解联想在 混合现实技术和 计算机视觉领域的思考和行动,也欢迎同行及爱好者与我们切磋论道,一同 助 力 行业智能 的进步 , 并为整个产业的蓬勃发展贡献力量。 联想研究院 联想混合现实与计算机视觉 技术 白皮书 4 目 录 1 混合现实及计算机视觉技术简介 . 6 1.1 混合现实技术概述 . 6 1.1.1 混合现实概念及行业趋势 . 6 1.1.2 混合现实关键技术及发展 . 9 1.2 计算机视觉技术概述 . 15 1.2.1 计算机视觉行业趋势 . 15 1.2.2 计算机视觉关键技术及发展 . 18 2 完整的端到端核心技术布局 . 26 2.1 光学及显示系统 . 26 2.2 CV 系统 . 33 2.3 CV 标定 . 38 2.4 显示引擎 . 42 2.5 定位跟踪 . 44 2.6 空间 3D 重建 . 49 2.7 物体识别与追踪 . 53 2.8 检测 . 58 2.9 云渲染 . 62 3 领先的混合 现实及计算机视觉产品 . 68 3.1 混合现实设备 . 69 3.1.1 联想晨星 AR眼镜 . 69 3.1.2 联想晨星 视觉模组 . 79 联想混合现实与计算机视觉 技术 白皮书 5 3.1.3 联想晨星 MR摄像机 . 83 3.2 快速开发工具 . 86 3.2.1 联想 MR SDK . 86 3.2.2 物体识别 . 90 3.3 通用工具 . 92 3.3.1 stARview. 92 3.3.2 stARstudio . 99 3.3.3 stARemote . 110 4 创新的标杆型行业解决方案 . 118 4.1 智能生产 . 118 4.1.1 连接器辅助装配 EWIS . 118 4.1.2 功能测试 ATS . 122 4.1.3 协同设计 . 126 4.1.4 联想晨星机器人 . 错误 !未定义书签。 4.2 智能运维 . 137 4.2.1 智能 巡检 . 137 4.2.2 应急 响应 . 141 4.2.3 技能 培训 . 144 4.3 智能检测 . 149 4.3.1 电力缺陷检测 . 149 4.3.2 组装缺陷检测 . 153 5 未来与挑战 . 158 联想混合现实与计算机视觉 技术 白皮书 6 1 混合现实及计算机视觉技术简介 1.1. 混合现实技术 概述 1.1.1 混合现实 概念及行业趋势 从计算机的诞生开始,人类就在不断地追求更加智能和便携的个人通用计算 机平台。 1981 年 IBM 发布 PC 开启电脑时代, 1993 年浏览器的推出将 PC 带入 了互联网。 2007 年苹果 公司 发布 iPhone,随后移动互联网促使智能手机开启爆 发式增长。近年来随着沉浸式技术的快速发展,沉浸式计算平台被普遍认为将成 为继电脑 和智能手机后的下一代计算平台。它包括虚拟现实( Virtual Reality)和 增强现实( Augmented Reality) 。 混合现实( Mixed Reality),是一种使真实世界和虚拟物体在同一视觉空间中 显示和交互的计算机虚拟现实技术,是增强现实( AR)技术的重大提升。混合现 实( MR)融合了人机交互、传统现实以及人的认知,能将物理世界和数字世界 中的人、物和场所融为一体。不同于让用户完全沉浸在虚拟世界的虚拟现实( VR) 技术,或是在真实世界基础之上叠加数据信息的增强现实技术,混合现实技术通 过与周边真实环 境的融合,使用户无论从听觉或视觉都感到虚拟世界是真实场景 的一部分。 表 1.1 VR、 AR 和 MR 的区别 1 联想混合现实与计算机视觉 技术 白皮书 7 与所有新技术的发展类似, AR/VR 也经历了从热炒到低谷再到复兴的过程。 2012 年 Oculus 推出 VR 头盔,谷歌发布 Google glass,使得 AR/VR 概念进入公众视 野,被认为是智能手机的热门替代品。随着 Oculus 被 Facebook 收购, 包括 Facebook、微软、 SONY、 三星 、 HTC 等巨头们先后进入 AR/VR 市场, 2015-2016 年 AR/VR 市场热度达到高点。微软发布 Hololens 一代 MR 头 戴显示器,引领了 一场人机交互方式的变革。任天堂发布 Pokeman Go AR 游戏风靡全球。创业公 司 Magic Leap,截止至 2016 年底共 累计获 19 亿美金巨额融资( C 轮),发布 AR 头戴显示器 Magic Leap one。但到了 2016 年下半年,由于商业模式、网络、硬件 和内容上都沒有突破,行业开始进入寒冬,一批初创公司被迫转型。然而在此期 间,大厂却开始积极布局 AR生态, 2017年苹果 公司 发布 ARKit,谷歌发布 ARCore, 并推出 Google Glass Enterprise 主打行业应用。国内百度、阿里 巴巴 、腾讯等知 名企业也纷纷上线 AR 平台。 2018 年苹果 公司 继续推出 ARkit2.0,并推出专门为 AR 设计的文件格式 USDZ,同时利用苹果 应用 商店推广手机 AR 应用来培养用 户。谷歌也发布了 ARcore1.5,安卓手机厂商陆续搭载 ARcore,开发者也开始在 安卓平台上开发 AR 应用。经过 2018 年 AR/VR 市场的冷静期后, 2019 年微软 发布 Hololens 二代 MR 头显,在佩戴舒适度、显示视场角和自然交互等方面都 有显著提升,同时配合 Dynamics 365 应用和 Azure 混合现实服务,在行业应用 领域不断打造成功案例。通过开展全球合作伙伴计划, Hololens MR 头显在各行 各业找到落地场景,帮助企业降低成本提高效率。谷歌发布 Google Glass Enterprise Edition2,继续拓展企业应用,售价比一代降低三分之一。苹果 公司 发 布 ARkit3.0,并着重推广基于浏览器的 AR 功能,推出 AR Quick Look 为用户提 供小白式的 AR 开发流程,无需复杂编程便可在 iPhone 上实现 AR 效果,并在其 中加入了 Apple Pay 支付按钮,可跳转到购买页,从而形成了电商购物从体验到 购买的闭环。 2019 年被称为 5G 元年,随着 5G 建设的大力推进,新产品和新 技术的不断成熟, AR/VR 迎来了新一轮发展机遇, AR/VR 领域再度获得高度关 注。 联想混合现实与计算机视觉 技术 白皮书 8 图 1 AR/VR 发展史回顾 2 按 Gartner 的新兴技术成熟度曲线 ( Hype Cycle) , 2018 年 VR 从曲线中消 失,意味着虚拟现实技术历经热炒、低谷,已逐步成熟, AR 仍处于泡沫破灭的 低谷期,有待技术的突破和发展 3。 图 2 Gartner 2017年新兴技术成熟度曲线 联想混合现实与计算机视觉 技术 白皮书 9 图 3 Gartner 2018年新兴技术成熟度曲线 1.1.2 混合现实关键技术及发展 混合(增强)现实产业链相对完整,按照技术分,从下至上涵盖了核心技术 及器件、硬件设备、 SDK 开发工具和引擎及操作系统、内容制造及行业应用。 图 4 AR产业链全景图 混合(增强)现实技术具有多领域多学科交叉融合的特性,整体技术仍处于 发展初期。目前影响混合(增强)现实技术大规模应用的主要因素包括: ( 1) 佩戴舒适度 。 影响 MR (AR)头戴显示器佩戴舒适度的主要因素包括:体 积大、重量重导致无法长时间佩戴;发热影响体感;连接线影响移动性;固定方 式带来的接触压力及稳定性的平衡等。 ( 2) 视觉舒适度 。 影响视觉舒适度的主要因素包括: FOV 小导致显示画面尺 联想混合现实与计算机视觉 技术 白皮书 10 寸偏小; Eyebox 小导致眼睛难以对准且 IPD 兼容性差;出瞳距离小导致无法兼 容近视眼镜;亮度低在室外强光下无法看清虚像; 环 境 光透过率低看不清实际物 体(文字);眩晕感;伪影;畸变;延迟等 。 ( 3) 交互体验 。 人机交互方式包括手势、语音、眼动、遥控器、触控及按键 等,更自然、方便且准确的交互是影响 MR(AR)头戴显示器使用性的主要因素 。 ( 4) 感知准确性 。 感知主要指对物理环境的理解和对真实物体的认知,包括 SLAM, 3D 重建,物体识别等。由于需要多传感器融合,设备的计算能力、多传 感器校准及算法精度问题都是影响虚实融合效果的因素。 ( 5) 成本 。 居高不下的成本也是 MR(AR)头戴显示器大量推广使用的阻碍 。 ( 6) 其他 。 续航能力、内容缺乏等 也影响了 MR(AR)头戴显示器的大规模应 用。 5G 的推广给混合(增强)现实技术带来了新的发展机遇。工信部在 2018 年 12 月印发关于加快推进虚拟现实产业发展的指导意见(简称意见),意 见提出发展端云协同的虚拟现实网络分发和应用服务聚合平台。 5G 可以提供 至少十倍于 4G 的峰值速率、毫秒级的传输时延和千亿级的连接能力。新的架构 下,渲染上云、内容上云、制作上云,结合边缘计算和 AI 技术的应用,能解决 混合(增强)现实产品图像渲染能力不足、终端移动性差、互动体验不强等痛点 问题。将图像渲染、建模等耗能、耗时的数据处理功能云化后 ,大幅降低了终端 的续航、体积、存储能力的要求,有效降低终端成本和对计算硬件的依赖性,同 时推动终端轻型化和移动化。新 形态的混合(增强)现实头戴显示器,将主要解 决近眼显示、感知交互、渲染处理、网络传输和内容制作五 个方面 的关键技术, 其中后三个方面与云计算和 5G 相关 。 ( 1) 近眼显示 混合(增强)现实头戴显示器 的光学方案一般分为半反半透式、光波导式、 离轴反射镜式、自由曲面棱镜式、非双通道式几种,其中原理最简单、易生产的 便是以 Google glass 为代表的半反半透式棱镜。光波导总体上可以分为几何光波 导( Geometric Waveguide)和衍射光波导( Diffractive Waveguide)两种,几何光 波导就是所谓的阵列光波导,其通过阵列反射镜堆叠实现图像的输出和动眼框的 扩大,代表光学公司是以色列的 Lumus。 衍射光波导得益于微纳米结构和 “ 平面 联想混合现实与计算机视觉 技术 白皮书 11 光学 ” 的技术发展,能够实现二维扩瞳。其中主流的表面浮雕光栅 技术 被多家 大 厂 使用并证明了它的可量产性, 近年来成为热点并有望成为主流技术。 图 5 光学显示系统分类 除光波导外,多焦面显 示技术、可变焦显示技术、焦面显示器技术、光场显 示都是近眼显示 的前沿领域,其中,高 角 分辨率、广视场角、可变焦显示成为核 心发展方向。 图 6 虚拟现实近眼显示技术路标 4 ( 2) 感知交互 感知交互是混合(增强)现实头戴显示器重要的信息获取和人机交互途径, 感知交互方式的准确性 和自然性一直是混合(增强)现实核心技术之一。感知领 域主要包含即时 定位与地图构建( SLAM)、 3D 重建、物体识别等关键技术;交 联想混合现实与计算机视觉 技术 白皮书 12 互领域涵盖手势交互、语音交互、眼球追踪、 3D 声场、触觉反馈等。 追踪定位作为感知交互领域的基础能力,业界投入最大,且日趋成熟。 2017 年基于光学和激光的由外向内( Outside-in)追踪定位技术实现产品化,并开始大 量用于体验馆、线下门店等商业场景。 2018 年由内向外( Inside-out)追踪定位技 术取代 Outside-in,明确成为虚拟现实主流追踪定位技术架构。 3D 重建是提升混 合现实感知的重要技术,混合现实终端通过配备 TOF( time of flight) 摄像头, 可以获得高精度的深度图像,从而实现环境稠密重建的目的。深度摄像头模组还 包括结构光、双目摄像头,一些手机厂商使用结构光器件对小物体实现实时扫描 建模,为虚拟物体模型生成提供重要手段。物体识别是机器认识物理世界的核心 技术,随着深 度学习技术的快速发展,近年来基于深度学习的语义分割开始在识 别重建中频繁采用,准确获取图像中的物体类属以及对应的边缘 Mask 与 Mesh 信息,是未来有针对性进行重建的必要步骤。 图 7 虚拟现实感知交互技术路标 5 在交互领域,眼球追踪继 Inside-out追踪后成为业界重兵投入、产业化进程加 速的技术领域。除眼动控制可用于内容交互设计创新、用户兴趣点分析外,更重 要的在于在近眼显示与渲染处理领域,眼球追踪 +变焦显示( Varifocal) +注视点 渲染的技术组合,可实现基于 GPU渲染的画面局部模糊,兼顾渲染负载优化,从 而为头戴显示器因负载过重导致的发热问题、延迟及卡顿问题提供新的解决方案, 同时也解决了辐辏调节冲突这一重大技术痛点。手势交互直接影响用户使用感受, 联想混合现实与计算机视觉 技术 白皮书 13 近年来自然手势识别及跟踪成为热点。另一方面,作为交互操控技术的核心,随 着深度学习的快速发展,交互范围也逐渐从手部拓展到肢体,过去的体感骨骼识 别跟踪技术逐渐被基于深度神经网络的肢体关节点识别和轮廓分割技术所取代, 可实时运行的人体骨骼点跟踪技术已广泛用于多个 MR(AR)应用。 ( 3) 渲染处理 渲染处理领域的主要矛盾表现为用户更高的体验需求与渲染能力的不足。更 优的静态画质、视觉保真度、渲染时延与功耗开销成为该领域的技术动因。目前, 业界聚焦面向虚拟现实的注视点渲染、深度学习渲染与混合云渲染等热点领域, 旨在探索软硬耦合的精细化渲染之路。 图 8 虚拟现实渲染处理技术产业化进程 6 异步时间扭曲( Asynchronous Time Warp, ATW)显著改善了用户转头期间难 以及时渲染生成复杂内容所造成的画面卡顿问题,现已成为虚拟现实渲染标配。 注视点渲染 ( Foveated Rendering) 基于人眼由中心向外围视觉感知逐渐模糊的生 理特性,搭配眼球追踪技术,在不影响用户体验的情况下,显著降低注视点四周 的渲染负载,最多可减少近 80%画面渲染。除注视点渲染突出的技术成效外,由 于该技术与 MultiView、多分辨率渲染、眼球追踪、实时路径追踪、注视点传输以 及可减少视觉伪影的注视点图像处理等热点技术交织关联,注视点渲染已成为 Facebook、谷歌、微软等研发力量重兵集结的必争之地,产业化进程持续加速。 云渲染旨在帮助用户在低配头显上实现渲染能力更强的 PC级虚拟现实沉浸体验, 通过降低虚拟现实终端购置成本,推 动用户规模快速增长。由于该技术采用云端 联想混合现实与计算机视觉 技术 白皮书 14 渲染处理、终端交互呈现的技术架构,对于虚拟现实这一时延敏感 型业务,具有 重要意义。此外,混合渲染、异构渲染、深度学习渲染、光 场渲染对于功耗控制、 降低延时、优化渲染效果都有深远的影响,虚拟现实渲染处理由粗放式向精细化 渲染方向发展。 图 9 虚拟现实渲染处理技术路标 7 ( 4) 网络传输 2019年被称 为 5G的元年, 5G技术对于混合(增强)现实的云化,提供了网 络传输保障,推动了混合(增强)现实头戴显示器朝轻便化低成本无线方向发展。 由于 MR(AR)侧重与真实环境的人机交互,需要将摄像头捕捉到的图片 /视频上 传云端,云端实时下载需要增强叠加显示的虚拟信息,因此需求更多的上行带宽。 虚拟现实网络传输涉及接入网、承载网、数据中心、网络运维与监控及投影、编 码压缩等技术领域。针对虚拟现实对带宽、时延双敏感的业务特性, 5G网络适配 边缘计算、网络切片、 5G QoS、智能运维、拥塞控制等网络传输技术,旨在弥合 潜 在技术断点,推动用户体验进阶。其中,边缘计算借助网络边缘设备 的计算和 存储能力,实现云化虚拟现实业务的实时分发, MEC可根据用户接入的位置选择 合适的边缘数据中心提供 计算 服务,将推送内容同步缓存在本地。边缘云作为基 础设施提供了渲染所需 GPU资源及平台服务 API,如视频分析、人脸识别、图像 特征提取等,以供虚拟现实应用调用,从而降低应用算法复杂度,避免原始数据 回传,节省回传带宽。 ( 5) 内容制作 随着终端用户对虚拟现实内容质量和实时性需求不断提高,内容制作对超高 速网络的需求与日俱增,内容制作的发展需要 5G 网络支撑。相关技术包括内容 联想混合现实与计算机视觉 技术 白皮书 15 采集方向的实时抠像、全景拍摄,内容编辑方向的云端三维重建、虚实场景拟合、 拼接缝合、空间计算,内容播放方向的 WebXR。 随着神经网络技术的发展,基于 CNN(卷积神经网络)实现实时抠像的技 术正在兴起,进行训练与分析,考虑到终端设备的局限性,需要将运算放于云端 进行,减轻终端算力负担,目前渲染帧率保证在不低于 30fps。 5G 网络可以为实 时抠像提供更高的渲染帧率,有望在今后提升至 60fps 甚至 90fps。适配 5G 网络 的云端三维重建将采集到的点云信息上传云端,在云端完成点 云 数据的滤波降噪、 分割、配准、网格渲染等处理,构建 3D 模型。将三维重建放在云端,可极大减 轻终端计算压力,提高三维重建精准度。同时,对云端重建的模型可结合云端神 经网络进行深度特征提取、识别、追踪等 ,用于构建云端三维语义地图等。高性 能拼接缝合对多 镜头拍摄的画面进行高精度拼接缝合,通过亮度色彩调整、对齐、 畸变矫 正、投影到球面等一系列处理,形成完整的全景视频。在 5G 网络支持下, 高性能拼接缝合技术可移到边缘云完成,实现高精度画质的全景直播。 WebXR 技术针对目 前硬件终端和内容服务商碎片化的发展现状,旨在推动内容生态加速 成型 ,解决跨平台内容分发问题。 2019 年初 W3C 正式发布了 WebXR Device API 首个规范工作草案,提供开发基于 Web 的沉浸式应用程序。 5G 技术高带宽、低 时延的特性,及大厂对 WebXR 的支持,极大的推动了 WebXR 的技术落地。 另外,结合近眼显示等特点,混合(增强)现实 OS 有望成为首个 3D 化操 作系统。相较于 2D 操作系统,混合(增强)现实 OS 将不再有 “ 桌面 ” 概念, 结合多任务系统,用户目之所及即为操作界面,更加强调空间思维,在 3D 图形 渲染、 3D 内容传输、 3D 显示乃至基于 GITF 等新兴 3D 格式等方面变化巨大。 3D 的体验将帮助混合(增强)现实头戴显示器从本质上与手机、 PC 区隔开来, 为用户带来前所未有的独特体验。 1.2. 计算机视觉技术 概述 1.2.1. 计算机视觉行业趋势 计算机视觉是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等计 算机视觉,并进一步做图像处理,使电脑处理成为更适合人眼观察或传送给仪器 检测的图像,计算机视觉技术模拟生物视觉,真正去“识别”和“理解”这些图 像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图 联想混合现实与计算机视觉 技术 白皮书 16 像数据中获取“信息”的人工智能系统。计算机视觉在人工智能里可以类比于人 类的眼睛,是在感知层上最为重要的核心技术之一。计算机视觉的技术发展经历 了三个阶段:第一阶段是马尔计算视觉, 1982 年大卫马尔( David Marr)提出计 算视觉分为三 个层次:计算理论、表达和算法以及算法实现,它标志着计算机视 觉正式成为一门独立的学科。以多视几何为代表的传统计算机视觉和机器学习相 结合是计算机视觉发展的第二阶段。最后来到了当代计算机视觉的阶段,基于深 度学习为代表的视觉方法。计算机视觉在很多领域的发展已经超过人眼识别能力 了,比如在人脸识别技术上,此外,在工业领域,通过图像识别技术来替代人力 肉眼检测,已远远超出了人类肉眼的精准度。但是面对一些比较复杂的场景,或 者是相对需要一些逻辑判断的场景,计算机视觉技术可能就达不到人眼识别的水 平。视觉只是作为信息获取的一个过程 ,对信息获取的东西做判断,还涉及到后 面人脑做的一些处理,所以这是一道很复杂的过程。目前计算机图像识别的发展, 在部分领域超过人眼识别,但是在绝大部分领域还落后于人,所以该领域目前仍 处在一个初级阶段。 目前计算机视觉技术已经广泛应用到工业制造、智能手机、智能家居、新零 售、金融、安防、自动驾驶、医疗、消费等,也是目前人工智能技术中落地最广 的技术之一。计算机视觉行业我国起步较晚,产业发展仍处于初创期,发展空间 大。目前计算机视觉行业增速持续保持较高的增长趋势,深度学习和卷积神经网 络技术推动着计算机视觉技术,同时也驱动 着整个人工智能行业的迅速发展,计 算机视觉技术已在各行各业起着举足轻重的作用。到 2025 年,全球计算机视觉 市场规模(包括软件、硬件和服务收入)将从 2019年的 15亿美元增长到 262亿 美元。纵观我国市场 规模情况,不同机构对于我国计算机视觉行业有不同的统计 预测数据。 2019 年我国计算机视觉市场规模的复合增长率均超过 110%,并预计 我国 2021 年计算机视觉市场规模均超过 600 亿人民币,增速也在 100%及以上。 计算机视觉的商业应用可以分为两类:以传统的图像处理和特征提取为代表 的计算机视觉算法提供商;和深度学习结合的 视觉人工智能公司。 传统的计算机视觉算法中包含了各类滤波,色彩以及几何、数学转换,形态 学计算分析、校正,特征提取,分类辨识,形状搜寻等等基本的几何以及影像计 算功能,由于这些功能大多并非针对特定工作设计的,具有比较强的通用性,这 联想混合现实与计算机视觉 技术 白皮书 17 些通用的模块可以灵活组合成不同的算法,完成不同的计算机视觉任务,比如物 体识别集成了特征提取、特征描述和匹配等方法。传统计算机视觉算法应用范围 广泛,涵盖医学、遥感探测、监控到工业上的各类自动化检测。 视觉人工智能公司商业模式主要包括 3种,分别为 API( 多采用按调用量或 包时收费)、 SDK( 多采用结合授权设备量及授权周期定价)与解决方案(结合 具体项目收费,后续每年可有升级维保收入)。计算机视觉行业产业链由上游基 础层、中游技术支持以及下游场景应用组成;计算机视觉架构从下至上: 1)基 础层:上游基础层主要包括芯片、深度神经网络等算法以及数据集组成,核心芯 片被传统芯片厂商把控,国内也有相关的面向计算机视觉和人工智能芯片厂商; 另外学术界和工业界也逐渐形成了成熟的深度学习开源框架和平台; 2)技术层: 中游技术主要包括生物 特征识别技术、物体与场景识别技术、光学字符识别技术 以及视频对象提取与分析技术; 3)应用 层:计算机视觉在互联网、系统开发、 终端开发等应用。科技巨头重点建设和部署基础层,初创企业领跑应用层。垂直 行业龙头占据场景,技术层初创企业向上渗透。 中国计算机视觉技术输出规模最大的 3个行业是政府、金融和互联网,最大 的两个场景为政府行业中的平安城市以及金融行业中基于人脸识别的身份认证。 而根据 Tractica 的预测, 2021年全球计算机视觉技术输出规模最大的 3个行业 分别为消费、机器人以及智能驾驶。影响计算机视觉落地的三个主要因素:监管 政策、行业接受度及用户接受度。中短期来看,包括人脸识别、人体识别、图像 识别等在 内的主要计算机视觉技术均基于深度学习算法,算法的优劣和迭代速度 将直接取决于算法设计人员的知识和经验储备,也会进一步决定计算机视觉技术 的准确率、可靠性 等关键性能。计算机视觉技术在更多的领域有所落地应用,自 动驾驶领域、高考、政务等领域更多的场景开始应用计算机视觉技术。伴随着技 术成熟度提高,人脸识别、物体识别等分类、分割算法不断提升精度,未来将有 更多的场景能够应用计算机视觉技术,计算机视觉企业应在强化技术打造的前提 下,发掘更多新的应用领域,提高商业落地应用。深度学习在计算机视觉领域的 应用能有效提高其识别精度,助力 其实际落地,在各行业得以实现应用,人脸识 别技术在智能手机终端应用开始普及,主流的智能手机厂商都推出了带人脸识别 功能的智能手机。计算机视觉领域内人脸识别功能应用场景广泛,商业化落地能 联想混合现实与计算机视觉 技术 白皮书 18 力强,除了计算机视觉初创企业,互联网巨头和硬件巨头企业也纷纷关注布局人 脸识别领域 ,传统的安防厂商也投入了大量资源以提升在这个领域的市场竞争优 势。安防为目前计算机视觉最大的应用场景,近几年来,计算机视觉技术应用场 景愈加广泛,从中国产业信息网统计的数据显示, 2016 年下半年开始, 1: N 人 脸识别、视频结构化等计算机视觉相关技术在安防领域 的实战场景中突破工业化 红线,敲响了计算机视觉行业市场大规模爆发的前奏。目前安防影像是计算机视 觉最大的应用场景。计算机视觉行业市场规模中占比最高的是安 防行业,占整个 市场规模的 67.9%。国内现在计算机视觉在安防领域相对比较成熟。 总之,计算机视觉技术的市场广大,并呈现市场应用越来越多的发展趋势。 计算机视觉技术已由过去只有一些政府特殊部门才能用得起的技术,发展到很多 领域。应用领域己由过去的模拟训练发展到包含航空、航天、铁道、建筑、土木、 科学计算可视化、医疗、军事、教育、娱乐、通信、艺术、体育等广泛领域。计 算机视 觉技术被越来越多的运用到各个领域中去,不仅如此,甚至己渗入到一些 人的日常生活中。计算机视觉技术还有更广泛的应用前景,通过与混合现实技术 和互联网技术结合,应该可以构造出一个更加完美的虚拟世界,人们可以在虚拟 世界中聊天、购物、逛街、旅游、工作,如同是在现实世界一样。 1.2.2. 计算机视觉关键技术 及发展 目前,计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉 实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系 统、体系结构),数学(信息检索、机器学习),工程学(机器人、图像处理), 物理学(光学 ),生物学(神经科学)和心理学(认知科学)等等。许多科学 家认为,计算机视觉为人工智能的发展开拓了道路。计算机视觉的关键技术 主要涉及图像分类、图形图像生成技术、物体检测、物体识别、物体跟踪、视 觉 SLAM、手势识别、三维重建等关键技术。这些功能的算法随着近期计算 机视觉和深度学习等技术的迅速发展而逐渐进入实用化阶段,下面对这些技 术加以说明。 规则物体(如二维码)识别和跟踪:一开始使用二维码或者类似的 BCH 码进行识别和平面定位,但是二维码的非自然人工痕迹还是很大地局限了它 的应用,所以,接着很自然的扩展就是使用二维图 片来进行识别和定位,但 联想混合现实与计算机视觉 技术 白皮书 19 是并不是所有的二维图片都可以做到,一些纹理简单的图片可能就无法用视 觉的方法识别和定位。基于二维码和二维图片的识别跟踪技术已经基本成熟, 也有了广泛的应用,算法改进的主要目标还是在于提高算法的稳定性和准确 性。基于简单的二维图片的技术还是无法应用到一些复杂场景。二维图片的 自然扩展就是三维物体了。一些简单的规则三维物体,比如圆柱形,可乐罐 同样可以作为虚实结合的载体。稍微复杂一些的三维物体通常也可以通过分 解成简单规则物体的方式来处理。 二维物体检测和识别:识别图像中的对象这一任务,通常会涉及到为各 个对象输出边界框和标签。这不同于分类 /定位任务 对很多对象进行分 类和定位,而不仅仅是对各主体对象进行分类和定位。在对象检测中,只有 2 个对象分类类别,即对象边界框和非对象 边界框。例如,在汽车检测中, 你必须使用边界框检测所给定图像中的所有汽车。如果使用图像分类和定位 图像这样的滑动窗口技术,则需要将卷积神经网络应用于图像上的很多不同 物体上。由于卷积神经网络会将图像中的每个物体识别为对象或背景,因此 我们需要在大量的位置和规模上使用卷积神经网络,但是这需要很大的计算 量!为了解决这一问题,神经网络研究人员建议使用区域 ( region) 这一概 念,这样就会找到可能包含对象的“斑点”图像区域,这样运行速度就会大 大提高。第一种模型是基于区域的卷积神经网络 ( R-CNN) ,将对象检测转 换为一个图像 分类问题,训练速度慢,需要大量的磁盘空间,推理速度也很 慢。 R-CNN 的第一个升级版本是 Fast R-CNN,通过使用了 2 次增强,大大 提了检测速度:在建议区域之前进行特征提取,因此在整幅图像上只能运行 一次卷积神经网络;用一个 softmax 层代替支持向量机,对用于预测的神经 网络进行扩展,而不是创建一个新的模型。 Fast R-CNN 的运行速度要比 R- CNN 快的多,因为在一幅图像上它只能训练一个 CNN。但是,选择性搜索 算法生成区域提议仍然要花费大量时间。 Faster R-CNN 是基于深度学习对象 检测的一个典型案例。 该算法用一个快速神经网络代替了运算速度很慢的选 择性搜索算法:通过插入区域提议网络 ( RPN) ,来预测来自特征的建议。 物体定位:如果说图像识别解决“是什么”问题,那么,物体定位解决 的则是“在哪里”的问题。利用计算视觉技术找到图像中某一目标物体在图 联想混合现实与计算机视觉 技术 白皮书 20 像中的位置,即定位。目标物体的定位对于计算机视觉在安防、自动驾驶等 领域的应用有着至关重要的意义。三维环境重建 SLAM:此外在很多的应用 中,我们需要对周围的环境进行理解,将虚拟和 3D 环境结合起来,这也是 一个非常充满挑战的问题。三维场景的识别理解还有很大的探索空间。在三 维 环境的识别跟踪上,最核心的就是“即时定位与地图构建” ( SLAM, Simultaneously Localization And Mapping) ,目前 MR 主要还是以视觉 SLAM 为主,其他传感器为辅。 SLAM 问题可以描述为:你处在一个陌生的环境 中,需要解决“在哪里”的问题,即定位问题 ( Localization) 。周围环境是 怎么样的,即构建即时地图 ( Mapping) 。这样你一边走,一边理解周围的环 境 ( Mapping) ,一边确定自己在所建地图上的位置。为了能正确识别自然场 景,需要保存大量的参考视图。同时根据输入 图像中提取的相应特征与场景 图像的特征进行匹配,然后根据匹配点的对应关系对物体的三维位姿进行计 算。同样,在这里需要首先对所有的场景进行三维重建,完成重建注册过 程。 图像分类:给定一组各自被标记为单一类别的图像,我们对一组新的测 试图像的类别进行预测,并测量预测的准确性结果,这就是图像分类问题。 图像分类问题需要面临以下几个挑战:视点变化,尺度变化,类内变化,图 像变形,图像遮挡,照明条件和背景杂斑。计算机视觉研究人员提出了一种 基于数据驱动的方法。该算法并不是直接在代码中指定每个感兴趣的图像类 别,而是为计算机每个图像 类别都提供许多示例,然后设计一个学习算法, 查看这些示例并学习每个类别的视觉外观。也就是说,首先积累一个带有标 记图像的训练集,然后将其输入到计算机中,由计算机来处理这些数据。因 此,可以按照下面的步骤来分解:输入是由 N 个图像组成的训练集,共有 K 个类别,每个图像都被标记为其中一个类别。然后,使用该训练集训练一 个分类器,来学习每个类别的外部特征。最后,预测一组新图像的类标签, 评估分类器的性能,我们用分类器预测的类别标签与其真实的类别标签进行 比较。目前较为流行的图像分类架构是卷积神经网络 ( CNN) 将图像送 入网络 ,然后网络对图像数据进行分类。现在,大部分图像分类技术都是在 ImageNet 数据集上训练的, ImageNet 数据集中包含了约 120 万张高分辨率 联想混合现实与计算机视觉 技术 白皮书 21 训练图像。测试图像没有初始注释(即没有分割或标签),并且算法必须产 生标签来指定图像中存在哪些对象。现存的很多计算机视觉算法和网络模型 都是基于 ImageNet 数据集上的数据来做训练和验证的。已经有很多种使用 卷积神经网络作为核心,并取得优秀成果的模型,如 ZFNet( 2013), GoogLeNet( 2014), VGGNet( 2014), RESNET( 2015), DenseNet ( 2016) 等。 基于已知尺寸三维物体的识别技术:已知三维物体通常是指已知物体精 确尺寸或者 CAD 设计模型的三维物体,通常常见的有立方体、锥体等。在 MR 技术中,进行三维配准计算初始地图到实时视频的位姿是一个核心的问 题。整个流程主要包含两个步骤:首先是进行模型注册,然后是进行检测、计 算相关的位姿参数。首先,需要对相机的内参进行标定。模型注册的主要目 标是建立三维物体的特征点的三维坐标信息库。在检测过程中,拍摄视频画 面,检测图像的自然特征,将当前视频图像与指定模型的参考图像匹配,根 据匹配结果,判断 当前场景图像与模型图像是否相同。如果不相同,则继续 识别过程。否则,进入到检测阶段。在检测阶段,找到当前图像对应的物体模 型的 3D 点坐标,得到 2D 坐标到 3D 空间坐标的投影矩阵,根据投影矩阵和 已知的内参矩阵恢复出当前图像帧的位姿矩阵,之后进行几何校验和反投影 误差分析,判断其是