2020年AI+视频技术及行业应用研究报告.pptx
2020年AI+视频技术及行业应用研究报告,1,2,目录,AI概况AI+视频的技术现状及应用,AI+视频编码技术及应用,3,AI是什么?,Artificial Intelligence(人工+智能),百度百科:它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的,技术科学。,人工智能是关于知识的学科怎样表示知识以及怎样获得知识并使用知识的科学;人工智能就是研究如何使计算机去做过去只有人才能做的智能工作;,涉及学科:哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、不定性论;研究范畴:计算机视觉、自然语言处理、知识表现、智能搜索、推理、规划、机器学习、知识获取、组合调度问题、感知问题、模式识别、逻辑程序设计软计算、不精确和不确定的管理、人工生命、神经网络、复杂系统、遗传算法。,AI的标尺-图灵测试艾伦麦席森图灵(1912.6.231954.6.7),计算机科学之父&人工智能之父,二战时协助军方破解德国的著名密码系统Enigma,帮助盟军取得了胜利。图灵测试:是图灵在1950年在其论文计算机械与智能提出的,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者提问。进行多次测试后(5分钟),如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。30%是预测2000年计算机的水平,实际上直到2014年才有一台聊天机器人,让人类误解其为13岁的男孩。,问:你会下国际象棋吗?答:是的。问:你会下国际象棋吗?答:是的。问:请再次回答,你会下国际象棋吗?答:是的。,问: 你会下国际象棋吗?答:是的。问:你会下国际象棋吗?答:是的,我不是已经说过了吗?问:请再次回答,你会下国际象棋吗?答:你烦不烦,干嘛老提同样的问题。,AI分类,弱人工智能:擅长于单个方面,如有能战胜围棋世界冠军的人工智能,但只会下围棋。,强人工智能(通用人工智能):人类级别的人工智能,各方面和人类比肩,人类能干的脑力活它都能干。,超人工智能:在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能。,AI的发展阶段,AI的发展前景,AI由学术驱动发展为商业需求驱动,20世纪50-60年代这是电子计算机刚刚诞生的时代,当时的计算机更多的被视为运算速度特别快的数学计算工具,图灵在思想上走到了所有研究者的最前沿,琢磨计算机是否能像人一样思考,即开始在理论高度思考“人工智能”的存在。以图灵测试为标志,数学证明系统,知识推理系统,专家系统等里程碑式的技术和应用在研究者中掀起了第一次热潮。然而受到计算机性能和算法理论的局限,接踵而来的失败似乎渐渐消灭了人们的热情,人工智能的热度迅速消退。01理论革新,20世纪80-90年代在第二次AI热潮中,语音识别是最具代表性的突破性进展之一,而这个突破依赖的是思维的转变。过去的语音识别更多的是专家系统,即根据的是语言学的知识,总结出语音和英文音素,再把每个字打开成音节与音素,让计算机用人类学习语言的方式来学习语言。在研发过程中,计算机工程师与科学家围绕着语言学家进行工作。而新的方法是基于数据的统计建模,抛弃了模仿人类思维方式总结思维规则的老路,研发过程中没有或极少语言学家的参与,更多的是计算机科学家与数学家的合作。02思维转变,2006年-至今首先,计算机的计算性能和处理能力大幅提高。符合摩尔定律而指数级增长的计算机性能最终跨过了门槛。其次,互联网的蓬勃发展为搜索引擎等公司带来了高质量的大数据。并且正是因计算机性能的提高人们得以储存和利用这些数据。可以说在第三次热潮中,深度学习+大规模计算+大数据=人工智能。03技术融合,AI的发展历程,机器人三定律,真能锁死AI吗?,1950年美国著名科幻小说家阿西莫夫,在其作品我,机器人(机械公敌),里提出了机器人三定律,,被称为现代机器人学的基石。,第一定律:机器人不得伤害人类个体,或者目睹人类个体将遭受危险而袖手不管。第二定律:机器人必须服从人给予它的命令,当该命令与第一定律冲突时例外。第三定律:机器人在不违反第一、第二定律的情况下要尽可能保护自己的生存。,机器是完全理性的,但是在面对“电车悖论”时,机器人依然会宕机;当机器人程序出现错误时,例如,文中出现的会撒谎的机器人,依然会受三定律的约束,但是更加不可控。机器人并没有问题,技术也不是问题,人类逻辑的局限才是最大的问题。,AI与大数据的区别和联系,大数据(Big data)的定义:,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现,力和流程优化能力来适应海量、高增长率和多样化的信息资产。,麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据,库软件工具能力范围的数据集合。,AI和BD的区别和联系:,1、大数据是基础,AI是基于大数据的机器学习逻辑;没有大数据的AI是没有意义的;2、AI包含两个层次:决策层+执行层;大数据只有感知层;,3、大数据是需要在数据变得有用之前进行清理、结构化和集成的原始输入,而人工智能则是输出,即,处理数据产生的智能。,深度学习自然语言处理计算机视觉智能机器人自动程序设计数据挖掘,特征提取,模型,AI的架构金融、安防、建筑、工业制造、医疗、零售、电商、教育、视频/娱乐/社交、法律、招聘、新闻资讯等行业,计算能力+大数据,降本增效,提高用户体验,算法选择机器学习监督学习无监督学习迁移学习强化学习,逻辑回归决策树支持向量基贝叶斯神经网络聚类,1,2,目录,AI概况AI+视频的技术现状及应用,AI+视频编码技术及应用,3,视频行业完整产业链,内容生产,编辑,CDN分发,视频云平台录制,CDN分发,播放,观众,处理,审核,安全,存储,AI+视频生产制作,内容生产,录制编辑,AI,AI选择内容,AI CameraAI后期制作,始于2011年,Netflix通过分析其用户的点赞、回看、快进、评分、搜索等行为,预测纸牌屋的导演、主演、题材必将大受欢迎。,智能拍照,智能编辑;Google、iphone智能识别陌生人,智能异常入侵检测,智能存储等;lighthouse security camera智能跟踪检测运动员,智能跟踪足球;VEO sport cameraAI创建动画特效形象、AI刻画人物性格特征、AI自动进行场景剪辑、AI处理后期制作瑕疵。Adobe公司,AI+视频云,安全视频加密版权管理,审核识别色情、暴恐、涉政无意义直播识别广告二维码识别,处理媒体转码编辑识别理解,搜索,存储存储,高效强压缩编码智能编辑高精度识别深度理解高效准确搜索,提高效率、提高精度、降带宽、减少人力成本,易用高可靠强安全低成本,强安全防盗链防下载防录屏,分发CDNPCDN,高覆盖分发性能好稳定可靠易扩展,以阿里云为例,诠释AI+视频云,以阿里云为例,诠释AI+视频云,以阿里云为例,诠释AI+视频云,AWS视频云服务品类众多,服务全面AWS 为内容制作、存储、处理和分发带来了高度可扩展、安全且具有弹性的云服务。包括用于提取、处理、存储、交付和分析所有视频和媒体内容的解决方案。,Amazon Kinesis VideoStreams处理和分析视频流AWS Elemental Media Live转换直播视频内容AWS Elemental Media Tailor视频个性化和盈利,AWS Elemental MediaConnect可靠且安全的实时视频传输AWS Elemental MediaPackage视频发放和包装Amazon Rekognition轻松地为您的应用程序添加智能图像和视频分析功能,Amazon Elastic Transcoder易用的可扩展媒体转码服务AWS Elemental MediaConvert转换基于文件的视频内容AWS Elemental Media Store媒体存储和简单的Http发放,AWS Elemental Media Tailor,以无缝化方式在主内容中嵌入有针对性的广告画面,同时不会牺牲视频质量,提高观众参与度。向任何平台轻松交付定向广告:可通过单个广告货币化服务跨不同的设备对面向用户的广告轻松进行个性化处理。可设置定向标准,以便从广告决策服务器中获取个性化广告内容,该服务器可根据观众、时间和内容决定发送哪些广告。,提升观看体验:通过在观众播放内容流时插入广告,能使广告的质量和格式与视频内容流相符。与可导致广告播放质量变化的其他广告插入方法不同,AWS可确保广告与核心内容都具有出色的视频质量。提高广告观看报告的准确性:AWS可从观看设备中直接捕获数据、减少广告屏蔽软件的影响并遵循既有的,广告行业标准,使您提高广告追踪的准确性。,Azure-数据驱动的媒体平台解决方案,腾讯视频云专业化定制、场景化包装打造解决方案,短视频:拍摄/剪辑/美颜/滤镜/特效/上传/播放等功能。美颜特效:人脸关键点追踪/美颜滤镜/动态贴纸/扣背景/,脸部变形/人脸融合。,移动直播:文字互动/弹幕消息/飘星点赞/美颜增白/动效,蒙皮/连麦互动/游戏录屏/H5直播观看/主播PK。,实时音视频:支持小程序音视频/全平台互通能力/极低的,开发成本/优良的画面品质/稳定的网络通信/可靠的数据安全。,云通信:丰富的消息类型/完善的群组管理/资料关系链管,理/腾讯账号登录集成/强大的直播聊天室/优质的消息推送服务/特色功能与增值服务。,云转码:截取封面/剪辑/鉴黄/加密等功能。,点播:变速录制/分段录制/基础美颜/背景音乐/时间特效/,滤镜特效/动态字母/动态/贴纸/高级美颜/AI贴纸/AI绿幕/AI抠图。,直播:录制/时移/自动拼接/水印/回调/转推流(源站建设),/截图鉴黄/混流/防盗链、鉴权/API/直播QUIC协议。,极速高清:超分辨率/窄带高清/视频降噪。,视频分析:智能封面/智能识别/智能标签/智能拆条。播放器:智能封面/窄带高清/视频降噪。,AI+视频行业应用-影谱、Video+技术特点对比,影谱是弱广告、video+是强广告;video+比影谱更具互动属性,其数据平台的数据可能更有价值。,判断,视频的交互方式视频的采集方式视频的分辨率传输和分发速度视频存储VR、AR、MR技术普及(头号玩家)全息技术广泛应用(颠覆教育、电影等行业)物联网让视频在各个行业重新定义,5G给视频带来什么?现有的视频云展现的技术和解决方案,均基于传统的视频难题和现有的行业应用。那么可预见的5G时代,将如何改变目前的视频行业:,掌握行业痛点/需求,了解技术前沿,紧跟时代热点,用多元思维(科技+文娱+商业),应对时代变化,1,2,目录,AI概况AI+视频的技术现状及应用,AI+视频编码技术及应用,3,视频编码是什么视频编码:指通过特定的压缩技术,将某个视频格式的文件转换成另一种视频格式文件的方式。即把视频压缩成特定格式,进行存储和传输的技术。,.264/.265等格式WAV、MP3、MPC等格式,AVI,MPEG,MOV等格式,封装,传输&存储,播放,原始视频原始音频,视频编码音频编码,录制,视频编码的必要性-刚需,数字化后的输入图像格式为720*576像素,帧频为25帧/s,采样格式为4:2:2,量化精度为8bit,则数码率:,(720 * 576 + 360 * 576 + 360 * 576) * 25帧/s * 8bit = 165.888Mbit/s。,如果视频信号数字化后直接存放在650MB的光盘中,在不考虑音频信号的情况下,每张光盘只能存储,31s的视频信号。,以电视为例,目前在推广2K(1920*1080),未来将升级为4K(3840*2160)、8K(7680*4320),且帧频会增加到60帧/s、120帧/s,量化精度会进一步提升至10比特,则数码率将非常惊人。(8K最高达到79200Mbit/s)。,目前,广东已启动4K广播应用部署,北京准备2022年冬奥会8K试播。,目前H264的压缩比能在180倍,H265的压缩比可以达到H264的2倍。,视频编码市场空间测算,2020年全球的数据总量预计达40ZB,中国数据量将达到全球市场的20%,数据中90%数据为视频数据,规,模及达到7.2ZB。,按当前阿里视频云的传输收费标准,0.165元/GB,若所有视频仅传输1次,视频数据传输每年的市场规模,达到:0.165*7.2*240=1.18万亿。,按当前阿里视频云的存储价格0.12元/GB/年,视频数据存储每年的市场规模达到:0.12*7.2*240=8640亿。,结合存储和传输比例,若仅有1/100的视频数据存储在云上,未来云存储的价格为现在的1/10,则编码技术,能优化30%的效率,每年将节约近100亿。,某视频APP业务情况和月运营成本的柱状图,该APP的存储大小约为200TB,带宽为60Gb,每天视频上传总时间为10000分钟。,经过计算发现,转码成本、存储成本相比于带宽成本相差甚远。,转码成本、存储成本分别为1万、3万,而带宽成本为108万。,视频网站对降码率以降成本的需求是很强烈的。,视频编码发展历程,H.261,1992,MPEG-1,1994,MPEG-2 H.263,1999,MPEG-4,H.264,2003AVS2005,VC12006,1995VP92011,H.2652013,1990AV1、AVS22016,H.264/5MPEG,VP9,AV1AVS、AVS2,ITU-T视频编码专家组和ISO/IEC动态图像专家组联合组成的联合视频组(JVT)ISO(国际标准化组织)与IEC(国际电工委员会)联合,Google,Google联合AOM中国自定的,目前主要用于高清电视视频方案,VC1,微软, 从信号处理层面入手,以像素、块为表示基础 基于香农信息论,变换+预测+熵编码,视频编码关键技术,视频编码关键技术示例块划分,以往H.264会以16 x 16像素为单位(或是16 x 8、8 x 8、8 x 4、4 x 4等配置),将画面切割为数个大小相同的巨区块,并以这些巨区块做为编码时的最小元素。H.265则是将切割画面的工作从使用者手动设定,转交给编码器来决定,让编码器可视情况以16 x 16、32 x 32、64 x 64等尺寸,将画面切割为数个编码树单元,一般来说区块尺寸越大,压缩效率就会越好。,视频编码关键技术示例块划分,VP9和HEVC的分块方法都是从64x64的块开始分,在每个节点上,有4种分法,最小的分到到4x4。因为想对超高清视频有更好的支持,所以AV1是从128x128开始分,每个节点的分块方法增加到十种,除了原来四种,加了四个T字型和两个细分的窄条分法。AV1现在小于8乘8的块可以灵活的选择变换模式和预测模式,这个带来的好处是大幅度的性能提升,代码库变得非常简单,维护起来也变得非常简单。因为这个变化删掉了十万行代码。,视频编码的压缩倍率和编码复杂度,视频编码的应用场景对比分析,视频编码市场占有情况,目前,H264占有绝对地位,H265曾被给予厚望,但从市场反应看,并未达到预期。但随着高清视频的普及,H264终将被替代。,国际研发格局,参与AV1的AOM联盟会员,H266/VVC标准制定参入机构 VVC的申请截至时间为2020年; 国内的顶尖编码团队在研究VVC; 互联网科技巨头都在AOM,且AV1标准已形成。,国际研发格局,目前越来越多的中国研究院校和企业参入到国际标准VVC的制定中。,AVS 是我国第二代自主知识产权的信源编码标准,主要面向广播。从 2002 年开始,至今已经 16 年了。2006 年成为国家标准,进展比较快,2012 年 AVS 成为广电行标,2016 年 AVS2 成为广电行标,也是国家标准。目前在4K的超清广播应用比较多,北京冬奥会会有 4K 的超清广播,而且还将会有 8K 的超清试播。对于 VR,AVS 有一个 HV 的工作组,有专门面向 VR 的 HV1857.9 视频标准。目前国家正在规划AVS3。,国家标准AVS系列,谢 谢,