2019-2020中国人工智能基础数据服务行业研究报告.pptx
2019-2020中国人工智能基础数据服务行业研究报告,摘要,在经历了一段时期的野蛮生长之后,人工智能基础数据服务行业进入成长期,行业 格局逐渐清晰。人工智能基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,人工智能基础数据服务方通过数据处理能力和项目管理能力为其 提供整体的数据资源服务,不过AI算法研发单位和AI中台也可提供一些数据处理工 具,产业上下游普遍存在交叉。2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务 占比86%,预计2025年市场规模将突破113亿元。市场供给方主要由人工智能基础 数据服务供应商和算法研发单位自建或直接获取外包标注团队的形式组成,其中供 应商是行业主要支撑力量。数据安全、采标能力、数据质量、管理能力、服务能力等仍是需求方的痛点,需要 人工智能基础服务商有明确具体的安全管理流程、能够深入理解算法标注需求、可 提供精力集中且高质量的服务、能够积极配合、快速响应需求方的要求。随着算法需求越来越旺盛,依赖人工标注不能满足市场需求,因此增强数据处理平 台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的 替代率将成趋势。远期,越来越多的长尾、小概率事件所产生的数据需求增强,机 器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为 AI基础数据服务商未来的护城河。,序言,算法、算力、数据是人工智能发展的三大要素,人工智能已经从讲技术教育市场的阶段, 过渡到思考如何将技术与商业相结合落地的阶段,而数据作为AI算法的“燃料”,是实现 这一能力的必要条件,因此,为机器学习算法训练提供数据采集、标注等服务的人工智能 基础数据服务成为近年人工智能热潮中必不可少的一环。 2018年1月,由国务院办公厅发布的科学数据管理办法中,明确了科学数据的责任、 安全使用和共享利用等行为规范,政策层面的关注表明,科学数据是国家科技创新发展和 经济社会发展的重要基础性战略资源,科技创新越来越依赖于大量、系统、高可信度的科 学数据。当人工智能技术在更多场景尝试下沉时,AI基础数据服务将迎来挑战,新兴垂直场景数据 既难以获取,又需要有经验、有专业素养的人员进行标注,考验着从业玩家的研发、管理、 培训能力,但也同样伴随着机遇。人工智能基础数据服务并非人们想象中的数据作坊,其发展依赖于基于技术的数据处理平 台和工具,以及科学高效的管理。该赛道还是科技巨头早早布局的“逐鹿场”。以百度为 代表的巨头企业纷纷建设数据采集与标注服务团队,在支撑自身人工智能技术研发的同时, 对外输出数据采标能力,成为行业领先力量。随着高难度、前沿独特性需求渐成主流,数 据服务行业早期鱼龙混杂的现象将改变,优势公司实力将逐渐凸显。,人工智能基础数据服务行业概述,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务场景分析,3,人工智能基础数据服务需求分析,4,人工智能基础数据服务发展趋势与建议,5,人工智能基础数据服务定义,实现途径,算 力,传统通 用计算(CPU),AI计算架构,AI芯片,CPU+GPUTPUFPGA,智能设备视觉类脑自动驾驶安防物联网,支持系统,计算平台,硬件设备,云服务,储存设施,网络传输,数据采集,数据可视化,编程语言,算法平台,AI框架,量子计算,理论研究,应 用 层,基础层技术层,数 据,数据存储,数据处理,数据挖掘,信息抽取,数据标注,数据采集,数据清洗,算 法,机器学习算法监督式学习非监督学习 半监督学习强化学习深度学习迁移学习,早期算法,搜索式推理,专家系统,智能代理,计算机视觉,图像识别,人脸识别,视频识别,文字识别,视觉识别,步态识别,语音识别,自然语言处理,信息理解,机器翻译,自然语言生成,文字校对,知识图谱,通用型,行业型,意指为AI算法训练及优化提供数据采集和标注等形式的服务人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。人工 智能概念爆发伊始,算法、算力、数据就作为最重要的三要素被人们乐道,进入落地阶段,智能交互、人脸识别、无人驾 驶等应用成为了最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的 必要条件,因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为了这一人工智能热 潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。人工智能技术框架,AI基础数据服务,初生期成熟期,质变期,人工智能基础数据服务发展历程,野蛮生长,格局逐渐清晰,随 着 人 工 智 能 在 更 多 场 景 可 用,2010年-2016年国内人工智能概念爆发, 算法准确率是第一要义, 大量数据标注需求产生, 标注门槛低,行业内鱼 龙混杂,行业进入成长期,行业格局逐渐清晰伴随国内人工智能热潮爆发,大量的AI公司拿到融资,为了不断提高算法精度,数据采标需求也空前爆发,一度催生了行 业的繁荣。但早期的AI基础数据服务门槛较低,玩家鱼龙混杂,使行业标准模糊、服务质量参差不齐。随着竞争加快,AI 公司对训练数据的质量要求也不断提高,并且当产业落地成为主旋律,需求方对垂直场景的定制化数据采标需求成为主流, 众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求,或被淘汰,或依附大平台,行业格局逐渐清晰,头部 公司实力逐渐凸显。随着算法需求越来越旺盛,目前机器辅助标注、人工主要标注的手段需要改进提升,增强数据处理平 台持续学习和自学习能力,增加机器能够标注维度、提升机器处理数据的精度,由机器承担主要标注工作将成为下一阶段 的行业重心。未来,越来越多的长尾、小概率事件所产生的数据需求增强,人机协作标注的模式性价比不足,机器模拟或 机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。AI基础数据服务行业发展历程及展望,成长期2017年-2022年AI进入落地阶段,垂直 场景数据成为主要需求, 对数据类型、质量等要 求明显提高,头部企业 实力逐渐凸显,行业格 局逐渐清晰,向技术要市场2023年-人工标注数据的效率并 不能完全满足算法的需 求,增加机器能够标注 的维度、提升机器处理 数据的精度,是提高效 率上限的重要方法,掌 握高效、准确的机器标 注技术将产生新的核心 竞争力、降低成本,扩 大市场边界,未来-越来越多的长尾、小概 率事件数据需求出现, 人机协作标注的模式性 价比不足,机器模拟或 机器生成数据或是解决 这一问题的良好途径,人工智能基础数据服务的行业价值,传统机器学习描述样本的 特征通常由专家来设计, 这称为“特征工程”,有标注样 本数据,人工设计 特征,分类模型,有标注样 本数据,机器学习 特征深度学习将低层特征组合 形成抽象的高层属性,自 动学习特征并分类,分类模型,端到端学习,目前有监督的深度学习是主流,标注数据是其学习根本人工智能是研究如何通过机器来模拟人类认知能力的科学,机器学习是现阶段实现人工智能的主要手段。机器学习方法通 常是从已知数据中学习规律或者判断规则,建立预测模型,其中,深度学习可以通过对低层特征的组合,形成更加抽象的 高层属性类别,自动从信息中学习有效的特征并进行分类,而无需人为选取特征。凭借自动提取特征、神经网络结构、端 到端学习等优势,深度学习在图像和语音领域学习效果最佳,是当今最热门的算法架构。在实际应用中,深度学习算法多 采用有监督学习模式,即需要标注数据对学习结果进行反馈,在大量数据训练下,算法错误率能大大降低。现在的人脸识 别、自动驾驶、语音交互等应用都采用这类方法训练,对于各类标注数据有着海量需求,可以说数据资源决定了当今人工 智能的高度。由于应用有监督学习的AI算法对于标注数据的需求远大于现有的标注效率和投入预算,无监督或仅需要少量 标注数据的弱监督学习、小样本学习成为了科学家探索的方向,但目前无论从学习效果和使用边界来看,均不能有效替代 有监督学习,人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。机器学习与深度学习的实现路径深度学习,分类器学习,图像,卷积层,全连接层,生数据采集 与标注,神经网络,传统机器学习,人工智能基础数据服务的主要产品形式,更适合算法处于早期 研究阶段的客户使用,适合算法训练、优化等需 求,对于业务类需求有较 强的支撑效果,形式一数据集产品分为开源数据集和收费的数据 集产品,主体主要分为语音类 数据集、图像类数据集、NLP 类数据集等,其中以语音类数 据集为主,形式二数据资源定制服务定制服务是AI基础数据服务行 业最为主要的服务形式,涵盖 采集和标注服务,数据内容以 语音、图像、NLP、OCR等 为主,根据需求方的具体要求 设计方案,并执行,形式三其他数据资源应用服务部分AI基础数据服务商还向算 法服务方向进行拓展,提供算 法训练、模型搭建等服务倾向于AI中台概 念中的部分能力,定制服务为主要服务形式,数据集产品集中于语音类赛道目前,国内AI基础数据服务主要为数据集产品和数据资源定制服务,数据集产品往往是AI基础数据服务商根据自身积累产 出的标准数据集,以语音数据集为主,主体偏普通话语音、英文语音、方言语音等;为保证算法优势,客户更多采用定制 化服务,由客户提出具体需求,数据服务商或直接对客户提供的数据进行标注、或对数据进行采集并标注。大型的需求方, 为保障数据的安全,往往提供Web形式的自有标注平台给执行方,以此对整体项目进行把控,也有一些AI基础数据服务商 向客户提供私有化平台建设服务,或将自身平台与甲方系统兼容;除以上两种形式外,部分AI基础数据服务商还向算法服 务进行拓展,提供算法训练、模型搭建等服务。AI基础数据服务行业主要产品形式,251.1,570.1,819.8,1157.0,1573.0,20182019e2020e2021e,2022e,人工智能赋能实体经济所产生的市场规模(亿元),人工智能基础数据服务的发展背景,人工智能经济崛起为基础数据服务提供长期向好的基本面2010年语音识别和计算机视觉领域产生重大突破,国内开始萌生AI概念。到2015年,国内迎来人工智能创业热潮,独角兽 不断涌现,融资记录被不断打破。2012年-2019年8月人工智能领域共发生2787件投融资事件,总融资额达4740亿元,人 工智能成为最炙手可热的融资热点,百度、阿里、腾讯、京东、华为等科技企业也纷纷加注。2017年至今,产业落地成为AI行业的主流,人工智能赋能实体经济保持高速发展态势,涉及行业包括安防、金融、零售、交通、教育、医疗、营销、 工业、农业、企服等众多领域。下游的爆发式增长为人工智能基础数据服务的发展提供了长期向好的基本面。,2018-2022e中国人工智能 赋能实体经济市场规模,366,514,580,709,260,292,376,659,642,2015,2019Q3,2016投资事件数,20172018投资额(亿元),2015-2019年Q3中国AI领域投融资情况1228,人工智能基础数据服务的发展背景,数据量呈指数式增长,非结构化数据的应用依赖于清洗标注PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,物联网的发展更使线下业务产生的大量数据被采集起来,数 据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是 非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长,但 “玉不琢不成器”,数据 经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。在我国,每年需要进行标注的语音数据超过200万小时,图片则有数亿张。2016-2025年全球数据量的爆发式增长,CAGR=29.3%,16.1,163.0,2016,2025e,全球数据量(ZB),人工智能模型以处理非结构化数据见长,但数据经过清洗与标注才能被唤醒价值,我国每年需要进行标注的语音数据超过200万 小时,图片则达数亿张,人工智能基础数据服务的发展背景,人工智能政策向好,AI基础数据服务公司与政府积极配合人工智能是中国大力发展的新一代信息技术中重要的组成部分,相关促进、指导意见连续三年出现在总理报告中,2019年 “智能+”的概念又首次被写入到政府工作报告中,其发展意义已上升至国家竞争力层面。作为人工智能产业链中必不可 少的一环,发展AI基础数据服务成为了各地方推进AI建设的重要方向之一,贵州、山西、重庆等地相继出台指导意见,引 入科技公司,共建数据基地、数据交易中心,打造具有地方特色的人工智能产业园。以百度(山西)人工智能基础数据产 业项目为例,是在山西省综合改革示范区支持下,由百度智能云数据众包团队筹建专业化、集中管理的AI数据标注基地。 目前,基地拥有近1万平方米的办公场地,专业标注员和审核员达1500人,基地业务全方位覆盖了无人车、语音、人脸、 图像、NLP、地图测绘等数据类型的标注和加工处理服务,是山西2019年重点推进项目。AI基础数据服务基地代表案例,案例:贵州惠水百鸟河数字小镇为惠水产业转型,建设新兴工业化路线而建设的新型园区总规划面积18平方公里,起步区百鸟河 核心区域5平方公里园区自营超1500+席位的数据工场,提 供了数以万计的数据标注和采集服务,案例: 成都市促进大数据发展工作 方案2020年,重点培育3至5个大数据产业集聚 区,推进政府数据开放数据集1000个以上大数据从业人员规模达到6万人以上;大数 据核心产业产值突破800亿元,案例:百度(山西)人工智能基础数 据产业项目近1万平方米的办公产地1500名专业标注员和审核员基地业务涵盖了无人车、语音、人脸、 图像、NLP、地图测绘等数据类型的标注 和加工处理服务,贵州大数据产业发展较早,已形成一定的区 域优势。2018年,省内软件和信息技术服务 收入环比增长达到18%以上、电子信息制造 增加值增长10%左右。2019年贵州打造10 个省级、60个市州级试点项目,积极拓展新 一代信息技术能力,实现产业转型与升级,成都一直是我国大数据产业发展较强的地区, 拥有大数据相关企业400余家,涉及数据采 集、数据存储、数据可视化、大数据应用等 大数据全产业链。2018年中国大数据企业50强中,有超过70%入榜企业在成都设有 分支机构或有关联企业,当地政府高度重视 数据产业发展,未来将持续保持优势,山西正处于由传统产业向科技型产业发展的 转型期,数据标注行业是其重要的抓手。目 前省内本土科技型公司和人才储备尚显不足, 与巨头企业紧密合作带动整体发展,成为了 切实可行的策略。山西省计划到2022年初步 形成集数据采集、清洗、标注、交易、应用 为一体的基础数据服务产业体系,人工智能基础数据服务行业概述,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务场景分析,3,人工智能基础数据服务需求分析,4,人工智能基础数据服务发展趋势与建议,5,提供生数据,人工智能基础数据服务产业链,由AI基础数据服务方使用算法研发单位自有设备,和工具进行服务,提供外包采标人员,数据生产者,产能资源提供者,个人用户,企事业单位,政府机构,人力资源外包 提供商,个人,AI基础数据服务方,自建采标 执行团队,项目管理系统,权限管控,项目流程管理,办公应用,数据处理平台,数据 资源 设计 工具,技术能力支撑,语音识别技术储备 CV技术储备 NLP技术储备,数据资源采集工具,任务对接平台 录制及拍摄工具 显示与上传模块,数据资源预标注及自动标注工具,语音标注工具:切分、转写、实体标注 图像标注工具:贴边、打点、分类、标框 文本标注工具:词性标注、分词、分类,质 检 工 具,需要进行AI算法,研发的单位,标注工具,采集设备,AI算法研发应用,自动驾驶,智能交互,机器视觉,AI中台,AI技术能力,文字识别,语音交互,对话机器人,标注工具,模型构建,模型部署,机器学习,图像识别,人脸识别,图例灰色图框表示固有 模块及供应关系蓝色图框表示可能 存在的模块及供应 关系,提供生数据,提供外包采标人员,提供 内部 全职 采标 人员,提供预标注及自动标注工具,提供 完整 的数 据采 集与,标注 服务,提供,管理 系统 支持,提供数,据需求 理解及 工具开 发支持,提供开发与部署能力,AI基础数据服务方是行业核心环节2018年人工智能基础数据服务产业链,代 理 商,人工智能基础数据服务产业图谱,产能资源提供者,人力资源外包 提供商,个人,AI中台,科技公司,行业企业,AI公司,科研单位,AI基础数据服务商具备标注基地或全职标注团队,AI基础数据服务商,上游: 数据产 生及产 能资源,中游: 数据产 品开发 工具与 服务管 理,下游:AI算法 研发,产业上下游普遍存在交叉AI基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,AI基础数据服务方通过数据处理能力和项目 管理能力为其提供整体的数据资源服务。 AI基础数据服务方整体有两大类,一种是具备自有的标注基地或全职标注团队, 这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专注于数据产品的开发与项目执行。下 游部分AI公司拥有自己的标注工具,也可通过AI中台获取一些通用标注工具,同时一些数据需求大的企业还孵化了自己的 数据服务团队。整体而言,产业上下游普遍存在交叉关系。2018年人工智能基础数据服务产业图谱,人工智能基础数据服务行业投融资,融资规模集中于千万量级,早期融资项目居多从融资规模来看,人工智能基础数据服务市场的融资多集中在千万级别。从时间维度来看,2015年人工智能基础数据服务 商获得的融资金额相对较高,标志着行业初露头角,受到资本的认可。从获得融资的企业数量来看,目前获得融资的玩家 并不多,资本市场表现的活跃度不高。从融资轮次来看,大部分融资仍然集中于早期融资,目前上市的企业仅挂牌新三板 的数据堂一家(不考虑科技公司内部孵化的基础数据服务商)。人工智能基础数据服务毛利率普遍较高,但为保持与人工 智能市场前沿算法的匹配,需要投入大量研发成本进行数据处理平台与工具的研发升级,因此对融资仍有较强依赖。,2019HI,2018,融资金额(元)龙猫数据,倍赛,数百万数百万Pre-A天使2015,2.4亿元B轮,种子2016,100万,数千万Pre-A,3370万A,天使,1000万,数千万Pre-A,数百万天使2017,数千万Pre-A,5000万A,数千万数千万APre-A,并购(金额不详),数千万A,2015-2019年H1中国人工智能基础数据服务融资情况数据堂爱数智慧海天瑞声荟萃标贝科技星辰数据,人工智能基础数据服务行业商业模式,生产、获客、部署合力驱动发展人工智能基础数据服务行业是典型的To B型业务,商业模式较为稳定。在生产方面,主要通过自建标注基地或标注团队、 搭建众包平台、采购供应商外包服务(BPO)等模式实现生产运营,大多企业主要采取众包与外包模式,百度数据众包、 倍赛等企业自建标注基地或全职标注团队,对于培训较高素质工作人员、完善团队管理有积极意义;在获客方面,主要通 过口碑传播、学术会议与展会及代理渠道等模式进入市场,对销售人员熟悉市场趋势、客户需求的要求较高;在实施交付 方面,有私有化部署和公有部署两类,能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。2018年中国人工智能基础数据服务商业模式,私有化部署,在数据生产者愈加重视数据隐私与安 全的背景下,基础数据服务可以实现 私有化离线部署,驻场标注,数据存 储在客户本地,获客模式,实施模式,公有部署数据接入在公有云服务器,可降低项 目实施成本,通过数据接口加密、定 期巡查、反爬虫机制保证数据安全,生产模式自建标注基地或标注团队拥有专业标注人员,通过完善的管理制 度和培训,提升产能质量与效率搭建众包平台利用大众力量及资源,低成本、高效率 地采集和制作专业数据采购供应商外包服务(BPO)增强生产能力弹性,由供应商承担生数据 采集和标注等基础操作,优化企业运营,口碑通过提供优质服务,进入客户的供应商名 录,是一种非标准化的获客模式学术会议、展会通过专业性学术会议与行业展会,取得客 户关注代理模式通过代理合作拓展下游客户,86.2%,12.9%,0.9%,2018年中国人工智能基础数据服务市场细分结构,数据资源定制服务,数据集产品,其他数据资源应用服务,人工智能基础数据服务市场规模,2025年市场规模将突破百亿,行业年复合增长率为23.5%2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,数据集产品占比12.9%,其 他数据资源应用服务占比0.9%;行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。从整体增速来看,行 业发展较为稳健,下游人工智能行业持续发力将形成长期利好。,数据资源 定制服务,数据集产品,其他数据资源应用服务,25.86,34.91,70.3357.1845.38,83.70,97.93,113.59,35%,30%,26%,23%,19%,17%16%,2018年-2025e中国人工智能 基础数据服务市场规模,2018 2019e 2020e 2021e 2022e 2023e 2024e 2025e市场规模(亿元)市场规模增速(%),4.7,人工智能基础数据服务细分结构,纯标注服务为主体,由供应商提供服务占79%2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主,同时提供采集与标注服务占比较少,这 是由于生数据由需求方提供的情况较多,但这并不意味着市场中数据采集需求弱,相反,人工智能技术落地后产生了大量 新兴垂直领域的数据需求,然而这些数据采集难度大,能够提供相关采集工具和服务的供应商将获取竞争优势。市场供给 方主要由企业自建或直接获取外包团队的形式以及供应商组成,又以供应商为行业主要支撑力量,占比79%。2018年人工智能数据资源定制服务 市场细分结构17.6,企业自建团队运营(亿元)供应商运营(亿元)注释:企业自建团队运营数据统计指企业在内部形成独立的团队/品牌或直接通过人力外 包机构获取团队来负责数据采集与标注,不含由企业内部各岗位人员兼职地、分散地、 非标地承担标注工作发生的成本,也不含内部孵化标注团队对外提供服务的收入。,6.4亿元,6.6亿元,4.3亿元,2.8亿元,1.9亿元,NLP数据采集与标注服务0.3亿元,21%,79%,人工智能基础数据服务市场格局,自建标注团队增加,但未对行业产生挤出效应出于对数据安全性、成本和整体布局的考虑,人工智能和科技型互联网领域的头部公司开始组建自有标注团队,大部分采 用聘用项目经理,执行团队外包的形式运营,所处理项目从少量较为简单基础的标注需求,逐渐向大量复杂任务发展,但 由于数据需求总量大,未对市场产生明显挤出效应。其中AI公司的数据标注团队主要承担自身研发需求,而科技型互联网 巨头组建的标注团队开始依靠集团优势,对外输出AI基础数据服务能力,形成了行业中较强的一方阵营。AI基础数据服务自建团队自建标注团队百度、阿里、腾讯、京东等科技公司和科大讯飞、 商汤科技等AI公司均开始自建标注团队任务量级和复杂性提升自建团队早期更多承担公司内部的算法研发和业 务需求,往往标注内容较为简单,但随着团队经 验的累计,任务量和复杂性明显推升代表性公司团队对外输出能力以百度数据众包为代表的数据标注团队成立较早, 拥有大量活跃用户的众包平台,标注能力在集团中 得到充足的锻炼,对外输出能力时也形成了较强的 竞争力,9%,17%,74%,人工智能基础数据服务市场格局,现在,2022年,行业集中度,适中行业集 中度厂商数量有限,大型厂商先入, 把持较多客户资源下游对数据要求提 高周期尚短,生态 传导效应滞后,较高 行业集中度研发重要性提升, 资金与研发实力成 为壁垒行业迎来并购融资限制部分厂 商业务发展,行业将提升至较高集中度,CR5占26%市场份额目前人工智能基础数据服务行业CR5占26%市场份额,行业集中度较为适中,既非寡占型市场也非充分竞争市场,这一方 面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早,积累了较多客户资源,另一方面则是由于下游企业之前 多采用公开数据集训练模型,对数据的高精度要求由来尚短,受生态传导效应滞后影响,市场门槛还不显著,资金与研发 实力较为薄弱的中小企业还有较强的发展土壤。然而未来,随着下游企业发展壮大,直接使用外包团队成本低廉、数据安 全可控性强,一些基础性需求将由下游企业自给自足,外部的数据服务商现有的存量市场面临下降,因此必须承担高难度、 前沿独特性任务,这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究,以把握客户需求, 开拓增量市场,因此资金与研发实力成为较高行业门槛,同时受近年资本市场冷却影响,一批中小型厂商面临业务收缩, 再者部分厂商如倍赛开始在业内并购,参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业),并购 也将成为市场趋势,多种因素叠加影响下,行业集中度将提升。人工智能基础数据服务集中度趋势2018年人工智能基础数据服务市场份额,其他四大 头部企业,其余企业,人工智能基础数据服务市场格局,偏 重 计 算 机 视 觉,较晚进入,早期进入,中期进入,偏重语音,百度,云测,数据堂,海天瑞声,慧听数据,龙猫数据,倍赛阿里众包,爱数智慧,标贝科技,京东 星辰,部分人工智能基础数据服务主要玩家策略矩阵业内玩家按照业务方向和进入市场的时机可做粗略划分,包括早期进入玩家、中晚期进入玩家、偏重视觉类业务玩家、偏 重语音类业务玩家等。其中,业务更偏重语音类数据的玩家,通常拥有较多的自有知识产权数据集;拥有自建标注基地或 全职标注团队的则多为偏重视觉类的玩家。部分人工智能基础数据服务主要玩家策略矩阵,图例未于官网明确 有自建标注基 地或标注团队拥有自建标注基 地或标注团队,众智 数据腾讯云数据,确保资金周转能持续为企业回血,股东与企业管理层维持良好的沟通和业务协同机制完善项目管理平台,建立全面的质量管理和 人员培训机制,以降低管理成本、优化口碑保持大量订单吞吐,建立激励机制,以降低 有经验的标注人员流失率强调数据安全性,通过私有部署、管理流程 全程多层把控、自建标注基地或全职团队等 方式实现对数据安全的有效管理,人工智能基础数据服务竞争力要素,优质人工智能基础数据服务供应商要素模型优质人工智能基础数据服务供应商的基本发展态势可从技术、产能、商务、数据资产、管理等五个方面判断。技术主要关 注数据处理工具、平台和人工智能基础技术研究,产能主要关注产能的充足性和调度能力,商务主要关注市场覆盖率和续 单率,数据资产主要关注数据资产合规性、复用率,管理主要关注资金、项目管理平台质量与安全管控度、有经验人员保,有率等。,销售团队对市场渠道的覆盖增强,针对不同 类型的客户资源个性化维护,提升续单率售前售中售后体系的完善程度,商务,商务,开发与时俱进的数据处理工具,以应 对高精细化、高细粒度的数据处理需 求,并保证针对差异化需求架构较快 完成定制开发增强数据处理平台终身学习能力,由 机器学习人工标注,提升预标注和自 动标注的能力介入人工智能基础技术研究,紧跟下 游需求变化,技术,厂商应具备充足产能,一方面拓展与 上游供应商的合作关系,另一方面为 众包平台引流。同时,下游客户对标 注人员的素养和信誉度愈发看重,自 建一部分专职标注团队承接高精度任 务将带来竞争优势产能调度方面,除项目经理调度外, 尽早研发需求与供给规模分布模型, 依据需求的时间与质量要求和产能人,员的经验、信誉、负载等维度实现智,能化任务分配,将优化产能提供效率、,降低项目风险,获取竞争优势,产能,对公司拥有知识产权的数据,确保数据授 权的完备,避免合规风险,并合理配置, 针对复用率高的数据类型建立数据资产库,数据资产,优质人工智能基础数据服务供应商要素模型,管理,人工智能基础数据服务行业概述,1,人工智能基础数据服务市场现状,2,人工智能基础数据服务场景分析,3,人工智能基础数据服务需求分析,4,人工智能基础数据服务发展趋势与建议,5,视图基础数据服务分类及应用场景,注:本章将自动驾驶相关的数据服务单独阐述,因此本章视图基础数据服务均指除自动驾驶以外的视图基础数据服务。,主要对视图数据检测、框选、分割,新型产品需求不断攀升视图基础数据服务主要为计算机视觉算法模型提供场景对应的算法训练采集所需的视图数据,针对已采集数据进行框选、 关键点标注、属性标注等标注工作,现主要应用于智慧城市、智慧零售、手机拍照、智能质检与预测性维护、商业地产、 医学影像AI等领域。由于智慧城市等CV主赛道算法逐渐走向成熟,当前计算机视觉厂商对新赋能领域以及目前已进入领域 中较为长尾化的细分场景需求开始增强,及时拓展相应新的精细化数据产品在视图基础数据服务市场中至关重要。视图基础数据服务分类及应用场景,人像采集能力完备,可实现汉 族、少数民族、白人、黑人、 印第安人、中东人、中亚人、 南亚人、东南亚人等多种人像 采集拥有人脸打点、物品分类、自 动贴边等标注工具,人像标注 准确率达到98%,单张人脸支 持150点的精细标注拥有复杂条件采集能力,可在 不同光线、道具、表情、背景 采集数据,用于图片分类处理,视频数据标注服务对视频主体分类、进行人物及物体属性标记、主体 行踪轨迹分析、主体朝向标记、画面起始点标记等,用于视频处理,场景化图片数据服务采集数据后,对图片进行描点、划线、框选、目标检测、 关键点标注、目标分割、属性标注等,可用于智慧零售、 工业质检、人体识别、动物识别与监测等各类场景人脸人像数据服务采集阶段提供不同姿态、不同年龄段、肤色的人像 数据,标注阶段提供在图像中检测和跟踪人脸、人 脸关键点标注、人脸特征标注等服务OCR数据服务对含有文本的图片做框选标注,包括手写内容、卡 片、票据等,用于内容提取比对,典型案例 x,视图基础数据服务市场现状,人像与OCR数据是视图基础数据服务的主流在不考虑自动驾驶的前提下,2018年视图基础数据服务市场达到6.6亿元,人像与OCR数据是视图基础数据服务的主流, 尤其人像数据占市场的42.9%。OCR占27%,其他的人体识别数据、商品识别数据、工业质检数据、医学影像数据及其他 新场景数据等较为分散,合计占市场30.1%。2018年视图基础数据服务市场细分结构(不含自动驾驶),42.9%,30.1%,人像,27.0%OCR人像OCR其他,其他,视图基础数据服务技术趋势,针对算法研发方向判断数据需求,挖掘增量市场按照数据使用方向,可以划分为新算法模型搭建与研发、在已有算法基础上增加新模块、解决方案交付过程中定制优化等 三类,其中新算法模型搭建与研发和在已有算法基础上增加新模块类型的数据需求是可以根据相应机器视觉算法的前沿研 发方向来判断预测的。例如,就智慧城市场景而言,针对汉族的人脸识别和视频结构化已较为成熟,在实际应用场景中还 需针对少数民族和其他人种进行优化以提升整体算法准确率,此外,跨镜追踪成为场景研发热点,相应的跨摄像头数据如 何标注对算法训练也会产生较大影响,再及,深度相机可以帮计算机读懂三维立体的监控视频,还能够较好地解决复杂光 照条件下视图数据采集的问题,也将在未来成为重要的研发方向,综上,多民族、多人种数据、跨摄像头数据、3D数据的 采集与标注服务将为视图基础数据服务市场的发展带来增量空间,OCR、手机、零售等其他领域也同理可针对算法研发方,向挖掘增量市场。,OCR,特定行业领域光学 字符数据,零售,柔性商品数据体感识别数据,医疗,结合时空维 度的数据,智慧城市,多民族、多人种数据跨摄像头数据,3D数据,手机,骨骼关键点标注 多表情数据3D数据,机器视觉研究方向与数据使用趋势,自动驾驶基础数据服务应用场景,环,境,环,境,境 映 射,境 映 射,环 境 映 射,自动泊 车系统,行人检测,远程雷达,激光雷达,摄像头,中、短程雷达,控制,决策,预测,感知定位,摄像头,激光雷达,数据,识别,采集 标注,训练 算法,算法尚未成熟,对数据有长期需求,且缺口仍在L3级别以上的自动驾驶系统主要有感知、定位、预测、决策和控制五部分,其对于计算机视觉技术的需求度远高于ADAS, 系统需要对雷达、摄像头等传感器采集的点云和图像数据进行抽取、处理和融合,构建车辆行驶环境,为预测和决策做依 据,这对于算法的准确性和实时性有极大考验。目前自动驾驶的视觉技术主要应用有监督的深度学习,是基于已知变量和 因变量推导函数关系的算法模型,需要大量的标注数据对模型进行训练和调优。在世界级无人驾驶大赛中,主办方往往提 供近亿张图片、数十万张标注图片供参赛团队训练使用;在路测或真实道路驾驶时,如人车混杂、分布稠密、行为多变等 复杂环境问题更需要海量的真实路况数据不断对算法进行优化,才能保障无人驾驶车辆正常可用。如今国内自动驾驶飞速 发展,AI公司、科技公司、高精地图厂商、车厂等参与者众多,该领域的数据采集和标注需求已经成为AI基础数据服务的 主要项目之一,且自动驾驶算法应用仍待优化,数据需求缺口仍在,市场远未饱和。自动驾驶场景中AI基础数据服务的价值,有大量数据采 集标注需求,高精地图,侧视路环 况识别 环,映 侧视路 映,射 况识别 射,高精度地图,5.76,自动驾驶基础数据服务市场现状,CAGR:23.2%,49.0%,47.2%,3.8%,2025年采标规模将超24亿,科技公司和车厂是主要需求方自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精地图厂 商为主,2018年自动驾驶行业基础数据服务规模为5.76亿元,预计2025年将超24亿元,三方规模占比分别为49%、47.2% 和3.8%,行业数据总任务量超一亿张,2D图像标注与3D点云标注任务量基本为2:1。其中高精地图厂商算法较为成熟,数 据自动化标注程度可达90%左右,外包需求较少;以百度、图森未来为代表的自动驾驶科技公司一直是该领域基础数据服 务的主要买方,平均各家算法训练图像数据累积需求在千万级以上,随着落地项目进程加快,将会有更多细分场景的需求 产生;近几年,汽车厂商在ADAS和自动驾驶方向的投入明显,上汽、吉利等厂商年投入均可达数亿元,对于数据的采集 和标注需求也逐年增加,预计未来3年中,汽车厂商将成为需求主力。2018年-2025e中国自动驾驶2018年自动驾驶AI基础数据服务规模占比AI基础数据服务规模高精地图厂商规模占比24.87,