2022-2023中国人工智能芯片行业研究报告.pdf
前言随着人工智能新兴产业的高速发展,传统的芯片已不能满足人工智能产业对芯片性能及算力等方面的要求。因此,如何构建出高效的人工智能芯片,将芯片技术与人工智能技术有效地结合起来成为当前的热点话题。人工智能芯片领域的研究,或将科技 发展推向一个更高的阶层。亿欧认为,人工智能芯片作为人工智能及相关应用的基础与核心,必将迎来光明的未来。本报告对AI芯片主流类型进行拆解分析,展现中国人工智能芯片的发展现况,探究其发展的困境和机遇,希望能为广大从业者和各方关注人士提 供有益的帮助。本报告核心观点:政策扶持和市场需求仍是人工智能芯片发展的主要驱动力。据测算,2025年,中国人工智能核心产业市场规模将达到4000亿元,其 中基础层芯片及相关技术的市场规模约1740亿元。四大类人工智能芯片(GPU、ASIC、FGPA、类脑芯片)及系统级智能芯片在国内的发展进度层次不齐。用于云端的训练、推断等大算力通用 芯片发展较为落后;适用于更多垂直行业的终端应用芯片如自动驾驶、智能安防、机器人等专用芯片发展较快。超过80%中国人工智能产业链企 业也集中在应用层。未来,中国人工智能芯片行业挑战与机遇并存。技术上,由于基础理论、关键设备等仍落后与国际一流水平,瓶颈较难突破,因此芯片制造环 节仍有所差距,但垂直行业应用的芯片设计及相关企业的数量上,中国仍占据较为优势的地位;在算法上,除了创新计算范式的研发,“数据孤 岛”问题也将在政策的指导下得到解决,为AI算法提供更大量、更准确的数据集进行学习与训练;应用上,消费电子、自动驾驶、智慧安防、机 器人等仍是较为主流的应用方向,政策指导使产业获得更好的联动性,同时,人工智能逐步横向往媒体、医疗、教育等行业渗透与拓展。总体来看,人工智能芯片的发展仍需基础科学积累和沉淀,因此,产学研融合不失为一种有效的途径。充分利用企业、高校、科研机构等多种 不同的教育环境与教育资源,将理论知识传授与产业工程实践、科研实践相结合,培养并积累人工智能领域优质人才,维持中国人工智能及芯片 行业的可持续发展。2中国人工智能芯片行业发展现状人工智能芯片行业解读1.技术层面2.应用层面3.典型企业二三中国人工智能芯片行业的挑战与机遇一目录C O N T E N T S一、.中国人工智能芯片行业发展现状研究主体界定:面向人工智能领域的芯片及其技术、算法与应用5应用层终端产品智慧金融智慧医疗教育无人驾驶营销智能安防智能制造智慧城市智慧零售智能家居技术层通用技术自然语言处理计算机视觉语音识别机器学习算法机器学习增强学习深度学习技术框架分布式储存分布式计算神经网络基础层数据通用数据行业大数据系统智能云平台大数据平台硬件GPU/FPGA等加速硬件 智能芯片常用的算法与技术 等,解决人工智能应用中的核心计算问题。人工智能应用中完成 大量运算所需的硬件、 模型训练所需的数据 及数据处理平台等。 “无芯片不AI ” , 以AI芯片为载体实现的算力是人工智能发展水平的重要衡量标准。广义的AI芯片:专门用于处理人工智能应用中大量计算任务的模块,即面向人工智能领域的芯片均被称为AI芯片。狭义的AI芯片:针对人工智能算法做了特殊加速设计的芯片。本报告将对针对狭义的AI芯片即人工智能算法做特殊加速设计的四种主流芯片GPU、ASIC、FPGA、类脑芯片以及系统级AI芯片技术、实现AI的主流算法及在场景中的应用情况进行解析。在场景应用中,利用人工智能学科技术 解决生产生活的问题。AI芯片的发展历程:模仿人脑建立的模型和算法与半导体芯片发展交替进行6神经网络 模型半导体 芯片1940 1960 1980 2000 2020晶体管第一块芯片感知器CPU(MCU)Hopfield网络FPGA神经网络芯片GPU新的DNN算法基于深度学习 的AI芯片类脑芯片人工智能算法需要在计算机设备上实现,而芯片又是计算机设备运作的核心零件,因此AI芯片的发展主要依赖两个领域:第一个是模仿人脑建 立的数学模型与算法,第二个是半导体集成电路即芯片。优质的算法需要足够的运算能力也就是高性能芯片的支持。 2019年发布AI芯片行业研究报告认为,人工智能于芯片的发展分为三个阶段:第一阶段由于芯片算力不足,神经网络算法未能落 地;第二阶段芯片算力提升,但仍无法满足神经网络算法需求;第三阶段,GPU和新架构的AI芯片促进了人工智能的落地。目前,随着第三代神经网络的出现,弥合了神经科学与机器学习之间的壁垒,AI芯片正在向更接近人脑的方向发展。人工智能与半导体芯片的发展进程对照中国政策环境:在政策的引导支持下,中国人工智能芯片市场持续快速发展7年份政策相关内容2016年发改委互联网+”人工智能三年行动实施方案对人工智能芯片发展方向提出多项要求,并促进智能终端可穿戴设备的推广落地。2017年国务院新一代人工知恩感发展规划重点突破高效能、可重构类脑计算芯片和具有计算机成像功能的类脑视觉传感器技术,研发具有学 习能力的高效能类脑神经网络架构和硬件系统,实现具有多媒体感知信息理解和智能增长、尝试推 理能力的类脑智能系统。2017年工信部关于促进新一代人工智能产业发展三年行 动计划按照“系统布局、重点突破、协同创新、开放有序”的原则,在深入调研基础上研究提出重点发展 智能传感器、神经网络芯片、开源开放平台等关键环节,夯实人工智能产业发展的软硬件基础。2019年关于促进人工智能和实体经济深度融合的指导意 见把握新一代人工智能的发展特点,结合不同行业,不同区域特点,探索创新成果应用转化的路径和 方法,构建数据驱动、人机协同、跨界融合的智能经济形态。2021年“十四五”规划纲要和2035远景目标纲要我国新一代人工智能产业将着重构建开源算法平台,并在学习推理与决策、图像图形等重点领域进 行创新,聚焦高端芯片等关键领域。来源:公开资料、整理芯片产业是信息产业的核心部件与基石。当前,我国芯片高度依赖进口非常不利于国家安全与行业发展。因此,近年来国家高度关注人工智能 芯片产业的发展,发布一系列产业支持政策,为人工智能芯片行业建立了优良的政策环境,促进行业的发展。 2021年,“十四五”规划纲要和2035年远景目标纲要指出,“十四五”期间,我国新一代人工智能产业将聚焦高端芯片等关键领域。从 国家战略高度为人工智能芯片行业建立了优良的政策环境。各地方也根据各自的背景与条件,发布促进和扶持人工智能产业发展的方案方针。截止2021年9月,包括北京、天津、上海、江苏、福建等20余省、市、地区发布人工智能相关政策,进一步支持引导人工智能及芯片产业发展。 2016-2021年中国人工智能芯片相关政策梳理中国市场环境:需求是主要驱动力,边缘/终端芯片市场将持续增长。8来源:工信部、公开资料、整理 2018年12月,中央经济会议把人工智能与5G、工业互联网、物联网等定义为新型基础设施建设,各行业数字化转型加速,产生了更多样化 的人工智能产业应用数据和更复杂的深度学习算法需求。目前,中国人工智能产业链中,应用层企业比例超过80%,结合场景的应用落地是 人工智能产业的主要驱动力。根据数据,中国人工智能企业的十大应用技术领域中,计算机视觉、机器人、自然语言处理、机器学习、生物识别占比居前五;企 业服务、机器人和通用方案以及安防、汽车是AI应用的主要方向,边缘/终端芯片需求将持续增长。市场规模测算:市场规模平稳增长,产业融合加速来源:工信部、信通院、测算中国人工智能核心产业市场规模(单位:亿元)2019-2025年中国AI芯片市场规模(单位:亿元)9人工智能整体市场已从2020年的疫情影响中恢复,同时,随着技术的成熟以及数智化转型升级,内在需求增加,中国人工智能核心产业市场 规模将持续平稳增长,预计2025年将达到约4000亿元。随着大算力中心的增加以及终端应用的逐步落地,中国AI芯片需求也持续上涨。2021年疫情缓解,市场回暖,产生较大增幅;类脑等新型芯 片预计最早于2023年进入量产,因此2024及2025年或有较大增长,预计市场规模将于2025年达到1740亿元。CAGR=31.2% CARG=42.9%中国投资环境:资本持续进入,交易金额均超亿元102021年中国人工智能芯片交易事件及金额(截止2022年1月)人工智能芯片国内投资事件数量人工智能芯片国内投资事件金额(单位:亿元)中国人工智能芯片交易事件(部分)-截止2022年1月企业时间阶段金额燧原科技2021-01-05 C轮18亿元沐曦集成电路2021-01-18 Pre-A轮数亿元天数智芯2021-03-01 C轮12亿元壁仞科技2021-03-30 B轮数十亿元智砹芯半导体2021-04-07 A轮数亿元地平线2021-06-10 C系列15亿美元埃瓦智能2021-07-16 A轮数亿元星云智联2021-07-23 Pre-A轮数亿元后摩智能2021-07-27 A轮未披露灵汐科技2021-08-19战略投资未披露芯启源2021-11-03 A轮数亿元安路科技2021-11-12已上市13.03亿元瀚博半导体2021-12-20 B轮16亿元中科驭数2021-12-21 A+轮数亿元墨芯2022-01-12 A轮数亿元深聪智2022-01-11 A轮数亿元相较2020年,人工智能领域投资数量有所减少,但单笔投资规模呈上升趋势。AI芯片产业也持续有资本进入,单笔融资金额均超亿元。截止2022年1月,2021年中国人工智能芯片相关领域融资事件共计92起,总金额约300亿人民币。中国人工智能芯片人才市场:各领域人才缺口仍较大,国家开始重视人才培养112018年4月高等学校人工智能创新行动计划加快人工智能领域学科建设,支持高校在计算机科学与技术学科设置人 工智能学科方向;加强人工智能领域专业建设,推进“新工科”建设,形成“人工智能+X”复合专业培养新模式;加强人工智能领域人才培养,加强人才培养与创新研究基地的融合,完 善人工智能领域多主题协同育人机制。构建人工智能多层次教育体系。2020年1月“双一流”建设高校促进学科融合加快人工智能领域研究生 培养的若干意见鼓励人工智能龙头企业根据产业技术的最新发展和对人才培养的最新需 求,提供试验实践环境,对高校教师开展培训;以双聘等灵活聘用方式吸引企业和科研院所优秀人才到高校开展科学研 究和人才培养;依托“双一流”建设高校,建设国家人工智能产教融合创新平台,鼓励 企业参与共建,在资金、项目等方面优先支持。注:人才供需比=进入该岗位的人才意向数量/岗位需求数量 人才培养相关政策 AI芯片的实现包含软件和硬件两个方面。既需研究高效率的智能算法,同时要研究如何将这些算法结合在半导体硅片上,形成最终的产品。目前,仍有部分企业在人才招聘中遇到不少阻碍,人才缺乏、成本高是主要的问题。根据工信部人才交流中心发布的数据显示,人工智能不 同技术方向岗位的人才供需比均低于0.4,其中人工智能芯片岗位人才供需比为0.32,机器学习、自然语言处理等技术人才供需仅0.2。国家也开始重视人工智能相关人才的培养,中央及各地方政府出台了多个人才培养与引进相关政策;在2018-2021年,超过300所高校开设 了人工智能专业;部分企业也开始与高校进行合作,以产学研合作教学模式共同培养综合能力突出的优质人才。中国人工智能技术方向岗位供需情况中国AI芯片产业图谱12中国人工智能芯片产业图谱云端芯片边/端侧芯片类脑芯片IP授权二、人工智能芯片解读01. 技术层面基于技术架构、部署位置及实践目标的AI芯片分类15 AI芯片一般泛指所有用来加速AI应用,尤其是用在基于神经网络的深度学习中的硬件。 AI芯片根据其技术架构,可分为GPU、FPGA、ASIC及类脑芯片,同时CPU可执行通用AI计算,其中类脑芯片还处于探索阶段。 AI芯片根据其在网络中的位置可以分为云端AI芯片、边缘及终端AI芯片;根据其在实践中的目标,可分为训练(training)芯片和推理(inference)芯片。云端主要部署训练芯片和推理芯片,承担训练和推理任务,具体指智能数据分析、模型训练任务和部分对传输带宽要求比高的推理任务;边缘 和终端主要部署推理芯片,承担推理任务,需要独立完成数据收集、环境感知、人机交互及部分推理决策控制任务。技术架构 种类定制化 程度可编辑性算力价格优点缺点应用场景GPU通用型不可编辑中高通用性较强且适合大规模并 行运算;设计和制造工艺成 熟并行运算能力在推理端无法 完全发挥高级复杂算法和通用性人工 智能平台FPGA半定制化容易编辑高中可通过编程灵活配置芯片架 构适应算法迭代,平均性能 较高;功耗较低;开发时间 较短(6个月)量产单价高;峰值计算能力 较低;硬件编程困难适用于各种具体的行业ASIC全定制化难以编辑高低通过算法固化实现极致的性 能和能效、平均性很强;功 耗很低;体积小;量产后成 本最低前期投入成本高;研发时间 长(1年);技术风险大当客户处在某个特殊场景, 可以为其独立设计一套专业 智能算法软件类脑芯片模拟人脑不可编辑高-最低功耗;通信效率高;认 知能力强目前仍处于探索阶段适用于各种具体的行业GPU:从图形处理器到通用数据并行处理器16增加计算资源密度提高存储体系性能和功能GPU体系的发展趋势 GPU(Graphics Processing Unit)图形处理器最初是一种专门用于图像处理的微处理器,随着图像处理需求的不断提升,其图像处理能力也得 到迅速提升。目前,GPU主要采用数据并行计算模式完成顶点渲染、像素渲染、几何渲染、物理计算和通用计算等任务。因其超过CPU数十倍 的计算能力,已成为通用计算机和超级计算机的主要处理器。其中通用图形处理器GPGPU(GeneralPropose Computing on GPU)常用于数据 密集的科学与工程计算中。英伟达与AMD仍占据GPU霸主地位,2018年至今,国产GPU也积极发展中,已有部分产品落地。CPU和GPU对比GPU的开发环境 CG(C for Graphics):为GPU编程设计的高级绘制语言,由NVIDIA和微 软联合开发,微软版本叫HLSL,CG是NVIDIA版本。 CUDA(ComputeUnified DeviceArchitecture,统一计算架构):由NVIDIA所推出的一种集成技术,是首次可以利用GPU作为C-编译器的开 发环境。可以兼容OpenCL或者自家的C-编译器。 ATIStream:AMD针对旗下图形处理器(GPU)所推出的通用并行计算 技术。利用这种技术可以充分发挥AMDGPU的并行运算能力,用于对软 件进行加速或进行大型的科学运算。 OpenCL(Open Computing Language,开放计算语言):为异构平台编 写程序的框架,此异构平台可由CPU,GPU或其他类型的处理器组成。增强通信能力和可靠性降低功耗CPU GPU浮点计算能力110运算方式串行并行带宽内存带宽小高显存带 宽延迟通过大的缓 存保证访问 内存的低延 迟。直接访问 显存因此 延时较长。GPU计算 适用场景运算密集高度并行控制简单分多个阶段执行ALU:算数逻辑单元DRAM:动态随机存取存储器Cache:高速缓冲存储器Control:控制单元ASIC与FPGA: AI芯片领域“兵家必争之地”17功能描述电路设计与输入功能仿真综合优化综合后仿真实现与布局布线时序仿真板级仿真与验证调试与加载配置静态时序分析(STA)FPGA功能描述ASICASIC设计中模块划分模块编码输入模块级仿真验证系统集成系统仿真验证综合等价性检验 静态时序分析物理设计(布线等)形式验证往往要用到FPGA进行原型验证 FPGA全称是Field Programmable Gate Array:可编程逻辑门阵列,是一种“可重构”芯片,具有模块化和规则化的架构,主要包含可编程 逻辑模块、片上储存器及用于连接逻辑模块的克重购互连层次结构。在较低的功耗下达到GFLOPS数量级的算力使之成为并行实现人工神经 网络的替代方案。 ASIC(Application-Specific Integrated Circuit)是指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC从性能、能效、 成本均极大的超越了标准芯片,非常适合AI计算场景,是当前大部分AI初创公司开发的目标产品。芯片设计流程与设计优势对比可加速上市进程:开发时间 较短,且无需布局、掩膜等 制造步骤。非提前支付的一次性开支: 这些均是ASIC设计中需要的 开支。更简化的设计周期:可通过 设计软件处理布线、布局及 时序等问题。更具预测性的项目周期:消 除了潜在的重新设计和晶圆 容量等。现场可重编功能:可以远程 上传的新比特流,通过软件 实现自定义硬件功能。完整的定制功能与更小 的尺寸:由于器件是根 据设计的规格进行生产 的(注:ASIC芯片也分为全定制和半定制)。更低的器件成本:实现 大批量设计与生产,批 量越大,成本越低。高性能、低功耗:ASIC芯片相当于将AI 算法“硬件化”,特定 算法下能效更高。可形成IP核复用:模块 化的设计方法,可根据 设计需要进行IP选取。ASIC与FPGA:功能与市场定位不同,竞争关系不明显18 FPGA具有开发周期短,上市速度快,可配置性等特点,目前被大量的应用在大型企业的线上数据处理中心和军工单位。ASIC一次性成本远远 高于FPGA,但由于其量产成本低,应用上就偏向于消费电子,如移动终端等领域。目前,处理器中开始集成FPGA,也出现了可编程的ASIC,同时,随着SoC的发展,两者也在互相融合。价格走势批量ASIC&FPGA 技术与商业化对比性能与能效灵活性与部署能力价格容量FPGA FPGAASIC ASIC技术商业ASIC&FPGA总体对比FPGA ASIC运算速度较低,FPGA结构上的通用性必 然导致冗余;另外,不不同结构 间的时延也不可忽略。较高,结构上无特殊限制,设计 时也可将特定模块靠近减少延迟芯片规模实现相同的功能时,需要更大的FPGA实现相同的功能时,ASIC的规模 更小功耗相同工艺条件下,功耗更大相同工艺条件下,功耗更小成本几乎无开发工具和风险,主要成 本都在单片上。由于进入生产后硬件不可更改, 开发工具和流片过程可能产生大 量成本运行过程加载配置进入存储器需要时间可立即运行产品定位适用于项目产品需要灵活变动等 方面的产品及产品要求快速占领 市场的情况适用于设计规模较大,或应用成 熟的产品如消费电子等发展方向大容量、低电压、低功耗、SoC更大规模、IP复用技术、SoCASIC&FPGA成本对比基于不同硬件实现方式的AI芯片:系统级芯片19SoC整体架构BUSCPU系统控制模块各种接口外部存储器 控制器 EMI设计制造封装测试软硬件协同设计芯片硬件设计:包括功能设计阶段、设计描述和行为级验证、逻辑综合、门级_x0008_验证 和布局与布线。核心挑战:IP复用SoC的优势SoC产业发展趋势降低耗电量:SoC多采用内部讯 号的传输,大幅降低功耗。减少体积:数颗IC整合为SoC,有 效缩小电路板上占用的面积。丰富系统功能:可整合更多的功 能元件和组件,丰富系统功能。提高速度:内部信号传输距离缩 短,信号传输效率提升。节省成本:IP复用,有效减少研发 成本,降低研发时间。平台化设计:有效提高设计生产 力从而应对由应用面导致的市场 区隔的细化。供应链之间合作加强:IC设计、IC制造、封装、测试、半导体设 备、IP、IC设计服务与EDA业者 等,牵连到的各产业部门非常广 泛,合作将进一步加强。分工将更加明确:SoC行业或将 分为IP核设计和系统级集成两部 分。流程技术 与 挑战与芯片制造流程相同,包含晶圆 制造、光刻、掺杂等流程。核心挑战:克服不同电路区块之 间制程相容性问题,即迁就微缩 进展较慢的功能区块或在成本上 找到平衡。打线为主的传统封装己无法满足 需要,晶片级封装及I/O高脚位锡 球封、CSP(Chip ScalePackaging)等将是未来SOC封装 技术的主流。核心挑战:更多的端口数目。 SoC趋势下,测试机台走向多 功能单一机型,测试各种逻辑、 模拟与存储电路。核心挑战:SoC设计中的多样 性使得验证更加困难。在手机、可穿戴设备等端设备中,很少有独立的芯片,AI加速将由SoC上的一个IP实现。 SoC(System-on-chip,片上系统)作为ASIC设计方法学中的新技术,始于20世纪90年代中期,是以嵌入式系统为核心,以IP复用技术为基 础,集软、硬件于一体的集成芯片。在一个芯片上实现信号的传输、存储、处理和I/O等功能,包含嵌入软件及整个系统的全部内容。由于高集成效能,SoC已经成为微电子芯片发展的必然趋势。SoC芯片制造流程基于不同计算范式的AI芯片:类脑芯片20 CPU/GPU/GFPGA/ASIC及SoC是目前用的较多的AI芯片,此类AI芯片大多是基于深度学习,也就是深度神经网络(DNN),以并行方式进 行计算的芯片,此类AI芯片又被称为深度学习加速器。如今,模仿大脑结构的芯片具有更高的效率和更低的功耗,这类基于神经形态计算,也就是脉冲神经网络(SNN)的芯片为类脑芯片。目前,部分企业产品已进入小批量试用阶段 ,类脑芯片最快将于2023年成熟,能效比有望较当前芯片提高2-3个数量级。DNN SNN训练方式需大量数据单个数据样本学习方式监督学习无监督学习输入类型图像帧或数据 阵列脉冲时延高极低(接近实 时)神经元模型复 杂程度低高功耗由处理器与储 存器存取决定由每个事件功 耗决定分类精度较高较低分类速度低高较研究阶段较成熟探索及部分小 规模试用阶段中国类脑芯片发文数量DNN与SNN对比(2014-2022.01)类脑芯片的 硬件实现方式忆阻器:在紧凑性、可靠性、耐用性、存储 器保留期限、可编程状态和能效等方面的特 性,有利用成为电子突触器件。自旋电子器件:其不易失性、可塑性及振荡 和随机行为,允许创建模仿生物突触和神经 元关键特征的组件。光子器件:利用半导体放大器中使用的非线 性光学增益介质,实现神经形态计算所需的 功能。电化学器件:具有高精度、现行和对称的电 导效应,低开关能量和高扩展性,使用于SNN的内置定时机制。二维材料:包括过渡金属二硫族化合物、石 墨烯等,可开发成为人工突触。 . .21现在用于深度学习的AI芯片(包括CPU、GPU、FPGA、ASIC)为了实现深度学习的庞大乘积累加运算和并行计算的高性能,芯片面积越做越 大,带来了成本和散热等问题。AI芯片软件编程的成熟度、芯片的安全,神经网络的稳定性等问题也未能得到很好的解决,因此,在现有基础 上进行改进和完善此类AI芯片仍是当前主要的研究方向。最终,AI芯片将近一步提高智能,向着更接近人脑的高度智能方向不断发展,并向着边缘逐步移动以获得更低的能耗。AI芯片发展:向着更低功耗、更接近人脑、更靠近边缘的方向AI芯片功耗10001001010.10.010.0010.00010.00001云端边缘自供电、生物接口等 新型芯片物联网AI芯片嵌入式专用AI芯片FPGAAI SoC车用ASICCPU云端ASIC GPU人 工 智 能 芯 片 发 展 趋 势AI芯片可实现的功能人类特征传感器AI芯片感知:视觉、听觉、 触觉等人体类脑芯片及深度 学习芯片识别、分类、决策、 预测、分析、推理人脑未来带意识、带 自主性的芯片情感、想象力、创造 力等人性功耗(W) AI芯片与人类智能22 AI硬件加速技术已经逐渐走向成熟。未来可能更多的创新会来自电路和器件级技术的结合,比如存内计算,类脑计算;或者是针对特殊的计 算模式或者新模型,比如稀疏化计算和近似计算,对图网络的加速;或者是针对数据而不是模型的特征来优化架构。同时,如果算法不发生大的变化,按照现在AI加速的主要方法和半导体技术发展的趋势,或将在不远的将来达到数字电路的极限(约1到10TFlops/W),往后则要靠近似计算,模拟计算,甚至是材料或基础研究上的创新。标准芯片专用芯片(ASIC)多核CPU GPU FPGA数字芯片模拟芯片超导芯片深度学习神经形态 计算自然计算、 仿生计算、 储备池计 算量子计算计算范式及其硬件实现方法AI芯片发展:计算范式创新方向及其硬件实现存内计算核心问题:传统冯诺伊曼架构中,计算与内存是分离的 单元,内存主要使用的DRAM方案性能提升速度远远慢 于处理器速度,造成了阻碍性能提升的“内存墙”,直 接在存储内做计算可有效解决。实现方法:1)改动存储模块电路:优势是容易和现有 工艺进行集成,缺点是带来的性能提升有限;2)引入 新的存储器件,实现在存储阵列内完成计算。模拟计算核心问题:传统模拟架构通过模数/数模转换器将模拟信 号与数字表示形式进行相互转换,带来信号损耗、功率 消耗和时延。实现方法:在AI芯片中使用模拟计算技术,将深度学习 算法运算放在模拟域内完成,提高能效。量子计算核心问题:AI计算对大算力的需求。实现方法:完全新型的计算模式,理论模型为图灵机。 从计算效率上,由于量子力学叠加性,配合量子力学演 化的并行性,处理速度远超传统计算机,提供更强算力。02. 应用层面应用概况:算力向边缘侧移动,逐渐专注于特殊场景的优化随着技术成熟化,AI芯片的应用场景除了在云端及大数据中心,也会随着算力逐渐向边缘端移动,部署于智能家居、智能制造、智慧金融等领 域;同时还将随着智能产品种类日渐丰富,部署于智能手机、安防摄像头、及自动驾驶汽车等智能终端,智能产品种类也日趋丰富。未来,AI计 算将无处不在。AI芯片应用领域云端推理云端训练边缘计算终端设备可 部 署 芯 片 : GPU/GPU/ASIC芯片特征:高吞吐量、高精 确率、可编程性、分布式、 可扩展性、高内存与带宽计算能力与功耗:30TOPS,50W应用:云/HPC/数据中心可 部 署 芯 片 : GPU/GPU/ASIC/FPGA芯片特征:高吞吐量、高精 确率、分布式、可扩展性、 低延时计算能力与功耗: 30TOPS,50W应用:云/HPC/数据中心可 部 署 芯 片 : GPU/GPU/ASIC/FPGA芯片特征:降低AI计算延迟、可单独部署或与其他设备组合(如5G基站)、 可将多个终端用户进行虚拟化、较小的机架空间、扩展性及加速算法计 算 能 力 与 功 耗 : 530TOPS,415W应用:智能制造、智慧家居、智慧交 通等、智慧金融等众多领域可 部 署 芯 片 : GPU/GPU/ASIC/FPGA芯片特征:低功耗、高能效、推理任 务为主、较低的吞吐量、低延迟、成 本敏感计算能力与功耗:8TOPS,5W应用:各类消费电子,产品形态多 样;以及物联网领域24云端:当前仍是AI的中心,需更高性能计算芯片以满足市场需求当前,大多数AI训练和推理工作负载都发生在公共云和私有云中,云仍是AI的中心。在对隐私、网络安全和低延迟的需求推动下,云端出现了 在网关、设备和传感器上执行AI训练和推理工作负载的现象,更高性能的计算芯片及新的AI学习架构将是解决这些问题的关键。互联网是云端算力需求较旺盛产业,因此除传统芯片企业、芯片设计企业等参与者外,互联网公司纷纷入局AI芯片产业,投资或自研云端AI芯片。AI服务深度学习框架(PaaS)异构计算平台AI加速芯片“ CPU+加速硬件” 异构计算GPU语音识别深度学习训练/推理自然语言处理计算机视觉OpenCLCUDA TensorFlowCNTKTorch云端AI芯片框架2021中国人工智能算力投资行业分布25中国云端AI芯片参与者芯片设计芯片代工IP设计互联网企业百度昆仑芯一代/二代芯片) 飞桨平台阿里巴巴含光NPU AI芯片/玄铁CPU 无剑SoC平台字节跳动、腾讯、快手等也投资或孵化了芯片企业。边缘侧:数据向边缘下沉,随着行业落地市场将有很大增量物联网(物理世界)边缘计算(桥梁)人工智能(数字世界)大量设备 要求低延时、高带宽智能化突出本地协同 高计算效率实现数据的 存储、计算 与应用Data Data边缘计算的价值: “CROSS”C:Connection即联接海量设备。支持多个终端用户的虚拟化。R:Real-time即业务的实时性。可以实现毫秒级的响应时间,支持实时服务。O:Optimization即数据的优化。在边缘积累数据,实现数据的感知和归一化。S:Smart即应用的智能化。通过人工智能实现自我优化和策略调整等。S:Security即安全与隐私保护,数据本地化存储,有效保障用户隐私。 5G与物联网的发展以及各行业的智能化转型升级,带来了爆发式的数据增长。海量的数据将在边缘侧积累,建立在边缘的数据分析与处理将 大幅度的提高效率、降低成本。随着大量的数据向边缘下沉,边缘计算将有更大的发展,IDC预测,未来,超过50%的数据需要在边缘侧进行储存、分析和计算,这就对边缘 侧的算力提出了更高的要求。芯片作为实现计算能力的重要基础硬件,也将具备更多的发展。ABI Research预测,2025年,边缘AI芯片市场 将超过云端AI芯片。在人工智能算法的驱动下,边缘AI芯不但可以自主进行逻辑分析与计算,而且可以动态实时地自我优化,调整策略,典型的应用如黑灯工厂等。边缘计算在数据处理中的位置边缘计算发展历程技术储备阶段快速增长 阶段行业落地阶段边缘计算主要场景物联网 边缘计算广域接入网络 边缘计算边缘云多接入 边缘计算工业 边缘计算智慧家庭/城市 边缘计算26终端设备:终端产品类型逐渐多样,出货量增加催生大量芯片需求根据亿欧数据测算,中国自动驾驶行业规模增速在2022年将达到24%;智能摄像头产品出货量增速超15%;手机、平板、VR/AR眼镜等智能 产品出货量也均有较大增速,催生出大量的智能芯片需求。同时,智能终端产品种类也逐渐多样,智能音响、服务/商用机器人等消费硬件、工业/数控设备等工业产品以及通信产品等日渐丰富,不同产 品类型也对芯片性能与成本提出更多的要求。27智能驾驶功能需求:图像识别、数据融合、SLAM定位等、路径规划功能。算力要求:20-4000TOPS(L3-L5)功耗需求:中等,不过分追求低功耗可靠性需求:高成本敏感性:低消费电子功能需求:图像/场景识别、拍照美化、 语音助手等功能。算力要求:1-8TOPS功耗需求:追求低功耗来保证设备续 航时间可靠性需求:高成本敏感性:高智慧安防功能需求:图像/视频识别、图像/视 频检测等功能。算力要求:4-20TOPS功耗需求:追求较低低功耗可靠性需求:偏高,尤其在识别的准 确性方面成本敏感性:较高智慧家居功能需求:图像识别、语义识别与理 解、语音助手等功能。算力要求:1TOPS功耗需求:较高,家用小型产品多追 求更低功耗可靠性需求:较高成本敏感性:较高03. 典型企业酷芯微电子:高端智能视觉芯片领导者29上海酷芯微电子有限公司,成立于2011年7月。公司依托智能感知、智能计算、智能传输三大核心技术,通过自主研发芯片架构及核心IP, 提供专用于人工智能的高性能芯片及解决方案。公司于2016年荣获高新技术企业,2017年被认定为上海科技小巨人,2019年入选上海市“专精特新”企业名单。目前公司有员工近200人,其中80%为技术开发人员。酷芯微电子核心技术及主要产品高性能低功耗NPU高性能ISP专用无线基带高画质 HDR 高动态 对比技术不同亮度情况 下画面细节均 纤毫毕现高保真星光级3D降噪 技术搭载自研多帧降 噪技术极限暗光下高保 真画质高性能 HPH(高性能异构) 技术 3D阵列技术 AI-ISP技术高精度编译器具备两种高 精度量化技术,AI 算法准确移植高效率压缩、多层次缓冲、 计算重拍等技术打 造高效互联结构低功耗存算一体,大算力 与功耗完美平衡, 适用多种场景超远距、超高速 ULR(超远距离传输)技术,传输距离 是WIFI的 1.5-3倍 Dynamic Tracking(动态追踪)技 术,在正常画质下支持设备间1000Km/h高速移动抗干扰、灵活组网网Anti-interference(抗干扰)技术 MUFN(多用户灵活组网)技术,最多 至24户低功耗 ULP(超低功耗)技术,支持基带唤醒MCU功能Edge AI SoC产品AR Link 通信产品AR9341AR9331 AR9321AR9201无线SoC AR1001 AR8211 AR8030 AR8020射频收发器 AR8003S AR8003酷芯微电子:高端智能视觉芯片领导者30目前,酷芯微电子产品已应用于智能安防、智能硬件、智能车载、无线图传等多个领域。酷芯微电子产品赋能行业智能安防智能硬件智能车载无线图传AI IPC生物识别门禁热成像监控基于酷芯视觉AI芯片,具有高效能的4T算力、 高品质图像质量及低码高清画质编码器产品优势:自研图像处理单元,可支持高达900万 像素Sensor,画质优异业界领先算力高达4T,支持人脸识别、头肩检测、 车辆车牌识别等各种算法组合内置红外ISP,支持热成像与可见光融合AI盒子支持多模态识别生物识别模组智能无人机机器人深度相机视频会议软硬结合方式,以智能传感互联、 人机交互、新型显示等技术赋能 智慧设备,为其提供强大算力产品优势: 3D深度相机可实现毫米级工 业视觉检测,精准识别人流等配合无线图传技术,40毫秒 内延迟助力无人机避障单颗芯片集成图传基带影视级图传无线医疗无线套装行业图传车载AI IPCAI MDVR智能DASH CAM基于TDD的原理,采用OFDM和MIMO等关键技术,内置图像解码器,100%自主知识产权基带芯片与射频芯 片,提供远距离、低延时无线图传解 决方案产品优势:无线图像传输适用于更多复杂地形 地况毫秒级延迟,满足医疗、自动驾驶 等对实时性要求较高的行业需求结合酷芯优势技术与产品,为智能 驾驶提供感知系统的处理能力与决 策系统的AI运算能力产品优势:多路摄像头接入,全范围检测 自动驾驶安全环境内置多个模型,同时对周围环 境、驾驶员状态等进行分析适用乘用、车用多种车型昆仑芯科技:专注通用人工智能芯片R系列K系列产品特点: 自研XPU-K架构256 TOPS INT8,512GB/s内存带宽, 高性能功耗比AI算法全场景覆盖工艺:14nm,2.5D封装 系列产品:昆仑芯 AI加速卡 K200 昆仑芯 AI加速卡 K100昆仑芯1代芯片昆仑芯2代芯片产品特点: 自研XPU-R架构256 TOPS INT8,128 TOPS XFP16GDDR6高性能显存 高度集成ARM CPU工艺:7nm 系列产品:昆仑芯 AI加速卡 R200 昆仑芯 通用基板 R480昆仑芯科技的前身是百度智能芯片及架构部,2021年完成独立融资。公司专注于打造拥有强大通用型、易用性和高性能的通用人工智能芯片, 是国内为数不多可支撑互联网大规模核心算法的AI芯片。目前,昆仑芯拥有100%自研核心架构及7nm制程量产经验,产品已在近百家客户部署实践。配合百度飞桨平台,获得更友好开发环境。昆仑芯主要产品昆仑芯产品优势经过实践验证 在百度内部各业务已部署超2万片 在百度外,有工业 质检、智慧城市、 智慧金融等多场景落地案例领先的性能 比市场同类主流 产品、各种算法 和各业务场景中 均有1.5-2倍的性能提升开发环境友好 昆仑芯SDK可实现模型迁移支持百度飞浆、PyThoch和TensorFlow等主流 深度学习框架百度飞桨核心框架及其领先技术开发训练部署动态图静态图大规模分 布式训练工业级数 据处理PaddleServing PaddleLitePaddleSlim安全与加密产业及深度框架多端多平台部署高性能推理引擎超大规模深度学习训练模型覆盖多领域工业级模型库31寒武纪:云-端、软硬一体AI智能解决方案寒武纪成立与2016年,专注于人工智能芯片产品的研发与技术创新,是目前国际上少数全面掌握通用型智能芯片及其基础系统软件研发和产 品化核心技术的企业之一,可提供智能芯片产品及平台化基础系统软件产品。目前,寒武纪产品已广泛用于服务器厂商和产业公司,涵盖互联网、金融、交通、能源、电力和制造等多个领域,为复杂AI应用场景提供充足算力,推动人工智能赋能的产业升级。端云一体AI解决方案深度学习 训练深度学习 推理智能视频 分析人工智能 会话. .端云一体解决方案AI框架和开源生态加速库BANG异构计算平台多平台驱动产品