人工智能芯片行业最新点评.pdf
海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 1 人工智能芯片行业点评 证券 研究报告 2018 年 02 月 13 日 作者 何翩翩 分析师 SAC 执业证书编号: S1110516080002 hepianpiantfzq 雷俊成 联系人 leijunchengtfzq 马赫 联系人 mahetfzq 董可心 联系人 dongkexintfzq 相关报告 1 谷歌( GOOGL.US) 4Q17 点评 :“云+YouTube+硬件”难掩业绩乏力,移动端转型道阻且长;下调至增持,目标价上调至 1260 美元 2018-02-04 2 人工智能芯片行业 : 人工智能立夏已至, AI 芯片迎接蓝海;首推:英伟达GPU 王者风范, Google TPU 破局科技 2017-11-29 3 谷歌 TPU 及强化学习 : 谷歌 TPU以时间换吞吐量,加速云端 AI 帝国;AlphaGo 从 Lee 到零,探索强化学习新起点 2017-11-22 4 谷歌( GOOGL.US) 3Q17 点评 :营收盈利超预期, YouTube 照耀转型路 , 人 工 智 能 巨 头 新 征 途 : 云+YouTube+硬件 2017-10-27 5 谷歌( GOOGL.US) 2Q17 点评 :欧盟处罚争议难阻营收盈利超预期,云计算继续发力,人工智能巨头百般武艺扎实 前进 2017-07-25 6 人工智能芯片行业点评 : 英伟达GPU 王者风范, Google TPU 破局科技;人工智能冲入云霄,看好 GPU、 ASIC各领风骚 2017-05-31 7 谷歌( GOOGL.US) 1Q17 点评 :业绩超预期触发市场重估,短期移动端广告 +流媒体 +云,长期看好 AI 积累,上调 TP 至 1000 美元 2017-04-28 8 谷歌( GOOGL.US) 4Q16 点评 :营收稳固超预期,人工智能巨头新征途:云 +YouTube+硬件 2017-01-27 TPU 能取代 GPU 吗?谷歌云计算 MLaaS 脱颖而出的差异化 TPU 目前未能取代 GPU,依托云计算拓宽 MLaaS 需求 TPU 目前未能取代 GPU,只是在某些 特定 算法上 做针对性优化。 谷歌这次将 TPU 开放给客户是为了提供 云计算 服务的 差异化 ,提升谷歌云的机器学习即服务 (MLaaS)易用性。 谷歌目前没有以硬件产品方式出售 TPU 的计划 ,而是依靠 TPU 浮点运算精度的提高及针对 TensorFlow 的深度优化,以云计算服务形式销售共享。 与我们此前强调的一致, 我们认为 Google通过 Cloud TPU+TensorFlow 的软硬结合,以及此后 TPU Pod 的加持,可 进一步激活中小企业 以及科研单位的云计算需求 ,另辟 AWS、 Azure 之外蹊径 。 谷歌云 Q4 单季收入跨越 10 亿 美元 门槛,但相对于 AWS 51 亿,微软智能云 78 亿的体量尚不能及 ; AWS 龙头尚稳 份额增加 0.5%,微软份额增加 3%为最多;谷歌 份额增加 1%。 当前包括亚马逊 AWS、微软 Azure 都提供了机器学习基本工具,而 通过 TensorFlow API+TPU, Google 提供包括图像识别ResNet-50、机器翻译 Transformer 和物体识别 RetinaNet 在内的主流模型训练 开发功能 , 日后 还 会提供其他服务 。 此外 Google 针对 TPU 的使用进行功耗优化,进一步降低 数据中心的运营成本 。 我们认为,云计算巨头为了提高在使用服务器芯片时的议价能力, 未来 会 消防 Google 寻求自主芯片开发的方案,但主要针对特定需求进行定制开发。 ASIC 专用性最好实证, 谷歌 TPU 以时间换吞吐量 AI 立夏已至,以 ASIC 为底芯片的包括谷歌的 TPU、寒武纪的 MLU 等,也如雨后春笋。但我们此前强调 包括 TPU 在内的 ASIC 仍然面临通用性较弱,以及开发成本高企等局限。 TPU 虽 理论上支持所有深度学习开发框架,但目前只针对 TensorFlow 做了 深度优化。另外 ASIC 芯片开发 周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会花数 亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时 ASIC开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。 TPU 是针对自身产品的人工智能负载打造的张量处理单元 TPU。第一代主要应用于在下游推理端 TPU。本质上沿用了脉动阵列机架构 (systolic array computers),让推理阶段以时间换吞吐量。第二代 TPU 除了在推理端应用,还可以进行深度学习上游训练环节。 AI 芯片蓝海 仍是 GPU 引领主流, ASIC 割据一地,看好未来各领风骚 我们仍然强调: 在人工智能 浪潮 中 ,芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存,百花齐放。后摩尔定律时代, AI 芯片间不是零和博弈。我们认为在 3-5 年内深度学习对 GPU 的需 求是当仁不让的市场主流。在深度学习上游训练端 (主要用在云计算数据中心里 ), GPU 作为 第一选择, 英伟达表示 Hyperscale 巨头作为第一波客户在训练端的复购高渗透率正在向推理端延伸,针对数据中心推理的 P4 处理器开始出货,第二波客户则是其他云计算大公司开始放量,第三波客户则是基于云计算的互联网企业海量的数据和 AI 应用计算需求。 而下游推理端更接近终端应用,需求更加细分,我们认为除了 GPU 为主流芯片之外,包括 CPU/FPGA/ASIC 等也会在这个领域发挥各自的优势特点。FPGA 适用于开发周期较短的 IoT 产品、传 感器数据预处理工作以及小型开发试错升级迭代阶段等。以 TPU 为代表的 ASIC 定制化芯片, 包括英特尔的 Nervana Engine、 Wave Computing 的数据流处理单元、以及英伟达的DLA 等, 针对特定算法深度优化和加速,将在确定性执行模型 (deterministic execution model)的应用需求中发挥作用。我们认为深度学习 ASIC 芯片 将依靠特定优化和效能优势,未来在细分市场领域发挥所长。 风险 提示 : 芯片开发周期过长,市场需求不达预期等。 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 2 1. 谷歌 TPU:以时间换吞吐量,软硬兼施,冲入云端 AI 芯片市场蛋糕越做越大,足以让拥有不同功能和定位的芯片和平共存, 百家争鸣非零和博弈。“通用性和功耗的平衡” 在深度学习上游训练端(主要用在云计算数据中心里),GPU 是当仁不让的第一选择, ASIC 包括谷歌 TPU、寒武纪 MLU 等 也如雨后春笋。而下游推理端更接近终端应用,需求更加细分, GPU 主流芯片之外,包括 CPU/FPGA/ASIC 也会在这个领域发挥各自的优势特点。 但我们需要强调,包括 TPU 在内的 ASIC 仍然面临通用性较弱,以及开发成本高企等局限。TPU 虽然理论上支持 所有深度学习开发框架,但目前只针对 TensorFlow 进行了深度优化。另外 ASIC 芯片开发周期长和成本非常高,在开发调试过程中复杂的设计花费有时甚至会超过亿美元,因此需要谷歌这样的计算需求部署量才能将成本分摊到大量使用中。同时ASIC 开发周期长,也可能会出现硬件开发无法匹配软件更新换代而失效的情况。 ASIC( Application Specific Integrated Circuit, 专用集成电路 ): 细分市场需求确定后,以TPU 为代表的 ASIC 定制化芯片 (或者说 针对特定算法深度优化和加速 的 DSA, Domain-Specific-Architecture) , 在确定性执行模型 (deterministic execution model)的应用需求中发挥作用。我们认为深度学习 ASIC 包括英特尔的 Nervana Engine、 Wave Computing的数据流处理单元 、 英伟达的 DLA、寒武纪的 NPU 等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域 分一杯羹 。 图 1: 目前深度学习领域常用的四大芯片类型, “通用性和功耗的平衡” 资料来源: 微软 Build, 天风证券研究所 训练端 推理端GP U : 以英伟达为主 , A M D 为辅标榜通用性 , 多维计算及大规模并行计算架构契合深度学习的需要 。 在深度学习上游训练端 ( 主要用在云计算数据中心里 ) , G P U是当仁丌让的第一选择 。G P U : 英伟达 V o lt a G P U 也开始布局推理端 。 深 度学 习 下游 推理 端 虽可 容纳C PU / F PG A / A S I C 等芯片 , 但竞争态势中英伟达依然占主导 。A S I C : 以谷歌的 T PU 、 英特尔的 N e r v a naE ng i ne 为代表 , 针对特定框架进行深度优化定制 。 但开发周期较长 , 通用性较低 。比特币挖矿目前使用 A S I C 专门定制化矿机 。A S I C : 下游推理端更接近终端应用 , 需求也更加细分 , 英伟达的 D L A , 寒武纪的N PU 等逐步面市 , 将依靠特定优化和效能优势 , 未来在深度学习领域分一杯羹 。C P U : 通用性强,但难以适应于人工智能时代大数据并行计算工作。F P GA : 依靠可编程性及电路级别的通用性 , 适用于开发周期较短 的 I o T 产品 、 传感器数据预处理工作以及小型开发试错升级迭代阶段等 。 但较成熟的量产设备多采用 A S I C 。 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 3 神经网络的两个主要阶段是训练( Training 和 Learning)和推理( Inference 和 Prediction) 。当前几乎所有的训练阶段都是基于浮点运算的,需要进行大规模并行张量或多维向量计算,GPU 依靠 优秀的 通用型和并行计算优势 成为广为使用的芯片。 图 2: 深度学习在神经网络模型的应用中主要分为上游训练端和下游推理端 资料来源: 英伟达官网, 天风证券研究所 在推理阶段, 由于更接近终端应用需求 ,更关注响应时间而不是吞吐率。 由于 CPU 和 GPU结构设计 更注重平均吞吐量 (throughout)的 time-varying 优化方式,而非确保延迟性能 。谷歌设计了一款为人工智能运算定制的硬件设备,张量处理单元 (Tensor Processing Unit, TPU)芯片 ,并在 2016 年 5 月的 I/O 大会上正式展示。 图 3:皮查伊在 2016 I/O 大会上介绍 TensorFlow 图 4:皮查伊介绍 TPU 性能对比 资料来源 :谷歌 2016 I/O 大会现场照片,天风证券研究所 资料来源 :谷歌 2016 I/O 大会现场照片,天风证券研究所 第一代 TPU 的确定性执行模型 (deterministic execution model)针对特定推理应用工作 ,更好的匹配了谷歌神经网络在推理应用 99%的响应时间需求 。第一代 TPU 是在一颗 ASIC 芯片上建立的专门为机器学习和 TensorFlow 量身打造的集成芯片。该芯片 从 2015 年开始就已经 在谷歌云平台数据中心使用 ,谷歌表示 TPU 能让机器学习每瓦特性能提高一个数量级,相当于摩尔定律中芯片效能往前推进了七年或者三代。 谷歌 表示,这款芯片目前不会开放给其他公司使用,而是专门为 TensorFlow 所准备。 TPU的主要特点是: 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 4 1、从硬件层面适配 TensorFlow 深度学习系统,是一款定制的 ASIC 芯片,谷歌将 TPU 插放入其数据中心机柜的硬盘驱动器插槽里来使用; 2、数据的本地化,减少了从存储器中读取指令与数据耗费的大量时间; 3、芯片针对机器学习专门优化,尤其对低运算精度的容忍度较高,这 就使得每次运算所动用的晶体管数量更少,在同时间内通过芯片完成的运算操作也会更多。研究人员就可以使用更为强大的机器学习模型来完成快速计算。 图 5:谷歌 第一代 TPU 电路板 图 6:谷歌 第一代 TPU 尺寸示意图 资料来源 :谷歌研究所官方博客,天风证券研究所 资料来源 :谷歌研究所官方博客,天风证券研究所 图 7: TPU 的性能 /功耗比较优势 图 8: TPU 的性能 /功耗比较优势 资料来源: 公司官网, 天风证券研究所 资料来源: 公司官网, 天风证券研究所 自 2016 年 以来, TPU 运用在人工智能搜索算法 RankBrain、搜索结果相关性的提高、街景Street View 地图导航准确度提高等方面。 在 I/O 大会上, 皮查伊顺带提到了 16 年 3 月份行的举世瞩目人机大战里,在最终以 4:1 击败围棋世界冠军李世石的 AlphaGo 身上,谷歌也使用了 TPU 芯片。 谷歌 把 : 1、 2015 年击败初代击败樊麾的版本命名为 AlphaGo Fan,这个版本的 AlphaGo 运行于谷歌云,分布式机器使用了 1202 个 CPU 和 176 个 GPU。 2、 2016 年 击败李世石的版本 AlphaGo Lee 则同样运行于云端,但处理芯片已经简化为 48个第一代 TPU。 3、 2017 年 击败柯洁的 Master 以及最新版本 Zero 则通过单机运行,只在一个物理服务器上部署了 4 个第一代 TPU。 ( AlphaGo 的背后算法详解,可参见我们此前 的深度报告 谷歌人工智能:从 HAL 的太空漫游到 AlphaGo, AI 的春天来了 ) 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 5 图 9: AlphaGo 版本进化 资料来源: DeepMind 官网 ,天风证券研究所 1.1. 谷歌 TPU 软硬兼施,加速云端 AI 帝国 AI 芯片领域数据中心市场空间巨大,我们看到市场主流 GPU 之外,谷歌破局者之态依靠TPU 2.0 的浮点运算升级自下而上进入云计算服务。谷歌 当下 不 直接销售硬件,但将 TPU部署在云计算中以云服务形式进行销售共享,在为数据中心加速市场带来全新的需求体验的同时,可进一步激活中小企业的云计算需求市场,另辟 AWS、 Azure 之外蹊径。 我们长期看好谷歌基于公司 AI First 战略规划打造 AI 开发软硬件一体化开发帝国。 不过 TPU 虽然理论上支持所有深度学习开发框架,但目前只针对 TensorFlow 进行了深度优化。而英伟达 GPU 支持包括 TensorFlow、 Caffe 等在内所有主流 AI 框架。因此谷歌还在云计算平台上提供基于 英伟达 Tesla V100 GPU加速的云服务。在开发生态方面, TensorFlow团队 公布了 TensorFlow Research Cloud 云开发平台,向 研究人员 提供 一个具有 1000 个云TPU 的服务器集群,用来服务各种计算密集的研究项目。 图 10: TPU Pod 由 64 台 第二代 TPU 组成 图 11: TensorFlow Research Cloud 云开发平台 资料来源: 公司官网, 天风证券研究所 资料来源: 公司官网, 天风证券研究所 1.2. 第一代 TPU:脉动阵列“获新生”,以时间换吞吐量 第一代 TPU 面向的 推理阶段, 由于更接近终端应用需求 ,更关注响应时间而不是吞吐率。相对于 CPU 和 GPU 结构设计 更注重平均吞吐量 (throughout)的 time-varying 优化方式,而非确保延迟性能 。第一代 TPU 的确定性执行模型 (deterministic execution model)针对特定推理应用工作 ,更好的匹配了谷歌神经网络在推理应用上 99%的响应时间需求 。由于 TPU没有任何存储程序,仅执行从主机发送的指令 ,这些功能的精简让 TPU 有效减小芯片面积并降低功耗。 谷歌在 2017 年 4 月的 体系结构顶会 ISCA 2017 上面 ,发布了一篇介绍 TPU 相关技术以及 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 6 与其它硬件 比较 的论文,并被评为 最佳论文 。我们通过论文得以看到第一代 TPU 的设计思路以及性能比较。 第一代 TPU 从 2015 年开始就被使用在谷歌云计算数据中心的机器学习应用中,面向的是推理阶段。首先看性能比较(鉴于 2016 年以前大部分机器学习公司主要使用 CPU 进行推理,谷歌在论文中 TPU 的比较对象产品为英特尔服务器级 Haswell CPU 和 英伟达 Tesla K80 GPU) ,谷歌表示: 1、 针对自身产品的人工智能负载,推理阶段, TPU 处理速度比 CPU 和 GPU 快 15-30 倍 ; 2、 TPU 的功耗效率( TOPS/Watt,万亿次运算 /瓦特)也较传统芯片提升了 30-80 倍; 3、 基于 TPU 和 TensorFlow 框架的神经网络应用代码仅需 100-1500 行。 基于在成本 -能耗 -性能 (cost-energy-performance)上的提升目标, TPU 的设计核心是一个65,536(256x256)个 8 位 MAC 组成的 矩阵乘法单元 (MAC matrix multiply unit),可提供峰值达到 92 TOPS 的运算 性能和一个 高达 28 MiB 的软件管理片上内存。 TPU 的主要设计者Norman Jouppi 表示, 谷歌硬件工程团队 最开始考虑过 FPGA 的方案,实现廉价、高效和高性能的推理解决方案。但是 FPGA 的可编程性带来的是与 ASIC 相比在性能和每瓦特性能的巨大差异。 图 12:第一代 TPU 各模块的框图 ,红框为核心 矩阵乘法单元 图 13: 第一代 TPU 的芯片布局图 资料来源: 公司官网, 天风证券研究所 资料来源: 公司官网, 天风证券研究所 从上图我们看到, TPU 的核心计算部分是右上方的黄色矩阵乘法单元 (Matrix Multiply unit),输入部分是蓝色的加权 FIFO 和 一致缓冲区 (Unified Buffer,输出部分是蓝色的累加器(Accumulators)。在芯片布局图中我们看到,蓝色的缓存的面积占 37%,黄色的计算部分占30%,红色的控制区域只占 2%, 一般 CPU、 GPU 的控制部分会更大而且难以设计。 我们深挖谷歌 TPU论文,在 参考文献 中提及了谷歌申请的专利,核心的专利 Neural Network Processor 作为总构架在 2015 年就已提交,并在 2016 年公开(后续专利在 2017 年 4 月公开,专利号: US 2017/0103313,即下 图 12 所示),同时还包括了几个后续专利:如何在该构架上进行卷积运算、矢量处理单元的实现、权重的处理、 数据旋转方法以及 Batch 处理等 。 专利摘要概述:一种可以在多网络层 神经网络 中 执行神经网络计算的电路,包括一个矩阵运算单元 (matrix computation unit): 对多个神经网络层中的 每 一层,可以被配置为 接收多个 weights 输入和多个 activation 输入,并对应 生成多个累积值;以及矢量运算单元 (vector computation unit),其通信耦合到所述矩阵运算单元。 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 7 图 14: TPU 论文核心专利: Neural Network Processor 图 15: 第一代 TPU 各模块 设计原理专利,核心计算单元为红框中的矩阵运算单元 和 矢量运算单元 资料来源: Google TPU 专利, 天风证券研究所 资料来源: Google TPU 专利, 天风证券研究所 TPU 的设计思路比 GPU 更接近一个浮点运算单元, 是一个直接连接到服务器主板的简单矩阵乘法协处理器。 TPU 上的 DRAM 是作为一个独立的并行单元 , TPU 类似 CPU、 GPU 一样是可编程的,并不针对某一特定神经网络设计的,而能在包括 CNN、 LSTM 和大规模全连接网络 (large, fully connected models)上都执行 CISC 指令。只是在编程性上 TPU 使用矩阵作为 primitive 对象,而不是向量或标量。 TPU 通过两个 PCI-E 3.0 x8 边缘连接器连接协处理器,总共有 16 GB/s 的双向带宽。 我们看到, TPU 的 matrix 单元就是一个典型的脉动阵列 架构 (systolic array computers)。weight 由上向下流动, activation 数据从左向右流动。控制单元实际上就是把指令翻译成控制信号,控制 weight 和 activation 如何传入脉动阵列以及如何在脉动阵列中进行处理和流动。由于指令比较简单,相应的控制也是比较简单的。 图 16: 矩阵乘法单元 的 脉动数据流 (Systolic data flow) 图 17: 矩阵运算单元的架构 原理图 资料来源: 公司官网, 天风证券研究所 资料来源: Google TPU 专利, 天风证券研究所 图 18: 矩阵运算单元中 一个 Cell 的架构 图 19: 矢量运算单元的架构 原理图 资料来源: Google TPU 专利, 天风证券研究所 资料来源: Google TPU 专利, 天风证券研究所 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 8 从性能上, 脉动阵列 架构在大多数 CNN 卷积操作上效率很好,但在部分其他类型的神经网络操作上,效率不是太高。 另外 脉动阵列架构 在上世纪 80 年代就已经被提出, Simple and regular design 是脉动阵列的一个重要原则,通过 简单而规则的硬件架构 ,提高 芯片的设计和实现 的能力,从而尽量发挥软件 的能力 ,并 平衡运算和 I/O 的速度。脉动阵列解决了传统计算系统:数据存取速度往往大大低于数据处理 速度 的问题,通过让 一系列在网格中规律布置的处理单元 (Processing Elements, PE),进行多次重用 输入数据 来 在消耗较小的带宽的情况下实现较高的运算吞吐率 。 但是脉动阵列需要带宽的成比例的增加来维持所需的加速倍数 , 所以可扩展性问题仍待解决。 图 20:英伟达 GeForce GTX 1070 Ti 模块 框图 图 21: CUDA 核心计算处理流程图 资料来源: 公司官网, 天风证券研究所 资料来源: Wikipedia, 天风证券研究所 对比 GPU 的硬件架构,英伟达的游戏显卡 GeForce GTX 1070 Ti 使用的是 Pascal 架构 16纳米制程,主频 1,60 7MHz,拥有 2,432 个 CUDA 核心和 152 个纹理单元, 2 MB L2 cache,功耗 180 W, 8GB GDDR5 内存。英伟达 GPU 的核心计算单元 CUDA 核心 专为同时处理多重任务而设计 ,数千个 CUDA 核心组成了 GPU 的 大规模并行计算架构 。而在计算过程中,主要计算流程为: 1)从主机内存将需要处理的数据 read 到 GPU 的内存; 2) CPU 发送数据处理执行给 GPU; 3) GPU 执行并行数据处理; 4)将结果从 GPU 内存 write 到主机内存。通过编译优化 把计算并行化分配到 GPU 的多个 core 里面 ,大大提高了针对 一般性通用需求的大规模并发编程模型 的计算并行度。 1.3. 第二代 TPU:可进行深度学习上游训练计算 第二代 TPU,又名 Cloud TPU,能够同时应用于高性能计算和浮点计算 , 峰值性能达到 180 TFLOPS/s。与第一代 TPU 只能应用于推理不同, 第二代 TPU 还可以进行深度学习上游训练环节 。随着第二代 TPU 部署在 Google Compute Engine 云计算引擎平台上,谷歌 将 TPU真正 带 入云端。 谷歌 在 2017 年 5 月 17 日举办了年度 I/O 开发者 大会 。一场并未有太多亮点的大会上,谷歌 CEO 皮查伊继续强调公司 AI First 的传略规划。最为振奋人心的当属第二代 TPUCloud TPU 的发布。 图 22:第二代 TPU 包含 4 个芯片 图 23: 第二代 TPU 包含 4 个芯片 资料来源: siliconangle, 天风证券研究所 资料来源: siliconangle, 天风证券研究所 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 9 谷歌 同时发布 了 TPU Pod,由 64 台 第二代 TPU 组成,算力达 11.5 petaflops。 谷歌 表示 1/8个 TPU Pod 在对一个大型机器翻译模型训练的只需要 6 个小时,训练速度是市面上 32 块性能最好的 GPU 的 4 倍。 谷歌此前强调,第一代 TPU 是一款推理芯片,并不 用作 神经网络 模型训练阶段,训练学习阶段的工作仍需交由 GPU 完成。早在 16 年 I/O 大会上公布 TPU 之前,谷歌就已经将 TPU应用在各领域任务中,包括: 图像搜索 、街景 、谷歌云视觉 API、谷歌翻译 、 搜索结果优化 以及 AlphaGo 的围棋系统中。 而这次第二代 TPU 的升级,自下而上的进入深度学习上游,应用在 图像和语音识别,机器翻译和机器人等领域 ,加速对单个大型机器学习模型的训练。第 二代 TPU 在左右两侧各有四个对外接口 ,左侧还有两个额外接口, 未来可能允许 TPU 芯片直接连接存储器,或者是高速网络,实现更加复杂的运算以及 更多的扩展 功能 。 在半精度浮点数 (FP16)情况下, 第二代 TPU 的单芯片可以达到 45 Teraflops(每秒万亿次的浮点运算), 4 芯片的设计能达到180 Teraflops。(对比第一代 TPU 算力: 8 位整数运算达 92 TOPS, 16 位整数运算达 23 TOPS) 图 24: TPU Pod,由 64 台 TPU 组成,算力达 11.5 petaflops 图 25: 第二代 TPU 使用了 16 GB HBM 内存 资料来源: 公司官网, 天风证券研究所 资料来源: servethehome, 天风证券研究所 图 26: A 是第二代 TPU 及散热片, B 是每块 TPU 的 2 根 BlueLink 25GB/s 电缆, C 是 Omni-Path 架构 (OPA)电缆接口, D 是电源连接器 背面 , E 可能为 网络交换机 资料来源: The Next Platform,天风证券研究所 对 TPU Pod 的结构进行简要分析,四机架的镜像结构包含 64 个 CPU 板和 64 个 第二代 TPU板 , The Next Platform 推测 CPU 板是标配英特尔 Xeon 双插槽主板 ,因此整个 Pod 机柜包括 128 个 CPU 芯片和 256 个 TPU 芯片。 The Next Platform 认为,谷歌使用两条 OPA 线缆将每块 CPU 板 一一对应连接至 TPU 板,使得 TPU 与 CPU 的使用比例为 2:1,这种 TPU 加速器与处理器之间高度耦合的结构,与典型的深度学习加速结构中 GPU 加速器 4:1 或 6:1 的比例不太一样,更强调了 TPU 作为协处理器的设计理念 CPU 处理器还是需要完成大量的计算工作,只是把矩阵计算的的任务卸载到 TPU 中完成。 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 10 图 27: A 和 D 是 CPU 机架, B 和 C 是 TPU 机架 ,蓝色方框为不间断电源 (UPS),红色方框为电源,右上角绿色方框为网络交换机顶部 资料来源: The Next Platform,天风证券研究所 海外行业 报告 | 行业动态研究 请务必阅读正文之后的信息披露和免责申明 11 分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的所有观点均准确地反映了我们对标的证券和发行人的个人看法。我们所得报酬的任何部分不曾与,不与,也将不会与本报告中的具体投资建议或观点有直接或间接联系。 一般声明 除非另有规定,本报告中的所有材料版权均属天风证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)及其附属机构(以下统称“天风证券”)。未经天风证券事先书面授权,不得以任何方式修改、发送或者复制本报告及其所包含的材料、内容。所有本报告中使用的商标、服务标识及标记均为天风证券的商标、服务标识及标记。 本报告是机密的,仅供我们的客户使用,天风证券不因收件人收到本报告而视其为天风证券的客户。本报告中的信息均来源于我们认为可靠的已公开资料,但天风证券对这些信息的准确性及完整性不作任何保证。本报告中的信息、意见 等均仅供客户参考,不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果,天风证券及 /或其关联人员均不承担任何法律责任。 本报告所载的意见、评估及预测仅为本报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。过往的表 现亦不应作为日后表现的预示和担保。在不同时期,天风证券可能会发出与本报告所载意见、评估及预测不一致的研究报告。 天风证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和 /或交易观点。天风证券没有将此意见及建议向报告所有接收者进行更新的义务。天风证券的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。 特别声明 在法律许可的情况下,天风证券可能会持有本报告中提及公司所发行的证券并进行交易,也可能为这些公司提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。因此,投资者应当考虑到天风证券及 /或其相关人员可能存在影响本报告观点客观性的潜在利益冲突,投资者请勿将本报告视为投资或其他决定的唯一参考依据。 投资评级声明 类别 说明 评级 体系 股票投资评级 自报告日后的 6 个月内,相对同期 标普500 指数的涨跌幅 行业投资评级 自报告日后的 6 个月内,相对同期 标普500 指数的涨跌幅 买入 预期股价相对收益 20%以上 增持 预期股价相对收益 10%-20% 持有 预期股价相对收益 -10%-10% 卖出 预期股价相对收益 -10%以下 强于大市 预期行业指数涨幅 5%以上 中性 预期行业指数涨幅 -5%-5% 弱于大市 预期行业指数涨幅 -5%以下 天风 证券研究 北京 武汉 上海 深圳 北京市西城区佟麟阁路 36 号 邮编: 100031 邮箱: researchtfzq 湖北武汉市武昌区中南路 99 号保利广场 A 座 37 楼 邮编: 430071 电话: (8627)-87618889 传真: (8627)-87618863 邮箱: researchtfzq 上海市浦东新区兰花路 333 号 333 世纪大厦 20 楼 邮编: 201204 电话: (8621)-68815388 传真: (8621)-68812910 邮箱: researchtfzq 深圳市福田区益田路 4068 号 卓越时代广场 36 楼 邮编: 518017 电话: (86755)-82566970 传真: (86755)-23913441 邮箱: researchtfzq