1. 首页
  2. 未分类

机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多

“u003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRbiRsmjFrZY4rp” img_width=”640″ img_height=”100″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002FRdXp5Ld4gfCJxo” img_width=”1024″ img_height=”576″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003E整理 | 胡巍巍u003Cu002Fpu003Eu003Cpu003E出品 | CSDN(ID:CSDNnews)u003Cu002Fpu003Eu003Cpu003E当年,阿基米德爷爷说出“给我一个支点,我就能撬动地球”这句话时,估计没少遭受嘲讽。u003Cu002Fpu003Eu003Cpu003E然而后来的我们,都曾在物理课本上学过这句话。u003Cu002Fpu003Eu003Cpu003E事实证明,小,也可以很有力量。u003Cu002Fpu003Eu003Cpu003E芯片,便是小体积、大能量的典型代表之一。u003Cu002Fpu003Eu003Cpu003E近日,一位外国科技作者,总结了10个用于机器智能的新型硅芯片的详细信息,从这10个硅芯片来看,谷歌占比最多,国内仅有华为一个。u003Cu002Fpu003Eu003Cpu003E一起来看看,这10个硅芯片的完整信息吧!u003Cu002Fpu003Eu003Cpu003E当当当当!先PO出一张图,来一个总览!u003Cu002Fpu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002FReISTSX1CEVpsQ” img_width=”1080″ img_height=”395″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRT4Gwk56bt5iOJ” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cstrongu003ECerebras晶圆级引擎芯片(Cerebras Wafer-Scale Engine)u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Cpu003ECerebras晶圆级引擎(WSE)芯片,无疑是最近出现的最大胆和创新的设计。晶圆级集成并不是一个新主意,但是与产量、功率传输和热膨胀有关的集成问题,使其难以商业化。u003Cu002Fpu003Eu003Cpu003ECerebras使用这种方法将84个芯片与高速互连集成在一起,从而将基于2D网格的互连按比例缩放到很大比例。u003Cu002Fpu003Eu003Cpu003E这样可以为机器提供大量内存(18 GB)分布在大量计算中(3.3 Peta FLOP峰值)。u003Cu002Fpu003Eu003Cpu003E目前,尚不清楚该架构如何扩展到单个WSE之外。当前神经网络的趋势是拥有数十亿权重的大型网络,这将需要进行这样的缩放。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E宣布于2019年8月。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003ETSMC 16 nm的46,225 mm 2晶圆级集成系统(215 mm x 215 mm)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E1.2T晶体管。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E许多单独的筹码:总共84(12宽乘7高)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E总共18 GB的SRAM存储器,分布在内核之间。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E426,384个简单计算核心。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E硅缺陷可以通过使用冗余内核和链路绕过故障区域来修复。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E推测的时钟速度约为1 GHz,功耗为15 kW。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E互连和IO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E跨越划线的芯片之间的互连,以及在常规晶圆制造后的后处理步骤中添加的布线。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EIO在晶圆的东西边缘带出,这受每个边缘的焊盘密度限制。不可能有高速SerDes,因为这些高速SerDes需要集成在每个芯片中,从而使晶圆区域中相当大的一部分与外围具有边缘的芯片成为多余。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E基于2D网格的互连,支持单字消息。据官方白皮书表示:“ Cerebras软件将WSE上的所有核心配置为支持所需的精确通信”。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E互连需要静态配置以支持特定的通信模式。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E未在互连上传输零以优化稀疏性。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E每个核心:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E是〜0.1 mm 2的硅。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E具有47 kB SRAM存储器。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E零未从内存中加载,零未相乘。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E假定FP32精度和标量执行(无法使用SIMD从内存中过滤零)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EFMAC数据路径(每个周期8个峰值操作)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E张量控制单元向FMAC数据路径提供来自内存的跨步访问或来自链接的入站数据。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E有四个与其邻居相邻的8 GB u002F s双向链接。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E每个骰子:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E是17毫米x 30毫米= 510毫米2的硅。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E具有225 MB SRAM 内存。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E具有54 x 94 = 5,076个核心(由于修复方案而剩下4,888个可用核心,每行u002F列两个核心可能未使用)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EFP32的峰值FP32性能达到40 Tera FLOP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRT7S2kzFTfre26″ img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003EGoogle TPU v3u003Cu002Fh1u003Eu003Cpu003E目前由于没有关于Google TPU v3规格的详细信息,它可能是对TPU v2的增量改进:将性能提高一倍,添加HBM2内存以使容量和带宽增加一倍。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2018年5月宣布。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E可能是16nm或12nm。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E预计TDP为 200W 。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EBFloat16的105个TFLOP,可能是将MXU加倍到四个。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E每个MXU都具有对8 GB内存的专用访问权限。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E集成在四芯片模块(如图)中,峰值性能达420个TFLOP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E32 GB HBM2集成内存,访问带宽为1200 GBps(假定)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E假定PCIe-3 x8为8 GBps。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002FRTJXJ1kBqzfCnu” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003EGoogle TPU v2u003Cu002Fh1u003Eu003Cpu003EGoogle TPU V2是专为训练和推理而生的芯片。它通过浮点算法改进了TPU v1,并通过HBM集成存储器增强了存储容量和带宽 。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2017年5月宣布。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E可能是20nm。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E预计TDP为 200-250W 。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E45 TFLOP的BFloat16。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E具有标量和矩阵单元的两个核心。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E还支持FP32。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E集成在四芯片模块(如图)中,具有u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-3″u003E180u003Cu002Fiu003E个TFLOP峰值性能。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E每个核心:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E具有BFloat16乘法和FP32累加的128x128x32b脉动矩阵单元(MXU)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E8GB专用HBM,访问带宽为300 GBps。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EBFloat16的峰值吞吐量为22.5 TFLOP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E16 GB HBM集成内存,带宽为600 GBps(假定)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EPCIe-3 x8(8 GBps)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRTJXJ7YR5xGDl” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003EGoogle TPU v1u003Cu002Fh1u003Eu003Cpu003EGoogle的第一代TPU仅用于推理,并且仅支持整数运算。u003Cu002Fpu003Eu003Cpu003E它通过在PCIe-3上发送指令来为主机CPU提供加速,以执行矩阵乘法和应用激活功能。这是一个显着的简化,可以节省很多设计和验证时间。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E在2016年宣布。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E331 mm 2在28nm工艺上死亡。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E时钟频率为700 MHz,TDP为 28-40W 。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E28 MB片上SRAM存储器:24 MB用于激活,4 MB用于累加器。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E芯片面积的比例:35%的内存,24%的矩阵乘法单元,41%的逻辑剩余空间。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E256x256x8b脉动矩阵乘法单元(u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003EK MAC u002F周期)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EINT8和INT16算术(分别为峰值92和23 TOPs u002F s)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E可通过两个端口以34 GB u002F s的速度访问8 GB u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003EDDu003Cu002Fiu003ER3 -2u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-5″u003E133u003Cu002Fiu003E DRAM。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EPCIe-3 x 16(14 GBps)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRTJXJ7uHXU5GZc” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003EGraphcore IPUu003Cu002Fh1u003Eu003Cpu003EGraphcore IPU架构与大量带有小内存的简单处理器的高度并行,并通过高带宽的所有“交换”互连进行连接。u003Cu002Fpu003Eu003Cpu003E该体系结构在体同步并行(BSP)模型下运行,由此程序的执行按一系列计算和交换阶段进行。u003Cu002Fpu003Eu003Cpu003E该BSP模型是一个强大的编程抽象,因为它排除并发危害,BSP执行允许计算和交换阶段充分利用芯片的电力资源。通过连接10个IPU间,可以构建更大的IPU芯片系统链接。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E16 nm,236亿个晶体管,〜800mm 2芯片尺寸。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E1216个处理器块。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E具有FP32累加功能的125个TFLOP峰值FP16算法。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E300 MB的总片上内存分布在处理器内核之间,提供45 TBps的总访问带宽。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E所有模型状态都保存在芯片上,没有直接连接的DRAM。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003Eu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-3″u003E150u003Cu002Fiu003E W TDP(300 W PCIe卡)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2个PCIe-4主机IO链接。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E10x卡间“ IPU 链接”。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E总共384 GBps IO带宽。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E每个核心:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E混合精度浮点随机算法。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E最多运行六个程序线程。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRTLSNam5ZxLDlM” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003E哈瓦那实验室高迪(Habana Labs Gaudi)u003Cu002Fh1u003Eu003Cpu003E哈瓦那的Gaudi AI培训处理器与现代GPU具有相似之处,特别是广泛的SIMD并行性和HBM2内存。u003Cu002Fpu003Eu003Cpu003E该芯片集成了十个100G以太网链路,这些链路支持远程直接内存访问(RDMA)。u003Cu002Fpu003Eu003Cpu003E与Nvidia的NVLink或OpenCAPI相比,这种 IO功能使大型系统可以使用商用网络设备构建。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2019年6月宣布。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E采用CoWoS的TSMC 16 nm,假定管芯尺寸为〜500mm 2。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E异构架构,具有:u003Cu002Fpu003Eu003Cu002Fliu003Eu003Culu003Eu003Cliu003Eu003Cpu003E一个GEMM操作引擎;u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E8个Tensor处理核心(TPC);u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E共享的SRAM存储器(可通过RDMA管理和访问的软件)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cliu003Eu003Cpu003EPCIe卡为200W TDP,夹层卡为300W TDP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E未知的总片上存储器。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E芯片之间的显式内存管理(无一致性)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003ETPC核心:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003EVLIW SIMD并行性和本地SRAM 存储器。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E混合精度:FP32,BF16以及整数格式(INT32,INT16,INT8,UINT32,UINT8)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E随机数生成。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E超越函数:Sigmoid,Tanh,高斯误差线性单位(GeLU)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E张量寻址和跨步访问。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E每个TPC未知的本地内存。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E4个HBM2 -2000 DRAM堆栈,以1 TBps的速度提供32 GB。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E片上集成了10个100GbE接口,支持基于融合以太网(RoCE v2)的RDMA。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EIO使用20个56 Gbps PAM4 Tx u002F Rx SerDes实现,也可以配置为20个50 GbE。这样最多可连接u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E个芯片,并且吞吐量无阻塞。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EPCIe-4 x16主机接口。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002FRTRIuPNI7JPB03″ img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003E华为Ascend 910u003Cu002Fh1u003Eu003Cpu003E华为的Ascend与具有宽SIMD算术和3D矩阵单元的最新GPU相似。该芯片包括用于H.2u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E u002F 265的128通道视频解码引擎的附加逻辑。u003Cu002Fpu003Eu003Cpu003E在华为官方的Hot Chips演示中,华为描述了将多维数据集和向量操作重叠以获得高效率以及内存层次结构的挑战,其中L1高速缓存(核心)的带宽与吞吐量之比降低10倍,L2高速缓存降低100倍(共享核心)和2000x用于外部DRAM。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E宣布于2019年8月。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E456 mm 2逻辑芯片在7+ nm EUV工艺上进行。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E与四个96 mm 2 HBM2堆栈和“ Nimbus” IO处理器芯片共同封装。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E32个达芬奇核心。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E峰值256个TFLOP(32 x 4096 x 2)FP16性能,是INT8的两倍。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E32 MB共享片上SRAM(二级缓存)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E350W TDP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E互连和IO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E内核在6 x 4 2D网状分组交换网络中互连,每个内核提供128 GBps的双向带宽。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E对L2缓存的访问速度为4 TBps。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E1.2 TBps HBM2访问带宽。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E3个30 GBps的芯片间IO。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E2个25 GBps RoCE网络接口。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E每个达芬奇核心:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E3D 16x16x16矩阵乘法单元,提供4,096个FP16 MAC和8,192个INT8 MAC。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003EFP32(xu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E),FP16(x128)和INT8 (x256)的2,048位SIMD矢量操作。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E支持标量运算。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp3.pstatp.comu002Flargeu002Fpgc-imageu002FRTRIuPaahjHjS” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003E英特尔NNP -Tu003Cu002Fh1u003Eu003Cpu003E继至强融核之后,该芯片是英特尔针对机器学习加速器的第二次尝试。像Habana Gaudi芯片一样,它集成了少量的宽矢量核,HBM2集成存储器和类似的100 Gbit IO 链接。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E270亿个晶体管。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E在带有CoWoS的TSMC 16FF + TSMC上,688 mm 2模具。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E四个8 GB堆栈中的32 GB HBM2 -2400 集成在1200 mm 2的无源硅中介层上。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E60 MB的片上SRAM存储器分布在内核之间,并 受ECC保护。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E最高1.1 GHz核心时钟。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003Eu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-3″u003E150u003Cu002Fiu003E-250W TDP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E24个Tensor处理群集(TCP)内核。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003ETPC以2D网状网络拓扑连接。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Culu003Eu003Cliu003Eu003Cpu003E用于不同类型数据的独立网络:控制,存储器和芯片间通信。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E支持多播。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cliu003Eu003Cpu003E119个最佳性能峰值。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003EHBM2带宽为1.22TBps 。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E芯片间IO的u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E个SerDes通道的峰值带宽为3.58Tbps(每个通道的每个方向28 Gbps)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003Ex16 PCIe-4主机接口(还支持OAM和Open Compute)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003ETPC核心:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2个32×32 BFloat16乘法器阵列,支持FMAC操作和FP32累加。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E向量FP32和BFloat16操作。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Culu003Eu003Cliu003Eu003Cpu003E支持先验功能,随机数生成,减少和累积。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E可编程FP32查找表。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cliu003Eu003Cpu003E用于非MAC计算的独立卷积引擎。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E2.5 MB的两端口专用内存,具有1.4 TBps的读u002F写带宽。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E内存支持张量转置操作。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E通信接口支持网状网络上的动态数据包路由(虚拟通道,可靠的传输)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003E缩放比例:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E多达1024个具有直接互连的芯片,提供相同的分布式内存编程模型(显式内存管理,同步原语,消息传递)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E扩展展示了以环形拓扑连接的多达32个芯片。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp1.pstatp.comu002Flargeu002Fpgc-imageu002FRTYlVXmICmMrFE” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003ENvidia Voltau003Cu002Fh1u003Eu003Cpu003E据了解,Volta从Pascal架构引入Tensor Cores、HBM2和NVLink 2.0 。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2017年5月宣布。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E815毫米2上TSMC 12海里FFN,21.1 BN晶体管。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E300 W TDP(SXM2尺寸)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E6 MB二级缓存。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E84个SM,每个SM包含:u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E个FP32 CUDA内核,32个FPu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E CUDA内核和8个Tensor内核(5376 FP32内核,2688 FPu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E内核,672个TC)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003ETensor Core执行4×4 FMA,实现u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E FMA运算u002F周期和128 FLOP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E每个SM 128 KB L1数据高速缓存u002F共享内存和四个16K 32位寄存器。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E32 GB HBM2 DRAM,900 GBps带宽u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003ENVLink 2.0(300 GBps)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002FRTYlVY98d1MEiD” img_width=”340″ img_height=”57″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003Eu003Cpu003Eu003Cu002Fpu003Eu003Ch1 toutiao-origin=”h2″u003ENvidia图灵u003Cu002Fh1u003Eu003Cpu003ETuring是Volta的体系结构修订版,采用相同的16 nm工艺制造,但具有更少的CUDA和Tensor内核。u003Cu002Fpu003Eu003Cpu003E因此,它具有更小的管芯尺寸和更低的功率范围。除ML任务外,它还设计用于执行实时射线追踪,为此它还使用了Tensor Core。u003Cu002Fpu003Eu003Cpu003Eu003Cstrongu003E该芯片细节:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E2018年9月宣布。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E台积电12nm FFN,754 mm 2芯片,u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E186u003Cu002Fiu003E亿个晶体管。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E260瓦TDP。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E72个SM,每个SM包含:u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E个FP32内核和u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E64u003Cu002Fiu003E个INT32内核,8个Tensor内核(4608 FP32内核,4608 INT32内核和576个TC)。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E带有升压时钟的峰值性能:16.3 TFLOPs FP32、u003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-4″u003E130u003Cu002Fiu003E.5 TFLOPs FP16、261 TFLOPs INT8、522 TFLOPs INT4。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E24.5 MB片上存储器,介于6 MB L2高速缓存和256 KB SM寄存器文件之间。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003Eu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003E145u003Cu002Fiu003E5 MHz基本时钟。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003Eu003Cstrongu003EIO:u003Cu002Fstrongu003Eu003Cu002Fpu003Eu003Culu003Eu003Cliu003Eu003Cpu003E12个32位Gu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003EDDu003Cu002Fiu003ER6内存,可提供672 GBps的聚合带宽。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cliu003Eu003Cpu003E2个NVLink x8链接,每个链接提供高达26 GBps的双向速度。u003Cu002Fpu003Eu003Cu002Fliu003Eu003Cu002Fulu003Eu003Cpu003E以上10个芯片,你认为哪个最有前景?赶快在评论区留言吧!u003Cu002Fpu003Eu003Cpu003E参考:https:u002Fu002Fu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-2″u003Ewwwu003Cu002Fiu003E.jameswhanlonu003Ci class=”chrome-extension-mutihighlight chrome-extension-mutihighlight-style-6″u003E.comu003Cu002Fiu003Eu002Fnew-chips-for-machine-intelligence.html#google-tpu-1u003Cu002Fpu003Eu003Cpu003E【END】u003Cu002Fpu003Eu003Cimg src=”http:u002Fu002Fp9.pstatp.comu002Flargeu002Fpgc-imageu002FRVgbnJl7d57wok” img_width=”591″ img_height=”324″ alt=”机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多” inline=”0″u003E”

原文始发于:机器智能芯片 10 大新秀!华为抢占一席,Google 占比最多

主题测试文章,只做测试使用。发布者:杀手梦三刀,转转请注明出处:http://www.cxybcw.com/14594.html

联系我们

13687733322

在线咨询:点击这里给我发消息

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code