全部产品分类
- FPGA
  - fpga1
  - fpga2
  - fpga3
  - fpga4
  - fpga5
  - fpga6
  - fpga7
首页
优势产品
新闻资讯
关于我们
联系我们

800亿晶体管核弹GPU架构深入解读，又是“拼装货”？

2022-03-25 16:11:27

707

作者 | 陈巍千芯科技

编者注：NVIDIA在3月23日公布基于全新Hopper架构的GPU H100，其多种精度下的AI性能达到上一代A100的3~6倍。NVIDIA如何做到如此大幅的性能升级？Hopper架构有何玄机？千芯科技董事长陈巍博士对此加以解读。

在2022年3月NVIDIA GTC大会上，NVIDIA创始人兼CEO黄仁勋介绍了一款基于全新Hopper架构的H100 GPU，这是英伟达迄今用于加速人工智能（AI）、高性能计算（HPC）和数据分析等任务的最强GPU芯片。

▲Hopper架构H100 GPU的主要升级

Hopper架构以计算科学的先驱Grace Hopper的姓氏命名。黄教主称：“Hopper H100是有史以来最大的代际飞跃。H100具有800亿个晶体管，在性能上堪称NVIDIA的“新核弹”。

那么，“新核弹”的核心是什么样的？本文将深入解读和分析Hopper架构。

▲Hopper架构的H100与前几代GPU性能对比

注：Grace Hopper博士是哈佛Mark 1的首批程序员，被誉为编译语言之母。据称她发现了计算机程序中的第一个Bug，同时也创造了计算机世界最大的Bug——千年虫。

一、Hopper的整体结构拆解

NVIDIA Hopper架构H100芯片采用台积电4nm工艺（N4是台积电N5工艺的优化版），芯片面积为814平方毫米（比A100小14平方毫米）。

▲H100 Tensor Core GPU的性能规格

Hopper架构可以视为由两组对称结构拼接而成。（是不是有点类似我们之前介绍的苹果UltraFusion架构的拼接思路？不过这里的GPU还是单片的。回顾苹果UltraFusion架构可参见《苹果芯片“拼装”的秘方，在专利里找到了》文章。）

在顶层拓扑上，Hopper似乎与她的前辈Ampere架构差别不大。图中的Hopper架构GPU由8个图形处理集群（Graphics Processing Cluster，GPC）“拼接”组成。

▲Hopper架构基本结构

外周与多组HBM3封装在一起（Chiplet技术），形成整个芯片模组——从模组上看又是个“拼装货”。片上的每个GPC又由9个纹理处理集群 （Texture Processor Cluster，TPC）“拼接”组成。

由PCIe5或SMX接口进入的计算任务，通过带有多实例GPU（Multi-Instance GPU，MIG）控制的GigaThread引擎分配给各个GPC。GPC之间通过L2缓存共享中间数据，GPC计算的中间数据通过NVLink与其他GPU连接/交换。每个TPC由2个流式多处理器（Streaming Multiprocessor，SM）组成。

Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器（具有第4代张量核心）。

▲线程块集群和带有集群的网格

Hopper架构中引入了一种新的线程块集群机制，该机制可以跨SM单元进行协同计算。H100 中的线程块集群可在同一GPC内的大量SM并发运行，这样对较大的模型具有更好的加速能力。

二、新一代流式多处理器SM与FP8支持

Hopper架构的新一代流式多处理器引入了FP8张量核心（Tensor Core）来加速AI训练和推理。FP8张量核心支持FP32和FP16累加器，以及两种FP8 输入类型（E4M3和E5M2）。

▲流式多处理器SM

与FP16或BF16相比，FP8将数据存储要求减半，吞吐量翻倍。我们在Transformer引擎的分析中还会看到使用FP8可自适应地提升Transformer的计算速度。

每个SM包括128个FP32 CUDA核心、4个第4代张量核心（Tensor Core）。

进入SM单元的指令首先存入L1指令缓存（L1 Instruction Cache），然后再分发到L0指令缓存（L1 Instruction Cache）。与L0缓存配套的线程束排序器（Wrap Scheduler）和调度单元（Dispatch Unit）来为CUDA核心和张量核心分配计算任务。（注：GPU中最小的硬件计算执行单位是线程束，简称Warp。）