GTC 2022 : NVIDIA 发表新一代超算 GPU " Hopper " H100 与系统,并预告将结合 Grace CPU 构成 Grace Hopper 超级晶片

NVIDIA 在今年 GTC 大会的重头戏就是新一代的超算级 CPU 产品、代号” Hopper “的 NVIDIA H100 , NVIDIA H100 是作为基于 Ampere 架构的 NVIDIA A100 的后继产品,採用台积电 4

NVIDIA 在今年 GTC 大会的重头戏就是新一代的超算级 CPU 产品、代号” Hopper “的 NVIDIA H100 , NVIDIA H100 是作为基于 Ampere 架构的 NVIDIA A100 的后继产品,採用台积电 4nm 製程,具备 800 亿个电晶体,配有 80GB HBM3 记忆体,并具备革命性的 Transformer 引擎与第 4 代的 NVLink 架构,涵盖自超算、人工智慧到数位孪生等领域。

NVIDIA H100 预计在今年第三季开始供货,并由全球的云服务供应商、系统商与 NVIDIA 提供系统与产品。目前包括阿里云、 Amazon AWS 、百度人工智能云、 Google Cloud 、微软 Azure 、 Oricle Cloud 、腾讯云等採用,并将提供云端实例;至于系统製造商方面则包括 Atos 、 BOXX Technologies 、 Cisco 、 Dell Technologies 、富士通、技嘉、 H3C 、
HPE 慧与、浪潮、联想、 Nettrix 和 Supermicro 等。

採用 HBM3 记忆体、外部频宽达 5TB 、支援 PCIe Gen 5 的 NVIDIA H100

▲ H100 採用台积电 4N 製程,上下为 HBM3 记忆体

照片中提到了FP8、4,000 TFLOPS、6X,包含了多媒体、软件、多媒体、字形、屏幕截图

▲ H100 新增对 FP8 的支援

照片中提到了FP8、4,000 TFLOPS、6X,包含了多媒体、电子产品、多媒体、软件、字形

▲可使用风冷与水冷系统,并达到 700W 等级

NVIDIA H100 建立在 NVIDIA GPU 运算的架构延续性基础,并具备多项全新的技术特质,不仅使用台积电 4nm 製程製造,并借助 NVLink 技术达到近 5 TB 的外部连接传输速度,同时也支援 PCIe Gen 5 与频宽达 3TB/s 的 HBM3 记忆体,强调 20 张 H100 GPU 的即可负荷全球网际网络的流量,使採用客户能进行对即时数据导入高阶推荐系统以及大型语言推论模型。

▲ NVDIIA H100 具备六大特色

NVIDIA H100 也导入全新的 Transformer 引擎技术,因应目前 Transformer 模型为现今自然语言处理的首选标準模型, NVIDIA H100 藉由导入 Transformer 引擎使深度学习网络的执行速度相较 NVIDIA A100 提升 6 倍,同时也不因此耗损準确性。

照片中提到了GPU、GPU、GPU,包含了黑暗、产品设计、线、设计、牌

▲ H100 的第二代 MIG 技术可跨云端租用户

照片中提到了每个多执行个体的效能都等同于2个完整的T4GPU,也就是我们最受欢迎的云端推论、GPU •、NVIDIA,,包含了黑暗、言语、励志演讲者、鬍子、公开演讲

▲每个 H100 的执行个体性能等同两个 T4 GPU

在上一世代的 NVIDIA A100 其中一项特色就是具备 MIG 多执行个体, MIG 能使 NVIDIA A100 隔离为 7 个执行个体,并在安全的环境中执行多项作业与运算; NVIDIA H100 的第二代 MIG 技术可在云环境中进行跨 GPU 为每个 GPU 执行个体提供安全的多租户配置,相较地一世代 MIG 扩展 7 倍,进一步使云环境的安全环境多租户应用提供更多的配置弹性。

照片中提到了CC On、Confidential VM、Host OS,包含了屏幕截图、产品设计、产品、设计、牌

▲ Hopper 为全球首款支援机密运算的 GPU

另外, NVIDIA H100 也针对安全性,率先在 GPU 导入机密运算技术,为全球首款具备机密运算的加速器产品,包括在进行 AI 人工智慧与数据处理为资料进行保护,尤其对医疗运算、金融服务等敏感性资料处理,或是由多个提供机密资料来源进行联邦学习时,可借助机密运算进一步提升资料的安全防护能力。

同时, NVIDIA H100 还具备第 4 代 NVlink 技术,不仅频宽达到 PCIe Gen 5 的 7 倍,使单一 NVLink 迴路的 8 个 GPU 以更快速的频宽进行连接,借助全新的外部 NVLink 交换器 ( NVLink Switch )进行扩展,不仅可连接最多 256 个 NVIDIA H100 GPU ,相较 NVIDIA A100 所使用的 NVIDIA HDR Quantum InfiniBand 频宽更高出 9 倍。

NVIDIA H100 支援全新的 DPX 指令, DPX 是全新的指令动态编程技术,可应用在包括线路最佳化与基因组学等广泛的算法上,相较 CPU 在动态规划执行速度提升 40 倍,且对比 NVIDIA A100 亦提升 7 倍性能,能够应用在工厂自动化仓储管理的自主机器人最佳路径规画的 Floyd-Warshall 演算法,以及用于 DNA 与蛋白质分类与摺叠的序列比对的 Smith-Waterman 演算法。

借助上述的创新技术, NVIDIA H100 不仅在纯运算性能较 NVIDIA A100 大幅提升,同时也进一步扩大 AI 推论与训练的领先优势,例如在执行目前地表最强大的语言模型 Megatron 530B ,能较上一世代提高 30 倍的数据吞吐量,使 AI 对话的延迟缩减至近乎即时的次秒/ Sub-Second 等级,并使开发人员在进行训练如 Mixture of Experts 达 3,950 亿个参数的巨量模型时能提升 9 倍效率,将模型训练时间自数周缩减至数天。

以 SXM 模组与 PCIe 单卡因应多种需求提供加速卡到加速系统等规格

▲ NVIDIA H100 的 SXM 模组

照片中提到了NVIDIA H100、Mainstream Servers to DGX to DGX SuperPOD、AT EVERY SCALE,跟Advanced Micro Devices公司有关,包含了建筑、建筑、正面、产品、多媒体

▲藉由 SXM 与 PCIe 两种模组型态, NVIDIA H100 涵盖自单卡到系统级的规格

NVIDIA H100 也将因应不同的应用需求提供多种产品型态,以 SXM 与 PCIe 两种基础单卡规格扩充,其中在系统级产品包括 NVIDIA DGX H100 以及基于 DGX H100 的 DGX H100 SuperPOD , DGX H100 以 8 个 NVIDIA H100 GPU 构成,借助 NVSwitch 技术, 8 个 GPU 以高出前一代 1.5 倍频宽的 900GB/s 频宽第 4 代 NVLink 连接,以全新 FP8 精度具备高达 32 petaflops 的 AI 性能。

▲新一代 DGX H100 超算系统的内部架构

而 DGX H100 SuperPOD 则是利用外部的 NVLink 交换器进行连接,单一交换机最多可连接 32 个 DGX H100 节点; NVIDIA 也将透过 DGX H100 SuperPOD 建构新一代自主 AI 超算系统,命名为 EOS , NVDIIA EOS 系统将连接达 576 个 DGX H100 节点,将是届时全球性能最高的 AI 系统。

照片中提到了Converged H100 and CX-7 SmartNIC、7 Multi-GPU Instances、ANNOUNCING,包含了电子产品、电脑硬件、电脑、产品设计、中央处理器

▲针对资料中心与 5G 讯号、整合 GPU 与 SmartNIC 的 H100 CNX 融合加速卡

NVIDIA H100 亦将提供多种单卡型态,除了用以 4 卡与 8 卡 NVLink 迴圈连接的 H100 SXM ,亦针对主流伺服器提供基于 PCIe 5 的 H100 PCIe , H100 PCIe 仍可进行双卡连接提升性能与总记忆体容量。此外针对如资料中心与 5G 讯号处理等 I/O 密集应用, NVIDIA 还将提供 H100 CNX 融合加速卡,将 NVIDIA H100 与 ConnectX-7 SmartNIC 结合,借助 CinnectX-7 与 NVIDIA H100 的直接结合进行资料处理加速。

当然代号 Hopper 的 NVIDIA H100 的杀手锏不仅于此, NVIDIA H100 亦将成为预计 2023 年第一季推出的 NVIDIA 超算级 Arm 架构 CPU ” Grace “的最佳组合, NVIDIA H100 与 Grace 能够借助全新的晶片对晶片连接技术 NVLink-C2C 进行高速通讯,构成超高性能的” Grace Hopper ” Superchip 模组单晶片,详细内容会在另一篇进行介绍。

原创文章,作者:墨半,如若转载,请注明出处:https://www.53moban.com/1212.html

联系我们

400-800-8888

在线咨询:点击这里给我发消息

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息