这篇文章最初宣告在 NVIDIA 技术博客上。

在COMPUTEX 2023, NVIDIA 宣告NVIDIA DGX GH200,这标志着 GPU 的又一打破——加快核算,为最严苛的巨型人工智能作业负载供给动力。除了描述 NVIDIA DGX GH200 体系结构的要害方面外,本文还讨论了怎么运用NVIDIA Base Command完成快速布置,加快用户入职,并简化体系管理。

GPU 的一致内存编程模型是曩昔 7 年来杂乱加快核算应用获得各种打破的柱石。 2016 年, NVIDIA 推出NVLink技术和带有 CUDA-6 的一致内存编程模型,旨在增加 GPU 加快作业负载的可用内存。

从那时起,每个 DGX 体系的中心都是与 NVLink 互连的基板上的 GPU 复合体,其间每个 GPU 可以以 NVLink 的速度拜访另一个的存储器。许多具有 GPU 复合体的 DGX 通过高速网络互连,构成更大的超级核算机,如NVIDIA Selene 超级核算机。但是,一类新兴的万亿参数的巨型人工智能模型要么需求几个月的练习,要么即便在当今最好的超级核算机上也无法求解。

为了让需求一个可以处理这些特殊挑战的先进渠道的科学家们获得力气, NVIDIA NVIDIA Grace Hopper Superchip与 NVLink 交流体系,在 NVIDIA DGX GH200 体系中集成多达 256 GPU 。在 DGX GH200 体系中, GPU 同享内存编程模型可以通过 NVLink 高速拜访 144 TB 的内存。

与单个比较NVIDIA DGX A100 320 GB 体系, NVIDIA DGX GH200 通过 NVLink 为 GPU 同享内存编程模型供给了近 500 倍的内存,构成了一个巨大的数据中心巨细的 GPU 。 NVIDIA DGX GH200 是第一台打破 NVLink 上 GPU 可拜访内存 100 TB 障碍的超级核算机。

宣布推出 NVIDIA DGX GH200 :首款 100 兆字节 GPU 内存系统
图 1 。 GPU NVLink 进程带来的内存增益

NVIDIA DGX GH200 体系架构

NVIDIA Grace Hopper 超级芯片和 NVLink Switch System 是 NVIDIA DGX GH200 架构的构建块。 NVIDIA Grace Hopper 超级芯片结合了 Grace 和 Hopper 架构,运用 NVIDIA NVLink-C2C以传递 CPU + GPU 相干存储器模型。 NVLink 交流体系由第四代 NVLink 技术供给动力,将 NVLink 衔接扩展到超级芯片,以创立无缝、高带宽、多 GPU 体系。

NVIDIA DGX GH200 中的每个 NVIDIA Grace Hopper 超级芯片都有 480 GB LPDDR5 CPU 内存,与 DDR5 和 96 GB 快速 HBM3 比较,每 GB 的功率是其八分之一。 NVIDIA Grace CPU 和 Hopper GPU 与 NVLink-C2C 互连,以五分之一的功率供给比 PCIe Gen5 多 7 倍的带宽。

NVLink 交流体系构成了一个两级、无阻塞、fat-tree NVLink 结构,可在 DGX GH200 体系中完全衔接 256 个 Grace Hopper 超级芯片。 DGX GH200 中的每个 GPU 都可以以 900GBps 拜访一切 NVIDIA Grace CPU 的其他 GPU 和扩展 GPU 存储器。

保管 Grace Hopper 超级芯片的核算基板运用第一层 NVLink 结构的自定义线束衔接到 NVLink 交流机体系。 LinkX 电缆扩展了 NVLink 结构第二层的衔接。

宣布推出 NVIDIA DGX GH200 :首款 100 兆字节 GPU 内存系统
图 2 : NVIDIA DGX GH200 全衔接 NVIDIA NVLink 交流机体系的拓扑结构,由 256 个 GPU 组成

在 DGX GH200 体系中, GPU 线程可以运用 NVLink 页表从 NVLink 网络中的其他 Grace Hopper 超级芯片寻址对等 HBM3 和 LPDDR5X 内存。NVIDIA Magnum IO加快库优化了 GPU 通讯以进步功率,并通过一切 256 个 GPU 来增强应用程序的可扩展性。

DGX GH200 中的每个 Grace Hopper 超级芯片都配有一个NVIDIA ConnectX-7网络适配器和一个NVIDIA BlueField-3 NICDGX GH200 在网络核算中具有 128 TBps 的双段带宽和 230 . 4 TFLOPS 的 NVIDIA SHARP ,以加快人工智能中常用的团体操作,并通过削减团体操作的通讯开销使 NVLink 网络体系的有效带宽翻倍。

对于超越 256 GPU 的扩展, ConnectX-7 适配器可以将多个 DGX GH200 体系互连,以扩展到更大的处理方案中。 BlueField -3 DPU 的强壮功能将任何企业核算环境转变为安全且加快的虚拟私有云,使安排可以在安全的多租户环境中运转应用程序作业负载。

目标运用事例和功能优势

GPU 内存的跨代显著进步了受 GPU ‘内存巨细约束的 AI 和 HPC 应用程序的功能。许多干流 AI 和 HPC 作业负载可以完全驻留在单个NVIDIA DGX H100对于此类作业负载, DGX H100 是功能功率最高的培训处理方案。

其他作业负载,如具有数 TB 嵌入式表的深度学习推荐模型( DLRM )、数 TB 规模的图形神经网络练习模型或大数据分析作业负载,运用 DGX GH200 可完成 4 到 7 倍的加快。这表明 DGX GH200 是更先进的 AI 和 HPC 模型的更好处理方案,这些模型需求很多内存用于 GPU 同享内存编程。

加快的机制在 NVIDIA Grace Hopper Superchip Architecture白皮书。

宣布推出 NVIDIA DGX GH200 :首款 100 兆字节 GPU 内存系统
图 3 。巨型内存 AI 作业负载的功能比较

专为最严苛的作业负载而规划

整个 DGX GH200 的每个组件都通过选择,以最大极限地削减瓶颈,一起最大极限地进步要害作业负载的网络功能,并充分利用一切扩展硬件功能。其结果是线性可扩展性和对很多同享内存空间的高利用率。

为了充分利用这一先进体系, NVIDIA 还构建了一个超高速存储结构,以在峰值容量下运转,并处理各种数据类型(文本、表格数据、音频和视频)- 并行且功能稳定。

全栈 NVIDIA 处理方案

DGX GH200 顺便NVIDIA Base Command,包含针对 AI 作业负载优化的操作体系、集群管理器、加快核算、存储的库,以及针对 DGX GH200 体系架构优化的网络基础设施。

DGX GH200 还包含NVIDIA AI 企业版,供给了一套优化的软件和结构,以简化人工智能的开发和布置。此全栈处理方案使客户可以专注于立异,而不用忧虑管理其 IT 基础架构。

宣布推出 NVIDIA DGX GH200 :首款 100 兆字节 GPU 内存系统
图 4 。 NVIDIA DGX GH200 AI 超级核算机全栈包含 NVIDIA Base Command 和 NVIDIA AI Enterprise

增压巨大的 AI 和 HPC 作业负载

NVIDIA 正致力于在今年年底推出 DGX GH200 。 NVIDIA 巴望供给这台令人难以置信的第一台同类超级核算机,让您可以在处理当今最大的人工智能和 HPC 挑战时进行立异并追求自己的热情。了解更多.

阅览原文