昨日深夜,重返SIGGRAPH舞台的老黄,再次给全国际带来了「亿点点」震慑。
生成式 AI 的年代现已来临,归于它的 iPhone 时刻到了!
就在 8 月 8 日,英伟达 CEO 黄仁勋,再次登上了国际尖端核算机图形学会议 SIGGRAPH 的舞台。
一系列重磅更新接二连三——下一代 GH200 超级芯片渠道、AI Workbench、OpenUSD……
而英伟达也借此将过去数十年的一切创新,比方人工智能、虚拟国际、加快、模仿、协作等等,一举融合到一同。
在这个 LLM 大爆破的年代,老黄依然敢大胆放话:「买得越多,省得越多!」
英伟达最强 AI 超算再晋级
在 5 年前的 SIGGRAPH 上,英伟达经过将人工智能和实时光线追寻技能引进 GPU,从头界说了核算机图形学。
老黄表明:「当咱们经过 AI 从头界说核算机图形学时,咱们也在为 AI 从头界说 GPU。」
随之而来的,便是日益强壮的核算系统。比方,集成了 8 个 GPU 并具有 1 万亿个晶体管的 NVIDIA HGX H100。
就在今天,老黄再次让 AI 核算上了一个台阶——
除了为 NVIDIA GH200 Grace Hopper 装备愈加先进的 HBM3e 内存外,下一代 GH200 超级芯片渠道还将具有连接多个 GPU 的才能,然后完结杰出的功能和易于扩展的服务器规划。
而这个具有多种配置的全新渠道,将能够处理国际上最杂乱的生成式作业负载,包含大言语模型、推荐系统和向量数据库等等。
比方,双中心计划就包含一台装备了 144 个 Arm Neoverse 中心并搭载了 282GB HBM3e 内存的服务器,能够供给 8 petaflops 的 AI 算力。
其间,全新的 HBM3e 内存要比当前的 HBM3 快了 50%。而 10TB/sec 的组合带宽,也使得新渠道能够运转比上一版别大 3.5 倍的模型,一同经过 3 倍更快的内存带宽提高功能。
据悉,该产品预计将在 2024 年第二季度推出。
RTX 作业站:绝佳刀法,4 款显卡齐上新
这次老黄的桌面 AI 作业站 GPU 系列也全面上新,一口气推出了 3 款新品:RTX5000、RTX4500 和 RTX4000。
如果 H100 以及配套的产品线展示的是英伟达 GPU 功能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对本钱敏感客户秀出的绝佳「刀法」。
在发布这新 GPU 的时候,现场还出现了一个意外的小花絮。
老黄从后台拿出第一块 GPU 的时候,好像不小心在镜面面板上沾了指纹。
老黄发现后觉得可能是自己搞砸了,就很不好意思地和现场观众说对不起,表明这次产品发布可能是有史以来最差的一次。
看来就算开发布会娴熟如老黄,也会有翻车的时刻。
而如此可爱的老黄,也惹得在场观众不断发笑。
言归正传,作为旗舰级专业卡,去年推出的 RTX6000 的功能参数毫无疑问是新品中最强的。
凭借着 48GB 的显存,18176 个 CUDA 中心,568 个 Tensor 中心,142 个 RT 中心,和高达 960GB/s 的带宽,它可谓是一骑绝尘。
RTX 5000 装备了 32GB 显存,12800 个 CUDA 中心,400 个 Tensor 中心,100 个 RT 中心。
RTX 4500 装备了 24GB 显存,7680 个 CUDA 中心,240 个 Tensor 中心,60 个 RT 中心。
RTX 4000 装备了 20GB 显存,6144 个 CUDA 中心,192 个 Tensor 中心,48 个 RT 中心。
根据新发布的 3 张新的 GPU,针对企业客户,老黄还预备一套一站式解决计划——RTXWorkstation。
支撑最多 4 张 RTX 6000 GPU,能够在 15 小时内完结 8.6 亿 token 的 GPT3-40B 的微调。
还能让 Stable Diffusion XL 每分钟生成 40 张图片,比 4090 快 5 倍。
OVX 服务器:搭载 L40S,功能小胜 A100
而专为建立数据中心而规划的 NVIDIA L40S GPU,功能就愈加爆破了。
根据 Ada Lovelace 架构的 L40S,装备有 48GB 的 GDDR6 显存和 846GB/s 的带宽。
在第四代 Tensor 中心和 FP8 Transformer 引擎的加持下,能够供给超过 1.45 petaflops 的张量处理才能。
关于算力要求较高的任务,L40S 的 18,176 个 CUDA 中心能够供给近 5 倍于 A100 的单精度浮点(FP32)功能,然后加快杂乱核算和数据密集型剖析。
此外,为了支撑如实时渲染、产品规划和 3D 内容创立等专业视觉处理作业,英伟达还为 L40S 还装备了 142 个第三代 RT 中心,能够供给 212 teraflops 的光线追寻功能。
关于具有数十亿参数和多种模态的生成式 AI 作业负载,L40S 相较于老前辈 A100 可完结高达 1.2 倍的推理功能提高,以及高达 1.7 倍的训练功能提高。
在 L40S GPU 的加持下,老黄又针对数据中心市场,推出了最多可搭载 8 张 L40S 的 OVX 服务器。
关于具有 8.6 亿 token 的 GPT3-40B 模型,OVX 服务器只需 7 个小时就能完结微调。
关于 Stable Diffusion XL 模型,则可完结每分钟 80 张的图画生成。
AI Workbench:加快定制生成式 AI 使用
除了各种强壮的硬件之外,老黄还重磅发布了全新的 NVIDIA AI Workbench,来协助开发和布置生成式 AI 模型。
归纳来说,AI Workbench 为开发者供给了一个统一且易于运用的东西包,能够快速在 PC 或作业站上创立、测验和微调模型,并无缝扩展到几乎任何数据中心、公有云或 NVIDIA DGX Cloud 上。
详细而言,AI Workbench 的优势如下:
- 易于运用
AI Workbench 经过供给一个单一的渠道来办理数据、模型和核算资源,简化了开发进程,支撑跨机器和环境的协作。
– 集成 AI 开发东西和存储库
AI Workbench 与 GitHub、NVIDIA NGC、Hugging Face 等服务集成,开发者能够运用 JupyterLab 和 VS Code 等东西,并在不同渠道和基础设施上进行开发。
– 增强协作
AI Workbench 选用的是以项目为中心的架构,便于开发者进行主动化版别控制、容器办理和处理机密信息等杂乱任务,一同也能够支撑团队之间的协作。
– 拜访加快核算资源
AI Workbench 布置选用客户端 – 服务器模式。团队能够现在在本地核算资源上进行开发,然后在训练任务变得更大时切换到数据中心或云资源上。
Stable Diffusion XL 自界说图画生成
首要,翻开 AI Workbench 并克隆一个存储库。
接下来,在 Jupyter Notebook 中,从 Hugging Face 加载预训练的 Stable Diffusion XL 模型,并要求它生成一个「太空中的 Toy Jensen」。
然而,根据输出的图画能够看出,模型并不知道 Toy Jensen 是谁。
这时就能够经过 DreamBooth,并运用 8 张 Toy Jensen 的图片对模型进行微调。
最终,在用户界面上从头运转推理。
现在,知道了 Toy Jensen 是谁的模型,就能够生成切合需求的图画了。
Hugging Face 一键拜访最强算力
作为最受 AI 开发者喜爱的渠道之一,具有 200 万用户、超 25 万个模型,以及 5 万个数据集的 Hugging Face,这次也与英伟达成功达成了协作。
现在,开发者能够经过 Hugging Face 渠道直接获得英伟达 DGX Cloud AI 超算的加持,然后愈加高效地完结 AI 模型的训练和微调。
其间,每个 DGX Cloud 实例都装备有 8 个 H100 或 A100 80GB GPU,每个节点共有 640GB 显存,可满意尖端 AI 作业负载的功能要求。
此外,英伟达还将联合 Hugging Face 推出全新的「Training Cluster as a Service」服务,简化企业创立和定制生成式 AI 模型的进程。
对此,老黄激动得表明:「这次,Hugging Face 和英伟达将国际上最大的 AI 社区与全球领先的云 AI 核算渠道真实地连接在了一同。Hugging Face 的用户只需点击一下,即可拜访英伟达的最强 AI 算力。」
AI Enterprise 4.0:定制企业级生成式 AI
为了进一步加快生成式 AI 的使用,英伟达也将其企业级渠道 NVIDIAAI Enterprise 晋级到了 4.0 版别。
现在,AI Enterprise 4.0 不仅能够为企业供给生成式 AI 所需的东西,一同还供给了生产布置所需的安全性和 API 稳定性。
– NVIDIA NeMo
一个用于构建、定制和布置大言语模型的云原生框架。凭借 NeMo,英伟达 AI Enterprise 能够为创立和定制大言语模型使用供给了端到端的支撑。
– NVIDIA Triton 办理服务
协助企业进行主动化和优化生产布置,使其在 Kubernetes 中能够主动布置多个推理服务器实例,并经过模型协调完结可扩展 A 的高效运转。
– NVIDIA Base Command Manager Essentials 集群办理软件
协助企业在数据中心、多云和混合云环境中最大化 AI 服务器的功能和利用率。
除了英伟达自己,AI Enterprise 4.0 还将集成到给其他的协作伙伴,比方 Google Cloud 和 Microsoft Azure 等。
此外,MLOps 供给商,包含 Azure Machine Learning、ClearML、Domino Data Lab、Run:AI 和 Weights & Biases,也将与英伟达 AI 渠道进行无缝集成,然后简化生成式 AI 模型的开发。
Omniverse:在元宇宙中加入大言语模型
最终,是 NVIDIA Omniverse 渠道的更新。
在接入了 OpenUSD 和 AIGC 东西之后,开发者能够愈加轻松地生成模仿真实国际的 3D 场景和图形。
就像它的名字相同,Omniverse 的定位是一个调集了各种东西的 3D 图形制造协作渠道。
3D 开发者能够像文字编辑们在飞书或者钉钉中相同,在 Omniverse 上一起制造 3D 图形和场景。
并且能够将不同的 3D 制造东西制造出来的成果直接整合在 Omniverse 之内,将 3D 图形和场景的制造作业流完全打通,化繁为简。
OpenUSD
而这次更新中,接入的 OpenUSD 是什么东西?
OpenUSD(Universal Scene Description)供给了一个开源,通用的场景描述格局,使不同品牌、不同类型的 3D 规划软件能够无障碍的协作。
Omnivers 自身便是建立在 USD 体系之上的,这次 Omniverse 针对 OpenUSD 的晋级,使得 Omniverse 能为开发者,企业推出了更多的框架和资源服务。
根据 OpenUSD 这个开源的 3D 图画编辑格局,5 家公司(苹果,皮克斯,Adobe,Autodesk,英伟达)建立了 AOUSD 联盟,进一步推动了 3D 图画业界选用 OpenUSD 格局。
并且,凭借 AOUSD 联盟的建立,Omniverse 的开发者也能够方便的创立各种兼容于苹果的 ARKit 或者是 RealityKit 的素材和内容,更新后 Omniverse 也支撑 OpenXR 的标准,使得 Omniverse 能够支撑 HTC VIVE,Magic Leap,Vajio 等 VR 头显设备。
API,ChatUSD 和其他更新
此外,英伟达还发布了新的 Omniverse Cloud API,让开发者能够愈加无缝地布置 OpenUSD 管线和使用程序。
而最引人瞩目的,便是支撑根据大言语模型的 ChatUSD 的支撑。
根据大言语模型技能的 ChatUSD 能像 Github Copilot 相同,在 Omniverse 渠道中答复开发者的相关问题,或者主动生成 Python-USD 的代码,让开发人员效率暴增。
总而言之,英伟达再次用暴力的产品,令人惊叹的技能,高瞻远瞩的洞见,让全国际再次看到,它未来将如何引领国际 AI 和图形核算的新浪潮。
在老黄的经典名言「the more you buy,the more you save!」中,老黄缓缓走下舞台,却把现场气氛推向了最高潮。
参考资料:
www.nvidia.cn/events/sigg…