11分钟内训练一遍GPT-3,8秒训完BERT。
这便是英伟达给AI圈的一点“小小震撼”。
在最新MLPerf训练基准测验中,英伟达H100集群,横扫八项测验,全部创下新纪录,并且在大言语模型使命中表现尤为杰出!
在大言语模型使命中,H100集群的加快功能迫临线性添加。
即跟着集群处理器数量添加,加快作用也几乎同比添加。
这意味着在集群内GPU之间的通讯效率十分高。
除此之外,H100还完结了引荐算法、CV、医学图像辨认以及语音辨认等使命,是唯一一个参加8项测验的集群。
而在算力便是生产力的年代下,这波成果意味着什么,懂得都懂。
据悉,本次测验体系由英伟达和Inflection AI联合开发,在云厂商CoreWeave上保管。
单节点功能添加明显
这次MLPerf Training v3.0中添加了两项新使命:
- 大言语模型(基于GPT-3)
- 引荐算法
这意味着测验使命包括了更大的数据集和更先进的模型。
如上改写各项记载的,是由3584块H100组成的超大集群。
它的具体成果如下:
这是本轮测验中,英伟达拿出的最大集群。
实际上他们还提交了一个包括768块H100的集群进行测验,并分别在云上和本地布置。
成果显现二者功能几乎完全相同。
更进一步还论证了跟着集群中显卡数量的添加,其功能提高可以接近线性添加。
(NVIDIA Pre-Eos为本地布置,NVIDIA+CoreWeave为云上布置)
除此之外,这轮测验中英伟达还改写了单节点加快记载。
和6个月前MLPef Training v2.1的数据比较,单个DGX H100体系(8块H100组成)在各项使命中平均提速17%。
和A100 Tensor Core GPU比较,最高能提速3.1倍(BERT使命)。
这些加快作用的完成,主要得益于两个方面。
一方面是H100本身就满足强悍。
H100基于最新Hopper架构,选用台积电4nm工艺,集成800亿个晶体管,较A100添加了260亿个。
内核数量达到前所未有的16896个,是A100的2.5倍。
因为面向AI核算,H100中专门搭载了Transformer Engine,让大模型训练速度可直接6。
另一方面则是依赖集群内的加快网络。
这里运用的是英伟达Quantum-2 InfiniBand网络,是该网络架构的第七代。
官网介绍,加快网络能够供给软件定义网络、网络内核算、功能隔离、优胜加快引擎、RDMA和最快达400Gb/s的安全加快。
据悉,共有90个体系参加最新一轮测验,其间82个运用了英伟达的GPU,英特尔方面有7个体系参加。
英特尔的加快体系运用了64-96 Intel Xeon Platinum 8380处理器和256-389 Intel Habana Gaudi2加快器。
其高配体系完结LLM的训练时间为311分钟。
基于这次报告的测验成果,有分析师表明他感受到的最大震撼不是H100本身的功能,而是在云上训练AI完成的卓越作用。
那么这次和英伟达协作的云厂商CoreWeave是谁?联合开发体系Inflection AI又来者何人?
核算集群还会进一步扩大
首先来看CoreWeave。
它成立于2017年,是一家大型云厂商,声称供给业内最快、最灵敏的大规模GPU核算资源,供给渲染、机器学习等云上计划,速度比大型公共云快35倍,成本低80%。
而这家云厂商很受科技巨子青睐,英伟达在此之前没少cue过它。
5月,CoreWeave拿下2亿美元融资,主要来自对冲基金Magnetar Capital,B轮总融资额达到4.21亿美元。
6月,有消息称微软与CoreWeave签署AI算力协议,用于核算基础设施,未来数年内的投资金额或许数十亿美元。
英伟达也向CoreWeave投资了1亿美元,4月时它的估值为20亿美元。
另一家AI初创公司Inflection AI由DeepMind开创成员穆斯塔法苏莱曼(Mustafa Suleyman)等人创立。
这家公司成立于22年3月,已拿下2.25亿美元融资,估值超12亿美元。
公司已经开发出了一个大言语模型Pi,正是在H100集群上训练出来的。
据了解,Pi的定位是帮助人类更好和核算机交互,它能经过聊天内容来逐步了解用户,然后供给更加个性化的回答,类似于个人智能管家的感觉。
Inflection AI的最新Blog里表明,基于现在的协作,他们计划在未来几个月内进一步扩大底层核算基础设施的规模。
参阅链接:
[1]blogs.nvidia.com/blog/2023/0…
[2]developer.nvidia.com/blog/breaki…
[3]www.forbes.com/sites/steve…
—完—