1. PyTorch 创始人:Transformer 的盛行可能是一把双刃剑

要说 Transformer 有多厉害,比如 OpenAI 重磅推出的 GPT-3,便是根据 Transformer 完结的。至于传播速度方面,短短 5 年,Transformer 便在 TensorFlow 、PyTorch 等干流深度学习结构支撑的 AI 程序中占有一席之地。

不过与高调宣扬 Transformer 的学者不同,这次 PyTorch 创始人、Meta 出色工程师 Soumith Chintala 却唱起了反调,并正告说,Transformer 如此盛行,可能是一把双刃剑。

链接:
mp.weixin.qq.com/s/ZgdP3HFM4…

2. MAIProf:Meta 出产 PyTorch 模型的功用调试东西

PyTorch 在出产环境中的功用调优越来越重要。一个功用强大的功用调试东西是这个进程的关键。通过一个关于出产模型的事例研究,PyTorch 证明 MAIProf 是一个用于辨认优化时机的强大 AI 功用调试基础架构。

在 Meta,从功用调试新手到专家的 100 多名工程师运用 MAIProf 来辨认更多类型的瓶颈。其间包含缓慢的数据加载、分布式练习问题(例如负载不平衡和过度通讯)。MAIPprof 涵盖了包含引荐、视觉和自然语言处理等主要类别模型。总之,它现在是出产 PyTorch 作业负载时调试功用的不可或缺的东西。

链接:
pytorch.org/blog/perfor…

3. 精度、耗时、显存耗费、网络结构…一行代码深度解析练习功用方针

正所谓“工欲善其事,必先利其器”, 一个能实时监控模型练习方针、硬件功用耗费状况、可视化网络结构和每层网络参数变化的东西可大幅缩减模型开发时刻,推进人工智能技术快速运用落地。

飞桨可视化剖析东西 VisualDL 以丰厚的图表及清晰的可视化解析功用帮助开发者直观地了解深度学习模型练习进程中的各项信息。

链接:
mp.weixin.qq.com/s/Vi6erY48x…

4. 视频教程|OneFlow 源码解析(2):OneFlow 的 4 种履行形式

OneFlow 的履行形式有 2 个维度,其一可从核算图履行方式划分,可分为静态图形式、动态图形式;其二可从张量类型划分,即单机单卡的 local tensor 形式,以及分布式练习下的 global tensor 形式。这两个维度能够组合得到 4 种履行实际状况。OneFlow 提供给用户的接口又是尽量统一的。

本视频将介绍 OneFlow 怎么在运行时判别应该运用哪种形式。怎么做到用户尽可能易用、无感于多种形式的不同,一起又能尽量发挥每种形式的特色。

链接:
www.bilibili.com/video/BV17P…

5. SIMT、SIMD 和 DSA(2)

SIMD 和 DSA 以及 SIMT 这些词虽然常常放到一起说,但三者的指代比较紊乱,很容易发生文字游戏。有时指的是指令、有时候指的是体系结构、有时候又是指编程模型。一起在每个层面的 scope 也不是很清晰,于是就有了必定偷换概念的空间。SIMT 通常指代一种编程模型,而 SIMD 通常指代的指令,DSA 在某些场合指代指令,某些场合又指代架构。

链接:
zhuanlan.zhihu.com/p/564623647

6. CuAssembler 开源 | 根究 NVIDIA GPU 极限功用的利器

CuAssembler 是个 CUDA SASS 汇编器,主要是把 nvdisasm 生成的反汇编输出汇编成可加载履行的 cubin 文件,完结对终究汇编机器码的肯定操控,弥补当时 NV 没有官方汇编器支撑的缺乏。

链接:
mp.weixin.qq.com/s/ousE3sYtD…

7. 用于大规模深度引荐模型的专用 GPU 推理参数服务器

在大规模引荐系统中,Embedding 通常在数据中心耗费很多内存进行存储。并且整个模型运算进程中,有很多时刻花费在参数服务器上搜索对应 Embedding 向量,这个步骤增加了整体 latency,拖慢了下游的核算。

根据在实在数据会集调查到的方法,本文提出 Embedding 的 Key 往往具有很强局部性,并且遵从幂律分布。根据上述调查作者提出了 HugeCTR 分层参数服务器,他们将热数据保存在 GPU 显存中,而其他部分则有参数服务器进行补充,其保存了完好的 Embedding 副本。

链接:
zhuanlan.zhihu.com/p/568639935

8. CUDA 编程入门极简教程

2006 年,NVIDIA 公司发布了 CUDA,CUDA 是建立在 NVIDIA 的 CPUs 上的一个通用并行核算渠道和编程模型,根据 CUDA 编程能够使用 GPUs 的并行核算引擎来愈加高效地处理比较复杂的核算难题。近年来,GPU 最成功的一个运用便是深度学习范畴,根据 GPU 的并行核算已经成为练习深度学习模型的标配。

链接:
zhuanlan.zhihu.com/p/34587739

9. Jeff Dean:机器学习在硬件规划中的潜力

为什么芯片规划需求很长时刻?能不能加速芯片规划周期?能否在几天或几周之内完结芯片的规划?这是一个十分有野心的方针。

Google 在这个范畴已率先出发。Google AI 负责人 Jeff Dean 共享了《机器学习在硬件规划中的潜力》,他介绍了神经网络发展的黄金十年,机器学习怎么影响核算机硬件规划以及怎么通过机器学习处理硬件规划中的难题,并展望了硬件规划的发展方向。

链接:
mp.weixin.qq.com/s/_JmINzust…

10. AI 加速器与机器学习算法:协同规划与进化

关注 AI 和半导体行业的朋友近来可能听说过“机器学习(ML)专用处理器”(即 AI 加速器)。最常见的 AI 加速器莫过于 NVIDIA GPU,此外还有 Intel 的 Habana Gaudi 处理器、Graphcore 的 Bow IPU、Google 的 TPU、AWS 的 Trainium 和 Inferentia 芯片等。

为什么如今有这么多 AI 加速器可供选择?它们和 CPU 有什么不同?算法怎么改动才能适应这些硬件?硬件又该怎么发展才能支撑最新的算法?本文将一一解答。

链接:
mp.weixin.qq.com/s/8ObtUlKqf…

11. 免费用 Stable Diffusion“脑补”国际名画画框外国际

Stable Diffusion Infinity,是大火的 AI 绘图新星 Stable Diffusion 的一项子功用。只需求一两句话提示,Stable Diffusion 就能够画出你想要的东西,并且和已有部分联接自然,没什么违和感。

链接:
mp.weixin.qq.com/s/rX5I6iJFg…

12. 逆向工程:揭示 Google Colab 未公开的隐秘

关于负责在 Jupyter Notebook 编程的数据科学家来说,Colab 早已成为了默许的运行环境。然而,将 Colab 的算力运用到除 Jupter Notebooks 以外的其他运用,则是一件极端困难的事。

出于这个原因,作者将探求 Google Colab 的内部结构,并尝试略微改动 Colab 的内置规矩。需求提早声明的是,作者仅仅想探求 Colab,不会对 Colab 本身或者它的用户造成任何影响。

链接:
mp.weixin.qq.com/s/OQOQ4Z0DV…

欢迎下载体会 OneFlow v0.8.0 最新版别:
github.com/Oneflow-Inc…