我报名参与金石方案1期挑战——分割10万奖池，这是我的第X篇文章，点击检查活动概况

伯克利『全栈深度学习』2022最新课程；谷歌『基于Transformers的通用超参数优化』经验分享；动图编辑器；前沿论文 | ShowMeAI资讯日报

日报合辑 | 电子月刊 | 公众号下载资料 | @韩信子

工具&框架

『PyDeepFakeDet』Deepfake 换脸检测库

github.com/wangjk666/P…

PyDeepFakeDet 是由复旦大学视觉与学习试验室开发的一个集成的、可扩展的 Deepfake 检测工具。

其方针是供给最先进的 Deepfake 检测模型，以及在常用的 Deepfake 数据集上练习和评估新模型的接口。

『EasyCV』PyTorch 一站式计算机视觉工具箱

github.com/alibaba/Eas…

EasyCV 是一个包含多个范畴的根据 Pytorch 的计算机视觉工具箱，聚焦自监督学习和视觉transformer关键技能，覆盖主流的视觉建模使命例如图画分类，度量学习，方针检测，关键点检测等。

『Motionity』Web 界面的动图修改器

github.com/alyssaxuu/m…

Motionity 是一个免费和开源的网络动画修改器。它是 After Effects 和 Canva 的混合体，具有强大的功用，如关键帧、遮盖、过滤等，并集成了阅读内容的功用，轻松拖入你的视频即可处理。

『Jumanji』用 JAX 写的行业驱动的硬件加速强化学习环境

github.com/instadeepai…

instadeepai.github.io/jumanji/

Jumanji 是一套用 JAX 编写的强化学习（RL）环境，为行业驱动的研讨供给干净、硬件加速的环境。 Jumanji 的高速环境可以完成更快的迭代和更大规划的试验，同时下降复杂性。Jumanji 起源于 InstaDeep 的研讨团队。

『OCRmyPDF』为扫描 PDF 添加 OCR 功用

github.com/ocrmypdf/OC…

ocrmypdf.readthedocs.io/

PDF 是存储和交流扫描文件的最佳格局，可是难以修改。 OCRmyPDF 工具将图画处理和 OCR 文字识别功用应用于 PDF 修改，轻松地为扫描的 PDF 文件添加 OCR 文本层，使其可以被搜索或复制粘贴。

博文&共享

『Full Stack Deep Learning』伯克利全栈 深度学习(2022 免费课程)

fullstackdeeplearning.com/course/2022…

www.youtube.com/playlist?li…

FSDL是一个学习社区，将人们集合在一起，学习和共享全栈最佳实践：从问题选择、数据办理和选择 GPU 到 Web 布置、监控和再练习。这是2022年最新版『全栈深度学习课程』，内容包含：

① 深度学习技能（包含CNN, RNN, Transformers等）
② AI道德内容（介绍responsible AI/Ethics的一些研讨内容）
③ 测验跟模型解说（其中对测验部分的归纳十分体系）、AI布置和监控

课程组织如下：

第1讲：课程愿景和何时运用 ML
第2讲：开发基础设施和工具
第3讲：毛病扫除和测验
第4讲：数据办理
第5讲：数据办理
第6讲：继续学习

试验组织如下：

试验1-3：CNN、Transformers、PyTorch Lightning
试验4：试验办理
试验5：毛病扫除和测验
试验6：数据注释
试验7：Web 布置
试验8：Web 布置

『OptFormer: Towards Universal Hyperparameter Optimization with Transformers』根据 Transformers 的通用超参数优化

ai.googleblog.com/2022/08/opt…

超参数优化对机器学习十分重要，关于机器学习模型的功能具有决定性的效果。在 Google 公司内部，Google Vizier 作为默许运用的机器学习布置进程的超参数优化平台，在过去 5 年中被调用超 1000 万次。

这篇 Google 的博客共享了 OptFormer 这一根据 Transformer 的超参数调整框架，运用灵活的、根据文本的表明，从Google Vizier 追寻到的大规划优化数据中学习。

数据&资源

『Representation Learning for Reinforcement Learning』面向强化学习的表明学习相关文献列表

github.com/fuyw/RepL4R…

『Awesome Stable-Diffusion』Stable Diffusion 模型相关资源大列表

github.com/awesome-sta…

研讨&论文

公众号后台回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.08.04 『看图说话』 Prompt Tuning for Generative Multimodal Pretrained Models

2022.09.02 『看图说话』 LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

2022.08.31 『计算机视觉』 Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces

⚡ 论文：Prompt Tuning for Generative Multimodal Pretrained Models

论文时刻：4 Aug 2022

范畴使命：Image Captioning, Visual Entailment, 看图说话

论文地址：arxiv.org/abs/2208.02…

代码完成：github.com/ofa-sys/ofa

论文作者：Hao Yang, Junyang Lin, An Yang, Peng Wang, Chang Zhou, Hongxia Yang

论文简介：Prompt tuning has become a new paradigm for model tuning and it has demonstrated success in natural language pretraining and even vision pretraining./调优prompt已成为模型调优的新范式，它已在自然语言预练习乃至视觉预练习中显示出成功。

论文摘要：调优prompt已成为模型调优的新范式，它在自然语言预练习乃至视觉预练习中都体现出了成功。在这项工作中，咱们探究了提示调谐向多模态预练习的转移，重点是生成性多模态预练习模型，而不是对比性模型。具体来说，咱们在一致的序列到序列的预练习模型上施行提示调谐，以适应了解和生成使命。试验成果表明，轻量级的提示调谐可以达到与微调适当的功能，而且超过了其他轻量级的调谐办法。此外，与微调模型比较，提示性调谐模型对对抗性进犯体现出更好的鲁棒性。咱们进一步发现，包含提示长度、提示深度和从头参数化在内的试验因素对模型功能有很大的影响，因而咱们从经历上对提示调谐的设置提出了主张。尽管观察到了这些优点，咱们依然发现了提示调谐的一些局限性，并相应地指出了未来研讨的方向。代码可在 github.com/OFA-Sys/OFA 获取。

⚡ 论文：LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

论文时刻：2 Sep 2022

范畴使命：Data Augmentation, Monocular Depth Estimation，数据增强

论文地址：arxiv.org/abs/2209.00…

代码完成：github.com/zhyever/lit…

论文作者：Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang

论文简介：Notably, our solution named LiteDepth ranks 2nd in the MAI&AIM2022 Monocular Depth Estimation Challenge}, with a si-RMSE of 0. 311, an RMSE of 3. 79, and the inference time is 37 $m s$ tested on the Raspberry Pi 4./值得注意的是，咱们名为LiteDepth的解决方案在MAI&AIM2022单眼深度估计挑战赛}中排名第二，在Raspberry Pi 4上测验的si-RMSE为0.311，RMSE为3.79，推理时刻为37ms。

论文摘要：单眼深度估计是计算机视觉界的一项重要使命。尽管许多成功的办法都取得了很好的效果，但它们中的大多数都是计算昂贵的，而且不适用于实时的设备推断。在本文中，咱们的方针是解决单眼深度估计的更多实际应用，其中的解决方案不只要考虑精度，还要考虑移动设备上的推理时刻。为此，咱们首先开发了一个根据端到端学习的模型，其权重巨细很小（1.4MB），推理时刻很短（在Raspberry Pi 4上为27FPS）。然后，咱们提出了一个简略而有效的数据扩充战略，称为R2 crop，以进步模型的功能。此外，咱们观察到，只用一个单一丢失项练习的简略轻量级模型将遭受功能瓶颈。为了缓解这个问题，咱们采用了多个丢失项来在练习阶段供给满足的约束。此外，经过一个简略的动态再加权战略，咱们可以防止耗时的丢失项的超参数选择。最后，咱们采用了结构感知的蒸馏法来进一步进步模型的功能。值得注意的是，咱们名为LiteDepth的解决方案在MAI&AIM2022单眼深度估计挑战赛}中排名第二，si-RMSE为0.311，RMSE为3.79，在Raspberry Pi 4上测验的推理时刻为37ms。值得注意的是，咱们供给了该挑战的最快解决方案。代码和模型将在 github.com/zhyever/Lit… 上发布。

⚡ 论文：Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces

论文时刻：31 Aug 2022

范畴使命：计算机视觉

论文地址：arxiv.org/abs/2208.14…

代码完成：github.com/zyhbili/Dua…

论文作者：YiHao Zhi, Shenhan Qian, Xinhao Yan, Shenghua Gao

论文简介：Previous methods alleviate the inconsistency of lighting by learning a per-frame embedding, but this operation does not generalize to unseen poses./曾经的办法经过学习每一帧的嵌入来缓解照明的不一致性，但这种操作并不能推行到未见过的姿态。

论文摘要：在一个典型的空间中对人体进行建模是捕捉和动画的一种常见做法。但当涉及到神经辐射场（NeRF）时，在典范空间中学习静态的NeRF是不行的，因为即便场景照明是恒定的，当人移动时，身体的照明也会发生变化。曾经的办法经过学习每一帧的嵌入来缓解光照的不一致性，但这种操作并不能推行到未见过的姿态。鉴于照明条件在国际空间中是静态的，而人体在典型空间中是一致的，咱们提出了一个双空间的NeRF，用两个MLPs在两个独立的空间中模仿场景照明和人体。为了衔接这两个空间，曾经的办法大多依靠线性混合蒙皮（LBS）算法。但是，动态神经场的LBS的混合权重是难以解决的，因而通常用另一个MLP来回忆，这对新的姿态没有通用性。尽管可以借用参数化网格的混合权重，如SMPL，但插值操作会引入更多的伪影。在本文中，咱们主张运用巴里中心映射，它可以直接泛化到未见过的姿态，而且令人惊讶地取得了比运用神经混合权重的LBS更好的成果。在Human3.6M和ZJU-MoCap数据集上的定量和定性成果表明了咱们办法的有效性。

咱们是 ShowMeAI，致力于传播AI优质内容，共享行业解决方案，用常识加速每一次技能成长！

◉ 点击 日报合辑，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。

◉ 点击 电子月刊，快速阅读月度合辑。

伯克利『全栈深度学习』2022最新课程；谷歌『基于Transformers的通用超参数优化』经验分享；动图编辑器；前沿论文 | ShowMeAI资讯日报

工具&框架

『PyDeepFakeDet』Deepfake 换脸检测库

『EasyCV』PyTorch 一站式计算机视觉工具箱

『Motionity』Web 界面的动图修改器

『Jumanji』用 JAX 写的行业驱动的硬件加速强化学习环境

『OCRmyPDF』为扫描 PDF 添加 OCR 功用

博文&共享

『Full Stack Deep Learning』伯克利全栈深度学习(2022 免费课程)

『OptFormer: Towards Universal Hyperparameter Optimization with Transformers』根据 Transformers 的通用超参数优化

数据&资源

『Representation Learning for Reinforcement Learning』面向强化学习的表明学习相关文献列表

『Awesome Stable-Diffusion』Stable Diffusion 模型相关资源大列表

研讨&论文

⚡ 论文：Prompt Tuning for Generative Multimodal Pretrained Models

⚡ 论文：LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices

⚡ 论文：Dual-Space NeRF: Learning Animatable Avatars and Scene Lighting in Separate Spaces

相关文章

Linux ALSA驱动之二：声卡的创建流程

新东方咋了？！

配置式表单渲染器的实现

Compose自定义View——宇智波斑写轮眼

作者信息