7 Papers & Radios | MiniGPT-4看图聊天、还能草图建网站；视频版Stable Diffusion来了-六虎

机器之心& ArXiv Weekly

参加：楚航、罗若天、梅洪源

本周论文包含慕尼黑大学、英伟达等组织的研讨者运用潜在扩散模型（latent diffusion model, LDM）完结了高分辨率的长视频组成；MiniGPT-4 发布，能看图谈天、还能草图建网站。

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models
OpenAssistant Conversations – Democratizing Large Language Model Alignment
Inpaint Anything: Segment Anything Meets Image Inpainting
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks
T2Ranking: A large-scale Chinese Benchmark for Passage Ranking
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

作者：Andreas Blattmann 、 Robin Rombach 等
论文地址：arxiv.org/pdf/2304.08…

摘要： 近来慕尼黑大学、英伟达等组织的研讨者运用潜在扩散模型（latent diffusion model, LDM）完结了高分辨率的长视频组成。

在论文中，研讨者将视频模型运用于实在国际问题并生成了高分辨率的长视频。他们重视两个相关的视频生成问题，一是高分辨率实在国际驾驶数据的视频组成，其在自动驾驶环境中作为模仿引擎具有巨大潜力；二是文本指导视频生成，用于构思内容生成。

为此，研讨者提出了视频潜在扩散模型（Video LDM），并将 LDM 扩展到了核算密集型使命 —— 高分辨率视频生成。与以往视频生成 DM 作业比较，他们仅在图画上预训练 Video LDM（或许运用可用的预训练图画 LDM），从而答应运用大规模图画数据集。

接着将时间维度引入潜在空间 DM、并在编码图画序列（即视频）上仅训练这些时间层的同时固定预训练空间层，从而将 LDM 图画生成器转换为视频生成器（下图左）。最后以相似办法微调 LDM 的解码器以完结像素空间中的时间一致性（下图右）。

7 Papers & Radios | MiniGPT-4看图聊天、还能草图建网站；视频版Stable Diffusion来了

引荐： 视频版 Stable Diffusion：英伟达做到最高 12802048、最长 4.7 秒。

论文 2：MiniGPT-4:Enhancing Vision-language Understanding with Advanced Large Language Models

作者：朱德尧、陈军、沈晓倩、李祥、Mohamed H. Elhoseiny
论文地址：minigpt-4.github.io/

摘要： 来自阿卜杜拉国王科技大学（KAUST）的团队上手开发了一个 GPT-4 的相似产品 ——MiniGPT-4。MiniGPT-4 展示了许多相似于 GPT-4 的才能，例如生成具体的图画描述并从手写草稿创立网站。此外，作者还观察到 MiniGPT-4 的其他新式才能，包含依据给定的图画创作故事和诗歌，供给处理图画中显现的问题的处理方案，依据食品照片教用户怎么烹饪等。

MiniGPT-4 运用一个投影层将一个冻结的视觉编码器和一个冻结的 LLM（Vicuna）对齐。MiniGPT-4 由一个预训练的 ViT 和 Q-Former 视觉编码器、一个单独的线性投影层和一个先进的 Vicuna 大型言语模型组成。MiniGPT-4 只需求训练线性层，用来将视觉特征与 Vicuna 对齐。

示例展示：从草图创立网站。

引荐： 3 天近一万 Star，无差体验 GPT-4 识图才能，MiniGPT-4 看图谈天、还能草图建网站。

论文 3：OpenAssistant Conversations – Democratizing Large Language Model Alignment

作者：Andreas Kpf、Yannic Kilcher 等
论文地址：drive.google.com/file/d/10iR…

摘要： 为了使大规模对齐研讨民主化，来自 LAION AI 等组织（Stable diffusion 运用的开源数据就是该组织供给的。）的研讨者收集了大量根据文本的输入和反应，创立了一个专门训练言语模型或其他 AI 运用的多样化和独特数据集 OpenAssistant Conversations。

该数据集是一个由人工生成、人工注释的助理式对话语料库，覆盖了广泛的主题和写作风格，由 161443 条音讯组成，分布在 66497 个会话树中，运用 35 种不同的言语。该语料库是全球众包作业的产物，涉及超过 13500 名志愿者。对于任何期望创立 SOTA 指令模型的开发者而言，它都是一个十分名贵的东西。而且任何人都能够免费拜访整个数据集。

此外，为了证明 OpenAssistant Conversations 数据集的有效性，该研讨还提出了一个根据谈天的帮手 OpenAssistant，其能够理解使命、与第三方系统交互、动态检索信息。能够说这是第一个在人类数据上进行训练的完全开源的大规模指令微调模型。

结果显现，OpenAssistant 的回复比 GPT-3.5-turbo (ChatGPT) 更受欢迎。

OpenAssistant Conversations 数据是运用 web-app 界面收集的，包含 5 个步骤：提示、标记提示、将回复音讯添加为提示器或帮手、标记回复以及对助理回复进行排名。

引荐： ChatGPT 全球最大开源平替。

论文 4：Inpaint Anything: Segment Anything Meets Image Inpainting

作者：Tao Yu、Runseng Feng 等
论文地址：arxiv.org/abs/2304.06…

摘要： 来自中国科学技术大学和东方理工高等研讨院的研讨团队，根据 SAM（Segment Anything Model），提出「修补全部」（Inpaint Anything，简称 IA）模型。区别于传统图画修补模型，IA 模型无需精密化操作生成掩码，支撑了一键点击标记选定对象，IA 即可完结移除全部物体（Remove Anything）、添补全部内容（Fill Anything）、替换全部场景（Replace Anything），涵盖了包含方针移除、方针填充、布景替换等在内的多种典型图画修补运用场景。

IA 具有三个主要功能：(i) 移除全部（Remove Anything）：用户只需点击一下想要移除的物体，IA 将无痕地移除该物体，完结高效「魔法消除」；(ii) 添补全部（Fill Anything）：同时，用户还能够进一步经过文本提示（Text Prompt）告知 IA 想要在物体内填充什么，IA 随即经过驱动已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion [2]）生成相应的内容填充物体，完结随心「内容创作」；(iii) 替换全部（Replace Anything）：用户也能够经过点击选择需求保留的物体对象，并用文本提示告知 IA 想要把物体的布景替换成什么，即可将物体布景替换为指定内容，完结生动「环境转换」。IA 的全体结构如下图所示：

引荐： 无需精密标记，单击物体完结物体移除、内容添补、场景替换。

论文 5：Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP

作者：Feng Liang 、 Bichen Wu 等
论文地址：arxiv.org/pdf/2210.04…

摘要： Meta、UTAustin 联合提出了新的敞开言语风格模型（open-vocabulary segmentation, OVSeg），它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看，OVSeg 能够与 Segment Anything 结合，完结细粒度的敞开言语切割。比方下图 1 中辨认花朵的品种：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

引荐： Meta/UTAustin 提出全新敞开类切割模型。

论文 6：Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

作者：Haoqi Yuan、Chi Zhang 等
论文地址：arxiv.org/abs/2303.16…

摘要： 北京大学和北京智源人工智能研讨院的团队提出了在无专家数据的情况下高效处理 Minecraft 多使命的办法 Plan4MC。作者结合强化学习和规划的办法，将处理杂乱使命分解为学习基本技术和技术规划两个部分。作者运用内在奖励的强化学习办法训练三类细粒度的基本技术。智能体运用大型言语模型构建技术联系图，经过图上的查找得到使命规划。实验部分，Plan4MC 现在能够完结 24 个杂乱多样使命，成功率比较一切的基线办法有巨大提升。

引荐： 用 ChatGPT 和强化学习玩转《我的国际》，Plan4MC 霸占 24 个杂乱使命。

论文 7：T2Ranking: A large-scale Chinese Benchmark for Passage Ranking

作者：Xiaohui Xie、Qian Dong 等
论文地址：arxiv.org/abs/2304.03…

摘要： 阶段排序是信息检索范畴中十分重要且具有挑战性的话题，受到了学术界和工业界的广泛重视。阶段排序模型的有效性能够提高查找引擎用户的满意度而且对问答系统、阅读理解等信息检索相关运用有所助益。在这一布景下，例如 MS-MARCO，DuReader_retrieval 等一些基准数据集被构建用于支撑阶段排序的相关研讨作业。但是常用的数据集大部分都重视英文场景，对于中文场景，已有的数据集在数据规模、细粒度的用户标示和假负例问题的处理上存在局限性。在这一布景下，该研讨根据实在查找日志，构建了一个全新的中文阶段排序基准数据集：T2Ranking。

T2Ranking 由超过 30 万的实在查询和 200 万的互联网阶段构成，而且包含了由专业标示人员供给的 4 级细粒度相关性标示。现在数据和一些 baseline 模型现已发布在 Github，相关研讨作业已作为 Resource 论文被 SIGIR 2023 选用。

引荐： 30 万实在查询、200 万互联网阶段，中文阶段排序基准数据集发布。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包含NLP、CV、ML范畴各10篇精选,并供给音频形式的论文摘要简介，详情如下：

10NLPPapers本周 10篇 NLP 精选论文是：

Task-oriented Document-Grounded Dialog Systems by HLTPR@RWTH for DSTC9 and DSTC10. (from Hermann Ney)
Exploring the Trade-Offs: Unified Large Language Models vs Local Fine-Tuned Models for Highly-Specific Radiology NLI Task. (from Wei Liu, Dinggang Shen)
On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training. (from Tat-Seng Chua)
Stochastic Parrots Looking for Stochastic Parrots: LLMs are Easy to Fine-Tune and Hard to Detect with other LLMs. (from Rachid Guerraoui)
Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. (from Kai-Wei Chang, Song-Chun Zhu, Jianfeng Gao)
MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised Learning. (from Meng Wang, Erik Cambria, Guoying Zhao)
GeneGPT: Teaching Large Language Models to Use NCBI Web APIs. (from Zhiyong Lu)
A Survey on Biomedical Text Summarization with Pre-trained Language Model. (from Sophia Ananiadou)
Emotion fusion for mental illness detection from social media: A survey. (from Sophia Ananiadou)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes. (from Christopher R)

10CVPapers

本周 10篇 CV 精选论文是：

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models. (from Antonio Torralba)
Align-DETR: Improving DETR with Simple IoU-aware BCE loss. (from Xiangyu Zhang)
Exploring Incompatible Knowledge Transfer in Few-shot Image Generation. (from Shuicheng Yan)
Learning Situation Hyper-Graphs for Video Question Answering. (from Mubarak Shah)
Video Generation Beyond a Single Clip. (from Ming-Hsuan Yang)
A Data-Centric Solution to NonHomogeneous Dehazing via Vision Transformer. (from Huan Liu)
Neuromorphic Optical Flow and Real-time Implementation with Event Cameras. (from Luca Benini, Davide Scaramuzza)
Language Guided Local Infiltration for Interactive Image Retrieval. (from Lei Zhang)
LipsFormer: Introducing Lipschitz Continuity to Vision Transformers. (from Lei Zhang)
UVA: Towards Unified Volumetric Avatar for View Synthesis, Pose rendering, Geometry and Texture Editing. (from Dacheng Tao)

10MLPapers

本周 10篇 ML 精选论文是：

Bridging RL Theory and Practice with the Effective Horizon. (from Stuart Russell)
Towards transparent and robust data-driven wind turbine power curve models. (from Klaus-Robert Mller)
Open-World Continual Learning: Unifying Novelty Detection and Continual Learning. (from Bing Liu)
Learning in latent spaces improves the predictive accuracy of deep neural operators. (from George Em Karniadakis)
Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One. (from Xuelong Li)
Generalization and Estimation Error Bounds for Model-based Neural Networks. (from Yonina C. Eldar)
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment. (from Tong Zhang)
Adaptive Consensus Optimization Method for GANs. (from Pawan Kumar)
Angle based dynamic learning rate for gradient descent. (from Pawan Kumar)
AGNN: Alternating Graph-Regularized Neural Networks to Alleviate Over-Smoothing. (from Wenzhong Guo)

7 Papers & Radios | MiniGPT-4看图聊天、还能草图建网站；视频版Stable Diffusion来了

相关文章

Shell之旅：解读命令行的奇妙世界

前端如何用webpack做好资源的容灾处理？

信息物理——推荐算法篇

谷歌 Gemma：一个轻量级开源模型

作者信息