1 月 22 日,零一万物 Yi 系列模型宗族迎来新成员:Yi Vision Language(Yi-VL)多模态言语大模型正式面向全球开源。据悉,Yi-VL 模型根据 Yi 言语模型开发,包括 Yi-VL-34B 和 Yi-VL-6B 两个版本。
Yi-VL 模型开源地址:
凭仗卓越的图文了解和对话生成才能,Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上取得了抢先成果,展示了在杂乱跨学科任务上的强壮实力。
MMMU(全名 Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态了解和推理)数据集包括了 11500 个来自六大中心学科(艺术与规划、商业、科学、健康与医学、人文与社会科学以及技能与工程)的问题,触及高度异构图画类型和交错文本图画信息,对模型的高档知觉和推理才能提出了极高要求。在该测验集上,Yi-VL-34B 以 41.6% 的准确率体现逾越了一系列多模态大模型,仅次于 GPT-4V(55.7%),展示出强壮的跨学科常识了解和使用才能。
在针对中文场景打造的 CMMMU 数据集上,Yi-VL 模型展示了「更懂中国人」的独特优势。CMMMU 包括了约 12000 道源自大学考试、测验和教科书的中文多模态问题。其间,GPT-4V 在该测验集上的准确率为 43.7%, Yi-VL-34B 以 36.5% 的准确率紧随其后,在现有的开源多模态模型中处于抢先方位。
那么,Yi-VL 模型在图文对话等多元场景中的体现怎么?
咱们先看两个示例:
可以看到,根据 Yi 言语模型的强壮文本了解才能,只需对图片进行对齐,就可以得到不错的多模态视觉言语模型 —— 这也是 Yi-VL 模型的中心亮点之一。
Yi-VL 模型架构规划和练习方法流程一览。
在架构规划上,Yi-VL 模型根据开源 LLaVA 架构,包括三个首要模块:
-
Vision Transformer(简称 ViT)用于图画编码,使用开源的 OpenClip ViT-H/14 模型初始化可练习参数,通过学习从大规模「图画 – 文本」对中提取特征,使模型具备处理和了解图画的才能。
-
Projection 模块为模型带来了图画特征与文本特征空间对齐的才能。该模块由一个包括层归一化(layer normalizations)的多层感知机(Multilayer Perceptron,简称 MLP)构成。这一规划使得模型可以更有效地交融和处理视觉和文本信息,进步了多模态了解和生成的准确度。
-
Yi-34B-Chat 和 Yi-6B-Chat 大规模言语模型的引入为 Yi-VL 提供了强壮的言语了解和生成才能。该部分模型借助先进的自然言语处理技能,能够协助 Yi-VL 深化了解杂乱的言语结构,并生成连贯、相关的文本输出。
在练习方法上,Yi-VL 模型的练习过程分为三个精心规划的阶段,旨在全面进步模型的视觉和言语处理才能。
-
第一阶段:零一万物使用 1 亿张的「图画 – 文本」配对数据集练习 ViT 和 Projection 模块。在这一阶段,图画分辨率被设定为 224×224,以增强 ViT 在特定架构中的常识获取才能,一起完成与大型言语模型的高效对齐。
-
第二阶段:零一万物将 ViT 的图画分辨率进步至 448×448,这一进步让模型愈加擅长识别杂乱的视觉细节。此阶段使用了约 2500 万「图画 – 文本」对。
-
第三阶段:零一万物开放整个模型的参数进行练习,目标是进步模型在多模态聊天互动中的体现。练习数据涵盖了多样化的数据源,共约 100 万「图画 – 文本」对,确保了数据的广泛性和平衡性。
零一万物技能团队一起也验证了可以根据 Yi 言语模型强壮的言语了解和生成才能,用其他多模态练习方法比方 BLIP、Flamingo、EVA 等快速练习出能够进行高效图画了解和流通图文对话的多模态图文模型。Yi 系列模型可以作为多模态模型的基座言语模型,给开源社区提供一个新的选项。
目前,Yi-VL 模型已在 Hugging Face、ModelScope 等平台上向大众开放,用户可通过以下链接亲自体会这款模型在图文对话等多元场景中的优异体现。欢迎探究 Yi-VL 多模态言语模型的强壮功用,体会前沿的 AI 技能成果。