Google推出用于了解用户界面和信息图的AI模型ScreenAI
Google Research最近开发了多模态AI模型ScreenAI,专注于了解信息图和用户界面。该模型根据PaLI架构,已在多个使命中达到了行业抢先水平。

ScreenAI通过分析网络爬虫生成的截图和主动与应用程序的交互学习。研讨团队采用多种现成AI模型生成组成练习数据,如使用OCR技能标示截图并通过大言语模型(LLM)结构用户或许提出的问题。经过开始练习和后续精调,这一模型具有五十亿参数,能够答复有关用户界面和信息图的问题、进行内容总结或导航操作。在WebSRC和MoTIF的基准测验中,ScreenAI刷新了功能记录,在Chart QA、DocVQA和InfographicVQA的基准测验上也超过了其他平等规划的模型。Google为了推进此类模型的研讨和评价,发布了三个新的屏幕问题答复(QA)评价数据集。Google表明:

咱们的模型尽管业界抢先,但咱们以为,在某些使命上仍需进一步研讨,以补偿与GPT-4及Gemini等大型模型的功能距离。为了激起更多的研讨活动,咱们发布了一个包括一致表明的数据集以及两个其他基准数据集,以便更全面地评价屏幕相关使命的模型功能。

ScreenAI采用了Pathways Language and Image模型(PaLI)架构,该架构交融了视觉Transformer与编解码器大言语模型(如T5)。Google团队对此根底架构进行了要害改善,考虑到用户界面和信息图一般具有多样的分辨率和纵横比,他们调整了视觉Transformer的图画分块过程,采用了来自Pix2Struct模型的分块策略,以习惯不同形状的输入图画。

在预练习数据生成过程中,团队首先建立了一个主动化的标示流程,这个系统能够识别并分类屏幕截图中的UI元素和信息图元素,如图画、图标、文本和按钮,并生成一个包括这些元素方位的_screen schema_注释。

随后,这些screen schema数据被用来生成组成练习数据。研讨团队向大言语模型供给了schema信息,并指示其这些schema代表屏幕截图,然后请求模型根据这些截图生成用户或许提问的问题。此外,研讨人员还让模型对截图进行了总结。最终,这一数据集包括了约4亿个样本。

为评价这一模型,研讨人员在多个揭露的数据集上进行了微调,以用于导航、总结和问题答复。模型的功能不仅在两个基准测验中设立了新的行业标准,在三个测验中逾越了其他最多只有5亿参数的模型,并在其他两个测验中也表现出竞赛力。

X平台上的用户对ScreenAI的表现和潜力进行了热烈讨论。有用户提出疑问,Google是否会使用这一模型优化搜索成果的排名。还有谈论指出:

竞赛日益剧烈。GPT-4 Vision已遇到Qwen-VL-Max的微弱挑战,现在Google的ScreenAI好像也要加入这场竞赛。Google的介入无疑增加了商场的等待。

尽管Google还没有揭露模型的代码或参数权重,但他们已经在GitHub上开源了他们的评价数据集ScreenQA和Screen Annotation,以供研讨社区使用。

原文链接:www.infoq.com/news/2024/0…