应用布局注释器、图标分类器、图像字幕模型和 OCR 引擎为每个 UI 元素提供详细注释。这对人机交互影响巨大。可能将永远改变用户体验的未来。
官方介绍:https://heehel.com/google-screenai
AIGC专区:
https://heehel.com/category/aigc
更多消息:
https://heehel.com/category/ai-news
ScreenAI 是由 Google AI 开发的视觉语言模型 (VLM),可以理解用户界面 (UI) 和信息图表。它非常强大——能够执行图形问答、元素注释、摘要、导航和特定于 UI 的 QA 等任务。
屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。
为此,谷歌引入了“ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI 通过 pix2struct 的灵活修补策略改进了 PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLMs) 提供了屏幕描述,使它们能够自动大规模生成问答 (QA)、UI 导航和摘要训练数据集。仅使用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC 和 MoTIF)上实现最先进的结果,并且与类似大小的模型相比,在 Chart QA、DocVQA 和 InfographicVQA 上实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力的 Screen Annotation,以及用于更全面评估其 QA 能力的 ScreenQA Short 和 Complex ScreenQA。
工作原理:就像一个超级强大的 UI 解释器
ScreenAI 使用两个阶段:
- 预训练:应用自监督学习自动生成数据标签
- 微调:使用人工评分者手动标记的数据
以下是它的一些特点:
1. 问答
该模型回答有关屏幕截图内容的问题。
2. 屏幕导航
该模型将自然语言话语转换为屏幕上的可执行动作。
例如,“单击搜索按钮。”
3. 屏幕总结
该模型用一两句话总结了屏幕内容。
目前还是一个研究项目,没有投入使用,但请继续关注!谷歌正在做一些革命性的事情