谷歌刚刚推出了 ScreenAI，一种专门用于理解 UI 和信息图表的视觉语言模型-喜好儿网

应用布局注释器、图标分类器、图像字幕模型和 OCR 引擎为每个 UI 元素提供详细注释。这对人机交互影响巨大。可能将永远改变用户体验的未来。

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

ScreenAI 是由 Google AI 开发的视觉语言模型 (VLM)，可以理解用户界面 (UI) 和信息图表。它非常强大——能够执行图形问答、元素注释、摘要、导航和特定于 UI 的 QA 等任务。

屏幕用户界面 (UI) 和信息图表（例如图表、图表和表格）在人类交流和人机交互中发挥着重要作用，因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言（例如图标和布局），这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而，由于其复杂性和不同的呈现格式，信息图表和 UI 提出了独特的建模挑战。

为此，谷歌引入了“ScreenAI：用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI 通过 pix2struct 的灵活修补策略改进了 PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI，其中包括一项新颖的屏幕注释任务，该任务要求模型识别屏幕上的 UI 元素信息（即类型、位置和描述）。这些文本注释为大型语言模型 (LLMs) 提供了屏幕描述，使它们能够自动大规模生成问答 (QA)、UI 导航和摘要训练数据集。仅使用 5B 参数，ScreenAI 就可以在基于 UI 和信息图表的任务（WebSRC 和 MoTIF）上实现最先进的结果，并且与类似大小的模型相比，在 Chart QA、DocVQA 和 InfographicVQA 上实现一流的性能。我们还发布了三个新数据集：用于评估模型布局理解能力的 Screen Annotation，以及用于更全面评估其 QA 能力的 ScreenQA Short 和 Complex ScreenQA。

工作原理：就像一个超级强大的 UI 解释器

ScreenAI 使用两个阶段：

预训练：应用自监督学习自动生成数据标签
微调：使用人工评分者手动标记的数据

以下是它的一些特点：

1. 问答

该模型回答有关屏幕截图内容的问题。

2. 屏幕导航

该模型将自然语言话语转换为屏幕上的可执行动作。

例如，“单击搜索按钮。”

3. 屏幕总结

该模型用一两句话总结了屏幕内容。

目前还是一个研究项目，没有投入使用，但请继续关注！谷歌正在做一些革命性的事情

谷歌刚刚推出了 ScreenAI，一种专门用于理解 UI 和信息图表的视觉语言模型

相关推荐

评论抢沙发

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册