//再不认真就输了!
//致力于发现AIGC动态与教程。

谷歌刚刚推出了 ScreenAI,一种专门用于理解 UI 和信息图表的视觉语言模型

应用布局注释器、图标分类器、图像字幕模型和 OCR 引擎为每个 UI 元素提供详细注释。这对人机交互影响巨大。可能将永远改变用户体验的未来。

官方介绍:https://heehel.com/google-screenai

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

ScreenAI 是由 Google AI 开发的视觉语言模型 (VLM),可以理解用户界面 (UI) 和信息图表。它非常强大——能够执行图形问答、元素注释、摘要、导航和特定于 UI 的 QA 等任务。

屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。

为此,谷歌引入了“ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI 通过 pix2struct 的灵活修补策略改进了 PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLMs) 提供了屏幕描述,使它们能够自动大规模生成问答 (QA)、UI 导航和摘要训练数据集。仅使用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC 和 MoTIF)上实现最先进的结果,并且与类似大小的模型相比,在 Chart QA、DocVQA 和 InfographicVQA 上实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力的 Screen Annotation,以及用于更全面评估其 QA 能力的 ScreenQA Short 和 Complex ScreenQA。

工作原理:就像一个超级强大的 UI 解释器

ScreenAI 使用两个阶段:

  • 预训练:应用自监督学习自动生成数据标签
  • 微调:使用人工评分者手动标记的数据

以下是它的一些特点:

1. 问答

该模型回答有关屏幕截图内容的问题。

2. 屏幕导航

该模型将自然语言话语转换为屏幕上的可执行动作。

例如,“单击搜索按钮。”

3. 屏幕总结

该模型用一两句话总结了屏幕内容。

目前还是一个研究项目,没有投入使用,但请继续关注!谷歌正在做一些革命性的事情

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《谷歌刚刚推出了 ScreenAI,一种专门用于理解 UI 和信息图表的视觉语言模型》
文章链接:https://heehel.com/aigc/google-screenai.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册