//再不认真就输了!
//致力于发现AIGC动态与教程。

SEED-Bench-2-Plus:通过富含文本的视觉理解对多模态大型语言模型进行基准测试

理解富含文本的视觉内容对于多模态大语言模型(MLLM)的实际应用至关重要,因为丰富文本的场景在现实世界中无处不在,其特点是图像中嵌入了大量文本。

最近,具有令人印象深刻的多功能性的 MLLM 的出现提高了我们对 MLLM 的期望标准。然而,他们在文本丰富的场景中的熟练程度尚未得到全面、客观的评估,因为当前的 MLLM 基准主要侧重于评估一般视觉理解能力。在这项工作中,我们引入了 SEED-Bench-2-Plus,这是一个专门为评估 MLLM 的丰富文本视觉理解能力而设计的基准。

我们的基准测试包括 2.3K 个带有精确人工注释的多项选择题,涵盖三大类:图表、地图和网络,每一类都涵盖了现实世界中各种文本丰富的场景。这些类别由于其固有的复杂性和多样性,有效地模拟了现实世界中文本丰富的环境。我们进一步对 34 个著名的 MLLM(包括 GPT-4V、Gemini-Pro-Vision 和 Claude-3-Opus)进行了全面评估,并强调了 MLLM 目前在文本丰富的视觉理解方面的局限性。我们希望我们的工作能够成为现有 MLLM 基准的有价值的补充,提供富有洞察力的观察结果并启发在 MLLM 的文本丰富的视觉理解领域进行进一步的研究。

数据集和评估代码:https://github.com/AILab-CVC/SEED-Bench

AIGC专区:
https://heehel.com/category/aigc

一、简介

近年来,通过利用大语言模型(LLMs)的强大通用性,多语言模型模态大语言模型 (MLLM)展示了非凡的能力理解多模态数据,旨在通过多模态感知和推理来模仿人类的理解。为了实现 MLLM 在现实世界中的实际应用,一个重大挑战在于理解富含文本的视觉数据,这些数据普遍存在于各种上下文中,图像与文本交织在一起。 MLLM能够综合深入理解文本丰富的场景应该能够解释文本,理解视觉内容,并辨别文本和视觉上下文之间的相互作用。

图2

随着越来越强大和通用的 MLLM 的出现,例如 GPT-4V、Gemini-Pro-Vision [42] 和 Claude-3-Opus,很自然地提出了一个问题:这些模型在文本丰富的场景?尽管最近的基准是专门为评估MLLM而设计的,但它们的主要重点是一般视觉理解(例如,不同领域的图像),在对文本中的MLLM进行全面、客观的评估方面存在显着差距- 丰富的上下文。

在这项工作中,我们引入了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLM 在理解丰富文本视觉数据方面的性能的综合基准,涵盖了现实世界中各种丰富文本的场景。特别是,我们精心制作了 2.3K 道多项选择题,涵盖图表、地图和图表三大类,如图 2 所示。大类进一步分为 63 个具体类型,如图 1 所示,以捕获更精细的视图丰富文本的视觉理解所带来的挑战。我们基准测试中的每个问题都由人工注释者回答,确保了真实答案的准确性和可靠性。

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《SEED-Bench-2-Plus:通过富含文本的视觉理解对多模态大型语言模型进行基准测试》
文章链接:https://heehel.com/aigc/seed-bench-2-plus.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册