SEED-Bench-2-Plus：通过富含文本的视觉理解对多模态大型语言模型进行基准测试-喜好儿网

理解富含文本的视觉内容对于多模态大语言模型（MLLM）的实际应用至关重要，因为丰富文本的场景在现实世界中无处不在，其特点是图像中嵌入了大量文本。

最近，具有令人印象深刻的多功能性的 MLLM 的出现提高了我们对 MLLM 的期望标准。然而，他们在文本丰富的场景中的熟练程度尚未得到全面、客观的评估，因为当前的 MLLM 基准主要侧重于评估一般视觉理解能力。在这项工作中，我们引入了 SEED-Bench-2-Plus，这是一个专门为评估 MLLM 的丰富文本视觉理解能力而设计的基准。

我们的基准测试包括 2.3K 个带有精确人工注释的多项选择题，涵盖三大类：图表、地图和网络，每一类都涵盖了现实世界中各种文本丰富的场景。这些类别由于其固有的复杂性和多样性，有效地模拟了现实世界中文本丰富的环境。我们进一步对 34 个著名的 MLLM（包括 GPT-4V、Gemini-Pro-Vision 和 Claude-3-Opus）进行了全面评估，并强调了 MLLM 目前在文本丰富的视觉理解方面的局限性。我们希望我们的工作能够成为现有 MLLM 基准的有价值的补充，提供富有洞察力的观察结果并启发在 MLLM 的文本丰富的视觉理解领域进行进一步的研究。

数据集和评估代码：https://github.com/AILab-CVC/SEED-Bench

AIGC专区：
https://heehel.com/category/aigc

一、简介

近年来，通过利用大语言模型（LLMs）的强大通用性，多语言模型模态大语言模型 (MLLM)展示了非凡的能力理解多模态数据，旨在通过多模态感知和推理来模仿人类的理解。为了实现 MLLM 在现实世界中的实际应用，一个重大挑战在于理解富含文本的视觉数据，这些数据普遍存在于各种上下文中，图像与文本交织在一起。 MLLM能够综合深入理解文本丰富的场景应该能够解释文本，理解视觉内容，并辨别文本和视觉上下文之间的相互作用。

图2

随着越来越强大和通用的 MLLM 的出现，例如 GPT-4V、Gemini-Pro-Vision [42] 和 Claude-3-Opus，很自然地提出了一个问题：这些模型在文本丰富的场景？尽管最近的基准是专门为评估MLLM而设计的，但它们的主要重点是一般视觉理解（例如，不同领域的图像），在对文本中的MLLM进行全面、客观的评估方面存在显着差距- 丰富的上下文。

在这项工作中，我们引入了 SEED-Bench-2-Plus，这是一个专门设计用于评估 MLLM 在理解丰富文本视觉数据方面的性能的综合基准，涵盖了现实世界中各种丰富文本的场景。特别是，我们精心制作了 2.3K 道多项选择题，涵盖图表、地图和图表三大类，如图 2 所示。大类进一步分为 63 个具体类型，如图 1 所示，以捕获更精细的视图丰富文本的视觉理解所带来的挑战。我们基准测试中的每个问题都由人工注释者回答，确保了真实答案的准确性和可靠性。

SEED-Bench-2-Plus：通过富含文本的视觉理解对多模态大型语言模型进行基准测试

相关推荐

【央视网】绝了！AI视角下的神州大地每一帧都是屏保

热门专题

快讯

热门文章

喜好儿——再不认真就输了！

致力于发现ai人工智能应用的新世界，长期更新目前热门AI教程与动态！期待在这个工业变革时代中，希望你我都能发出一点光。

切换注册登录

切换登录注册