Video-MME：视频分析领域首个多模态LLMs综合评估基准，全面评估多模态大型语言模型

+AI动态 AI+文本/音频生成 AIGC
6月3日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

论文介绍了一个名为Video-MME的新基准测试，它是首个全面评估多模态大型语言模型（MLLMs）在视频分析领域性能的测试。这项工作由多个机构的研究人员合作完成，包括中国科学技术大学、厦门大学、香港大学、北京大学、香港中文大学和华东师范大学的研究人员。

AIGC专区：
https://heehel.com/category/aigc

工具箱：
https://heehel.com/ai-tools#ai-3d

在寻求通用人工智能的过程中，多模态大型语言模型（MLLM）已成为最近进展的焦点，但它们在处理顺序视觉数据方面的潜力仍未得到充分开发。我们推出 Video-MME，这是视频分析中 MLLM 的首个全谱、多模态评估基准。它旨在全面评估 MLLM 处理视频数据的能力，涵盖广泛的视觉领域、持续时间和数据模式。 Video-MME 包含 900 个视频，总时长 256 小时，以及 2,700 个人工注释的问答对。我们的工作通过四个关键特征与现有基准区分开来：

视频类型多样化，涵盖知识、影视、体育竞赛、生活记录、多语言6大视觉领域，30个子领域，保证广泛的场景普适性；
时间维度的时长，包括短视频（<2分钟）、中视频（4分钟~15分钟）和长视频（30分钟~60分钟），时长从11秒到1小时不等，具有强大的语境动态；
数据模式的广度，集成除视频帧之外的多模式输入，包括字幕和音频，以评估 MLLM 的全面能力；
注释的质量。所有数据都是由人类新收集和注释的，而不是来自任何现有的视频数据集，确保了多样性和质量。

背景和动机：
在追求人工通用智能（AGI）的过程中，多模态大型语言模型（MLLMs）因其在多模态数据集上的卓越感知和认知能力而成为研究的焦点。然而，目前的MLLMs主要集中在静态图像理解上，对处理序列视觉数据（如视频）的潜力尚未充分探索。因此，创建一个全面、高质量的评估基准来测试这些模型在视频理解上的表现变得尤为重要。

Video-MME的特点：

Video-MME基准测试具有以下四个关键特点：
视频类型的多样性：涵盖6个主要视觉领域和30个子领域，确保广泛的应用场景普适性。
时间维度的持续性：包括短、中、长三种视频时长，从11秒到1小时不等，以评估模型在不同时间上下文中的鲁棒性。
数据模态的广度：除了视频帧之外，还整合了字幕和音频等多模态输入，以展现MLLMs的全面能力。
注释的质量：通过专家注释者进行严格的手动标注，以促进精确可靠的模型评估。

Video-MME：视频分析领域首个多模态LLMs综合评估基准，全面评估多模态大型语言模型

数据集构建：
研究人员手动选择了900个视频，并反复观看所有视频内容进行注释，产生了2700对问答对。这些视频覆盖了知识、影视、体育、艺术表演、生活记录和多语言等多个领域。

评估结果：
使用Video-MME，研究人员广泛评估了各种最新的MLLMs，包括GPT-4系列、Gemin 1.5 Pro，以及开源图像模型如InternVL-Chat-V1.5和视频模型如LLaVANeXT-Video。实验结果显示，Gemin 1.5 Pro是表现最佳的商业模型，平均准确率达到75.7%，显著优于开源模型，后者的平均准确率为52.5%。

进一步分析：
研究人员还发现，字幕和音频信息可以显著增强视频理解能力。此外，随着视频时长的增加，所有模型的MLLM性能都有所下降。这些发现强调了处理更长序列和多模态数据的进一步改进的必要性，为未来的MLLM开发指明了方向。

讨论和未来方向：
文章讨论了提高MLLMs处理视频内容能力的有希望的途径，包括开发更好的架构来处理长上下文输入，以及构建专注于复杂时间推理场景的训练数据。

结论：
Video-MME作为首个为视频任务设计的全面多模态基准测试，整合了多样化的视频类型、变化的时间持续时间和多种数据模态，并配有高质量的专家标记的问答对。这项基准测试的评估结果凸显了商业模型与开源模型之间的显著性能差异，并强调了随着视频时长增加，性能普遍下降的问题，指出了处理更长时间多模态数据的进一步改进的必要性。