InternVL系列：通过开源套件缩小与商业多式联运模型的差距——GPT-4V的开创性开源替代方案

+AI动态 AIGC 网站公告
5月3日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

InternVL 1.5，这是一种开源多模态大语言模型 (MLLM)，旨在弥合开源模型和专有商业模型在多模态理解方面的能力差距。

我们介绍三个简单的改进：

（1）强视觉编码器：我们为大规模视觉基础模型——InternViT-6B探索了一种持续学习策略，增强了其视觉理解能力，并使其可以在不同的环境中迁移和重用。 b1001></b1001>。

（2）动态高分辨率：根据输入图像的长宽比和分辨率，将图像划分为1到40个448×448像素的图块，最高支持4K分辨率输入。

（3）高质量的双语数据集：我们精心收集了高质量的双语数据集，涵盖常见场景、文档图像，并用英文和中文问答对对其进行注释，显着提高了 OCR 和中文相关任务的性能。

我们通过一系列基准测试和比较研究来评估 InternVL 1.5。与开源和专有模型相比，InternVL 1.5 显示出具有竞争力的性能，在 18 个基准测试中的 8 个中取得了最先进的结果。

论文介绍：https://huggingface.co/papers/2404.16821

项目代码：https://github.com/OpenGVLab/InternVL

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

我们研究了动态分辨率在需要高分辨率的各种多模式基准任务中的有效性。具体来说，与 OCR 相关的任务（例如 DocVQA、InfoVQA、TextVQA 和 OCRBench）受益于分辨率的提高。然而，AI2D、MMMU、MMBench 和 HallusionBench 等任务在更高分辨率下表现出轻微下降。总体而言，InternVL 1.5 对动态分辨率表现出很强的鲁棒性。它可以根据每项任务的具体要求调整分辨率，确保在高分辨率有利的情况下实现最佳性能，在不利于高分辨率的情况下节省资源。

在前面的部分中，我们通过各种基准评估了我们的模型并观察了其强大的性能。在本节中，我们在不同场景中对我们的模型与 GPT-4V进行定性比较，包括一般 QA、OCR 相关 QA、科学理解、中国传统文化、对象定位和多图像对话。我们的目标是展示我们的模型在实际应用中的实用性和多功能性，从实际用户体验的角度提供见解。一般质量检查。为了比较 InternVL 1.5 和 GPT-4V 的一般功能，我们首先进行了一项实验，涉及一个简单的用户查询和需要一般知识的图像。如图7左侧所示，InternVL 1.5和GPT-4V都准确地响应了查询，展示他们对一般主题的熟练程度。

InternVL系列：通过开源套件缩小与商业多式联运模型的差距——GPT-4V的开创性开源替代方案

如图7右侧所示，GPT-4V可能会因为涉及个人隐私而过度拒绝回答一些问题。OCR 相关的 QA。我们进行了一项评估，将 InternVL 1.5 模型与 GPT-4V 的 OCR 功能进行比较。图8左侧，第一个提示旨在衡量模型理解中文场景的能力。在这种情况下，GPT-4V 无法提取图像中的所有有用信息。在图 8 的右侧，GPT-4V 和我们的模型在图表理解上都具有良好的性能。

科学理解。评估模型在科学理解推理任务中的能力对于推进计算智能至关重要，特别是在需要领域内知识和逻辑推理的情况下。在我们的研究中，我们通过管理复杂的多学科问题来比较 InternVL 1.5 模型与 GPT-4V 的性能，这些问题旨在评估其推理的准确性。在图9中，对于第一个问题，两个模型都准确回答并从空气动力学角度进行了分析。对于第二个问题，我们的模型精确分析了图像中描绘的元素并提供了正确的响应，而 GPT-4V 则推测了氨基酸转运的趋势。这些结果表明我们的方法和 GPT-4V 在科学理解和推理方面表现出相当的能力。

InternVL系列：通过开源套件缩小与商业多式联运模型的差距——GPT-4V的开创性开源替代方案