Molmo：一系列开放的、最先进的多模式人工智能模型

HeeHel喜好儿官方小编

Molmo是由一系列开放的、最先进的多模式人工智能模型组成的新系列，旨在推动人工智能技术的发展并缩小开放系统与专有系统之间的差距。这些模型不仅在学术基准测试中表现优异，还在人类评估中展现了强大的实力，其性能甚至超过了一些规模大十倍的模型。

Molmo的核心优势在于其创新的数据收集和处理方式。与依赖网络来源的数十亿图像-文本对的多模态模型不同，Molmo专注于数据质量而非数量。它通过使用少于100万个图像-文本对训练强大的模型，这些数据对是从基于语音描述的人类注释者那里收集的，从而避免了现有多模态模型常见的噪声问题。

Molmo系列模型的成功，很大程度上归功于PixMo——其训练数据。PixMo包含两大类数据：用于多模式预训练的密集字幕数据，以及用于实现广泛用户交互的监督微调数据。这些数据支持广泛的功能，包括回答问题、文档阅读和指向等行为。

为了收集高质量的数据，Molmo团队采用了一种创新的数据收集方法：要求注释者用语音描述图像，而不是编写描述。这种方法能够在短时间内获得更详细的描述，同时避免了使用现有VLM合成数据的问题。Molmo总共收集了712k图像的详细音频描述，这些描述涵盖了50个高级主题。

Molmo的微调数据混合物包括标准学术数据集和几个新收集的数据集，这些数据集支持在用户聊天中回答有关图像的一般问题、改进OCR以阅读文档和图表等任务，并允许模型指向图像中的一个或多个视觉元素。这种指向功能为Molmo带来了新的和改进的功能，提供了基于图像像素的自然解释。

Molmo系列模型在开放权重和数据模型类别中的表现优于其他模型，并且与GPT-4o、Claude 3.5和Gemini 1.5等专有系统相比也毫不逊色。Molmo承诺将发布所有模型权重、字幕和微调数据以及源代码，从今天开始，可选择模型权重、推理代码和公共演示。

{{userData.name}}已认证