Groma,一种多模态大语言模型(MLLM),具有扎实的细粒度视觉感知能力。除了整体图像理解之外,Groma 还擅长区域级任务,例如区域字幕和视觉基础。
项目页面:https://groma-mllm.github.io/
AIGC专区:
https://heehel.com/category/aigc
更多消息:
https://heehel.com/category/ai-news
此类功能建立在本地化视觉标记化机制的基础上,其中图像输入被分解为感兴趣的区域,然后编码为区域标记。通过将区域标记集成到用户指令和模型响应中,研究人员无缝地使 Groma 能够理解用户指定的区域输入并将其文本输出转化为图像。
此外,为了增强 Groma 的接地聊天能力,研究人员利用强大的 GPT-4V 和视觉提示技术,策划了一个视觉接地的指令数据集。与依赖语言模型或外部模块进行本地化的 MLLM 相比,Groma 在标准引用和接地基准测试中始终表现出优越的性能,凸显了将本地化嵌入到图像标记化中的优势。