Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

Groma,一种多模态大语言模型(MLLM),具有扎实的细粒度视觉感知能力。除了整体图像理解之外,Groma 还擅长区域级任务,例如区域字幕和视觉基础。

项目页面:https://groma-mllm.github.io/

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

此类功能建立在本地化视觉标记化机制的基础上,其中图像输入被分解为感兴趣的区域,然后编码为区域标记。通过将区域标记集成到用户指令和模型响应中,研究人员无缝地使 Groma 能够理解用户指定的区域输入并将其文本输出转化为图像。

此外,为了增强 Groma 的接地聊天能力,研究人员利用强大的 GPT-4V 和视觉提示技术,策划了一个视觉接地的指令数据集。与依赖语言模型或外部模块进行本地化的 MLLM 相比,Groma 在标准引用和接地基准测试中始终表现出优越的性能,凸显了将本地化嵌入到图像标记化中的优势。

Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

Referring Expression Comprehension:引用表达理解——

Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

Region Description地区描述——

Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

Referential Dialogue:参考对话——

Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

Grounded Chat:划区对话——

Groma格罗马:用于奠定多模态大型语言模型的本地化视觉标记化

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索