Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

HeeHel喜好儿官方小编

Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

Groma，一种多模态大语言模型（MLLM），具有扎实的细粒度视觉感知能力。除了整体图像理解之外，Groma 还擅长区域级任务，例如区域字幕和视觉基础。

项目页面：https://groma-mllm.github.io/

AIGC专区：
https://heehel.com/category/aigc

更多消息：
https://heehel.com/category/ai-news

此类功能建立在本地化视觉标记化机制的基础上，其中图像输入被分解为感兴趣的区域，然后编码为区域标记。通过将区域标记集成到用户指令和模型响应中，研究人员无缝地使 Groma 能够理解用户指定的区域输入并将其文本输出转化为图像。

此外，为了增强 Groma 的接地聊天能力，研究人员利用强大的 GPT-4V 和视觉提示技术，策划了一个视觉接地的指令数据集。与依赖语言模型或外部模块进行本地化的 MLLM 相比，Groma 在标准引用和接地基准测试中始终表现出优越的性能，凸显了将本地化嵌入到图像标记化中的优势。

Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

文章目录

Referring Expression Comprehension：引用表达理解——

Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

Region Description：地区描述——

Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

Referential Dialogue：参考对话——

Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

Grounded Chat：划区对话——

Groma格罗马：用于奠定多模态大型语言模型的本地化视觉标记化

Groma 图像理解图像生成文字多模态大型语言模型本地化格罗马视觉标记化

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

TOP1

Ai人工智能实时绘画LCM涂鸦绘图 comfyui 工作流整合包+fal.AI/Krita/IlumineAI三大平替工具
23年11月25日
TOP2

【码农-派哥】AI重新洗牌室内设计行业，Midjourney会给室内设计师带来什么？
2月29日
TOP3

全网最全AI视频--runway ai保姆级教程第17节：图生图功能快速上手教程【Ai-Cat-Draemon】
10月1日
AI提示词（第82辑）复古8位像素艺术游戏风格插画图像提示词
5月17日
Runway学院：官方入门新手小白初学者Runway Gen-3 Alpha教程视频
7月3日
【刘悦的技术博客】开源数字人整合包AniPortrait,对标阿里EMO,修复更新
4月2日
【PAPAYA电脑教室】史上最强的漫画助手来了！使用 Midjourney 建立角色 + 分镜设计同场加映 Pica Labs AI 动画！
23年12月6日
【阿汤AI搞事儿】中国水墨画风格与动画结合的AI国风动画《我是瓦猫》｜关于勇气和使命
5月29日
【刘悦的技术博客】免费声音克隆工具Bert-vits2-Extra中文特化版本整合包,40秒素材复刻巫师3叶奈法(免费整合包加模型)
3月8日
AI版的“抖快”app，非常适合年轻宝宝发朋友圈的新颖应用Tonic
23年12月20日
我用AI拍了“新《绿皮书》”，主角请到了AI林肯和AI马丁路德金【闪闪的AI频道】
7月27日
#喜好儿网-非常主观作品选集#2024年-5月3周-AIGC视频生成，不完全不排名但靠谱的官方评选第2期
5月20日

❯

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页
联系客服
公众号

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部