-
【AI论文与新生技术】VoCo-LLaMA:利用大型语言模型实现视觉压缩
视觉语言模型(VLM)在各种多模态任务中取得了显着的成功,但它们经常受到有限的上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉标记数量来缓解这个问题。以前的方法使用外部模块压缩视觉令牌并强制 LLMs 理解压缩的令牌,从而导致视觉信息丢失。 然而,视觉标记的LLMs理解范式在压缩学习过程中并未得到充分利用。我们提出了 VoCo-LLaMA,这是第一种使用 LLMs…- 1.2k
- 0
❯
今日签到
有新私信
私信列表
搜索
客服
扫码打开当前页
联系客服
公众号
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!