【AI论文与新生技术】VoCo-LLaMA：利用大型语言模型实现视觉压缩

+AI动态 AI+图片生成 AIGC
来源：喜好儿网
6月19日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

视觉语言模型（VLM）在各种多模态任务中取得了显着的成功，但它们经常受到有限的上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉标记数量来缓解这个问题。以前的方法使用外部模块压缩视觉令牌并强制 LLMs 理解压缩的令牌，从而导致视觉信息丢失。

【AI论文与新生技术】VoCo-LLaMA：利用大型语言模型实现视觉压缩

然而，视觉标记的LLMs理解范式在压缩学习过程中并未得到充分利用。我们提出了 VoCo-LLaMA，这是第一种使用 LLMs 压缩视觉令牌的方法。通过在视觉指令调整阶段引入视觉压缩令牌并利用注意力蒸馏，我们的方法将 LLMs 如何理解视觉令牌提炼到 VoCo 令牌的处理中。 VoCo-LLaMA 有助于有效的视觉压缩并提高推理阶段的计算效率。

具体来说，我们的方法以 576 倍的压缩比实现了最小的性能损失，从而使 FLOP 减少了 94.8%，推理时间加快了 69.6%。此外，通过使用视频帧的时间序列压缩令牌序列进行持续训练，VoCo-LLaMA 展示了理解时间相关性的能力，在流行的视频问答基准上优于以前的方法。我们的方法提供了一种有前途的方法来释放 VLM 上下文窗口的全部潜力，从而实现更具可扩展性的多模式应用程序。

项目链接：https://yxxxb.github.io/VoCo-LLaMA-page/

论文链接：https://huggingface.co/papers/2406.12275

AIGC专区：
https://heehel.com/category/aigc

【AI论文与新生技术】VoCo-LLaMA：利用大型语言模型实现视觉压缩