【AI论文与新生技术】VoCo-LLaMA:利用大型语言模型实现视觉压缩

视觉语言模型(VLM)在各种多模态任务中取得了显着的成功,但它们经常受到有限的上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉标记数量来缓解这个问题。以前的方法使用外部模块压缩视觉令牌并强制 LLMs 理解压缩的令牌,从而导致视觉信息丢失。

【AI论文与新生技术】VoCo-LLaMA:利用大型语言模型实现视觉压缩

然而,视觉标记的LLMs理解范式在压缩学习过程中并未得到充分利用。我们提出了 VoCo-LLaMA,这是第一种使用 LLMs 压缩视觉令牌的方法。通过在视觉指令调整阶段引入视觉压缩令牌并利用注意力蒸馏,我们的方法将 LLMs 如何理解视觉令牌提炼到 VoCo 令牌的处理中。 VoCo-LLaMA 有助于有效的视觉压缩并提高推理阶段的计算效率。

具体来说,我们的方法以 576 倍的压缩比实现了最小的性能损失,从而使 FLOP 减少了 94.8%,推理时间加快了 69.6%。此外,通过使用视频帧的时间序列压缩令牌序列进行持续训练,VoCo-LLaMA 展示了理解时间相关性的能力,在流行的视频问答基准上优于以前的方法。我们的方法提供了一种有前途的方法来释放 VLM 上下文窗口的全部潜力,从而实现更具可扩展性的多模式应用程序。

项目链接:https://yxxxb.github.io/VoCo-LLaMA-page/

论文链接:https://huggingface.co/papers/2406.12275

AIGC专区:
https://heehel.com/category/aigc

【AI论文与新生技术】VoCo-LLaMA:利用大型语言模型实现视觉压缩

想象一下,你有一台超级聪明的电脑,它能够看图说话,就像人们看到一张照片后能描述它一样。但问题是,如果照片非常非常清晰,电脑就需要处理很多很多的信息,这会让它变得很慢,甚至可能因为信息太多而处理不过来。

为了解决这个问题,研究人员发明了一种新的工具,叫做VoCo-LLaMA。这个工具可以让电脑学习如何只关注照片中最重要的部分,把不重要的细节忽略掉,就像是把一张照片压缩成一个小图标,但仍然能够认出照片里是什么。

喜好儿了解到,VoCo-LLaMA通过一种特别的方法,让电脑在看图的时候,能够自动找出并记住最关键的视觉信息,然后把这些信息压缩成很少的几个点。这样,即使照片再清晰,电脑也能快速地处理和理解它。

研究人员做了很多测试,发现这个工具不仅让电脑处理图片的速度变快了很多,而且在描述图片的时候也做得非常好,甚至在理解一系列图片(比如视频)时,它也能明白图片之间的联系。

【AI论文与新生技术】VoCo-LLaMA:利用大型语言模型实现视觉压缩

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索