SnapKV:大型语言模型LLM 在生成之前就知道您在寻找什么

大型语言模型(LLMs)在处理广泛的上下文方面取得了显着的进步,键值(KV)缓存在提高其性能方面发挥着至关重要的作用。然而,随着输入长度的增加,KV 缓存的增长对内存和时间效率提出了挑战。

为了解决这个问题,本文引入了 SnapKV,这是一种创新且无需微调的方法,可以有效地最小化 KV 缓存大小,同时仍然在实际应用程序中提供可比的性能。我们发现模型中的每个注意力头在生成过程中始终关注特定的即时注意力特征。

文章介绍:https://huggingface.co/papers/2404.14469

AIGC专区:
https://heehel.com/category/aigc

更多消息:
https://heehel.com/category/ai-news

SnapKV:大型语言模型LLM 在生成之前就知道您在寻找什么

同时,这种稳健的模式可以从位于提示末尾的“观察”窗口获得。利用这一见解,SnapKV 通过为每个注意力头选择聚集的重要 KV 位置来自动压缩 KV 缓存。我们的方法显着减少了处理长输入序列时不断增长的计算开销和内存占用。

SnapKV:大型语言模型LLM 在生成之前就知道您在寻找什么

具体来说,在处理 16K 令牌的输入时,与基线相比,SnapKV 实现了一致的解码速度,生成速度提高了 3.6 倍,内存效率提高了 8.2 倍。同时,它在 16 个长序列数据集上保持了与基线模型相当的性能。此外,SnapKV 可以使用 HuggingFace 实现在单个 A100-80GB GPU 上处理多达 380K 上下文令牌,只需进行微小的更改,在大海捞针测试中仅表现出可以忽略不计的准确性下降。进一步的综合研究表明 SnapKV 具有实际应用的潜力。

SnapKV:大型语言模型LLM 在生成之前就知道您在寻找什么

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索