【AI论文与新生技术】Samba:用于高效无限上下文语言建模的简单混合状态空间模型

对具有无限上下文长度的序列进行有效建模一直是一个长期存在的问题。过去的工作要么面临二次计算复杂性,要​​么长度泛化的外推能力有限。

在这项工作中,我们提出了 Samba,这是一种简单的混合架构,它逐层将 Mamba(一种选择性状态空间模型 (SSM))与滑动窗口注意 (SWA) 相结合。 Samba 有选择地将给定序列压缩为循环隐藏状态,同时仍然保持通过注意力机制精确回忆记忆的能力。我们使用 3.2T 训练令牌将 Samba 参数扩展至 3.8B,并表明 Samba 在各种基准测试中显着优于基于纯注意力或 SSM 的最先进模型。

当在 4K 长度序列上进行训练时,Samba 可以有效地外推到 256K 上下文长度,并具有完美的记忆召回能力,并显示出高达 1M 上下文长度的改进标记预测。作为一个线性时间序列模型,Samba 在处理 128K 长度的用户提示时,与具有分组查询注意力的 Transformer 相比,吞吐量提高了 3.73 倍,在生成无限流的 64K 令牌时,速度提高了 3.64 倍。

【AI论文与新生技术】Samba:用于高效无限上下文语言建模的简单混合状态空间模型

论文链接:https://huggingface.co/papers/2406.07522

项目链接:https://github.com/microsoft/Samba

AIGC专区:
https://heehel.com/category/aigc

想象一下,如果你想让电脑读一本非常厚的书,并且能够记住书中的所有内容,以便在之后回答问题,这通常是非常困难的,因为书的内容太多了。

然而,SAMBA通过一种特别的方法,让电脑能够更有效地处理和记忆大量的语言信息。它结合了两种不同的技术:一种是帮助电脑捕捉信息中的时间顺序(就像我们读故事时发生的先后顺序),另一种是帮助电脑在需要时能够快速找到并回忆起特定的信息。

SAMBA的特别之处在于,即使它学习的是较短的内容,它也能够处理和记住长得多的文本。这就像是训练一个记忆力非常好的人,即使只给他们看一小段时间的书,他们也能够记住整本书的内容。

喜好儿认为这项技术对于开发能够处理大量信息、提供帮助的智能助手非常有用,比如智能搜索引擎、聊天机器人或者教育软件。简而言之,SAMBA让电脑在处理语言时变得更加聪明和高效。

【AI论文与新生技术】Samba:用于高效无限上下文语言建模的简单混合状态空间模型

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索